<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

  </head>

  <body>

    <div class="moz-cite-prefix">Pouzil jsem qpdf na rozbaleni streamu a

      know-how ziskane lety zirani do cizich formatu ;)<br>

      PDF je slozity jako krava, uz na urovni formatu (Specifikace ma

      756 stran v pdf)<br>

    </div>

    <div class="moz-cite-prefix"><br>

      Jinak tam nejsou 'vnorene objekty'. Je to uplne normalni stranka,

      s uplne normalnim streamem s obsahem. Jen proste ten stream

      obsahuje jen operatory pro carovou grafiku, zadne operatory pro

      znaky/fonty/obrazky. Funkce extract_text, kterou pouzivate, ta

      prochazi stream a snazi se nejak vyrenderovat ten text. Neni to

      'konverze formatu'. Je to 'zkousim simulovat tisk a sebrat

      vysledny text'.<br>

    </div>

    <div class="moz-cite-prefix"><br>

      J.<br>

      <br>

    </div>

    <div class="moz-cite-prefix">On 08.12.2023 18:22, Pavel Hudeček

      wrote:<br>

    </div>

    <blockquote type="cite"

      cite="mid:eeb30682-dd10-4880-955d-32c68e50b5ee@seznam.cz">

      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

      Díky,<br>

      Že autorem je skladník, to jsem taky našel:-)<br>

      Zkusím zjistit, zda ta knihovna má něco na práci s vnořenými

      objekty.<br>

      Uvedené informace jste jen vykoukal txt editorem, nebo je na to

      nějaký nástroj?<br>

      <br>

      PH<br>

      <br>

      <div class="moz-cite-prefix">Dne 08.12.2023 v 16:16 Jindroush

        napsal(a):<br>

      </div>

      <blockquote type="cite"

        cite="mid:e5cb1ba0-c3ba-dd13-52ca-5664020a5659@seznam.cz">

        <meta http-equiv="Content-Type" content="text/html;

          charset=UTF-8">

        <div class="moz-cite-prefix">Je to 'normalni' pdf, problem je v

          tom, ze pdf je 'normalni' tiskovy format, proto ruzne prevody

          funguji obtizne, nebo vubec.</div>

        <div class="moz-cite-prefix">Jsou to instrukce, jak vyrenderovat

          stranku.</div>

        <div class="moz-cite-prefix">Toto pdf</div>

        <div class="moz-cite-prefix">a) obsahuje 1 stranu</div>

        <div class="moz-cite-prefix">b) vyprodukovano panem Paleckem

          tiskem z Wordu</div>

        <div class="moz-cite-prefix">c) tato jedna stranka (objekt 4 0

          R) se odkazuje na zakompresovany obsah v objektu 5 0 R</div>

        <div class="moz-cite-prefix">d) objekt 5 0 R ma 160kb a je

          tvoren pouze grafickymi operatory, tj. vysledny obrazek se

          'kresli', neni vlozen jako pdf apod. Je to 7159 radek ~

          priblizne stejne operatoru.<br>

        </div>

        <div class="moz-cite-prefix"><br>

          Coz je z hlediska zvetsovatelnosti apod idealni. Naprosto

          netusim, zda se daji pomoci hente one pdf pythonovske knihovny

          takoveto obrazky renderovat.</div>

        <div class="moz-cite-prefix">Text (tj. operatory, ktere obsahuji

          retezce pismenek) se tam nevyskytuje zadny.</div>

        <div class="moz-cite-prefix"><br>

        </div>

        <div class="moz-cite-prefix">J.</div>

        <div class="moz-cite-prefix"><br>

        </div>

        <div class="moz-cite-prefix">On 08.12.2023 15:57, Pavel Hudeček

          wrote:<br>

        </div>

        <blockquote type="cite"

          cite="mid:7a081029-14e9-43a9-8dcb-e65a1fe3ecfa@seznam.cz">

          <meta http-equiv="content-type" content="text/html;

            charset=UTF-8">

          Donrý den všem,<br>

          mějme py skript:<br>

          <br>

          <b><font face="monospace">import PyPDF2<br>

              <br>

              with open("W0140.pdf", 'rb') as pdf_file:<br>

                  reader = PyPDF2.PdfReader(pdf_file)<br>

                  pagesCnt = len(reader.pages)<br>

                  print("pagesCnt", pagesCnt)<br>

                  text = ""<br>

              <br>

                  for stranka in reader.pages:<br>

                      imgCnt = len(stranka.images)<br>

                      text += ">" + stranka.extract_text() + "<"<br>

                      text += "\nimgCnt: " + str(imgCnt) +

              "\n---------\n"<br>

              <br>

              print(text)</font><br>

          </b><br>

          Když se pustí na nějaké normální pdf, vyleze seznam stránek s

          textama a počtama obrázků. No a pak je tu tohle (příloha),

          který nějak záhadně vyrobil náš skladník... Je v něm vidět

          wafer, ale python zahlásí žádnej text a 0 obrázků.<br>

          <br>

          Poznámka: Ten skladník vzal PDF, který takto normálně jde

          zpracovat a nějak z něj vykopíroval jednu stránku, čímž

          vzniklo předmětné pdf. Takže problém je vyřešen tím, že jsem

          mu napsal ať tento krok vynechá:-)<br>

          Ale mě by stejně zajímalo, co to jako vyrobil a jak to

          případně číst. Protože samozřejmě když taková možnost

          existuje, tak nám takový protokol může poslat i nějaký

          dodavatel čipů.<br>

          <br>

          Nějaké nápady, jak na takové PDF?<br>

        </blockquote>

      </blockquote>

      <br>

      <fieldset class="moz-mime-attachment-header"></fieldset>

      <pre class="moz-quote-pre" wrap="">_______________________________________________

HW-list mailing list  -  sponsored by <a class="moz-txt-link-abbreviated" href="http://www.HW.cz">www.HW.cz</a>

<a class="moz-txt-link-abbreviated" href="mailto:Hw-list@list.hw.cz">Hw-list@list.hw.cz</a>

<a class="moz-txt-link-freetext" href="http://list.hw.cz/mailman/listinfo/hw-list">http://list.hw.cz/mailman/listinfo/hw-list</a>

</pre>

    </blockquote>

    <p><br>

    </p>

    <pre class="moz-signature" cols="72">-- 

Jindroush <a class="moz-txt-link-rfc2396E" href="mailto:jindroush@seznam.cz"><jindroush@seznam.cz></a></pre>

  </body>

</html>