<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">

  </head>

  <body>

    <div class="moz-cite-prefix">Je to 'normalni' pdf, problem je v tom,

      ze pdf je 'normalni' tiskovy format, proto ruzne prevody funguji

      obtizne, nebo vubec.</div>

    <div class="moz-cite-prefix">Jsou to instrukce, jak vyrenderovat

      stranku.</div>

    <div class="moz-cite-prefix">Toto pdf</div>

    <div class="moz-cite-prefix">a) obsahuje 1 stranu</div>

    <div class="moz-cite-prefix">b) vyprodukovano panem Paleckem tiskem

      z Wordu</div>

    <div class="moz-cite-prefix">c) tato jedna stranka (objekt 4 0 R) se

      odkazuje na zakompresovany obsah v objektu 5 0 R</div>

    <div class="moz-cite-prefix">d) objekt 5 0 R ma 160kb a je tvoren

      pouze grafickymi operatory, tj. vysledny obrazek se 'kresli', neni

      vlozen jako pdf apod. Je to 7159 radek ~ priblizne stejne

      operatoru.<br>

    </div>

    <div class="moz-cite-prefix"><br>

      Coz je z hlediska zvetsovatelnosti apod idealni. Naprosto netusim,

      zda se daji pomoci hente one pdf pythonovske knihovny takoveto

      obrazky renderovat.</div>

    <div class="moz-cite-prefix">Text (tj. operatory, ktere obsahuji

      retezce pismenek) se tam nevyskytuje zadny.</div>

    <div class="moz-cite-prefix"><br>

    </div>

    <div class="moz-cite-prefix">J.</div>

    <div class="moz-cite-prefix"><br>

    </div>

    <div class="moz-cite-prefix">On 08.12.2023 15:57, Pavel Hudeček

      wrote:<br>

    </div>

    <blockquote type="cite"

      cite="mid:7a081029-14e9-43a9-8dcb-e65a1fe3ecfa@seznam.cz">

      <meta http-equiv="content-type" content="text/html; charset=UTF-8">

      Donrý den všem,<br>

      mějme py skript:<br>

      <br>

      <b><font face="monospace">import PyPDF2<br>

          <br>

          with open("W0140.pdf", 'rb') as pdf_file:<br>

              reader = PyPDF2.PdfReader(pdf_file)<br>

              pagesCnt = len(reader.pages)<br>

              print("pagesCnt", pagesCnt)<br>

              text = ""<br>

          <br>

              for stranka in reader.pages:<br>

                  imgCnt = len(stranka.images)<br>

                  text += ">" + stranka.extract_text() + "<"<br>

                  text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"<br>

          <br>

          print(text)</font><br>

      </b><br>

      Když se pustí na nějaké normální pdf, vyleze seznam stránek s

      textama a počtama obrázků. No a pak je tu tohle (příloha), který

      nějak záhadně vyrobil náš skladník... Je v něm vidět wafer, ale

      python zahlásí žádnej text a 0 obrázků.<br>

      <br>

      Poznámka: Ten skladník vzal PDF, který takto normálně jde

      zpracovat a nějak z něj vykopíroval jednu stránku, čímž vzniklo

      předmětné pdf. Takže problém je vyřešen tím, že jsem mu napsal ať

      tento krok vynechá:-)<br>

      Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně

      číst. Protože samozřejmě když taková možnost existuje, tak nám

      takový protokol může poslat i nějaký dodavatel čipů.<br>

      <br>

      Nějaké nápady, jak na takové PDF?<br>

      <br>

      Díky,<br>

      PH<br>

      <br>

      <fieldset class="moz-mime-attachment-header"></fieldset>

      <pre class="moz-quote-pre" wrap="">_______________________________________________

HW-list mailing list  -  sponsored by <a class="moz-txt-link-abbreviated" href="http://www.HW.cz">www.HW.cz</a>

<a class="moz-txt-link-abbreviated" href="mailto:Hw-list@list.hw.cz">Hw-list@list.hw.cz</a>

<a class="moz-txt-link-freetext" href="http://list.hw.cz/mailman/listinfo/hw-list">http://list.hw.cz/mailman/listinfo/hw-list</a>

</pre>

    </blockquote>

    <p><br>

    </p>

    <pre class="moz-signature" cols="72">-- 

Jindroush <a class="moz-txt-link-rfc2396E" href="mailto:jindroush@seznam.cz"><jindroush@seznam.cz></a></pre>

  </body>

</html>