<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    <div class="moz-cite-prefix">Pouzil jsem qpdf na rozbaleni streamu a
      know-how ziskane lety zirani do cizich formatu ;)<br>
      PDF je slozity jako krava, uz na urovni formatu (Specifikace ma
      756 stran v pdf)<br>
    </div>
    <div class="moz-cite-prefix"><br>
      Jinak tam nejsou 'vnorene objekty'. Je to uplne normalni stranka,
      s uplne normalnim streamem s obsahem. Jen proste ten stream
      obsahuje jen operatory pro carovou grafiku, zadne operatory pro
      znaky/fonty/obrazky. Funkce extract_text, kterou pouzivate, ta
      prochazi stream a snazi se nejak vyrenderovat ten text. Neni to
      'konverze formatu'. Je to 'zkousim simulovat tisk a sebrat
      vysledny text'.<br>
    </div>
    <div class="moz-cite-prefix"><br>
      J.<br>
      <br>
    </div>
    <div class="moz-cite-prefix">On 08.12.2023 18:22, Pavel Hudeček
      wrote:<br>
    </div>
    <blockquote type="cite"
      cite="mid:eeb30682-dd10-4880-955d-32c68e50b5ee@seznam.cz">
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
      Díky,<br>
      Že autorem je skladník, to jsem taky našel:-)<br>
      Zkusím zjistit, zda ta knihovna má něco na práci s vnořenými
      objekty.<br>
      Uvedené informace jste jen vykoukal txt editorem, nebo je na to
      nějaký nástroj?<br>
      <br>
      PH<br>
      <br>
      <div class="moz-cite-prefix">Dne 08.12.2023 v 16:16 Jindroush
        napsal(a):<br>
      </div>
      <blockquote type="cite"
        cite="mid:e5cb1ba0-c3ba-dd13-52ca-5664020a5659@seznam.cz">
        <meta http-equiv="Content-Type" content="text/html;
          charset=UTF-8">
        <div class="moz-cite-prefix">Je to 'normalni' pdf, problem je v
          tom, ze pdf je 'normalni' tiskovy format, proto ruzne prevody
          funguji obtizne, nebo vubec.</div>
        <div class="moz-cite-prefix">Jsou to instrukce, jak vyrenderovat
          stranku.</div>
        <div class="moz-cite-prefix">Toto pdf</div>
        <div class="moz-cite-prefix">a) obsahuje 1 stranu</div>
        <div class="moz-cite-prefix">b) vyprodukovano panem Paleckem
          tiskem z Wordu</div>
        <div class="moz-cite-prefix">c) tato jedna stranka (objekt 4 0
          R) se odkazuje na zakompresovany obsah v objektu 5 0 R</div>
        <div class="moz-cite-prefix">d) objekt 5 0 R ma 160kb a je
          tvoren pouze grafickymi operatory, tj. vysledny obrazek se
          'kresli', neni vlozen jako pdf apod. Je to 7159 radek ~
          priblizne stejne operatoru.<br>
        </div>
        <div class="moz-cite-prefix"><br>
          Coz je z hlediska zvetsovatelnosti apod idealni. Naprosto
          netusim, zda se daji pomoci hente one pdf pythonovske knihovny
          takoveto obrazky renderovat.</div>
        <div class="moz-cite-prefix">Text (tj. operatory, ktere obsahuji
          retezce pismenek) se tam nevyskytuje zadny.</div>
        <div class="moz-cite-prefix"><br>
        </div>
        <div class="moz-cite-prefix">J.</div>
        <div class="moz-cite-prefix"><br>
        </div>
        <div class="moz-cite-prefix">On 08.12.2023 15:57, Pavel Hudeček
          wrote:<br>
        </div>
        <blockquote type="cite"
          cite="mid:7a081029-14e9-43a9-8dcb-e65a1fe3ecfa@seznam.cz">
          <meta http-equiv="content-type" content="text/html;
            charset=UTF-8">
          Donrý den všem,<br>
          mějme py skript:<br>
          <br>
          <b><font face="monospace">import PyPDF2<br>
              <br>
              with open("W0140.pdf", 'rb') as pdf_file:<br>
                  reader = PyPDF2.PdfReader(pdf_file)<br>
                  pagesCnt = len(reader.pages)<br>
                  print("pagesCnt", pagesCnt)<br>
                  text = ""<br>
              <br>
                  for stranka in reader.pages:<br>
                      imgCnt = len(stranka.images)<br>
                      text += ">" + stranka.extract_text() + "<"<br>
                      text += "\nimgCnt: " + str(imgCnt) +
              "\n---------\n"<br>
              <br>
              print(text)</font><br>
          </b><br>
          Když se pustí na nějaké normální pdf, vyleze seznam stránek s
          textama a počtama obrázků. No a pak je tu tohle (příloha),
          který nějak záhadně vyrobil náš skladník... Je v něm vidět
          wafer, ale python zahlásí žádnej text a 0 obrázků.<br>
          <br>
          Poznámka: Ten skladník vzal PDF, který takto normálně jde
          zpracovat a nějak z něj vykopíroval jednu stránku, čímž
          vzniklo předmětné pdf. Takže problém je vyřešen tím, že jsem
          mu napsal ať tento krok vynechá:-)<br>
          Ale mě by stejně zajímalo, co to jako vyrobil a jak to
          případně číst. Protože samozřejmě když taková možnost
          existuje, tak nám takový protokol může poslat i nějaký
          dodavatel čipů.<br>
          <br>
          Nějaké nápady, jak na takové PDF?<br>
        </blockquote>
      </blockquote>
      <br>
      <fieldset class="moz-mime-attachment-header"></fieldset>
      <pre class="moz-quote-pre" wrap="">_______________________________________________
HW-list mailing list  -  sponsored by <a class="moz-txt-link-abbreviated" href="http://www.HW.cz">www.HW.cz</a>
<a class="moz-txt-link-abbreviated" href="mailto:Hw-list@list.hw.cz">Hw-list@list.hw.cz</a>
<a class="moz-txt-link-freetext" href="http://list.hw.cz/mailman/listinfo/hw-list">http://list.hw.cz/mailman/listinfo/hw-list</a>
</pre>
    </blockquote>
    <p><br>
    </p>
    <pre class="moz-signature" cols="72">-- 
Jindroush <a class="moz-txt-link-rfc2396E" href="mailto:jindroush@seznam.cz"><jindroush@seznam.cz></a></pre>
  </body>
</html>