<!DOCTYPE html>
<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body>
    Díky,<br>
    Že autorem je skladník, to jsem taky našel:-)<br>
    Zkusím zjistit, zda ta knihovna má něco na práci s vnořenými
    objekty.<br>
    Uvedené informace jste jen vykoukal txt editorem, nebo je na to
    nějaký nástroj?<br>
    <br>
    PH<br>
    <br>
    <div class="moz-cite-prefix">Dne 08.12.2023 v 16:16 Jindroush
      napsal(a):<br>
    </div>
    <blockquote type="cite"
      cite="mid:e5cb1ba0-c3ba-dd13-52ca-5664020a5659@seznam.cz">
      <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
      <div class="moz-cite-prefix">Je to 'normalni' pdf, problem je v
        tom, ze pdf je 'normalni' tiskovy format, proto ruzne prevody
        funguji obtizne, nebo vubec.</div>
      <div class="moz-cite-prefix">Jsou to instrukce, jak vyrenderovat
        stranku.</div>
      <div class="moz-cite-prefix">Toto pdf</div>
      <div class="moz-cite-prefix">a) obsahuje 1 stranu</div>
      <div class="moz-cite-prefix">b) vyprodukovano panem Paleckem
        tiskem z Wordu</div>
      <div class="moz-cite-prefix">c) tato jedna stranka (objekt 4 0 R)
        se odkazuje na zakompresovany obsah v objektu 5 0 R</div>
      <div class="moz-cite-prefix">d) objekt 5 0 R ma 160kb a je tvoren
        pouze grafickymi operatory, tj. vysledny obrazek se 'kresli',
        neni vlozen jako pdf apod. Je to 7159 radek ~ priblizne stejne
        operatoru.<br>
      </div>
      <div class="moz-cite-prefix"><br>
        Coz je z hlediska zvetsovatelnosti apod idealni. Naprosto
        netusim, zda se daji pomoci hente one pdf pythonovske knihovny
        takoveto obrazky renderovat.</div>
      <div class="moz-cite-prefix">Text (tj. operatory, ktere obsahuji
        retezce pismenek) se tam nevyskytuje zadny.</div>
      <div class="moz-cite-prefix"><br>
      </div>
      <div class="moz-cite-prefix">J.</div>
      <div class="moz-cite-prefix"><br>
      </div>
      <div class="moz-cite-prefix">On 08.12.2023 15:57, Pavel Hudeček
        wrote:<br>
      </div>
      <blockquote type="cite"
        cite="mid:7a081029-14e9-43a9-8dcb-e65a1fe3ecfa@seznam.cz">
        <meta http-equiv="content-type"
          content="text/html; charset=UTF-8">
        Donrý den všem,<br>
        mějme py skript:<br>
        <br>
        <b><font face="monospace">import PyPDF2<br>
            <br>
            with open("W0140.pdf", 'rb') as pdf_file:<br>
                reader = PyPDF2.PdfReader(pdf_file)<br>
                pagesCnt = len(reader.pages)<br>
                print("pagesCnt", pagesCnt)<br>
                text = ""<br>
            <br>
                for stranka in reader.pages:<br>
                    imgCnt = len(stranka.images)<br>
                    text += ">" + stranka.extract_text() + "<"<br>
                    text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"<br>
            <br>
            print(text)</font><br>
        </b><br>
        Když se pustí na nějaké normální pdf, vyleze seznam stránek s
        textama a počtama obrázků. No a pak je tu tohle (příloha), který
        nějak záhadně vyrobil náš skladník... Je v něm vidět wafer, ale
        python zahlásí žádnej text a 0 obrázků.<br>
        <br>
        Poznámka: Ten skladník vzal PDF, který takto normálně jde
        zpracovat a nějak z něj vykopíroval jednu stránku, čímž vzniklo
        předmětné pdf. Takže problém je vyřešen tím, že jsem mu napsal
        ať tento krok vynechá:-)<br>
        Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně
        číst. Protože samozřejmě když taková možnost existuje, tak nám
        takový protokol může poslat i nějaký dodavatel čipů.<br>
        <br>
        Nějaké nápady, jak na takové PDF?<br>
      </blockquote>
    </blockquote>
  </body>
</html>