<!DOCTYPE html>

<html>

  <head>

    <meta http-equiv="content-type" content="text/html; charset=UTF-8">

  </head>

  <body>

    Donrý den všem,<br>

    mějme py skript:<br>

    <br>

    <b><font face="monospace">import PyPDF2<br>

        <br>

        with open("W0140.pdf", 'rb') as pdf_file:<br>

            reader = PyPDF2.PdfReader(pdf_file)<br>

            pagesCnt = len(reader.pages)<br>

            print("pagesCnt", pagesCnt)<br>

            text = ""<br>

        <br>

            for stranka in reader.pages:<br>

                imgCnt = len(stranka.images)<br>

                text += ">" + stranka.extract_text() + "<"<br>

                text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"<br>

        <br>

        print(text)</font><br>

    </b><br>

    Když se pustí na nějaké normální pdf, vyleze seznam stránek s

    textama a počtama obrázků. No a pak je tu tohle (příloha), který

    nějak záhadně vyrobil náš skladník... Je v něm vidět wafer, ale

    python zahlásí žádnej text a 0 obrázků.<br>

    <br>

    Poznámka: Ten skladník vzal PDF, který takto normálně jde zpracovat

    a nějak z něj vykopíroval jednu stránku, čímž vzniklo předmětné pdf.

    Takže problém je vyřešen tím, že jsem mu napsal ať tento krok

    vynechá:-)<br>

    Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně

    číst. Protože samozřejmě když taková možnost existuje, tak nám

    takový protokol může poslat i nějaký dodavatel čipů.<br>

    <br>

    Nějaké nápady, jak na takové PDF?<br>

    <br>

    Díky,<br>

    PH<br>

  </body>

</html>