Divné PDF vs Python

Pavel Hudeček edizon na seznam.cz
Pátek Prosinec 8 15:57:34 CET 2023


Donrý den všem,
mějme py skript:

*import PyPDF2

with open("W0140.pdf", 'rb') as pdf_file:
     reader = PyPDF2.PdfReader(pdf_file)
     pagesCnt = len(reader.pages)
     print("pagesCnt", pagesCnt)
     text = ""

     for stranka in reader.pages:
         imgCnt = len(stranka.images)
         text += ">" + stranka.extract_text() + "<"
         text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"

print(text)
*
Když se pustí na nějaké normální pdf, vyleze seznam stránek s textama a 
počtama obrázků. No a pak je tu tohle (příloha), který nějak záhadně 
vyrobil náš skladník... Je v něm vidět wafer, ale python zahlásí žádnej 
text a 0 obrázků.

Poznámka: Ten skladník vzal PDF, který takto normálně jde zpracovat a 
nějak z něj vykopíroval jednu stránku, čímž vzniklo předmětné pdf. Takže 
problém je vyřešen tím, že jsem mu napsal ať tento krok vynechá:-)
Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně číst. 
Protože samozřejmě když taková možnost existuje, tak nám takový protokol 
může poslat i nějaký dodavatel čipů.

Nějaké nápady, jak na takové PDF?

Díky,
PH
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20231208/3f74f0d1/attachment.htm>
------------- další část ---------------
A non-text attachment was scrubbed...
Name: W0140.pdf
Type: application/pdf
Size: 19456 bytes
Desc: [žádný popis není k dispozici]
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20231208/3f74f0d1/attachment.pdf>


Další informace o konferenci Hw-list