Divné PDF vs Python
Pavel Hudeček
edizon na seznam.cz
Pátek Prosinec 8 15:57:34 CET 2023
Donrý den všem,
mějme py skript:
*import PyPDF2
with open("W0140.pdf", 'rb') as pdf_file:
reader = PyPDF2.PdfReader(pdf_file)
pagesCnt = len(reader.pages)
print("pagesCnt", pagesCnt)
text = ""
for stranka in reader.pages:
imgCnt = len(stranka.images)
text += ">" + stranka.extract_text() + "<"
text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"
print(text)
*
Když se pustí na nějaké normální pdf, vyleze seznam stránek s textama a
počtama obrázků. No a pak je tu tohle (příloha), který nějak záhadně
vyrobil náš skladník... Je v něm vidět wafer, ale python zahlásí žádnej
text a 0 obrázků.
Poznámka: Ten skladník vzal PDF, který takto normálně jde zpracovat a
nějak z něj vykopíroval jednu stránku, čímž vzniklo předmětné pdf. Takže
problém je vyřešen tím, že jsem mu napsal ať tento krok vynechá:-)
Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně číst.
Protože samozřejmě když taková možnost existuje, tak nám takový protokol
může poslat i nějaký dodavatel čipů.
Nějaké nápady, jak na takové PDF?
Díky,
PH
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20231208/3f74f0d1/attachment.htm>
------------- další část ---------------
A non-text attachment was scrubbed...
Name: W0140.pdf
Type: application/pdf
Size: 19456 bytes
Desc: [žádný popis není k dispozici]
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20231208/3f74f0d1/attachment.pdf>
Další informace o konferenci Hw-list