<!DOCTYPE html>
<html>
<head>
<meta http-equiv="content-type" content="text/html; charset=UTF-8">
</head>
<body>
Donrý den všem,<br>
mějme py skript:<br>
<br>
<b><font face="monospace">import PyPDF2<br>
<br>
with open("W0140.pdf", 'rb') as pdf_file:<br>
reader = PyPDF2.PdfReader(pdf_file)<br>
pagesCnt = len(reader.pages)<br>
print("pagesCnt", pagesCnt)<br>
text = ""<br>
<br>
for stranka in reader.pages:<br>
imgCnt = len(stranka.images)<br>
text += ">" + stranka.extract_text() + "<"<br>
text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"<br>
<br>
print(text)</font><br>
</b><br>
Když se pustí na nějaké normální pdf, vyleze seznam stránek s
textama a počtama obrázků. No a pak je tu tohle (příloha), který
nějak záhadně vyrobil náš skladník... Je v něm vidět wafer, ale
python zahlásí žádnej text a 0 obrázků.<br>
<br>
Poznámka: Ten skladník vzal PDF, který takto normálně jde zpracovat
a nějak z něj vykopíroval jednu stránku, čímž vzniklo předmětné pdf.
Takže problém je vyřešen tím, že jsem mu napsal ať tento krok
vynechá:-)<br>
Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně
číst. Protože samozřejmě když taková možnost existuje, tak nám
takový protokol může poslat i nějaký dodavatel čipů.<br>
<br>
Nějaké nápady, jak na takové PDF?<br>
<br>
Díky,<br>
PH<br>
</body>
</html>