Re: Divné PDF vs Python
Pavel Hudeček
edizon na seznam.cz
Pátek Prosinec 8 18:22:51 CET 2023
Díky,
Že autorem je skladník, to jsem taky našel:-)
Zkusím zjistit, zda ta knihovna má něco na práci s vnořenými objekty.
Uvedené informace jste jen vykoukal txt editorem, nebo je na to nějaký
nástroj?
PH
Dne 08.12.2023 v 16:16 Jindroush napsal(a):
> Je to 'normalni' pdf, problem je v tom, ze pdf je 'normalni' tiskovy
> format, proto ruzne prevody funguji obtizne, nebo vubec.
> Jsou to instrukce, jak vyrenderovat stranku.
> Toto pdf
> a) obsahuje 1 stranu
> b) vyprodukovano panem Paleckem tiskem z Wordu
> c) tato jedna stranka (objekt 4 0 R) se odkazuje na zakompresovany
> obsah v objektu 5 0 R
> d) objekt 5 0 R ma 160kb a je tvoren pouze grafickymi operatory, tj.
> vysledny obrazek se 'kresli', neni vlozen jako pdf apod. Je to 7159
> radek ~ priblizne stejne operatoru.
>
> Coz je z hlediska zvetsovatelnosti apod idealni. Naprosto netusim, zda
> se daji pomoci hente one pdf pythonovske knihovny takoveto obrazky
> renderovat.
> Text (tj. operatory, ktere obsahuji retezce pismenek) se tam
> nevyskytuje zadny.
>
> J.
>
> On 08.12.2023 15:57, Pavel Hudeček wrote:
>> Donrý den všem,
>> mějme py skript:
>>
>> *import PyPDF2
>>
>> with open("W0140.pdf", 'rb') as pdf_file:
>> reader = PyPDF2.PdfReader(pdf_file)
>> pagesCnt = len(reader.pages)
>> print("pagesCnt", pagesCnt)
>> text = ""
>>
>> for stranka in reader.pages:
>> imgCnt = len(stranka.images)
>> text += ">" + stranka.extract_text() + "<"
>> text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"
>>
>> print(text)
>> *
>> Když se pustí na nějaké normální pdf, vyleze seznam stránek s textama
>> a počtama obrázků. No a pak je tu tohle (příloha), který nějak
>> záhadně vyrobil náš skladník... Je v něm vidět wafer, ale python
>> zahlásí žádnej text a 0 obrázků.
>>
>> Poznámka: Ten skladník vzal PDF, který takto normálně jde zpracovat a
>> nějak z něj vykopíroval jednu stránku, čímž vzniklo předmětné pdf.
>> Takže problém je vyřešen tím, že jsem mu napsal ať tento krok vynechá:-)
>> Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně číst.
>> Protože samozřejmě když taková možnost existuje, tak nám takový
>> protokol může poslat i nějaký dodavatel čipů.
>>
>> Nějaké nápady, jak na takové PDF?
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20231208/e9de73e3/attachment.htm>
Další informace o konferenci Hw-list