Re: Divné PDF vs Python

Pavel Hudeček edizon na seznam.cz
Pátek Prosinec 8 18:22:51 CET 2023


Díky,
Že autorem je skladník, to jsem taky našel:-)
Zkusím zjistit, zda ta knihovna má něco na práci s vnořenými objekty.
Uvedené informace jste jen vykoukal txt editorem, nebo je na to nějaký 
nástroj?

PH

Dne 08.12.2023 v 16:16 Jindroush napsal(a):
> Je to 'normalni' pdf, problem je v tom, ze pdf je 'normalni' tiskovy 
> format, proto ruzne prevody funguji obtizne, nebo vubec.
> Jsou to instrukce, jak vyrenderovat stranku.
> Toto pdf
> a) obsahuje 1 stranu
> b) vyprodukovano panem Paleckem tiskem z Wordu
> c) tato jedna stranka (objekt 4 0 R) se odkazuje na zakompresovany 
> obsah v objektu 5 0 R
> d) objekt 5 0 R ma 160kb a je tvoren pouze grafickymi operatory, tj. 
> vysledny obrazek se 'kresli', neni vlozen jako pdf apod. Je to 7159 
> radek ~ priblizne stejne operatoru.
>
> Coz je z hlediska zvetsovatelnosti apod idealni. Naprosto netusim, zda 
> se daji pomoci hente one pdf pythonovske knihovny takoveto obrazky 
> renderovat.
> Text (tj. operatory, ktere obsahuji retezce pismenek) se tam 
> nevyskytuje zadny.
>
> J.
>
> On 08.12.2023 15:57, Pavel Hudeček wrote:
>> Donrý den všem,
>> mějme py skript:
>>
>> *import PyPDF2
>>
>> with open("W0140.pdf", 'rb') as pdf_file:
>>     reader = PyPDF2.PdfReader(pdf_file)
>>     pagesCnt = len(reader.pages)
>>     print("pagesCnt", pagesCnt)
>>     text = ""
>>
>>     for stranka in reader.pages:
>>         imgCnt = len(stranka.images)
>>         text += ">" + stranka.extract_text() + "<"
>>         text += "\nimgCnt: " + str(imgCnt) + "\n---------\n"
>>
>> print(text)
>> *
>> Když se pustí na nějaké normální pdf, vyleze seznam stránek s textama 
>> a počtama obrázků. No a pak je tu tohle (příloha), který nějak 
>> záhadně vyrobil náš skladník... Je v něm vidět wafer, ale python 
>> zahlásí žádnej text a 0 obrázků.
>>
>> Poznámka: Ten skladník vzal PDF, který takto normálně jde zpracovat a 
>> nějak z něj vykopíroval jednu stránku, čímž vzniklo předmětné pdf. 
>> Takže problém je vyřešen tím, že jsem mu napsal ať tento krok vynechá:-)
>> Ale mě by stejně zajímalo, co to jako vyrobil a jak to případně číst. 
>> Protože samozřejmě když taková možnost existuje, tak nám takový 
>> protokol může poslat i nějaký dodavatel čipů.
>>
>> Nějaké nápady, jak na takové PDF?
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20231208/e9de73e3/attachment.htm>


Další informace o konferenci Hw-list