Knihovna pro PDF (datasheety, clanky, dokumentace atd.)

Pavel Hudecek phudecek@tiscali.cz
Středa Březen 24 14:27:16 CET 2010


Vlastní řešení zrovna v případě PDF naráží na problém jeho dekódování, tzn. 
zvládnout nejprve dešifrování a pak ještě správně identifikovat kódovou 
stránku, neb nemalé procento PDF má zcela zmatené KS, takže i po dešifrování 
je to stále "roszypaný čaj". V některých případech nabývám dojmu, že se 
jedná o záměr autorů zabránit možnosti snadného vyhledávání (např. zákony 
ČR).

Jinak by v tom šlo hledat i tím windowsovým indexovadlem. Stačí povypínat 
nápovědné pejsky a další blbosti:-)

PH

From: "gatilo" <gatilo@centrum.cz>
Jasne ze existuje.
Univerzalni super vselek na vsechno, aneb SQL. Nejaky skipt v PHP,
Pythonu Jave atd. ktery bude prochazet disk a nalezena data posilat
prislusnemu SQL serveru.
Ma to takovou drobnou nevyhodu, totiz ze si to asi budete muset
napsat sam. Ovsem bonusem tohoto reseni je, ze si to muzete napsat
pro opravdu "libovolny jiny format". ;-)
Pokud ovsem patrite mezi ty exoticke jedince, kterym takove progresivni
reseni nevyhovuje, mate i dalsi moznosti.
Napr. vyuzit sluzeb OS. W i MAC OS umi sami o sobe indexovat disky i
kdyz u WXP je to dost neohrabane a nikdo to nepouziva. U novejsich to
pry je lepsi.
Nebo pouzit specializovane programy. Existuje jich hned nekolik a pred
nekolika roky byly velmi popularni. V te dobe byl asi nejlepsi
"Copernic Desktop Serch" ale podporuje jen asi 150 typu souboru.

Petr Tošovský napsal:
> prave me to celkem dozralo prochazeni nekolika desitek PDF a hledani v
> nich toho spravneho. Neexistuje nejaky katalogizacni programek, kteremu
> bych predhodil PDFko, DOC, TXT (pripadne libovolny jiny format) a on by
> je zaindexoval pro fulltext vyhledavani, udelal napriklad nahled prvni
> stranky a mohl bych si k nemu nastavit nejakou poznamku popripade i tag?
> Chtelo by to neco komplexniho, kde by se dalo tridit lehce do
> katogeorii, podkategorii, at se da hledat pripadne i podle toho. Nejlepe
> kdyby se dalo delat neco jako zalozky na konkretni casti stranek apod.
> OS Windows
> V adresarove strukture ty PDFka nemuzu menit, takze trideni do zvlast
> adresaru nepomuze a nemam moznost poznamek.
> Nemam predstavu jak takovy program hledat, nepouzivate nekdo neco? S PDF
> tady pracujeme vsichni a urcite jich nemame nikdo malo. 



More information about the Hw-list mailing list