Náhrada znaků v TXT v UTF8

Josef Štengl ok1ced na nagano.cz
Sobota Březen 22 14:10:53 CET 2014


No to ano, ale je problém, že množina X není zatím exaktně známá, známe jen množinu Y, přičemž prvek množiny Y je 
dvoubajtová hodnota. A vzhledem k tomu, že o ISO/IEC 10646 vím, že je to řetězec dobrý k instalaci písem do systému a má 
variabilní šířku znaků, tak za těch 10 minut bych to rozhodně nedal (jsem už starší model a rychlost nic moc ani zamlada :-)

Proto tr se nedá a sed se pravděpodobně použít nedá a nejrychlejší a asi i nejbezpečnější řešení je od Pavla Trollera 
(tady enca opravdu asi… ehm, opravdu nezabere).

Bylo by to jasnější, kdyby byla známá skupina znaků množiny X (nejlépe v krátké příloze, odkaz na web...).

teoreticky má dvě možnosti.

recode UTF-8..iso8859-2 <soubor>
; taková vsuvka, recode mi odmítá převést soubor s jen \n, takže možný mezikrok unix2dos <soubor>
recode CP1250..UTF-8 <soubor>

nebo

recode UTF-8..CP1250 <soubor>
recode iso8859-2..UTF-8 <soubor>

pokud je požadavek na zachování původních souborů

iconv -f UTF-8 -f CP1250 <soubor> <převod>
iconv -f ISO-8859-2 -t UTF-8 <převod> <cíl>

případně také přehodit CP1250 za ISO-8892-2

v závislosti co byl originál.

Delší dobu mi trvalo  napsat tento mail než si to vyzkoušet :-(.

Nač to programovat.

ced


Dne 22.3.2014 12:15, Petr Labaj napsal(a):
> Typicka uloha v hodine vyuky programovani:
> nahradte v souboru, zadanem jmenem, vsechny vyskyty znaku X znakem Y.
> A zitra si to napiseme jako desetiminutovku, mili zaci. A neopisovat, Novak!
>
> Takze taky tak: desetiminutova rozcvicka - napsat trivialni konvertor, ktery
> prehodi 3 znaky za jine 3 znaky.
> A protoze je to na Linuxu, tak tam je uz z principu nainstalovano i GCC a nemusite
> tam kvuli tomu nic doinstalovatvat, takze tech max. 10 minut je kompletni cas.
>
> PL
>
> *******************************
>
> From: "Petr Zapadlo" <zapik na email.cz>
> To: "HW-news" <hw-list na list.hw.cz>
> Sent: Saturday, March 22, 2014 9:40 AM
> Subject: Re: Náhrada znaků v TXT v UTF8
>
>
> Zdravím,
>
>
> neznám původní sadu, ani to jak soubory vznikly a čím byly konvertované.
> prostě mám stovky souborů s kodováním UTF8, které mají vadné znaky ž,š,ť
> a jejich velké ekvivalenty. Nic víc a nic míň.
>
> Nějak se s tím poperu, zjišťoval jsem jestli existuje ekvivalent tr,
> který respektoval UTF8, asi ne, tak to budu muset udělat otrocky.
>
> Díky za pomoc a přeji pěkný víkend.
>
> Petr
>
> _______________________________________________
> HW-list mailing list  -  sponsored by www.HW.cz
> Hw-list na list.hw.cz
> http://list.hw.cz/mailman/listinfo/hw-list
>


Další informace o konferenci Hw-list