Re: Kvízové soubory
Pavel Hudeček
edizon na seznam.cz
Pátek Únor 24 16:54:25 CET 2023
Bingo
Alt+0160 nedělitená mezera
Co tomu předcházelo: Dělal jsem Py script na vytahání nějakých statistik
z HDF5 souborů za posledních X let. Vyrobilo to CSV pro import do excelu
a pak TXT soubory se seznamy souborů, u kterých nastala chyba a nakonec
i seznam bezchybných.
První problém: Musel jsem udělat nastavení, zda dělat CSV pro excel na
CZ počítači a na EN:-)
No a pak to spustil kolega na EN počítači a script umřel na tom, když
sděloval, že úspěšně zpracoval nějakej fajl s diakritickým názvem (k
tomu tu byl nedávno dotaz). Po opravě je binárně ukládáno UTF-8 a je to
OK. Resp. bylo by, kdyby se hned ze začátku vyskytovaly nějaké UTF
znaky. Jinak jejich drobný výskyt různé programy nenadetekují a
nezobrazují je správně, resp. nejdou pak správně kopírovat ty názvy
souborů. Takže úvaha byla, že na začátek dám hlavičkový řádek s CZ
názvy. Pak jsem si řekl, že by možná stačily UTF mezery.
... A mezitím si kolega ztěžoval, že bojuje v bashi s mezerami v názvech
souborů, které má generovat. Tak mě napadl tento experiment:-)
PH
Dne 24.02.2023 v 15:43 Jindrich Fucik napsal(a):
> jelikož tam máš v názvu mezery a unicode definuje asi deset druhů
> mezer, tak si můžeš hrát celkem dlouho. Stačí kombinace normální /
> nepřerušitelná. Na to ti stačí si na klávesnici hrát se shiftama a
> altama. A když stiskneš Win+"." nebo se spustíš character map, tak
> jich máš ještě víc.
>
> Dne 24.02.2023 v 12:40 Pavel Hudeček napsal(a):
>> To je v podstatě ono, ale ten "můj" znak tam zmíněn není:-)
>>
>> PH
>>
>> Dne 24.02.2023 v 11:44 Jindroush napsal(a):
>>> A pak samozrejme homografy.
>>> Viz napr
>>> https://www.malwarebytes.com/blog/news/2017/10/out-of-character-homograph-attacks-explained
>>> A filtr na to existuje takovy, ze pokud obsahuje retezec znaky z
>>> vice nez jednoho language skriptu, vyhodnoti je to jako utok. Treba.
>>>
>>> J.
>>>
>>> On 24.02.2023 11:19, Pavel Hudeček wrote:
>>>> Udělal jsem to záměrně, použil jsem jen klávesnici.
>>>> Počet znaků se shoduje.
>>>>
>>>> Jo a nejdou nahrát na git:-)
>>>>
>>>> PH
>>>>
>>>> Dne 24.02.2023 v 10:25 Jindroush napsal(a):
>>>>> Kdybych to chtel udelat, tak tam strkam ruzny pocet neviditelnych
>>>>> unicode mezer.
>>>>> Jak se to povede 'mimochodem', to netusim ;)
>>>>> J.
>>>>>
>>>>> On 24.02.2023 10:15, Pavel Hudeček wrote:
>>>>>> Dobrý den všem,
>>>>>> tohle je screenshot z obyčjného diru na PC s windows, ale dá se
>>>>>> to nakopírovat i na NAS.
>>>>>>
>>>>>> Jak jsem to udělal?
Další informace o konferenci Hw-list