Re: Algoritmus - text společný všem prvkům pole

Jindrich Fucik fulda na seznam.cz
Čtvrtek Srpen 29 08:36:44 CEST 2019


Ahoj,




pokud chceš opravdu obecný algoritmus, tak se podívej, jak to dělá 
Elasticsearch. Existuje tam něco jako indexování, které právě tohle řeší.

Podstata není složitá. Nejprve to zahodí "neužitečná" slova, pak to 
odfrézuje diakritiku,  pak to odfrézuje skloňovací a časovací koncovky. 
Vzniklá slova to nacpe do reverzního indexu.

Při vyhledávání to ohodnocuje počet slov z indexu, který se trefil a podle 
toho to přiřazuje relevanci výsledku.




Pochopitelně to s sebou nese kouzla jako jazykové mutace pro skloňování, 
nebo synonyma (Jan/Honza, Jedna/Raz, ...) kterých je zrovna čeština plná.



---------- Původní e-mail ----------
Od: Jan Půhoný <konference na puhy.cz>
Komu: HW-news <hw-list na list.hw.cz>
Datum: 28. 8. 2019 22:35:19
Předmět: Algoritmus - text společný všem prvkům pole 
"
Zdravím a potřeboval bych poradit s menším zádrhelem:

Mám pole, které obsahuje podobné texty. Např. 


 
 Kód:
 
 Hadice tlaková
Hadice tlaková 1/2
Tlaková hadice 566789
Tlaková hadice 577898
Tlaková silná hadice 45677
 
atd ...

Nebo:

 
 Kód:
 
 Elektrolytický kondenzátor nippon 47uF 100V
Elektrolitycký kondenzátor nippon 1000uF 35V
Elektrolitycký kondenzátor nippon 9767898 4700uF/25V
Elektrolitycký kondenzátor nippon 567788
5667 1000uF 25V Elektrolitycký kondenzátor nippon 
220uF50V Elektrolitycký speciální kondenzátor nippon
 
atd ....

a chtěl bych z toho dostat frázi, která je společná všem prvkům. V tomto 
případě by to byla fráze " tlaková hadice" a "elektrolitycký kondenzátor 
nippon" tuto frázi ale předem neznám. A nevím ani jak bude dlouhá. Stringy v
poli frází mohou začínat nebo nemusí, může být i uprpstřed stringu a klidně 
i rozdělená dalšími slovy.



Jak by jste na to šli?
Díky za nakopnutí.



Píšu to v php, ale jde mi spíše o obecný algoritmus. Hraju si s tím od rána.
Nejdříve jsem to zkoušel předávat pi stranách po slovech, pak postupně 
probublávat po 0+i slovech. Uspokojivý výsledek jsem ale  nedostal.




Musí to ale přece jít.




Díky,




HP



_______________________________________________
HW-list mailing list - sponsored by www.HW.cz
Hw-list na list.hw.cz
http://list.hw.cz/mailman/listinfo/hw-list
"
------------- další část ---------------
HTML příloha byla odstraněna...
URL: <http://list.hw.cz/pipermail/hw-list/attachments/20190829/6e579bcc/attachment.html>


Další informace o konferenci Hw-list