<div dir="ltr">Takže díky všem, snad vyřešeno, koho by to zajímalo tak asi takto:<div><br></div><div>použil jsem nakonec sphinx + sphinx api pro php, ten mi tam už běžel (index aby se nepřetěžovala db, něco jako elasticsearch) a pak nad výsledkem funkci similar_text <a href="https://www.php.net/manual/en/function.similar-text.php">https://www.php.net/manual/en/function.similar-text.php</a></div><div><br></div><div>pak pár foreachů a ještě dynamické nastavení po kolika slovech to probublává podle velikosti výsledku.</div><div><br></div><div>Překvapivě to je docela rychlé, teď ještě testuji omezení různých znaků a nastavení vah....</div><div><br></div><div>HP</div><div><br></div><div><div><div dir="ltr" class="gmail_signature" data-smartmail="gmail_signature"><div dir="ltr"><div><div dir="ltr"><div>S pozdravem Ing. Jan Půhoný<br><div><br></div><div>Spolehlivý obchod s elektronikou</div><div><a href="https://www.puhy.cz/" target="_blank">https://www.puhy.cz</a></div><div><br></div><div>Připojení k internetu v Chocni a okolí</div><div><a href="http://www.puhy.net/" target="_blank">http://www.puhy.net</a></div></div></div></div></div></div></div><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">čt 29. 8. 2019 v 11:18 odesílatel Tom Meinlschmidt <<a href="mailto:hw@meinlschmidt.org">hw@meinlschmidt.org</a>> napsal:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">zrusit diakritiku, smazat cisla/oznaceni (pres regexp) a udelat <br>
soundex()<br>
<br>
treba<br>
<br>
mysql> select soundex('elektrolyticky kondenzator nippon 9767898 <br>
4700uF/25V');<br>
+-----------------------------------------------------------------+<br>
| soundex('elektrolyticky kondenzator nippon 9767898 4700uF/25V') |<br>
+-----------------------------------------------------------------+<br>
| E42364325352365151                                              |<br>
+-----------------------------------------------------------------+<br>
1 row in set (0.00 sec)<br>
<br>
mysql> select soundex('5667 1000uF 25V Elektrolyticky kondenzator <br>
nippon');<br>
+--------------------------------------------------------------+<br>
| soundex('5667 1000uF 25V Elektrolyticky kondenzator nippon') |<br>
+--------------------------------------------------------------+<br>
| U14236432535236515                                           |<br>
+--------------------------------------------------------------+<br>
1 row in set (0.00 sec)<br>
<br>
mysql> select soundex('tlakova hadice');<br>
+---------------------------+<br>
| soundex('tlakova hadice') |<br>
+---------------------------+<br>
| T42132                    |<br>
+---------------------------+<br>
1 row in set (0.00 sec)<br>
<br>
mysql> select soundex('tlakova hadice 1/2');<br>
+-------------------------------+<br>
| soundex('tlakova hadice 1/2') |<br>
+-------------------------------+<br>
| T42132                        |<br>
+-------------------------------+<br>
1 row in set (0.00 sec)<br>
<br>
mysql> select soundex('tlakova hadice 2342424');<br>
+-----------------------------------+<br>
| soundex('tlakova hadice 2342424') |<br>
+-----------------------------------+<br>
| T42132                            |<br>
+-----------------------------------+<br>
1 row in set (0.00 sec)<br>
<br>
jen s "elektrolyticky" a "elektrolitycky" si to neporadi :)<br>
<br>
tm<br>
<br>
ps: nebo se da pouzivat neco lepsiho, elasticsearch s keywords a dobre <br>
navrzenym indexem.<br>
<br>
<br>
On 2019-08-28 22:34, Jan Půhoný wrote:<br>
> Zdravím a potřeboval bych poradit s menším zádrhelem:<br>
> <br>
> Mám pole, které obsahuje podobné texty. Např.<br>
> <br>
> Kód:<br>
> <br>
> Hadice tlaková<br>
> Hadice tlaková 1/2<br>
> Tlaková hadice 566789<br>
> Tlaková hadice 577898<br>
> Tlaková silná hadice 45677<br>
> atd ...<br>
> <br>
> Nebo:<br>
> <br>
> Kód:<br>
> <br>
> Elektrolytický kondenzátor nippon 47uF 100V<br>
> Elektrolitycký kondenzátor nippon 1000uF 35V<br>
> Elektrolitycký kondenzátor nippon 9767898 4700uF/25V<br>
> Elektrolitycký kondenzátor nippon 567788<br>
> 5667 1000uF 25V Elektrolitycký kondenzátor nippon<br>
> 220uF50V Elektrolitycký speciální kondenzátor nippon<br>
> atd ....<br>
> <br>
> a chtěl bych z toho dostat frázi, která je společná všem<br>
> prvkům. V tomto případě by to byla fráze " tlaková hadice" a<br>
> "elektrolitycký kondenzátor nippon" tuto frázi ale předem neznám.<br>
> A nevím ani jak bude dlouhá. Stringy v poli frází mohou začínat<br>
> nebo nemusí, může být i uprpstřed stringu a klidně i rozdělená<br>
> dalšími slovy.<br>
> <br>
> Jak by jste na to šli?<br>
> Díky za nakopnutí.<br>
> <br>
> Píšu to v php, ale jde mi spíše o obecný algoritmus. Hraju si s<br>
> tím od rána. Nejdříve jsem to zkoušel předávat pi stranách po<br>
> slovech, pak postupně probublávat po 0+i slovech. Uspokojivý<br>
> výsledek jsem ale  nedostal.<br>
> <br>
> Musí to ale přece jít.<br>
> <br>
> Díky,<br>
> <br>
> HP<br>
> _______________________________________________<br>
> HW-list mailing list  -  sponsored by <a href="http://www.HW.cz" rel="noreferrer" target="_blank">www.HW.cz</a><br>
> <a href="mailto:Hw-list@list.hw.cz" target="_blank">Hw-list@list.hw.cz</a><br>
> <a href="http://list.hw.cz/mailman/listinfo/hw-list" rel="noreferrer" target="_blank">http://list.hw.cz/mailman/listinfo/hw-list</a><br>
<br>
_______________________________________________<br>
HW-list mailing list  -  sponsored by <a href="http://www.HW.cz" rel="noreferrer" target="_blank">www.HW.cz</a><br>
<a href="mailto:Hw-list@list.hw.cz" target="_blank">Hw-list@list.hw.cz</a><br>
<a href="http://list.hw.cz/mailman/listinfo/hw-list" rel="noreferrer" target="_blank">http://list.hw.cz/mailman/listinfo/hw-list</a><br>
</blockquote></div>