TTS
Miroslav Mraz
mrazik na volny.cz
Úterý Únor 28 12:30:14 CET 2023
Problém je, že je to celé složité a musel bych pochopit, jak to funguje.
Studoval jsem zdrojáky espeak, zřejmě se to přeloží do struktury
phoneme, která původně měla 8 bytů. Jak to bobtnalo, přidali tam další
atributy, takže to narostlo na 32 bytů (PHONEME_LIST). A teprve z této
struktury se to přehrává nebo se z toho dá vytvořit takový ten čitelný
text obsahující foném. A formátů pro tt. řetězec zřejmě existuje víc.
Takže představa, že to externě přeložím a v uC to pak jen vyplivnu na
DAC podle nějakých jednoduchých pravidel byla hodně naivní. I když ten
Talkie tak funguje.
Talkie má nějaký skript v pythonu, kterým snad jde přidávat jazyky, ale
to se mi fakt nechce studovat, výsledek bude patrně stejně dost chabý.
Další věc je, že angličtina české fonémy jako je např. "ř" prostě nemá.
Metoda s GSM kompresí mi připadá daleko schůdnější, dekodér vyprodukuje
pro Cortex-M0 cca 6KiB kódu, takže zbude tak 30 - 40 s GSM dat do 64Kib
flash. To na kraviny stačí a výsledek je _podstatně_ lepší. Nakonec
přidat SPI flash za 1$ není zase takový problém.
Mrazík
On 28. 02. 23 11:20, Jan Waclawek wrote:
>
> A problem je preklad textu do fonem, alebo je problem v tom ze tie fonemy
> su vytunene pre anglictinu?
>
> Lebo pokial viem, aj v tej anglictine je to lepsie, ak sa zadavaju priamo
> fonemy, lebo ten preklad je proste strasne zlozity a tym padom nedokonaly.
>
> wek
Další informace o konferenci Hw-list