TTS

Miroslav Mraz mrazik na volny.cz
Úterý Únor 28 12:30:14 CET 2023


Problém je, že je to celé složité a musel bych pochopit, jak to funguje. 
Studoval jsem zdrojáky espeak, zřejmě se to přeloží do struktury 
phoneme, která původně měla 8 bytů. Jak to bobtnalo, přidali tam další 
atributy, takže to narostlo na 32 bytů (PHONEME_LIST). A teprve z této 
struktury se to přehrává nebo se z toho dá vytvořit takový ten čitelný 
text obsahující foném. A formátů pro tt. řetězec zřejmě existuje víc.
Takže představa, že to externě přeložím a v uC to pak jen vyplivnu na 
DAC podle nějakých jednoduchých pravidel byla hodně naivní. I když ten 
Talkie tak funguje.
Talkie má nějaký skript v pythonu, kterým snad jde přidávat jazyky, ale 
to se mi fakt nechce studovat, výsledek bude patrně stejně dost chabý. 
Další věc je, že angličtina české fonémy jako je např. "ř" prostě nemá.

Metoda s GSM kompresí mi připadá daleko schůdnější, dekodér vyprodukuje 
pro Cortex-M0 cca 6KiB kódu, takže zbude tak 30 - 40 s GSM dat do 64Kib 
flash. To na kraviny stačí a výsledek je _podstatně_ lepší. Nakonec 
přidat SPI flash za 1$ není zase takový problém.

Mrazík

On 28. 02. 23 11:20, Jan Waclawek wrote:
> 
> A problem je preklad textu do fonem, alebo je problem v tom ze tie fonemy
> su vytunene pre anglictinu?
> 
> Lebo pokial viem, aj v tej anglictine je to lepsie, ak sa zadavaju priamo
> fonemy, lebo ten preklad je proste strasne zlozity a tym padom nedokonaly.
> 
> wek


Další informace o konferenci Hw-list