Na rozdíl od oblasti big data disponují tyto systémy omezeným výpočetním výkonem a mají vysokou variabilitu v architektuře hardwaru, a navíc jsou na tyto systémy kladeny další požadavky zejména na zpracování v reálném čase, bezpečnost a…
Improved speech enhancement with the Wave-U-Net, a deep convolutional neural network architecture for audio source separation, implemented for the task of speech enhancement in the time-domain. - betegon/Wave-U-Net-For-Speech-Enhancement-1
Výsledkem této práce je "end-to-end" rozpoznávač řeči, natrénovaný na VCTK korpusu a implementovaný v programovacím jazyce Python s využitím knihovny hlubokého učení TensorFlow.
Rámec StyleTTC2 je trénován a experimentován na třech souborech dat: VCTK, LibriTTS a LJSpeech. Jednoreproduktorová komponenta rámce StyleTTS2 je trénována pomocí datové sady LJSpeech, která obsahuje zhruba 13,000 12,500+ zvukových vzorků…