A Google Deepmind Cloud Text-to-Speech szinte nat-nal olvassa a szövegeket; igazi hang

A neurális hálózatokkal ma már lehetőség van természetes hangzású olvasási órák megadására. A Google Deepmind csapata kifejlesztett egy szövegfelolvasó algoritmust, amelyet a fejlesztők könnyedén beépíthetnek projektjeikbe - beleértve 32 hangot sok nyelven, például angolul, németül és japánul.

A Google bemutatta felhőalapú szolgáltatásának beszédfelolvasását béta verzióban. Ez a rendszer az írott szövegeket a lehető legtermészetesebb nyelvre kívánja konvertálni. Ehhez a Google a Deepmind osztályt használja, amely neurális hálózatokkal foglalkozik különböző feladatokhoz - a Go játékok és a Starcraft 2 mellett szövegeket is beszélve.

A fejlesztőknek képesnek kell lenniük felhőalapú szövegfelolvasás használatára saját projektjeikhez. Erre a célra a Google egy olyan programozási felületet (API) biztosít, amely képes előképzett modelleket beszerezni és megszólítani a felhőből. A cég a Wavenet technológiát használja a lehető legtermészetesebben hangzó beszéd előállításához. Ez egy neurális hálózat, amely különböző neuronokból generál hangjeleket. Jelenleg ez csak az amerikai hangok számára érhető el.

Videó: A Google TTS kipróbálta [1:26]

A legtöbb hang angolul szól

A szolgáltatás mobil eszközökön, például okostelefonokon, valamint számítógépeken, hangszórókon és tévéken működik. Jelenleg 30 különböző hang közül választhat. Ennek azonban nagy része a brit vagy az amerikai angolhoz kapcsolódik. Egy másik amerikai nyelvjárást magához a Wavenethez is használhatunk. A különbség marginális. A német nyelvben azonban csak két hang van Wavenet támogatás nélkül: egy nő és egy férfi. Vicces mellékhatás: Az angol szövegek német hanggal történő felolvasása tipikusan német hangzású akcentussal működik. További nyelvek: spanyol, portugál, francia, török és japán. A minőség tesztszövegekkel ellátott webes eszközben kipróbálható.

A hangválasztás mellett további paraméterek is módosíthatók. A felhasználók beállíthatják a beszéd hangmagasságát és sebességét. Mindkét vezérlő azonban meghamisítja a vokális hangzást is, így például egy gyorsan beszélő olvasó inkább számítógépnek hangzik. A JSON forrásszövegek megjeleníthetők a webeszközben is, így a fejlesztők könnyedén beépíthetik a szövegeket az alkalmazásaikba. A szövegeket különféle audio fájlokba lehet exportálni, például MP3, Linear16 és Ogg Opus. SSML támogatás is rendelkezésre áll. Ezenkívül a beszéd közbeni intonáció és szünetek címkékkel manuálisan beállíthatók.

A Felhőből Felolvasott Beszéd ingyenesen tesztelhető. Ehhez azonban szükség van egy Google-fiókra és a Google Cloud Platform tagságára, amelyet szintén tizenkét hónapig lehet tesztelni 300 dolláros jóváírással.