Jelenlegi hely
Intézeti szeminárium
A számítógépes beszédfeldolgozás területén az utóbbi évtizedben
kapott nagyobb figyelmet az ún. "számítógépes paralingvisztika"
területe, mely a kiejtett szavak helyett a beszédjelből kiolvasható
egyéb információkra (pl. beszélő nemének, korának, hangulatának
meghatározása, egyes fizikai vagy mentális betegségek detektálása
stb.) koncentrál.
Habár mind az automatikus beszédfelismerés (ASR), mind a
paralingvisztika a beszédjelből indul ki, a két részterület mind
célkitűzését, mind technikai megoldásai illetően különbözik. Talán
a legfontosabb ilyen technikai különbség, hogy míg a beszédfelismerés
során a gépi tanulás lokálisan (az ún. "frame"-ek szintjén) történik,
majd a mély neurális hálók kimenetét rejtett Markov-modell
használatával kombináljuk, a paralingvisztikai területen a gépi tanuló
módszerekkel közvetlenül hosszabb beszédszegmenseket (gyakran egész
felvételeket) osztályozunk.
Az előadásban bemutatunk egy olyan algoritmust, amely kombinálja a
két megközelítést: a frame-szinten tanított mély hálók kimeneteiből
szegmensszintű jellemzőket nyerünk ki, és ezek segítségével történik
az egyes felvételek osztályozása. A bemutatott megközelítés
használatával első helyezést értünk el az InterSpeech Computational
Paralinguistic Challenge "Cold" feladatán, ahol a cél annak automatikus
meghatározása volt, hogy a beszélő éppen meg van-e fázva.