Jelenlegi hely
Beszédfelismerés konvolúciós mély neuronhálókkal
Tóth László
Beszédfelismerés konvolúciós mély neuronhálókkal
A beszédfelismerésben a 80-as évek óta a rejtett Markov modell számít a sztenderd technológiának. A neuronhálókkal évtizedek óta próbálkoznak,mint lehetséges alternatíva, de paradigmaváltást sosem tudtak elérni, mivel az eredmények nem voltak meggyőző mértékben jobbak. Az utóbbi években ez megváltozni látszik az ún. mély neuronhálók bevezetésével. A mély neuronhálókat elsőként 2009-ben próbálták ki beszédfelismerésben, és rögtön a legelső kísérlet megdöntötte a korábbi felismerési rekordot a vizsgált adatbázison. Azóta exponenciálisan nő a mély neuronhálós beszédfelismerési cikkek száma, 2012-ben már két külön mély neuronhálós szekció volt az Interspeech konferencián, a pár hét múlva esedékes ICASSP-on pedig már 4 ilyen szekció lesz. A mély neuronhálók szokatlanul gyorsan, pár év alatt bekerültek a Google és a Microsoft beszédfelismerési termékeibe, mindkét két "technológiai áttörésként" jellemzi a mély neuronhálókat.
Mivel csoportunk már korábban is neuronhálós beszédfelismeréssel foglalkozott, ezért szerencsés módon gyorsan be tudtunk kapcsolódni ebbe az új kutatási irányba. Az előadásban bemutatjuk a mély neuronhálók három lehetséges tanítási módozatát, illetve az ezekkel elért beszédfelismerési eredményeket. Ezután áttérünk az ún. konvolúciós neuronhálókra, amelyek egy kicsi strukturális módosításnak köszönhetően még a mély neuronhálóknál is jobb felismerési eredményeket tudnak adni.