Jelenlegi hely
Beszédfelismerés mély neuronhálókkal
A gépi beszédfelismerés technológiájának matematikai alapjai 30 éve lényegében változatlanok. Ekkor vezették be a rejtett Markov-modelleket, amelyek egy egységes matematikai keretet adnak a sorozatok – így pl. a beszédjelek – statisztikai alapú felismeréséhez. Azóta természetesen rengeteg apró finomítást javasoltak a technológiához, és ezáltal az eredmények is sokat javultak, de általánosságban elmondható, hogy a beszédfelismerés területén mindeddig a kis lépésekben való előrehaladás volt jellemző. A 2006-os évben azonban megjelent egy új gépi tanulási algoritmus, melyet feltalálói "mély neuronhálónak" neveztek el. A módszert eleinte képi alakfelismerési feladatokon tesztelték, az első beszédfelismerési kiértékelésére 2009-ben került sor. A mély neuronháló már ebben az első kísérletben minden korábbi eredményt megdöntött, nagy visszhangot váltva ki a kutatók körében.
Az első cikk óta a terület rohamosan fejlődik, a kiugróan jó eredmények miatt egyre többen fordulnak ehhez a technológiához, és így a megjelenő publikációk száma is exponenciálisan nő. Az MTA-SZTE Mesterséges Intelligencia Kutatócsoportnál már több mint egy évtizede foglalkozunk a beszédfelismerés neuronhálókat használó irányzatával, így szerencsés módon viszonylag gyorsan be tudtunk kapcsolódni a mély neuronhálók kutatásába. Legelső lépésként természetesen a külföldi eredményeket próbáltuk reprodukálni.
A mély neuronhálók hatékonyságának egyik forrása maga a "mélység", azaz hogy sok rétegből állnak (ezzel szemben egy hagyományos neuronháló csak egyetlen rejtett réteget tartalmaz). A sok réteg azonban magában nem elég, hanem szükség van egy új tanító algoritmusra is, amelyet "előtanítás" névvel illet az irodalom. Amint az ábrán is látható, az előtanítás különösen sok réteg esetén fontos, ilyenkor az ily módon tanított hálózat lényegesen jobb eredményeket ad, mint a hagyományos, nem előtanított háló. Habár a Hinton és munkatársai által javasolt előtanítási algoritmus nagyon hasznosnak bizonyult, a gyakorlati alkalmazása nehézkes és időigényes. Ezért hamar megindult a kutatás a hasonló hatású, de egyszerűbb és gyorsabb megoldások iránt. Ebbe a kutatásba már csoportunk is be tudott kapcsolódni, így a beszédfelismerésben az elsők között próbáltuk ki az ún. "egyenirányított" (rectified) neuronokból felépülő hálózatokat. Másokkal párhuzamosan azt kaptuk, hogy ez a hálótípus az előtanított hálózatokkal egyenértékű felismerési pontosságra képes, de az implementációja sokkal egyszerűbb, tanítása pedig gyorsabb (Tóth, 2013a).
A képi alakfelismerési algoritmusok hatékonyságát le szokta rontani, ha a felismerendő alak (például betű) nincsen a kép közepén, hanem valamelyik irányban elcsúszik. Ennek elkerülésére hagyományosan különféle "normalizálási" technikákat szoktak bevetni, de ennél hatékonyabb megoldás a neuronháló átalakítása oly módon, hogy a kép eltolt változatait is fel tudja ismerni. Ezt a technológiát konvolúciós modellezésnek hívják, és a képfelismerésben régóta kísérleteznek vele, de a beszédfelismerés eszköztárába csak mostanában került be. Mivel a képfeldolgozással ellentétben a beszédjel esetében a két ábrázolási tengelynek – idő és frekvencia – különböző szerepe van, ezért a konvolúciós technikát a két tengelyen eltérő módon kell alkalmazni. Mi elsőként az időtengely mentén való konvolúció technológiáját dolgoztuk ki, és megmutattuk, hogy a sztenderd mély neuronhálókhoz képest ezzel a módszerrel akár 10%-os hibacsökkenés is elérhető (Tóth, 2013b). Legújabban pedig kombináltuk módszerünket az Abdel-Hamid és mtsai által alkalmazott, frekvenciatengely mentén működő konvolúcióval. Jelenleg ez a kombinált modell tartja a legkisebb felismerési hiba rekordját a széles körben vizsgált TIMIT adatbázison (Tóth, 2014).
Habár a publikálhatóság szempontjából az angol nyelvű tesztek a fontosak, természetesen igyekszünk az újonnan feltalált módszereket a magyar nyelv felismerésére is bevetni. Kísérleteink alapján úgy látjuk, hogy a mély neuronhálók a magyar nyelvű felismerésben is lényeges eredményjavulást tudnak hozni (Grósz és Tóth, 2014). Jelenleg is folyamatban vannak azok a Budapesti Műszaki Egyetemmel közösen futó kísérletek, amelyekben a mély neuronhálóinkat az ő nagyszótáras magyar nyelvű felismerőrendszerükbe építve értékeljük ki. A kezdeti eredmények azt mutatják, hogy mély neuronhálókkal akár 10-30%-os hibacsökkenés is várható a hagyományos felismerési technológiához képest.