A fejlődés kétségtelen és gyors, de valós körülmények között még ez a rendszer sem képes elfogadhatóan működni.
A hivatalos blogban jelentette be a kutatócsapat, hogy beszédfelismerő rendszerük újabb mérföldkőhöz ért el: a tévedési arány lecsökkent 5,1 százalékra, vagyis olyan mértékű, mint azoknál az embereknél, akik professzionálisan foglalkoznak hangzó szövegek átírásával.
A vállalat tavaly büszkén jelentette be, 2016 szeptemberében eljutottak odáig, hogy a tévedési ráta a korábbi 6,3 százalékról 5,9 százalékra csökkenjen, és ezt az eredményt akkor forradalminak nevezték, illetve – csakúgy, mint most – az emberi felismerés elérésének tartották. Ezzel az IBM szakemberei akkor vitára keltek, és kutatásaikra hivatkozva közölték, hogy e kijelentés megalapozottságához az 5,1 százalék elérése kell.
Akárcsak a 2016-os teszt során, a Microsoftnál most is a Switchboard adatbázisán tette próbára rendszerét – a Switchboard egy olyan gyűjtemény, mely körülbelül 2400 olyan telefonbeszélgetés felvételét tartalmazza, melyeket angolul akcentussal megszólaló, nem anyanyelvi beszélők folytattak. A beszélgetések számtalan témát felölelnek, ugyanakkor sokkal formálisabbak, szabályosabbak, mint a hétköznapi életben zajlók. És azt is hozzá kell tenni, hogy a mostani kísérlet során nem használtak egy kontrolladatbázist, a CallHome-ot, mely sokkal lazábban megformált, családi beszélgetéseket tartalmaz – az előző mérésből kiderült, hogy ezen az anyagon mind az ember, mind a beszédfelismerő kétszer annyit hibázik, mint a Switchboard felvételeinél.
Habár az eredmények meggyőzőek, azt a Microsoftnál is elismerik, hogy a beszédfelismerő továbbra sem képes különbséget tenni az akcentusok és a beszédstílusok között, illetve a háttérzaj alaposan lerontja a hatékonyságot.
A Google is folytat hasonló fejlesztést, ők idén jelentették be, hogy elérték a 4,9 százalékos tévedési rátát, ám mivel nem közölték, hogy milyen hanganyagon végezték a tesztet, eredményük megítélése kétséges.