Automaattinen puheentunnistus helpottaa elämää - luvassa myös uusia liiketoiminta-mahdollisuuksia yrityksille

Pieni markkina, hankala kieli. Tämä yhdistelmä on hidastanut puheentunnistussovellusten leviämistä Suomessa. Lahjoita puhetta -kampanja antaa vauhtia kehitykselle ja tarjoaa uusia liiketoimintamahdollisuuksia myös yrityksille.

Professori Mikko Kurimon tutkimusryhmä keskittyy automaattiseen puheentunnistukseen. Kuva: Evelin Kask / Aalto-yliopisto

Heidi Hammarsten, 15.06.2022

Istut autossa ja yrität lausua mahdollisimman selvästi ”Hiihtomäentie 37 Helsinki”. Navigaattori kuitenkin tarjoaa jostakin muualta löytämäänsä Vihtamantietä, vaikka toistat toivettasi yhä uudelleen. Tämä lienee monelle autoilijalle tuttu tilanne, joka kertoo siitä, että navigaattorin suomen kielen ymmärtäminen jättää vielä parantamisen varaa.

Puheen- ja kielenkäsittelyn professori Mikko Kurimo Aalto-yliopistosta vahvistaa, että vaikka puheentunnistusteknologia mahdollistaa paljon elämää helpottavia sovelluksia, maailmalla niiden hyödyntäminen on pitemmällä kuin meillä Suomessa.

”Suurilla kielialueilla suurin osa Google-hauista tehdään puheella, koska se on nopein tapa tehdä hakuja. Erilaisia puheella toimivia assistentteja, kuten Applen Siri, Amazonin Alexa tai Googlen Assistant ei ehkä ole joka kodissa, mutta paljon niitä on. Niiden avulla hoidetaan yksinkertaisia tehtäviä, jotka sujuvat kätevästi puheella.”

Englannin ja saksan kielellä voi esimerkiksi ohjata älykodissa valaistusta tai lukitusta. Amazon kehittää vauhdilla myös ääniohjattua ostamista. Dubaissa Koneen hissin voi tilata ennakkoon ääniohjauksella.

Suurilla kielialueilla suurin osa Google-hauista tehdään puheella, koska se on nopein tapa tehdä hakuja."

Kurimolla on Aallossa oma tutkimusryhmänsä, joka keskittyy automaattiseen puheentunnistukseen. Aiemmin hän on työskennellyt muun muassa sveitsiläisessä tekoälyn tutkimuslaitoksessa sekä vierailevana tutkijana Stanfordin SRI- ja Berkeleyn ICSI-tutkimusyksiköissä.

Miksi puheentunnistussovellukset Suomessa sitten laahaavat jäljessä muun maailman kehitystä? Syyt liittyvät Kurimon mukaan sekä maamme pieniin markkinoihin että omaperäiseen kieleen.

”Suurin syy on taloudellinen: täältä puuttuu alan ekosysteemi, ei ole riittävästi kysyntää eivätkä globaalit teknologiajätit panosta tänne.”

Miljoonat sanat pilkotaan pienemmiksi

Suomen kieli on paitsi pienen joukon puhuma kieli, myös rakenteeltaan hyvin erilainen kuin englanti, jonka perusteella usein lähdetään soveltamaan muidenkin kielien puheentunnistusta.

”Esimerkiksi ranska ja ruotsi ovat rakenteeltaan melko samankaltaisia kuin englanti. Näissä kielissä on mahdollista luetella kaikki sanat, 60 000–100 000 sanaa riittää usein tekoälylle. Suomessa taas sanat taipuvat voimakkaasti ja on paljon yhdyssanoja, eli eri sanamuotoja on miljoonia.”

Aallon tutkijat ovat ratkoneet tätä ongelmaa pilkkomalla sanat pienemmiksi yksiköiksi ja käyttäneet näitä koneoppimismallien pohjana.

Heillä oli kuitenkin edessään myös toinen ongelma. Mutkikkaan rakenteen takia puheentunnistuksen kehittämiseen suomeksi tarvitaan enemmän aineistoja kuin englannin kielessä. Niukkojen resurssien takia niitä kuitenkin on vähemmän.

Aallon tutkijat ovat ratkoneet suomen kielen rakenteeseen liittyviä ongelmia pilkkomalla sanat pienemmiksi yksiköiksi ja käyttäneet niitä koneoppimismallien pohjana."

Tähänkin ongelmaan löytyi luova ratkaisu. Yhteistyössä Ylen kanssa tutkijat käynnistivät Lahjoita puhetta -kampanjan, jossa kerättiin tavallisten suomalaisten vapaata puhetta lahjoituksina.

”Pitkäaikainen haaveemme oli, että saisimme käyttöön sitä puhetta mitä ihmiset käyttävät asioidessaan puhumalla. Mietimme, miten saisimme ihmiset innostumaan ja osallistumaan. Korostimme, että heidän avullaan pystyisimme kehittämään suomenkielisiä tekoälyohjelmia paremmiksi.”

Puheohjaus voi merkittävällä tavalla helpottaa sellaisten ihmisten elämää, joille tietotekniikan käyttö tekstin avulla on hankalaa. Näihin kuuluvat esimerkiksi ikäihmiset, lukutaidottomat lapset tai maahanmuuttajat, jotka eivät vielä hallitse kieltä hyvin.

Ylen tuella kampanja onnistuikin varsin hyvin ja aineistoa saatiin kerättyä runsaasti, kymmeniä tuhansia puhujia ja tuhansia tunteja puhetta. Käynnissä on myös hankkeen kakkosvaihe Donera prat, eli suomenruotsalaisen puheaineiston keräys.

Valtava aineisto lahjoituspuhetta

”Meillä on nyt ehkä enemmän puhujia suhteessa kielen kokoon kuin missään muualla. Englanninkielistä aineistoa on suunnilleen samalta puhujamäärältä, mutta kielen koko on huimasti suurempi.”

Kurimon ryhmä toivookin, että kansainvälinen tiedemaailmakin kiinnostuisi suomen kielestä, koska tällä valtavalla aineistolla voi testata erilaisia menetelmiä.

”Luultavasti kampanjaa halutaan levittää muuallekin maailman pieniin eli alle kymmenen miljoonan puhujan kieliin. Silloin on hyvä tietää, paljonko tarvitaan aineistoa ja litteroitua aineistoa.”

Tällä hetkellä tutkimusryhmä vertailee perinteisellä menetelmällä litteroitua ja puheentunnistimella automaattisesti litteroitua aineistoa. Oli iso ponnistus saada litteroiduksi ihmisvoimin 1600 tuntia puhetta.

”Teimme myös sellaisen testin, että pieni osa aineistoa lähetettiin neljään eri yritykseen litteroitavaksi ja laskettiin tekstin virheet suhteessa automaattiseen litterointiin. Kävi ilmi, että ihmiset eivät ole aina samaa mieltä keskenään, vaan poikkeamia tulee aika paljon. Automaattisesti päästiin aika lähelle samaa virheprosenttia.”

Koneoppimismalleja muidenkin käyttöön

Lahjoitetun puheen avulla on tarkoitus kehittää uusia ja parantaa nykyisiä tekoälysovelluksia suomalaisten käyttöön. Siksi aineisto on tiettyjä käyttöehtoja noudattaen vapaassa käytössä. Aalto tarjoaa käyttöön myös aineiston perusteella kehittämiään koneoppimismalleja eikä pelkkää raakadataa.

”Tämä on tulevaisuuden tapa, siinä ei ole järkeä tekoälylle opetetaan aina uudestaan samoja asioita. Näin tehdään tästä kannattavaa myös pienille kotimaisille yrityksille.”

Usein sovellukset ovat sellaisia, joissa ei itse puhuta vaan käytetään puheaineistoja, esimerkiksi videoarkistoja kuten Youtube tai Ylen Elävä Arkisto. Näiden käyttö on hankalaa, jos ei puhetta saada haettavaan muotoon tekstiksi.

Kurimo arvioi, ettei puheentunnistus kokonaan hävitä tekstin lukemista tai kirjoittamista, mutta näiden käyttö joustaa entistä enemmän tilanteen mukaan.

”Jos lehden luku jää aamulla kesken, loput voi kuunnella podcastina bussissa. Tai kun on autossa, on helpompi kuunnella tai sanella tekstiä. Uusiakin sovelluksia tulee koko ajan lisää.”

Myös yrityselämässä puheentunnistus-
sovelluksille riittää käyttöä."

Myös yrityselämässä puheentunnistussovelluksille riittää käyttöä. Asiakaspalvelua puhelimitse voidaan automatisoida niin, että tekoäly vastaa kysymykseen tai etsii oikean asiantuntijan vastaamaan. Esimerkiksi videoiden sisällöstä tulee hakukelpoista, kun niiden puhe on litteroitu.

Aalto University Executive Educationin (Aalto EE) digikoulutusohjelmista vastaavan Jonni Junkkarin mukaan automaattinen puheentunnistus tarjoaa suomalaisyrityksille paljon liiketoimintamahdollisuuksia. Kun asiakkaiden toimintatavat ja ostotilanteet muuttuvat, tarvitaan myös uutta osaamista.

”Yritysten on tärkeää ymmärtää uusia teknologioita, kuten äänentunnistusta, ja niiden sovellusmahdollisuuksia, mutta lisäksi tarvitaan asiakasymmärrystä ja innovaatiokykyä. Vain molemmat osaamiset yhdessä mahdollistavat pysyvän kilpailuedun ja asiakasarvon luomisen”, sanoo Junkkari.

Aalto EE tarjoaa laajan valikoiman esimerkiksi data-, analytiikka- ja tekoälykoulutuksia, joissa käsitellään teknisiä aiheita kuten puheentunnistusta. Samalla myös tunnistetaan bisnesmahdollisuuksia ja innovoidaan asiakasarvoa tuottavia tuotteita ja palveluita, joita tekniikat mahdollistavat. Aalto PRO:n uudesta Data, Analytics, and AI for Professionals -koulutuksesta löydät vaihtoehdot niin tekoälyn liiketoimintamahdollisuuksien ja -haasteiden ymmärtämiseen ja ratkaisemiseen kuin tekoälypalveluiden tekniseen hyödyntämiseen ja kehittämiseen. Lue lisää

Luet nyt: Aalto Leaders' Insight: Automaattinen puheentunnistus helpottaa elämää - luvassa myös uusia liiketoiminta-mahdollisuuksia yrityksille

Tilaa parhaat palat sähköpostiisi

Aalto Leaders' Insight on kokoelma ajatuksia herätteleviä artikkeleita, podcasteja, tarinoita ja näkemyksiä johtajuudesta, liike-elämästä ja itsensä kehittämisestä. Englanninkielinen Aalto Leaders' Insight Highlights -uutiskirje lähetetään tilaajille noin kerran kuukaudessa. Tilaus on halutessasi helppo perua. Katso esimerkki.

Aalto University Executive Education Oy ja sen konserniyhtiöt voivat käyttää tietojani markkinoinnissa pitääkseen minut ajan tasalla viimeisimmistä liike-elämän keskustelunaiheista sekä ohjelmista ja auttaakseen minua edistämään uraani. Katso tietosuojapolitiikka.