Melko tarkalleen vuosi sitten juttelimme tekoälyä kehittävien yritysten ja tutkijoiden kanssa haasteesta. Suomenkielistä tekoälyä (esimerkiksi Onerva-botin kaltaista virtuaaliavustajaa) on vaikea kehittää koska tekoälyn ja algoritmien opettamiseksi ei ole tarjolla riittävästi suomenkielistä puheaineistoa.
Samasta syystä monet globaalit jätit, kuten Amazon tai Google, eivät kehitä puheohjauspalvelujaan (Alexa, Google Home) tarjolle suomen kielellä, ainakaan mitenkään suurella tarmolla (toki syynä on myös pieni markkina-alueemme jolle ei maksa vaivaa tulla).
Tuolloin pohdimme: entä jos lähtisimme keräämään puhedataa joukkoistuksen avulla (eng. crowdsourcing), ottaen mallia Mozillan Common Voice -projektista. Kerätään puhedataa ihmisiltä, annotoidaan ja rikastetaan sitä, jotta sitä voidaan hyödyntää tekoälyn kouluttamiseen ja suomenkielisten työvälineiden ja esimerkiksi robotiikan ratkaisuiden rakentamisessa.
Visionamme oli kerätä dataa avoimeen, kansalliseen äänirekisteriin, jota voisi hyödyntää niin julkinen sektori, yritykset kuin tutkimuslaitokset. Tämä rekisteri voisi olla käytössä myös em. globaaleille jäteille, jotta saisimme heidän kuluttajatuotteet tarjolle myös suomen kielellä. Samalla rakennettaisiin kansallista kilpailukykyä koska voisimme rakentaa nopeammin parempia suomenkielisiä tekoälysovelluksia eri teollisuuden aloille.
Pohdinta eteni tunnusteluihin eri toimijoiden kanssa, keskusteluja käytiin suuryritysten, ministeriön, Business Finlandin, IT-softatalojen ja jos jonkinlaisten instanssien kanssa. Kiinnostus oli hurjaa mutta asiat liikkuivat turhan hitaasti startup-yrityksen makuun. Tarvitsimme pikaisesti opetusdataa Onerva-bottia varten joten päätimme tarttua härkää sarvista itse.
Niimpä päätimme rakentaa maailman ensimmäisen suomenkielisen Lahjoita puhetta -alustan. Alustan, jota kautta kansalaiset voivat lahjoittaa puhettaan tekoälyn kehittämisen tarpeisiin.
Julkaisimme Lahjoita puhetta -sivuston osuvasti Kalevalan päivänä 28.2.2019. Voit tutustua sivustoon linkistä alta.
Onervan resurssit edistää asiaa olivat kuitenkin vähäiset ja tällä ponnistuksella halusimme enemmänkin tökkiä tärkeäksi kokemaamme asiaa eteenpäin ja näyttää myös isommille toimijoille, että näin tämä homma etenee kun ryhdytään vain hommiin.
Ja kyllähän ne pyörät sitten liikahtivatkin.
Keväällä hommasta otti kopin Vake ja Tekoälykiihdyttämö. Tapasimme keväällä ja alkukesästä työpajoissa, johon kokoontui suomalaisia suuryrityksiä, julkisen tahon edustajia (mm. Yle) sekä lukuisia teknologiayrittäjiä ja startupeja, jotka touhuavat puheteknologian parissa.
Keskustelimme eri toimijoiden tarpeista, pääsimme yhteisymmärrykseen, että kansallinen äänirekisteri olisi todellakin tarpeellinen. Määrittelimme alustavasti potentiaalisia äänitietolähteitä kuten Ylen aineistot, erilaiset muut äänirekisterit sekä ideoimamme Lahjoita puhetta -joukkoistus.
Kesällä käynnistyi Vaken rahoittama Suomenkielisen tekoälyn esiselvitystyö, jossa aihetta selvitettiin laajemmin, ottaen huomioon mm. lainsäädännölliset rajoitteet.
Nyt on käännetty uusi sivu kun Vaken rahoittama tekoälyselvitys (lataa pdf-dokumentti) näki päivänvalon tämän viikon tiistaina. Vaken tiedotteen voit lukea tästä.
Iso pyörä pyörii vaikkakin pieni pelko on, että tästä seuraa selvitystä selvitysten perään eikä saada mitään valmista.
Mutta iloksemme erityisesti Lahjoita Puhetta -hanke nostettiin esille yhtenä konkreettisena aiheena ja se pääsee toivottavasti kunnolla käyntiin Vaken ohjauksessa ja yhteistyössä Ylen kanssa.
Alla on muutamia Vaken Twitter-tilillä julkaisemia poimintoja tiistain julkistamistilaisuudesta.
Vaken @PiaErkinheimo esittelee seuraavia Vaken askelia suomenkielisen #tekoäly’n osalla: selvitys toimintamallista kieliresurssien keräämiseksi, vastauksia oikeudellisiin kysymyksiin sekä ”Lahjoita puhetta”-kampanja @Yleisradio kanssa luonnollisen puheen keräämiseksi. pic.twitter.com/xoRTMewrqi
— VAKE (@valtionkehitys) October 29, 2019
#puhe on tulevaisuuden palveluiden käyttöliittymä, mutta Suomi on kielialueena usein liian pieni. Laajat kielikirjastot ovat edellytys #tekoäly palveluiden kehitykselle. @paula_laine avaa Vaken tilaisuuden suomenkielisen tekoälyn esiselvityksen julkistuksesta. pic.twitter.com/V8hhhTjgV2
— VAKE (@valtionkehitys) October 29, 2019
Paljon on vielä kysymysmerkkejä, kuka tekee alustan, milloin jne.