Microsoftin uusin VALL-E ”text-to-speech” tekoäly pystyy matkimaan puhujan tunnetilaa ja jopa akustista ääni-ympäristöä. Tekoäly matkii myös puhujan äänensävyä ja kaiken tämän se tekee vain kolmen sekunnin näytteestä. Tekoälyn avulla voidaan luoda ääninäyte kirjoitetun tekstin ja ääninäytteen pohjalta.

VALL-E perustuu EnCodec-teknologiaan, jonka Meta julkaisi elokuussa 2022. Toisin kuin muut ”text-to-speech” mallit ääniaaltojen mukauttamisen sijaan VALL-E analysoi malliäänitteen, rikkoo sen osiin ja rakentaa tämän jälkeen haluttua sisältöä.

Tutkijat käyttivät VALL-E tekoäly kouluttamiseen 60000 tuntia englanninkielistä ääniaineistoa yli 7000:lta eri puhujalta Metan LIbri-Light äänikirjastosta.

Microsoft ei tule julkaisemaan tekoälyä julkiseen käyttöön. Tämä johtuu siitä, että väärinkäytön mahdollisuudet ovat korkeat kuten aikaisemmin nähdyn deepfake teknologian kanssa.

Micrsoftin julkaisemat esimerkit tekoälyn toiminnasta: VALL-E

Microsoft on investoinut voimakkaasti tekoäly-yrityksiin. Vuonna 2019 Microsoft investoi 930 miljoonaa euroa OpenAI nimiseen yritykseen ja tuoreessa raportissa puhuttiin uudesta 9.3 biljoonan euron investoinnista samaan yritykseen.

Lisätietoja:
Microsoftin tutkimusartikkeli: arxiv.org