2min Gadgets

Meta introduceert Spirit LM: een AI-model met meer expressieve spraakuitvoer

Meta introduceert Spirit LM: een AI-model met meer expressieve spraakuitvoer

Meta Platforms Inc. heeft een nieuw open-source multimodaal groot taalmodel onthuld, genaamd Spirit LM. Dit model kan zowel tekst als spraak verwerken en produceren, en gaat daarmee de concurrentie aan met andere krachtige AI-modellen zoals OpenAI’s GPT-4o. Het onderzoeksteam van Meta kondigde Spirit LM aan als een oplossing voor de beperkingen van bestaande AI-spraaksystemen, die vaak als robotachtig en emotieloos worden ervaren.

Spirit LM

Traditionele AI-modellen kunnen de expressieve kwaliteiten van menselijke stemmen, zoals toon en emotie, niet nauwkeurig nabootsen. Dit komt doordat ze spraak verwerken via automatische spraakherkenningssystemen, die de gesproken invoer omzetten in tekst, waarna een tekst-naar-spraakmodel wordt gebruikt. Dit proces resulteert vaak in minder natuurlijke spraakuitvoer.

Spirit LM pakt dit probleem anders aan. Het model maakt gebruik van fonetische tokens, evenals tokens voor toonhoogte en intonatie, waardoor het expressie en emotie kan toevoegen aan de spraakuitvoer. Bovendien kan het model taken leren en verbeteren over verschillende modaliteiten, waaronder automatische spraakherkenning, tekst-naar-spraak en spraakclassificatie.

Nauwkeurigheid

Dit betekent dat dit model in staat is om zowel gesproken taal nauwkeurig om te zetten in tekst, als tekst om te zetten in spraak met een menselijke, natuurlijke expressie. Het kan ook emotionele tonen in spraak identificeren en categoriseren, waardoor het bijvoorbeeld woede, verrassing en blijdschap kan herkennen en reproduceren.

Twee versies

Meta biedt twee versies van Spirit LM aan de onderzoeksgemeenschap. De basisversie, Spirit LM Base, gebruikt fonetische tokens om spraak te verwerken en te genereren. De geavanceerdere versie, Spirit LM Expressive, maakt gebruik van extra tokens voor toonhoogte en intonatie, waardoor het model emoties zoals opwinding en verdriet kan weergeven in spraak.

Volgens Meta kunnen deze modellen belangrijke toepassingen hebben in AI-assistenten, zoals klantenservicebots, waarbij een meer genuanceerde conversatie kan bijdragen aan hogere klanttevredenheid. Meta stelt niet alleen de modellen beschikbaar, maar ook de modelgewichten, code en documentatie, in de hoop dat onderzoekers verder zullen bouwen op deze innovaties.

Met Spirit LM zet Meta een belangrijke stap in de ontwikkeling van spraaktechnologie die menselijke emoties beter kan nabootsen en begrijpen.