Fritt uttalslexikon förbättrar uppläsning med talsyntes

Sedan i mars 2025 finns ett nytt uttalslexikon för talsyntes som är fritt att använda för alla. Lexikonet har fått namnet Braxen och innehåller information om hur ord och namn uttalas. Braxen består av omkring 850 000 ord och namn, och utökas ständigt för att hållas aktuellt.
MTM och Språkbanken Tal gör uttalslexikonet Braxen fritt tillgängligt. Lexikonet ger företag, forskare och individer rätt att använda, bearbeta och dela det. Braxen består av cirka 700 000 allmänna ord och 150 000 namn, och innehåller information om bland annat uttal och ordklass.
– Braxen är unik eftersom lexikonet innehåller många svåra ord och uttal, som facktermer och ord och namn på andra språk än svenska, och för att det hela tiden uppdateras. Braxen kan till exempel bidra till att en e-bok blir mer tillgänglig när uttalen används för att instruera en talsyntesröst om hur ett svårt ord ska uttalas, säger Christina Tånnander på MTM, som arbetat med lexikonet sedan 2006.
– Braxen är en värdefull resurs både för aktörer som förlag, tidningar och universitet i deras arbete med att skapa bättre tillgänglig text med hjälp av talsyntes och för svensk talforskning och talteknologisk forskning, säger Jens Edlund, föreståndare för Språkbanken Tal på Kungliga Tekniska Högskolan (KTH).
Vad är Braxen?
MTM har producerat uppläst text med text-till-talsyntes sedan 2006 och anpassar främst högskoleböcker och nyhetstexter. Dessa texter är ofta mer komplexa än till exempel skönlitteratur och innehåller många facktermer och utländska egennamn som en traditionell talsyntesröst ofta inte uttalar korrekt. Därför arbetar MTM med egna uttalslexikon för att instruera talsyntesröster om hur ord och namn ska uttalas. Lexikonet uppdateras regelbundet med nya nyhetsord som namn på idrottsstjärnor eller geografiska platser, samt facktermer från olika ämnesområden som medicin och juridik.
Hur använder man Braxen?
Braxen kan användas för att instruera en talsyntesröst om uttalet för specifika ord. Hur detta görs beror på vilket talsyntessystem man använder. Vissa system stödjer användarlexikon där uttalsinformation hämtas automatiskt, och många system hanterar standardformatet Speech Synthesis Markup Language (SSML), där uttalsinformation infogas direkt i texten.
Samtidigt utgör Braxen en mer allmän resurs för talforskning. Med sitt stora antal validerade uttal kan den bidra till många typer av undersökningar och språkteknologisk utveckling där en uttalsangivelse kan vara lika viktigt eller viktigare än stavningen.
Vilken typ av användare kan ha nytta av Braxen?
• Aktörer som skapar texter med talsyntes, som förlag, tidningar, universitet och högskolor.
• Individer som själva kan konfigurera sina talsyntesröster så att de använder uttalsinformation från Braxen för en förbättrad lyssningsupplevelse.
• Talforskare inom t.ex. logopedi, fonetik, dialektforskning.
• Talteknologisk forskning och utveckling inom (t.ex. talad människa-dator-interaktion, tillgänglighet, utbildning, underhållning, och vård/hälsa.
Rekommenderad läsning
Nya talsyntesröster introduceras i Legimus
13 mar 2025
MTM börjar producera viss kurslitteratur med nya talsyntesröster. På sikt ska det leda till att talböckerna produceras snabbare och med högre kvalitet.
Komplext att studera genom lyssningsläsning
17 dec 2024
Att studera genom lyssningsläsning är ofta betydligt mer krävande än att läsa sin kurslitteratur med ögonen. Det menar forskaren Anna Lundh, som genomfört flera studier med studenter som lyssningsläser.
