onsdag 14 augusti 2024

72. Björn Engqvist: En fantastisk dag i maj


Till den här kortromanen hittade jag eftersom den utspelar sig i studentmiljö i Lund vid mitten av nittiotalet. Huvudpersonen och jag har en del yttre egenskaper gemensamt, för jag var också student då och där, visserligen inte i litteraturvetenskap som han, men i närliggande ämnen (ett så närliggande som att institutionen låg i samma hus som litteraturvetenskap då). Sedan skiljer vi oss också en del, för jag gick inte alls på nation eller festade på det viset han gör, men jag kan känna igen både korridorkompisar och andra bekanta i honom. Hur bra det blir för någon som inte har de referensramarna är svårt för mig att säga.

Mest värt att reflektera över är annars att det här är en AI-inläsning. Jag lyssnar färdigt mest som ett experiment (och för att boken är på bara ungefär två och en halv timme), och kan konstatera att "Anders AI", som rösten kallas, är överraskande bra, men har en bit kvar till perfektion, eller till mänsklig nivå överhuvudtaget. Se det följande som råd för kommande produktutveckling.

Som lyssnare kan man ha olika smak vad gäller inläsarens inlevelse och dramatisering ‒ det märker man om inte annat i ljudbokstjänsternas så kallade recensioner. En AI-röst dramatiserar förstås inte alls, och det kan vara helt i vissas smak. Det kan också vara mer eller mindre lyckat ‒ här kanske mindre lyckat eftersom det förekommer ganska mycket dialog, och ibland hade det varit önskvärt med större skillnad mellan personernas röster så man inte tappar bort sig i vem som pratar.

Man får kanske leva med att en AI inte kan uttala riktigt varje ord korrekt. Det här ska inte bli en errata-lista, men ni som läser här ska ändå få en uppfattning om nivån. Det är svårt att inte reta sig på att det i en berättelse som utspelar sig i studentmiljö förekommer uttalet tentán, när det handlar om den tenta huvudpersonen ska skriva respektive har skrivit. Man hade också önskat att (Södra) Esplanaden inte uttalades som om det stavades S-Plánaden. Jag föreställer mig att det hade gått att programmera en AI med rätt uttal i de här fallen.

Svårare är det kanske med ord som har två tänkbara uttal, där en mänsklig inläsare utan problem kan identifiera vilket som är rätt i sammanhanget, men en AI inte har den förståelse av innehållet som krävs. Det blir mest komiskt när "kön" uttalas ömsom med k, ömsom med tje-ljud i början. Jag tror att inläsningen har rätt ungefär hälften av gångerna, men det räcker inte riktigt.

Vad jag annars reagerar mest på vid lyssningen, och inte vänjer mig vid på hela tiden, är att AI-n inte alltid klarar av att betona rätt ord i en fras eller en sats. En egenhet för svenska är det som brukar kallas partikelverb, där ett verb tillsammans med en betonad partikel bildar en betydelsemässig enhet. För att ta ett exempel är det skillnad på "Vad tycker du om det här?" och "Tycker du om det här?". I det första fallet betonas förslagsvis "du" och "här", men i det andra fallet "om" och "här". Vi som har svenska som vårt förstaspråk tänker sällan på det, men det är en stötesten för den som lär sig språket i vuxen ålder (eller är en AI). Som sagt, det här ska inte bli en errata-lista, och den hade blivit lång, för det här är vanligt i svenska. Men ett autentiskt exempel är när någon "drar på sig byxorna", där vi människor vet att "på" ska vara betonat, medan AI-n läser med betoning på "drar" och "byxorna".

Likaså vet vi att en person som frågar "varför då?" betonar "då", och motsatsen, som man hör här, låter underlig (provläs själva, så ska ni se). Sedan finns det spridda underligheter, som att AI-n inte förstår att grupperna Cranberries och U2 ska uttalas på engelska, vilket kanske också hade gått att lära den. På några ställen verkar det dessutom som om AI-n läser en avstavad version, där det dyker upp pauser mitt i orden, som gör det svårt att avkoda vad det är man egentligen hör.

Jag kan för lite om det här för att veta om det är rimligt att tänka sig att AI-n kunde få information om åtminstone en del av de här sakerna och därmed prestera bättre. Uttalet av enskilda ljud har jag ingenting att invända mot, och sällan av enskilda ord, utan det är mest när de ska kombineras till fraser och satser som det ibland går snett. Det är en bra bit kvar för att det ska vara godtagbart, men om alternativet är att en ljudbok av den här sorten inte alls blir tillgänglig fyller en sådan här version kanske ändå en funktion. Risken eller chansen finns dessutom att vi lyssnare vänjer oss vid kvalitetsnivån.

Inga kommentarer:

Skicka en kommentar