När AI:n ljuger för sig själv – AI-hallucinationernas dolda psykologi
Vad händer när en AI inte bara har fel – utan verkar övertygad om att den har rätt? Fenomenet kallas hallucination, och det är en av de mest fascinerande och oroande egenskaperna hos moderna språkmodeller. En AI kan med säker röst citera källor som aldrig existerat, beskriva händelser som aldrig inträffat eller uppfinna fakta som låter fullt rimliga. Det handlar inte om lögner i traditionell mening – maskinen har inga avsikter. Men resultatet kan bli lika vilseledande. Den här artikeln utforskar vad som faktiskt sker under ytan när AI:n ”ljuger” för sig själv.
När modellen fyller i luckorna – så uppstår en hallucination
Språkmodeller som ChatGPT, Claude och Gemini är i grunden sannolikhetsmaskiner. De genererar text ord för ord, eller rättare sagt token för token, utifrån vad som statistiskt sett är mest troligt att komma härnäst. Det låter enkelt, men det döljer en fundamental egenskap som ofta missförstås: modellen ”vet” ingenting i traditionell mening. Den har inga minnen, ingen förståelse och ingen förmåga att skilja på sant och falskt. Det den har är mönster – miljarder mönster inlärda från enorma mängder text.
Sannolikhet som sanning
När en modell tränas på internet, böcker och artiklar absorberar den inte fakta. Den absorberar språkliga samband. Den lär sig att ”Eiffeltornet” ofta följs av ”Paris”, att ”Einstein” ofta kopplas till ”relativitetsteorin” och att akademiska texter tenderar att innehålla fotnoter och referenser. Problemet uppstår i gränslandet – när modellen möter en fråga där träningsdata är tunn, motstridig eller saknas helt. Då gör den det enda den kan: den fortsätter att generera text som låter trovärdig.
Det är i det ögonblicket hallucination föds. Inte som ett medvetet val, utan som ett strukturellt utfall av hur modellen fungerar.

Luckan som måste fyllas
En av de vanligaste hallucination-situationerna uppstår när användaren ber om något specifikt och verifierbart – en källhänvisning, ett citat, ett datum, ett namn. Modellen har inget register att slå upp i. Den har ingen databas med kontrollerade fakta. Det den har är en stark tendens att producera text som matchar det förväntade formatet.
Be en språkmodell om en akademisk källa och den levererar något som ser ut som en källa: rätt format, rimligt ämne, trovärdigt författarnamn. Men titeln kan vara påhittad, tidskriften kan vara fejkad och DOI-numret leder ingenstans. Modellen har inte ljugit i meningen att den velat vilseleda – den har helt enkelt gjort det den är tränad att göra: producera välformaterad, sammanhängande text.
Tre vanliga mönster
Hallucinationer följer ofta igenkännbara mönster som det är värt att känna till:
- Falska referenser: källan ser verklig ut men existerar inte.
- Sammanslagning av fakta: detaljer från olika verkliga händelser blandas ihop till en ny, påhittad händelse.
- Övertolkning av frågan: modellen antar att frågeställaren vet vad de pratar om och bekräftar premisser som aldrig borde ha bekräftats.
Det finns ingen enkel teknisk fix för detta. Problemet sitter inte i en bugg som kan patcha:as – det sitter i arkitekturen.
Säker på fel svar – varför AI:n inte vet vad den inte vet
En människa som är osäker signalerar det ofta. Vi tvekar, tillägger ”jag tror” eller säger rakt ut att vi inte vet. Språkmodeller saknar den förmågan i sin grundform. De genererar text med samma flyt och samma säkra ton oavsett om de återger ett välbelagt faktum eller hittar på något från grunden. Det är en egenskap som gör dem både imponerande och farliga.
Kalibrering och självkännedom
Inom statistik och maskininlärning talar man om kalibrering – ett systems förmåga att matcha sin uttryckta säkerhet mot faktisk träffsäkerhet. En väl kalibrerad modell som säger sig vara 90 procent säker bör ha rätt ungefär 90 procent av gångerna. Stora språkmodeller är notoriskt dåligt kalibrerade, inte för att de är slarviga, utan för att de inte har något internt säkerhetsmått att rapportera ifrån. Modellen har ingen inre röst som viskar ”det här vet jag inte säkert.” Den har bara nästa token.
Dunning-Kruger i digital form
Det finns en ironisk parallell till det psykologiska fenomenet Dunning-Kruger-effekten, där människor med begränsad kunskap inom ett område tenderar att överskatta sin förmåga. En språkmodell uppvisar något liknande – men utan ego, utan ångest och utan möjlighet till insikt. Den är inte arrogant. Den är strukturellt omedveten om sina egna gränser.
Det gör problemet svårare att hantera än om det vore ett karaktärsdrag. Man kan inte övertala en modell att bli mer ödmjuk. Man kan träna den att oftare producera fraser som ”jag är inte säker” eller ”du bör verifiera detta”, men det löser inte grundproblemet – det maskerar det.

Konfidens utan grund
Nyare modeller har blivit bättre på att uttrycka osäkerhet i text, delvis tack vare träning med mänsklig feedback där ödmjukhet belönats. Men det är en beteendeförändring, inte en kognitiv en. Modellen har lärt sig att i vissa situationer skriva ”detta är jag osäker på.” Den har inte lärt sig att faktiskt vara osäker på ett meningsfullt sätt.
Skillnaden är avgörande. En modell som säger ”jag kan ha fel här” men ändå presenterar ett fabricerat faktum med övertygande detaljer har inte löst problemet. Den har bara lagt till en ansvarsfriskrivning.
Vad som faktiskt hjälper
Forskningen pekar mot ett antal tekniska ansatser som på sikt kan förbättra situationen. Retrieval-augmented generation, förkortat RAG, är en metod där modellen kopplas till en extern kunskapsbas och tvingas hämta information därifrån snarare än att generera den fritt. Det minskar hallucinationer avsevärt i många tillämpningar, men löser inte problemet helt – modellen kan fortfarande misstolka eller felcitera det den hämtat.
Från chattbot till vittne – riskerna när vi litar för mycket på AI
Det mest oroande med AI-hallucinationer är inte att de förekommer. Det är att vi, trots att vi vet att de förekommer, fortsätter att lita på svaren. Psykologin bakom det är välkänd: auktoritativa format skapar tillit. Välskriven text, korrekt grammatik och ett självsäkert tonläge signalerar kompetens – oavsett om avsändaren är människa eller maskin.
Tillitens mekanik
Det finns ett begrepp inom kognitionsvetenskap som kallas automation bias – tendensen att lita mer på automatiserade system än på mänskliga bedömningar, även när systemen har fel. Det har dokumenterats inom flygledning, medicinsk diagnostik och juridik. Nu gör det entré i vardagen, när miljontals människor dagligen använder AI-verktyg för att söka information, skriva texter och fatta beslut.
Problemet förstärks av att AI-genererat innehåll ser professionellt ut. Det är välstrukturerat, grammatiskt korrekt och anpassat till frågeställarens förväntade format. Det triggar precis de signaler vi lärt oss associera med tillförlitlighet.
Verkliga konsekvenser
Hallucinationer har redan fått dokumenterade konsekvenser i verkliga sammanhang. Advokater har skickat in stämningsansökningar med påhittade rättsfall som citerats av AI. Journalister har publicerat felaktig information som baserats på AI-genererade ”fakta.” Studenter har lämnat in uppsatser med fabricerade källförteckningar.
Det gemensamma för dessa fall är inte oaktsamhet – det är övertillit. Användarna visste att AI kunde ha fel, men antog att felen skulle vara uppenbara. Ofta är de inte det.

När systemen sätts i system
En särskild risk uppstår när språkmodeller integreras i större system – kundtjänst, juridisk granskning, medicinsk rådgivning – utan tillräckliga kontrollmekanismer. Då är det inte längre en enskild användare som riskerar att luras av ett falskt citat. Det är ett flöde av beslut som baseras på information som aldrig borde ha genererats.
Ansvaret som inte kan automatiseras
Det finns ingen teknisk lösning som gör AI-system helt tillförlitliga inom den närmaste framtiden. Det innebär att ansvaret faller tillbaka på användaren – och på de organisationer som väljer att implementera systemen. Källkritik, verifiering och en grundläggande förståelse för hur modellerna fungerar är inte längre valfria kompetenser. De är nödvändiga.
Att förstå att en AI inte ljuger i moralisk mening gör det paradoxalt nog viktigare att ifrågasätta vad den säger. En lögnare har ett syfte. En hallucinerande modell har ingen agenda – och just därför är den svårare att genomskåda.