Varför?

Information presenteras ofta som samband, det vill säga korrelationer mellan två eller fler variabler. Men det naturliga för människan är snarare att tänka i termer av orsak och verkan.

Av Anders Karlqvist

Kan maskiner tänka? frågade sig den brittiske matematikern Alan Turing (1912–54) i en artikel i tidskriften Mind år 1950. Den österrikiske filosofen Ludwig Wittgenstein (1889–1951) ansåg idén absurd, vilket han lät Turing förstå när denne bevistade Wittgensteins föreläsningar i filosofi i Cambridge.

I dag, efter en revolutionerande utveckling inom datorområdet och artificiell intelligens, AI, är svaret på frågan mindre självklart. Turing själv angav ett test för maskiners intelligens: Kan vi avgöra, när vi ställer frågor, om det sitter en människa eller en dator i andra änden och svarar?

Med den enorma mängd data och beräkningskapacitet som numera är tillgänglig har datorerna erövrat alltmer av mänsklig kognitiv förmåga, typiskt nog främst inom områden som är styrda av regler, exempelvis schack. Genom att ge maskinerna förmåga att lära av sina erfarenheter och förbättra sina egna regler bortom de algoritmer som initialt var inprogrammerade, tycks den artificiella intelligensen ha kommit närmare mänsklig tankekapacitet.

Däremot tycks datorerna sakna en viss form av kognitiv förmåga som är typiskt mänsklig och som redan ett treårigt barn har på sin repertoar, nämligen att kunna fantisera och ställa frågor som: Varför är det på detta viset, vad händer om, tänk om det vore så att? Den israelisk–amerikanske AI–forskaren Judea Pearl (1936–) har pekat på hur sådana frågor har hamnat i skymundan i en vetenskaplig diskussion som alltmer kommit att handla om data, information och att mäta, inspirerad av de enorma tekniska framstegen inom just mätmetoder och hantering av allt större datamängder.

STATISTIK GER SVAREN

Dataanalys har kommit att bli ett av vår tids främsta redskap, och statistik är den vetenskap som levererar svaren. Tilltron till statistik och sannolikhetsberäkningar är dock bedräglig, menar Judea Pearl i sin The book of why. Han är kritisk mot en vetenskapssyn som hävdar att meningsfulla utsagor endast kan baseras på observationer och fullständigt beskrivas med korrelationer. Idén om orsak och verkan torde vara mer fundamental för vårt sätt att tänka än sannolikheter. Mänskligt tänkande och intuition är organiserade kring kausala samband och inte statistiska relationer. Vi förstår detta intuitivt långt innan vi har ett språk och har tillägnat oss ett matematiskt tänkesätt.

Statistisk regressionsanalys besvarar inga frågor om vad som orsakar vad. Korrelation kan ge uppslag till hypoteser om orsakssamband, men frågor om kausala relationer kan aldrig besvaras utifrån enbart observationsdata. Data mining kan vara ett sätt att söka intressanta mönster, men data behöver tolkas och för det krävs hypoteser och modeller som i grunden är subjektivt grundade. Däremot har inflytelserika statistiker som britten Karl Pearson (1857–1936), liksom andra positivistiskt orienterade forskare, hävdat att processer i världen (alltså utanför oss själva) endast kan beskrivas på ett vetenskapligt meningsfullt sätt med hjälp av korrelationer. Orsakssamband, som är en produkt av våra tankar, kan inte ges vetenskaplig status.

Likafullt är behovet av och förmågan att ge svar på frågan Varför? av stor praktisk betydelse. Det saknas en vetenskaplig begreppsapparat för att hantera orsakssamband, menar Judea Pearl. Utmaningen är att kombinera kunskaper som bygger på statistiska data med föreställningar om kausala relationer. Risken är annars att vi drar förhastade slutsatser om orsak och verkan utan att riktigt förstå vad de statistiska sambanden betyder.

Ett typiskt exempel handlar om bedömning av sambanden mellan sjukdom och medicinska tester, där en svårighet är att kunna bedöma sannolikheter »baklänges», ett tankesprång som är svårt att ta om man inte är mentalt förberedd! Sannolikheten för att test visar positivt för sjukdom är inte densamma som att sjukdom leder till positivt test. Hur det hänger ihop har utretts på ett utmärkt sätt av Uppsalamatematikern Allan Gut i Sans 1•2017.

Följande räkneexempel om risker vid mässlingsvaccination, hämtat från Pearl, visar hur sannolikheter kan strida mot ett intuitivt sätt att tänka. Antag att av en miljon barn vaccineras 99 procent, det vill säga 990 000. Av dem får 9 900 en negativ reaktion, varav 99 barn dör. Av de 10 000 som inte vaccinerades får 200 mässling och 40 dör. Alltså dör fler av vaccinationen än av mässling. Ska man då vaccinera? För att besvara den frågan måste man resonera kontrafaktiskt. Alltså, vad skulle hända om 0 procent av barnen vaccinerades? Jo, det skulle kosta betydligt fler barn livet. Just förmågan att tänka på det sättet är en av de utmaningar som AI måste kunna hantera för att bemöta Wittgensteins kritik av Turings maskin.

Bayesiansk statistik är ett verktyg för att uppdatera sannolikhetsuppskattningar. En a prioriuppskattning plus ny evidens ger möjlighet att göra en uppdaterad (och förhoppningsvis bättre) uppskattning av sannolikheten för ett visst utfall. Vi kan ställa frågan: Hur mycket evidens krävs för att övertyga oss om att något som vi anser osannolikt faktiskt har inträffat eller kan inträffa? Frågeställningar av det slaget är ju i högsta grad relevanta för ställningstaganden och beslut inom exempelvis sjukvården, men också på många andra områden. Sambanden mellan klimatförändring och värmeböljan sommaren 2018 är ett närliggande exempel.

En central fråga är att avgöra vilka faktorer som ska ingå i analysen och vilka som är irrelevanta. Sådana överväganden kräver att man introducerar en orsakslogik som inte kan härledas ur data. Det handlar således om mer eller mindre subjektiva hypoteser. Eftersom vår intuition och slutledning bygger på orsakslogik, medan datasamband bygger på sannolikhetskalkyl finns många fallgropar att ta hänsyn till.

Orsak–verkan kan enklast åskådliggöras grafiskt: A B (A orsakar B).

Med tre noder kan vi särskilja några typfall:

A B C Exempel: eld rök larm. B förmedlar orsakssambandet mellan A och C.
A B C Här fungerar B som en gemensam nämnare. Exempel skostorlek ålder läsförmåga. C och A är oberoende av varandra, under villkor att värdet på B är givet.
A B C B är i detta fall en faktor där orsakssambanden kolliderar. Vi kan tänka oss att vi i vår bekantskapskrets gärna umgås med dem som är smarta (A) och/eller attraktiva (C). Från detta urval skapar vi oss en uppfattning om att vara smart och att vara attraktiv kan vara ett antingen–eller-förhållande och därmed negativt korrelerade. Vi finner ett samband mellan A och C som är en illusion, därför att vi i vårt umgänge har bortsett från personer som är varken smarta eller attraktiva.

Det är lätt att se hur dessa diagram kan kompliceras och hur kritiskt det är vilka samband om orsak och verkan som introduceras i analysen och hur de tolkas.

Är det hälsosamt att promenera? »Ja», skulle vi nog svara och även få stöd av data på individnivå. Men ser vi på befolkningen i stort blir det statistiska sambandet negativt. Det finns ett positivt samband för varje åldersgrupp. Men fler äldre promenerar, så sambandet mellan ålder och vikande hälsa slår igenom.

INTUITIVT ÖVERRASKANDE

Det finns situationer där data för en grupp kan visa negativt resultat och likaledes negativt för en annan grupp, men som blir positivt för båda grupperna sammantaget. Följande (fiktiva) exempel illustrerar detta.

Man vill undersöka sambandet mellan fysisk träning och studieresultat hos skolelever. Eleverna får själva välja om de vill träna eller inte, och utfallet blir följande:

För flickor visar det sig att det är gynnsammare att inte träna (19/1 är större än 37/3). Samma slutsats för pojkar. Men totalt sett är sambandet positivt! Det är intuitivt överraskande och beror på att A/B>a/b och C/D>c/d inte medför att (A+C)/(B+D)>(a+c)/(b+d).

Denna logiska kullerbytta är känd som Simpsons paradox eller dålig–dålig–bra-paradoxen. Matematiken tycks strida mot det sunda förnuftet. Hur hamnar man i denna fälla, som faktiskt kan leda till felslut med praktiska konsekvenser? Det hela beror på att när vi söker efter det kausala sambandet mellan fysisk träning och studieresultat har vi bortsett från en förklarande faktor, nämligen hur urvalet skett. Eftersom pojkar och flickor själva har fått välja om de vill träna eller inte, blir resultatet missvisande.

Liknande exempel, med verklighetsanknytning, kan hämtas från den medicinska världen: Två olika sjukdomar, som var för sig inte motiverar att en person läggs in på sjukhus, är föremål för epidemiologiska studier. Data från patienter visar en stark korrelation mellan att ha den ena sjukdomen och att också lida av den andra. Dessa data stämmer dock inte med befolkningen i stort, där man inte finner ett sådant samband! Paradoxen ligger i ett snedvridet urval av personer, nämligen att hänsyn är tagen endast till dem som har den förstnämnda sjukdomen.

Att sannolikhetsresonemang inte alltid sammanfaller med logiska slutledningar om orsaker skapar således paradoxer som är mer eller mindre svåra att genomskåda. Ett klassiskt huvudbry gav upphov till en mindre folkstorm i USA när det presenterades (och löstes) av den amerikanske statistikern Steve Selvin (1941–) i tidskriften American Statistician 1975. Gåtan kallas Monty Hallproblemet, efter en programledare för en tv-show där de tävlande skulle göra enkla val och kunde vinna fina priser. Anta att du ska välja mellan en av tre stängda dörrar, där det bakom en av dem finns en bil att vinna. Du väljer exempelvis dörr 1. Programledaren, som kan det rätta svaret, öppnar då dörr 2. Där står ingen bil, utan en gammal get. Ska du i det läget byta till dörr 3? Svaret är ja, du fördubblar faktiskt din sannolikhet att vinna.

Överraskande nog var många läsare oförmögna att ta till sig det rätta svaret. Problemet är att kunna beakta inte bara data (att en dörr öppnades av programledaren), utan även hur data genereras, det vill säga spelets uppläggning. Om reglerna ändras så att programledaren öppnar en dörr utan att själv veta vad som finns där bakom, så spelar det ingen roll om du väljer att byta eller inte (om programledaren då råkar öppna dörren med bilen är naturligtvis fortsättningen ointressant). Sensmoralen är att vi blandar samman orsakssamband med sannolikheter. Korrelation utan orsak strider mot vårt sunda förnuft. Fenomenet påminner om de kognitiva misstag som vi gör när vi betraktar en optisk illusion eller blir lurade av magiska konster.

Med enkla pildiagram som byggstenar kan komplicerade fall analyseras bättre och därmed rätt frågor ställas. Det ger också möjlighet att klargöra hur orsakssamband ger logiska förklaringar som inte återspeglas i sannolikhetsresonemang. Det finns, som vi sett, många exempel på sådana paradoxala samband.

Steget från att observera till att handla och i sista hand till att föreställa sig och fantisera kräver att man kan tänka i termer av orsak och verkan. För att förstå måste man kunna bryta mot regler.

GÖR EXPERIMENT!

För att komma underfund med kausala samband är det således inte tillräckligt att bara anlysera data. Man måste kunna manipulera och på olika sätt påverka det system som man studerar. Att handla, att göra experiment, hör till vetenskapens standardarsenal av verktyg. Där ingår fiffigheter som att utnyttja kontrollgrupper, ta hänsyn till effekter av föremätningar och att slumpa fram exempelvis försökspersoner eller medicinska behandlingar. När detta visar sig praktiskt eller etiskt ogenomförbart är man hänvisad till att ersätta studieobjekten med något som liknar det man är intresserad av, som försöksdjur. I fall där inte heller det är möjligt är man hänvisad till att simulera, och där är datormodeller det hjälpmedel som ligger närmast till hands.

Här kompliceras frågan om orsak och verkan ytterligare, då även modellens realism måste bedömas kritiskt. Hur det globala klimatet hänger samman med mänskliga aktiviteter blir i det perspektivet ett mer utmanande problem att ta ställning till än exempelvis sambandet mellan rökning och cancer (även om också det sambandet på sin tid skapade många osäkerheter och kontroverser).

I möjligheten att påverka ligger också möjligheten att ifrågasätta fakta, att föreställa sig vad som kunde ha varit annorlunda och därmed också se kopplingen mellan att tänka sig förklaringar till vad som sker och skulle kunna ske och att kunna planera. Den israeliske historikern Yuval Noah Harari (1976–) har i sina böcker Sapiens och Homo Deus pekat på människans unika förmåga att fantisera och föreställa sig icke-existerande ting. När vi återknyter till utvecklingen av AI, så är det en egenskap som ligger i frontlinjen mellan det mänskliga och det artificiella – att vara kreativ. Datortekniken har gett oss tillgång till allt större mängder av data. Men för att inte gå bort oss i denna störtflod av information som sköljer över oss, måste vi hålla reda på grundläggande frågor om varför och vara öppna för det oväntade: »Jag hade väntat mig en överraskning, men det inträffade inte, så jag blev så mycket överraskad.» (Ludwig Wittgenstein)

Anders Karlqvist var länge chef för Polarforskningssekretariatet. Docent i systemanalys, f.d. adj. professor vid Linköpings universitet, Mittuniversitetet, Umeå universitet och KTH.

The book of why: The new science of cause and effect
Av Judea Pearl (med Dana MacKenzie)
Basic Books 2018