Vilka forskningsresultat kan vi lita på?

Av Anna Dreber Almenberg & Magnus Johannesson

En hög andel av alla publicerade resultat är helt enkelt inte sanna.

Den näst mest sedda TED-presentationen med fler än fyrtio miljoner visningar handlar om power posing. Den bygger på en studie där fyrtiotvå kvinnor och män slumpades till att inta olika kroppsliga positioner under några minuter. Resultaten var häpnadsväckande. Mer »maktfulla» positioner ledde till högre halter av det manliga könshormonet testosteron, lägre halter av stresshormonet kortisol, ökat risktagande och ökat självförtroende. Helt enkelt fantastiska förändringar i hormoner och beteende med ytterst små medel! Studien publicerades i den vetenskapliga topptidskriften Psychological Science år 2010.

Fem år senare publicerade samma tidskrift vår studie med tvåhundra deltagare där vi i princip inte finner något stöd alls för power posing. Fler misslyckade replikationer har sedan dess publicerats. Vad var det som gick snett med ursprungsartikeln, och är det här symptomatiskt för något större?

EN »REPLIKATIONSKRIS»
Forskare inom många vetenskaper är i dag medvetna om att en betydande andel av de publicerade forskningsresultaten inte håller när studierna upprepas på nya och ofta större urval av försökspersoner. Det pågår helt enkelt en »replikationskris».

Det finns många anledningar till att falska positiva forskningsresultat publiceras i den vetenskapliga litteraturen (att ett resultat är »positivt» innebär att någon form av skillnad eller effekt har kunnat uppmätas). Forskare kan exempelvis avsiktligt förfalska data. Den ökända studien av Andrew Wakefield och hans medarbetare från 1998 i The Lancet är ett sådant exempel. I artikeln hävdades att autism hos barn kan orsakas av vanliga vaccinationer. Trots att artikeln dragits tillbaka och är totalt misskrediterad, fortsätter tyvärr de falska resultaten att göra föräldrar vaccinrädda.

Akademiska bedragare som Wakefield är dock knappast huvudanledningen till falska resultat. En mängd andra omständigheter spelar också roll. En viktig faktor är studiens storlek, det vill säga hur många deltagare som ingår. Stora studier med många deltagare har större sannolikhet att identifiera sanna positiva resultat, något som brukar kallas hög statistisk styrka. För en liten studie med låg statistisk styrka är det större risk än med en stor studie att ett statistiskt signifikant resultat i själva verket är ett falskt positivt utfall.

En annan viktig faktor är att mycket överraskande forskningsresultat ska tas med en stor nypa salt innan de har replikerats i andra studier. Det talas också mycket om publikationsbias, där nollresultat, alltså studier som inte hittat något statistiskt signifikant, är svårare att få publicerade än överraskande positiva resultat.

Men fram tills nyligen har det pratats alltför lite om de olika frihetsgrader som finns inom forskningen. Man kan visserligen ha en specifik hypotes, men så länge man inte i förväg har beskrivit exakt hur den ska testas finns det vissa frihetsgrader som kan leda till resultat som ser ut att vara statistiskt signifikanta men som egentligen är meningslösa.

Anta att vi är intresserade av huruvida altruism påverkas av könet på den altruistiska handlingens mottagare, beroende på om aktören själv är man eller kvinna. I syfte att kunna rapportera ett statistiskt signifikant resultat, som brukar definieras som ett så kallat p-värde under 5 procent, kan man testa att inkludera eller exkludera olika kontrollvariabler som ålder, boendeort och/eller socioekonomisk bakgrund. P-värdet anger sannolikheten att den observerade effekten beror på slumpen om det inte finns någon effekt, och genom att göra flera olika tester ökar sannolikheten för att något av testen är statistiskt signifikant även om det inte finns någon effekt. En viss kombination av variabler ger kanske den eftersökta statistiska signifikansen. Det är då lätt att intala sig själv att den statistiska modell som man landat i är den korrekta, och det blir ofta den som presenteras för omvärlden, trots att man i själva verket har »p-hackat» genom att testa en mängd olika varianter som inte redovisas.

TRÄDGÅRDEN MED GRENANDE STIGAR
Den vanligaste frihetsgraden är något som många inte ens inser är ett problem. De amerikanska statistikerna och vetenskapsteoretikerna Andrew Gelman och Eric Loken kallar detta fenomen the garden of forking paths, »trädgården med stigarna som delar sig». I termer av altruismhypotesen som nämndes ovan: Analysen kanske visar att både kvinnor och män är mer altruistiska mot kvinnor, vilket man då skulle kunna förklara med att båda könen ser kvinnor som rådvilla varelser som behöver hjälp. Eller om resultatet i stället blir att både kvinnor och män är mer altruistiska mot män, vilket då skulle kunna förklaras med att båda könen upprätthåller en patriarkal maktordning. Eller att vi finner att kvinnor och män reagerar olika på mottagarens kön, vilket kan förklaras på ett tredje sätt; eller att äldre individer beter sig annorlunda än yngre, eller att bara äldre kvinnor eller äldre män beter sig annorlunda och så vidare. Och vilket slags statistiskt test ska man göra – det finns ett stort antal att välja emellan? Med alla dessa undergrupper som kan analyseras och med så många val finns det i princip oändligt många potentiella stigar man kan vandra på, trots att man anser sig testa en hypotes. Och när man väl har valt en stig beroende på vad data visar, blir p-värdet meningslöst.

Dessa frihetsgrader förklarar sannolikt en hel del av de falska resultat som man ser på olika vetenskapliga fält. Vi har medverkat i två stora replikationsprojekt och genomför nu fler. Inom ämnet psykologi var vi 270 forskare som samarbetade om att upprepa hundra olika studier som var publicerade i tre av ämnets topptidskrifter. Vi fann här att endast en tredjedel av studiernas resultat kunde upprepas, det vill säga gav samma positiva utfall som den ursprungligen publicerade undersökningen.

Tillsammans med våra medförfattare gjorde vi också en liknande övning inom experimentell ekonomi, där vi tog arton studier från två topptidskrifter inom nationalekonomi. Här fann vi att resultaten i elva av dem, drygt sextio procent, kunde upprepas.

SKÄL ATT VARA FÖRHOPPNINGSFULL
I dessa studier har vi även undersökt huruvida forskare redan innan replikationsutfallen blir kända kan gissa sig till vilka resultat som håller och vilka som inte gör det. Vi har använt enkäter och även så kallade prognosmarknader, vilka fungerar som ett slags vadslagning. På dessa marknader kan man köpa och sälja kontrakt, som är värda en dollar om studiens resultat kan replikeras och noll dollar annars. Priset på kontraktet kan tolkas som den sannolikhet som marknaden tillskriver att studiens resultat kommer att kunna upprepas. Vi fann att enkätsvar och prognosmarknader i viss mån kan förutse vilka resultat vi kan lita på.

Trots den ganska bedrövliga situationen med falska resultat finns det viss anledning att vara förhoppningsfull inför framtiden. Medvetenheten om problemen med frihetsgraderna ökar. Att tillkännage pre-analysis plans, där forskaren i förväg skriver ner exakt hur olika hypoteser ska testas, blir vanligare inom olika fält och löser delvis problemen med frihetsgrader. Då blir det inte möjligt att konstruera sina hypoteser först när data redan samlats in.

En annan kanske uppenbar insikt är att vi ska vara försiktiga med hur mycket vi lär oss från en enstaka liten studie. I en av våra undersökningar visar vi att sannolikheten för att en hypotes som testas verkligen är sann ökar dramatiskt efter en framgångsrik upprepning. Givet vikten av replikationer kan man då fråga sig om forskare har tillräckligt med incitament för att genomföra replikationer, liksom hur detta ska balanseras mot den viktiga jakten på nya och oväntade resultat som faktiskt är sanna.

Ta del av samtalet! Bli prenumerant och
få Sans direkt hem i brevlådan.

Böcker