P-värden och statistisk signifikans 8


I studier så brukar man presentera resultat och berätta om de var ”statistiskt signifikanta”, samt ge ett p-värde.

Vi vill kanske veta om substansen A har bättre verkan mot pollenallergi än dagens mediciner. Då rekryterar vi ett antal pollenallergiker till en studie, och så lottar vi dem till två grupper. Interventionsgruppen får substans A och kontrollgruppen får en medicin som är vanlig idag. Efter att de tagit preparaten ett tag så utvärderar vi hur väl de har fungerat. Sen kan vi se om A fungerade bättre, sämre eller lika bra som symptomlindring jämfört med standardbehandlingen, och vi får fram något värde på det. Säg att symptomlindringen var 20% bättre med substans A jämfört med standardpreparatet. Vi får i analysen fram ett p-värde som är 0,047, och kan därmed skriva en artikel och berätta om att vi har statistiskt signifikant (p<0,05) bättre symptomlindring med vårt nya preparat.

Många missförstår innebörden av statistisk signifikans och p-värdet, och jag har också gjort det länge. Jag har nått viss upplysning genom att läsa DC’s improbable science, här och framför allt här.

När någon förklarar p-värden så får man ofta en förklaring i stil med ”Ett litet p-värde betyder att risken är liten att korrelationen beror på slumpen.” Denna förklaring är i princip inte helt fel – men den förleder oss att tro att p-värdet är en siffra på risken att korrelationen uppstått av en slump, givet de data vi har.

Definitionen på ett p-värde är:

Sannolikheten att erhålla det resultat vi fått eller ännu mer extremt, givet att nollhypotesen är sann.

Nollhypotesen, vad är det då? Det är antagandet att vi inte har någon verklig effekt, att det bara är slump som inverkar. Så om vi går tillbaka till vårt exempel så berättar p-värdet hur sannolikt det är att vi skulle få det resultat vi fått eller något ännu mer extremt, om vi gett alla allergikerna standardmedicineringen. Men det har vi ju inte gjort. P-värdet säger inget alls om hur sannolikt det är att det finns en verklig skillnad i effekt, givet de data vi har. Trist, eller hur? För det är ju detta som åtminstone jag oftast är intresserad av. Det känns spontant som om det är nästan samma sak, men vi ska inte låta oss luras av vår intuition när det handlar om statistik.

För att räkna ut hur stor sannolikheten är att vi får ett statistiskt signifikant resultat trots att preparatet inte hade någon verklig effekt, så behöver vi både gissa och veta mer. Vi måste gissa hur stor chansen är att det finns en verklig effekt. Säg att den är 20%. Och så måste vi veta hur stor statistisk ”power” vår studie har, dvs hur stor chansen är att vi får ett statistiskt signifikant resultat om det finns en verklig effekt. Säg att vi har en studie med ganska många försökspersoner, och en ”power” på 80%.

1000 tester → 200 verklig effekt → 80% positiva – 160 sanna positiva test

1000 tester → 200 verklig effekt → 20% negativa – 40 falska negativa test

1000 tester → 800 ingen effekt  → signifikansnivå 0,05 – 40 falska positiva test

1000 tester → 800 ingen effekt  → signifikansnivå 0,05 – 760 sanna negativa test

Man ser här att vi vid ett signifikant resultat har en risk på 40/200 = 20% att resultatet är falskt positivt. Detta beror mycket på vår gissning på hur stor chansen är att vi har en verklig effekt. Om vi gör om samma räkneövning med chansen 50% till verklig effekt, så ser restultatet ut såhär:

1000 tester → 500 verklig effekt → 80% positiva – 400 sanna positiva test

1000 tester → 500 verklig effekt → 20% negativa – 100 falska negativa test

1000 tester → 500 ingen effekt → signifikansnivå 0,05 – 25 falska positiva test

1000 tester → 500 ingen effekt → signifikansnivå 0,05 – 475 sanna negativa test

Vi har en risk för falskt positivt resultat på 25/425, vilket blir ca 6%, ganska nära de 5% som vi kanske förväntat oss. Så slutsatsen är att risken att vårt resultat är falskt beror mycket på hur troligt det är att vi har en effekt. Forskarna som studerar något är antagligen benägna att tro att det finns en effekt, oavsett hur sannolikt det verkligen är.

Om vi sedan tittar på korrelationer där p-värdet ligger nära 0,05, så är risken betydligt högre än vad våra exempel här ger. Även för tester med power på 0,8 och en chans för verklig effekt på 50% så är risken för falskt positivt resultat 26% vid p-värden mellan 0,045 och 0,05 enligt Colquhoun. Om chansen att vi har en verklig effekt sjunker till 10% så ökar risken för falskt positivt resultat i det här spannet till hela 76%. Det här kan ju förklara hur vetenskapliga studier ofta kan komma till så oväntade slutsatser som kan basuneras ut med stora bokstäver i kvällspressen. Colquhoun rekommenderar att använda en gräns på 0.001 för p-värden innan man påstår sig ha sett en effekt.

Även studier med för få deltagare är självfallet ett problem. Om man har liten power så minskar chansen att man kan se en effekt, och man ökar också risken att man ser effekter som inte finns. Om man till exempel har en power på endast 0,2 så är risken 76% att ett signifikant resultat är falskt. Att man faktiskt genomför så dåligt bemannade studier verkar inte alls ovanligt. Många forskare behöver mer statistikundervisning och stöd av statistiker.

Lägg också märke till att signifikanstester förutsätter att vi har randomiserade studier. De är inte alls tillämpliga på observationsstudier.

Sisådär, ytterligare lite verktyg att använda när vi leker ”finn fem fel” på nästa studie som basuneras ut i media.


8 kommentater till “P-värden och statistisk signifikans

  • Björn Westerstrand

    Ett råd: Skriv inte ”det data” utan DE DATA, eftersom data uppfattas som pluralis. Det du beskriver i artikeln visar ju att det är ett antal mätvärden som behandlas. Det stör åtminstone mig ganska mycket när man skriver som du gjort, och t.ex. spektra när man menar spektrum, och ett centra när man menar ett centrum – och tvärt om.
    Sensmoral: Innehållet i det som beskrivs faller i kvalitet, oavsett allt annat. Tråkigt – men sant. Språkbehandlingen är viktig i de flesta sammanhang.

  • annafriebe Inläggsförfattare

    Björn Westerstrand,

    Jo, det verkar du ha helt rätt i nu när jag kollar upp det. Ofta använder jag det synonymt med ”information” eller ”datamängd”, men det tycks inte vara rekommenderat att använda det som jag gjort.

    Jag håller med om att språket är viktigt, och brukar ofta ha mindre förtroende för innehållet när språket är dåligt (i de fall jag har bättre koll än detta, då). Stort tack för att du tog dig tid att kommentera och ge mig chansen att förbättra mig framöver, istället för att tyst fnysa över min okunskap! Jag ska se om jag kan ta mig tid att uppdatera detta inlägg eftersom jag tycker att det innehållsmässigt är ett av mina viktigare.

  • fa

    Detta inlägg och sen kommentarerna gör mig glad så ska bloggar fungera, seriösa kommentarer och där en bloggare kan ta till sig förbättringar, även läsare kan förbättra sina kunskaper.

    Tyvärr så fungerar många bloggar inte så , dom skriver skit för att gynna sig själva se annonsintäkter och dom som kommenterar försöker bara sprida saker som gynnar dom själva.
    Bloggosfären består mest av skit, men några få undantag.

    Psykopater som bloggar och har reklam på bloggen är farliga för samhället alt är bara lögner som endast är till för att gynna bloggaren, det har nu blivit ett samhällsproblem.

    Kostdebatten handlar nu bara om att dra in pengar på sina bloggar.
    AF är ett undantag som jag gillar.

  • Jonas

    Tack Anna,

    Ditt förhållningssätt till kritik tillhör människor som hela tiden växer. Växer man tenderar man bli stor 😉 Imponerande och glädjande.

    /Jonas

  • Nils

    Ursäkta min synism, men jag är övertygad om att Anna knyter näven i fickan samtidigt som hon skriver sitt svar till Björn. Klokt av Anna att svara politiskt korrekt, det ökar förstås läsvärdet på ursprungligt inlägg.

    Mitt, eventuellt även det politiskt korrekta svar till Björn, hade låtit ungefär så här.

    ”Tack för din återkoppling Björn, jag tar den till mig. Jag respekterar även din åsikt att kvaliteten på mitt inlägg faller, men jag är av en annan uppfattning. Jag vore tacksam om du inte generaliserar utifrån din åsikt, utan kanske uttryckte din sensmoral så här istället: kvaliteten faller, enligt min åsikt…

    Jag vidhåller att inlägget håller hög kvalitet och hoppas och tror att mina läsare, precis som du, kan förstå kvintessensen, trots mina språkliga tillkortakommanden.

    Hälsningar,

    Anna”

  • annafriebe Inläggsförfattare

    Hej Nils,

    Nu vet nog jag bättre än du huruvida jag knyter näven i fickan. Jag tror att cynism stavas med c.

    Jag kan bli förbannad och ha svårt att ta kritik ibland, men i detta fall var det faktiskt inte så! Men tack för påminnelsen, nu är texten uppdaterad!

Kommentarer modereras. Välkommen!

E-postadressen publiceras inte. Obligatoriska fält är märkta *