Prediktion av hårfärg och ögonfärg från genetiska markörer inom forensisk verksamhet Prediction of Hair and Eye Color Using Genetic Markers in Forensic Work Kandidatarbete inom civilingenjörsutbildningen vid Chalmers Stella Brenden Linna Sophie Dahlgren David Huynh Thuan Duong Felix Årebo Nettby Institutionen för Matematiska vetenskaper CHALMERS TEKNISKA HÖGSKOLA GÖTEBORGS UNIVERSITET Göteborg, Sverige 2025 Prediktion av hårfärg och ögonfärg från genetiska markörer inom forensisk verksamhet Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk matematik vid Chalmers David Huynh Thuan Duong Felix Årebo Nettby Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk fysik vid Chal- mers Stella Brenden Linna Sophie Dahlgren Handledare: Petter Mostad Institutionen för Matematiska vetenskaper CHALMERS TEKNISKA HÖGSKOLA GÖTEBORGS UNIVERSITET Göteborg, Sverige 2025 Förord Vi vill börja med att tacka vår handledare Petter Mostad för hans engagemang och fantastiska stöd under hela processen med vårt kandidatarbete. Vi vill även tacka Rättsgenetik vid nationellt forensiskt centrum i Linköping och Andreas Tillmar för den data som användes i arbetet. Under projektet har loggbok förts över de enskilda gruppmedlemmarnas prestationer. Denna logg- bok bestod av en veckovis “dagbok” som inkluderade tidsloggar för varje gruppmedlem, där det noterades vad varje medlem jobbat med under veckan som gått. Nedan presenteras en tabell över de huvudsakliga författarna för varje avsnitt i kandidatrapporten. Alla gruppmedlemmar bidrog sedan till korrekturläsning och renskrivning av den färdiga rapporten. Under utvecklingsfasen av model- lerna bidrog alla gruppmedlemmar med att skriva kod. Den prediktionsmodell som i slutändan användes skrevs av David, som vidareutvecklade modellen och producerade resultatet. Gruppen anser att alla medlemmar har bidragit likvärdigt till arbetet. Bidragsrapport Avsnitt Rubrik Författare Förord Stella Populärvetenskaplig presentation Stella Sammandrag och abstract Stella, Sophie 1 Inledning Stella 1.1 Syfte Felix, Sophie 2 Teori Stella 2.1 Genetik Stella 2.1.1 Genotyp och fenotyp Stella 2.1.2 Genetisk analys inom forensik Stella 2.1.3 Användning av DNA-teknik för att förutsäga ögon- och hårfärg Stella 2.2 Statistisk modellering Stella 2.2.1 Bayesiansk statistik Stella, David 2.2.2 Logistisk regression Stella, David 2.2.3 Trolighetsfunktion med logistisk regression Stella, David 2.2.4 Multinomial logistisk regression Stella, David 2.2.5 Markov Chain Monte Carlo Stella 2.2.6 Den multinormala fördelningen David 2.2.7 Centrala gränsvärdessatsen Felix 2.2.8 Mätning av modellprestanda David, Felix 3 Metod Felix 3.1 Avgränsningar Sophie, Felix 3.2 Datainsamling och visualisering av data Sophie 3.3 Modellutveckling Felix 3.4 Modellvalidering Felix 4 Resultat Alla 5 Diskussion Alla 5.1 Tolkning av resultat Alla 5.2 Begränsande faktorer och förbättringsmöjligheter Alla 6 Samhälleliga och etiska aspekter Felix, Stella 7 Slutsatser Felix, Sophie Bilaga A Datavisualisering Sophie, Felix Bilaga B Figurer och tabeller Sophie, David Bilaga C Källkod David, Felix Figurer och tabeller i huvuddelen Nummer Skapare Tabell 1, 2, 4 och 6 David Tabell 3 och 5 Sophie Fig: 1, 2, 5, 6 och 7 Sophie Fig: 3, 4 David Figurer i bilagan Nummer Skapare Fig: 8 och 9 Sophie, Felix Fig: 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26 och 27 Sophie Fig: 10, 11, 12, 13, 14, 15, 28, 29, 30, 31, 32, 33 och 34 David Populärvetenskaplig presentation Skulle det vara möjligt att endast utifrån DNA-spår på en brottsplats kunna skapa en perfekt fantombild av en gärningsman? För många utredare inom rättsväsendet låter detta som en utopi, en möjlighet att sätta ett ansikte på en gärningsman även då vittnen saknas. I nuläget är detta en ny teknik som är under utveckling, och det finns redan amerikanska företag som påstår sig behärska att producera sådana fantombilder. För att skapa en fantombild utan vittnen måste det finnas teknik som kan förutsäga visuella egenskaper hos en individ utifrån specifika DNA-sekvenser. Det är här matematiken kommer in, eftersom statistiska modeller kan byggas upp för att göra precis sådana förutsägelser. I det här arbetet har statistiska modeller använts för att, utifrån DNA-sekvenser, förutsäga vilken ögonfärg eller hårfärg en individ har. Dessutom har sannolikheten för att modellen förutspår rätt resultat beräknats, så att det är möjligt att avgöra huruvida resultaten är tillförlitliga att använda i praktiken. DNA är den kod som bestämmer allt kring en människas uppbyggnad. I DNA-spiralen finns små sekvenser som kan vara olika uppbyggda mellan olika individer, och det är dessa som bidrar till att vi människor har unika egenskaper. Dessa sekvenser kan kallas för genetiska markörer. Det finns vissa specifika genetiska markörer som styr till exempel vilken ögonfärg en person har, och andra genetiska markörer som styr hårfärgen. Genom att använda sig av befintlig data över vilka genetiska markörer som bidrar till en viss egenskap kan en statistisk modell byggas upp, som sedan kan användas för att göra förutsägelser av exempelvis vilken ögonfärg en viss sekvens av genetiska markörer kan ge. Modellen som har tagits fram bygger på logistisk regression, vilket är en statistisk modell som används för att modellera sannolikheter. Den enklaste logistiska regressionsmodellen har två möj- liga utfall, till exempel då ögonfärg studeras kan den förutsäga att en individ antingen har blå ögon eller inte. Detta kallas för binär logistisk regression. Dessutom ger modellen sannolikheten för hur säker den är på att förutsägelsen stämmer. Modellen byggs upp från data över en mängd testpersoner, där det är givet vilken ögonfärg personen har och vilka genetiska markörer dessa kan vara kopplade till. Den logistiska modellen använder sedan informationen i datamängden för att hitta ett samband mellan blå ögonfärg och de genetiska markörerna. Därefter kan modellen ta emot genetisk information från en individ med okänd ögonfärg och beräkna sannolikheten för att denna individ har blå ögonfärg, eller inte blå ögonfärg. Den logistiska modellen kan dessutom utvecklas för att hantera fler möjliga utfall än två, som till exempel då modellen ska förutspå de tre ögonfärgerna blå, brun och grön. En sådan modell kallas för multinomial logistisk regressionsmodell. Precis som tidigare lär modellen sig samband mellan genetiska markörer och ögonfärg, för att sedan göra en förutsägelse av vilken ögonfärg som en okänd individ har. Skillnaden är att modellen bestämmer vilken ögonfärg som förutsägs genom att beräkna sannolikheterna för att de genetiska markörerna ska ge blå, brun eller gröna ögon som utfall och använder sedan det mest sannolika utfallet som resultat. På det tekniska planet fungerar det även lite annorlunda, eftersom en multinomial logistisk regressionsmodell jämför varje kategori (till exempel brun och grön) med en referenskategori (blå). Sedan utför modellen en logistisk regression för varje jämförelse för att sedan slå ihop resultatet av dessa. I arbetet har data använts som insamlades av Rättsgenetik vid nationellt forensiskt centrum i Linköping. Datamängden bestod av information över 85 testpersoners ögon- och hårfärg, samt data över individernas genetiska markörer. Genom denna data har logistiska modeller tagits fram för att göra förutsägelser av vilken ögon- och hårfärg en okänd person har utifrån dennes genetiska markörer. Modellen testades genom att jämföra resultatet av förutsägelsen med de faktiska ögon- och hårfärgerna för personen. Förhoppningen med modellen är att den ska ge så pass tillförlitliga resultat att den i praktiken skulle vara möjlig att använda för att avgöra visuella aspekter som ögon- och hårfärg utifrån DNA. Det innebär att sannolikheten för att den gör rätt förutsägelser behöver vara väldigt hög, eller att det är tydligt till vilken grad modellen går att lita på genom att sannolikheterna tydligt presenteras. Detta är en teknik som är under utveckling i Sverige, med stor potential för användning i rättsväsendet. I framtiden kan därför liknande tekniker bli ett viktigt verktyg för brottsutredningar, och ett sätt att bidra till att bringa klarhet i fler ouppklarade fall. Sammandrag Ett utvecklingsområde inom forensiska verksamheter är DNA-fenotyping, vilket är en tek- nik för att utifrån DNA kunna predicera visuella egenskaper för en individ. I detta arbete undersöktes hur väl statistiska modeller kan utföra prediktion av ögon- och hårfärg utifrån genetiska markörer i DNA. De modeller som framtogs var logistiska regressionsmodeller som använde en MCMC-metod med en Metropolis-Hastings-algoritm för att uppskatta posteriori- fördelningen. Två binära logistiska regressionsmodeller med två olika priorifördelningar jämför- des, en icke-proper likformig priorifunktion och en multinormal priorifunktion. På samma sätt jämfördes två multinomiala logistiska regressionsmodeller med samma två priorifördelningar. Den datamängd som användes i arbetet omfattade ögon- och hårfärg för 85 individer och bestod av observerade färger samt genetiska markörer kopplade till färgerna. De ögonfärger som undersöktes var brun, blå och intermediär, medan de hårfärger som undersöktes var brun, blond, röd och svart. Modellernas prestanda utvärderades genom ROC-grafer (eng: Receiver Operating Charac- teristic) och tillhörande AUC-värden (eng: Area Under the Curve). Resultatet uppvisade att modellerna överlag hade låga AUC-värden och därmed presterade dåligt. Ingen av modellerna lyckades uppnå ett totalt AUC-värde på över 0,75. Däremot presterade modellerna för pre- diktion av ögonfärg generellt bättre än modellerna för hårfärg. Det upptäcktes emellertid att modellen för multinomial hårfärg gav bra resultat när det gällde att predicera röd hårfärg med ett AUC-värde på 0,94. En stor begränsning för modellerna som kan ha påverkat resultatet är den begränsade datamängden. Finns det inte tillräckliga skillnader i den givna datamängden över genetiska markörer mellan de olika klasserna av färger får modellen svårt att kunna göra säkra prediktioner. Eftersom alla modeller har stora begränsningar är de i nuläget inte an- vändbara för användning i praktiken, men genom fortsatt forskning skulle liknande statistiska modeller i framtiden kunna användas för mer tillförlitliga prediktioner. Abstract An emerging area within forensic sciences is DNA phenotyping, which is a technique used to predict an individual’s attributes from their DNA. This thesis investigated how well sta- tistical models could predict eye and hair color from genetic markers. The models developed were logistic regression models that utilized an MCMC method using the Metropolis-Hastings algorithm to estimate the posterior distribution. Two binary logistic regression models with different prior distributions were compared: one with an improper uniform prior and another with a multinormal prior. Similarly, two multinomial logistic regression models with the same two prior distributions were also evaluated. The dataset used in this study included eye and hair color information from 85 individuals, consisting of observed phenotypes as well as their associated genetic markers. The eye colors investigated were blue, brown and intermediate, while the hair colors included brown, blonde, red and black. The models’ performance was evaluated using ROC curves (Reciever Operating Charac- teristic) and the corresponding AUC values (Area Under the Curve). The results showed that the models generally had low AUC values, and therefore performed unsatisfactorily. None of the models achieved a total AUC value over 0.75. However, the models that predicted eye color generally performed better than those predicting hair color. Interestingly, the multi- nomial hair color model was able to predict red hair with high accuracy, achieving an AUC value of 0.94. A key limitation of the models was the small dataset. If there are insufficient differences in the genetic marker data between the different color classes, the model struggles to make reliable predictions. Given these limitations, the models are currently not suitable for practical use. Nonetheless, with continued research, future statistical models of this kind could potentially provide more reliable predictions. Innehåll 1 Inledning 1 1.1 Syfte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2 Teori 1 2.1 Genetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2.1.1 Genotyp och fenotyp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 2.1.2 Genetisk analys inom forensik . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.1.3 Användning av DNA-teknik för att förutsäga ögon- och hårfärg . . . . . . . 2 2.2 Statistisk modellering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2.2.1 Bayesiansk statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.2 Logistisk regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2.3 Trolighetsfunktion med logistisk regression . . . . . . . . . . . . . . . . . . 4 2.2.4 Multinomial logistisk regression . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.5 Markov Chain Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2.6 Den multivariata normalfördelningen . . . . . . . . . . . . . . . . . . . . . . 6 2.2.7 Centrala gränsvärdessatsen . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.2.8 Mätning av modellprestanda med AUC-värden . . . . . . . . . . . . . . . . 7 3 Metod 8 3.1 Avgränsningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.2 Datainsamling och databehandling . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.3 Modellutveckling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.4 Modellvalidering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4 Resultat 11 4.1 AUC-värden för alla modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.2 Sensitivitets- och specificitetstabeller . . . . . . . . . . . . . . . . . . . . . . . . . . 12 4.3 ROC-kurvor för de utvalda modellerna . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.4 Konfusionsmatriser för de utvalda modellerna . . . . . . . . . . . . . . . . . . . . . 14 4.5 Sannolikhetsfördelningar för de utvalda modellerna . . . . . . . . . . . . . . . . . . 15 5 Diskussion 16 5.1 Tolkning av resultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.2 Begränsande faktorer och förbättringsmöjligheter . . . . . . . . . . . . . . . . . . . 18 6 Samhälleliga och etiska aspekter 19 7 Slutsatser 19 8 AI-användning 23 A Datavisualisering i B Figurer och tabeller i B.1 ROC-kurvor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii B.2 Konfusionsmatriser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv B.3 Figurer för modellernas prediktioner . . . . . . . . . . . . . . . . . . . . . . . . . . vi B.4 Figurer över prediktionsmodellernas sannolikhetsfördelning . . . . . . . . . . . . . x B.5 Figurer för parametrarnas konvergens . . . . . . . . . . . . . . . . . . . . . . . . . xiv C Källkod xviii 1 Inledning Sedan 1989 har DNA-analys använts som ett verktyg inom forensiska verksamheter i Sverige. Ett område inom detta fält som fortfarande är under utveckling är Forensisk DNA fenotypning. Feno- typing innebär att delar av DNA används för att göra fenotypiska prediktioner, alltså förutsägelser av visuella egenskaper hos en individ. Detta kan vara exempelvis hårfärg och ögonfärg och kan vara värdefull information då ögonvittnen eller övervakningskameror saknas under en brottsutredning [1]. Denna typ av prediktion kan baseras på regressionsmodeller från bayesiansk statistik för att ana- lysera sambandet mellan genetiska markörer i DNA och fenotypiska egenskaper. Genom statistiska metoder kan även osäkerheter i modellens prediktioner kvantifieras. En perfekt modell skulle kunna ta fram en färdig fantombild av en brottsmisstänkt mer effektivt och med mindre resurser än vad som krävs i nuläget. Genom DNA-fenotyping skulle alltså brottsutredningar kunna effektiviseras och därmed öka sannolikheten för att brottsmål uppklaras, vilket är av intresse för rättsväsendet. Samtidigt måste prediktionerna från modellen alltid vägas mot annan typ av bevisning för att undvika felaktiga slutsatser. 1.1 Syfte Syftet med arbetet är att utveckla en prediktionsmodell som utifrån genetiska markörer kan förut- spå karakteristiska egenskaper hos individer. I projektet utvecklas modellen med målet att förutspå genetiska ögon- och hårfärger. Modellen kommer att utvecklas med hjälp av bayesiansk statistik, och dess effektivitet och träffsäkerhet kommer att utvärderas för att bedöma om modellen kan tillämpas i praktiska sammanhang. Arbetet fokuserar på tre centrala aspekter: datamaterialets tillförlitlighet, modellens konstruktion samt utvärdering av dess prestanda. 2 Teori I detta kapitel presenteras den teoretiska bakgrunden som ligger till grund för prediktionsmodellen. Till en början introduceras viktiga begrepp inom genetisk analys och vidare ges en introduktion till de metoder inom bayesiansk statistik och de regressionsmodeller som är relevanta för arbetet. 2.1 Genetik Nedan introduceras centrala begrepp som används inom genetisk analys, såsom genotyp och feno- typ. Vidare presenteras hur DNA används inom forensiska undersökningar och den nya tekniken DNA-fenotyping. 2.1.1 Genotyp och fenotyp Två begrepp som ofta används inom genetiken är genotyp och fenotyp. Genotyp beskriver en individs totala uppsättning gener, den arvsmassa (DNA) som individen ärvt från sina föräldrar. Fenotyp beskriver de fysiologiska egenskaper en individ har, såsom utseende och andra fysiska beteenden. Fenotypen för en individ formas utifrån genotypen men kan även till viss del påverkas av miljö [2]. På kemisk nivå är DNA uppbyggt av fyra sorters kvävebaser; adenin, guanin, cytosin och tymin. Dessa förkortas med A, G, C och T [3, s.54]. DNA har strukturen av en dubbel-helix, där de två strängarna med kvävebaser kopplas samman med vätebindningar. Dessa kopplingar bildar baspar av kvävebaser där A i den ena strängen alltid är kopplad samman med T i den andra, och på samma sätt är G alltid sammankopplad med C [3, s.57-59]. Ett sätt att beskriva skillnader i fenotyp för olika individer är genom analys av genomet. Polymorfi är en variation i DNA-sekvensen mellan två individer som kan förklara varför individerna har olika egenskaper. Den vanligaste formen av polymorfi är SNP, enbaspolymorfi (eng: Single Nucleotide Polymorphism), vilket är enskilda positioner i DNA-sekvensen som kan variera mellan olika indi- vider. Detta sker genom att en enda kvävebas i sekvensen är utbytt mot en annan kvävebas [3, s. 686]. Det uppskattas att det i mänskligt genom finns ett SNP per tusen baspar, och mer än tre 1 miljoner enbaspolymorfier har hittills kartlagts. Omkring hälften av dessa kan vara direkt kopplade till fenotypiska egenskaper för en individ [4, s.16-17]. 2.1.2 Genetisk analys inom forensik DNA finns i flera typer av biologiska material, såsom blod, kroppsvätskor eller hudceller från fingeravtryck och svett [5, s.45]. Målet med analys av sådan typ av bevisning är bestämning av identitet för den person som lämnat DNA på en brottsplats. Historiskt har det varit möjligt att utföra analys av blodgrupp eller andra genetiska markörer såsom proteiner, men dessa kan skapa en profil som stämmer för ett flertal personer. Genom DNA-analys av biologisk bevisning kan istället en enskild person identifieras, eftersom alla individer (bortsett från enäggstvillingar) har en unik uppsättning gener [6, s.63]. Den kemiska stabiliteten i DNA är användbar för forensiker eftersom det är möjligt att analysera biologisk bevisning lång tid efter att brottet begåtts [5, s.45]. Sedan 1985 har det varit möjligt att göra DNA-analys på en liten mängd insamlat material genom PCR- tekniken (eng: Polymerase Chain Reaction). Tack vare PCR kan DNA från en enda cell kopieras till flera miljoner DNA-segment som sedan kan analyseras. PCR kan även genomföras under kort tid, och oftast uppnås en stor mängd DNA efter mindre än 24 timmar [6, s.64-67]. Ett relativt nytt område inom forensik är Forensisk DNA-fenotyping (eng: Forensic DNA Phenoty- ping, FDP). Detta kan användas när klassisk DNA-profilering inte kan hjälpa en brottsutredning då det inte finns någon misstänkt att matcha profilen mot, eller det inte går att hitta någon matchning med existerande DNA-databaser. Genom FDP kan prediktioner göras av synliga fenotypiska egen- skaper från insamlat DNA, vilket kan smalna av potentiella misstänkta i ett brottsmål. FDP kan även användas för identifikation av till exempel försvunna personer, genom att skapa fantombilder utifrån DNA-spår [7]. 2.1.3 Användning av DNA-teknik för att förutsäga ögon- och hårfärg Forensisk DNA-fenotyping är en komplicerad teknik eftersom många gener har inverkan på de flesta synliga karaktärsdragen för en människa. I nuläget är de genetiska markörerna som styr kön, hårfärg och ögonfärg de mest tillförlitliga. Det pågår även forskning kring kartläggning av geners inblandning i bland annat ansiktsform, längd och ålder, men mer kunskap behövs kring både geners påverkan och miljö. Än så länge går det endast att förutsäga fenotypiska drag utifrån DNA med en viss sannolikhet, men trots detta kan FDP bidra till att leda brottsutredningar framåt [8]. Det finns däremot flera begränsande faktorer till prediktion av bland annat ögon- och hårfärg in- om forensiskt arbete. UV-ljus, sjukdomar, droger och åldrande kan ha en påverkan på melaninets syntes. Till exempel kan barn med blont hår bli allt mer brunhåriga när de blir äldre. Ett ytter- ligare problem är att grön ögonfärg är svår att förutsäga, då det i dagsläget saknas väl kartlagda genetiska markörer för denna egenskap. Även yttre faktorer, såsom färgning av hår, kan påverka hur användbara fenotypiska prediktioner är i praktiken [8]. Hur tillförlitliga existerande metoder för fenotypiska prediktioner är har tidigare studerats i Sverige. I denna analyserades säkerheten för prediktion av 111 svenska individer genom användning av systemet ForenSeq och instrumentet MiSeq FGx (Verogen). De förutspådda ögon- och hårfärgerna som genom systemen gav störst sannolikhet jämfördes med de observerade färgerna. Resultatet av studien uppvisade att 80% av ögonfärgerna förutspåddes korrekt, men att systemet misslyckades med att förutsäga grön ögonfärg. För hårfärg lyckades systemet göra 58% korrekta prediktioner. När sedan en sannolikhetströskel på 0,7 infördes ökade korrekt predicerade ögonfärger till 85%, medan andelen korrekta hårfärger inte påverkades nämnvärt [9]. 2.2 Statistisk modellering För att göra prediktioner av fenotypiska egenskaper utifrån ett givet DNA kan statistiska modeller användas. En specifik modell som bygger på bayesiansk statistik är den logistiska regressions- modellen. Den teoretiska bakgrunden till den logistiska regressionsmodellen för både binära och multipla utfall presenteras i detta kapitel. Dessutom presenteras MCMC-metoden (eng: Markov 2 Chain Monte Carlo) som använder Metropolis-Hastings-algoritmen vilket är en central komponent i metoden. 2.2.1 Bayesiansk statistik Bayes sats är kärnan inom bayesiansk statistik och beskriver ett sätt att beräkna betingade san- nolikheter. För en modell där observerad data beskrivs av den stokastiska variabeln y och där θ är en vektor av modellparametrar ger Bayes sats ett samband för posteriorifördelningen π(θ|y), vilket är den betingade sannolikheten för θ givet y, enligt π(θ|y) = π(y|θ)π(θ) π(y) ∝ π(y|θ)π(θ). (1) Sannolikheten för observerad data givet parametrarna π(y|θ) kallas trolighetsfunktionen (eng: like- lihood function) och π(θ) är priorifördelningen som beskriver tidigare kunskap kring θ. Nämnaren kan ses som en normaliseringskonstant, vilket innebär att ekvationen (1) kan skrivas π(θ|y) ∝ π(y|θ)π(θ) [10, s.9]. Den betingade sannolikheten är definierad som π(y|x) = π(x, y) π(x) , (2) där π(x,y) är den gemensamma sannolikhetsfördelningen för de stokastiska variablerna x och y. Marginalfördelningen π(x) definieras som [10, s.20] π(x) = ∫ π(x, y)dy, (3) där ∫ π(x)dx = 1. Från ekvation (2) och (3) kan sedan sannolikheten π(ynew|y) beskrivas, där ynew är nya observa- tioner som ska förutsägas och y är tidigare observerad data. Detta beskrivs av π(ynew|y) = ∫ π(ynew, θ|y)dθ = ∫ π(ynew|θ)π(θ|y)dθ, (4) vilket är en integral som i praktiken är svår att beräkna exakt, och istället används ofta numeriska metoder såsom MCMC för att göra en uppskattning av denna. Ett vanligt användningsområde för att modellera sannolikheter inom bayesiansk inferens är lo- gistisk regression, vilken möjliggör direkt modellering av sannolikheten för ett givet utfall som en funktion av en uppsättning oberoende variabler. I följande avsnitt introduceras den logistis- ka regressionsmodellen för binärt utfall, som sedan generaliseras till en modell för multinomial logistisk regression där fler än två utfall kan hanteras. 2.2.2 Logistisk regression Den logistiska funktionen f(x) = ex 1 + ex lämpar sig väl för modellering av sannolikheter eftersom dess definitionsmängd är (−∞,∞) och dess värdemängd ligger i intervallet (0,1). Den är utformad för att representera sannolikheter, vilka är ett tal mellan 0 och 1. Definitionsmängden innebär att funktionen kan ha alla reella värden som argument och samtidigt säkerställa att den ger ett definierat värde som utfall. Den logistiska funktionen kan därför generaliseras till att modellera sannolikheten för ett utfall baserat på en linjärkombination av flera oberoende variabler. Detta görs genom att definiera en vektor av data X̄ = [ x1 x2 · · · xk ]T där xi är data som ska analyseras. Låt sedan θ = [ α β1 β2 · · · βk ] 3 vara en vektor av okända parametrar som ska uppskattas, där α är en konstantterm och βi är regressionskoefficienter för i ∈ {1,2, · · · ,k}. Definiera sedan z(X̄|θ) = α+β1x1+β2x2+ · · ·+βkxk. Från detta kan den generaliserade logistiska funktionen sammanfattas som f(X̄,θ) = ez(X̄|θ) 1 + ez(X̄|θ) , vilken används för att modellera sannolikheten för ett binärt utfall [11, kap. 1]. De okända para- metrarna behöver uppskattas utifrån observerad data, vilket kan göras genom konstruktion av en trolighetsfunktion. 2.2.3 Trolighetsfunktion med logistisk regression Den logistiska regressionsmodellen bygger på att uppskatta de okända parametrarna i modellen, genom att observera den givna uppsättningen data. Den logistiska funktionen som introducerades i tidigare avsnitt har två möjliga utfall D som definieras D = 0 samt D = 1. Sannolikheterna för dessa utfall ges av den logistiska funktionen genom π(D = 1|θ, X̄) = ez(X̄|θ) 1 + ez(X̄|θ) och π(D = 0|θ, X̄) = 1− π(D = 1|θ, X̄). Summan av sannolikheterna för de två utfallen är 1, vilket säkerställer att hela utfallsrummet täcks. Utifrån detta kan nu sannolikheten för att observera en given uppsättning data beräknas genom trolighetsfunktionen L(θ|X̄) = n∏ i=1 π(D = 1|θ, xi) ziπ(D = 0|θ, xi) 1−zi , (5) där n är antalet datapunkter och varje observation xi har ett tillhörande utfall zi ∈ {0,1}, där zi = 0 om datapunkt i har utfallet D = 0 och zi = 1 om datapunkt i har utfallet D = 1. Trolighetsfunktionen är alltså en produkt av de individuella sannolikheterna för varje observation [12, kap. 1] och representerar således sannolikheten att observera den givna datamängden givet de valda parametrarna. R använder sig av IEEE 754 binär flyttalsaritmetik. Denna begränsar den numeriska noggrannheten till ungefär 16 decimaler [13, s.753]. Vid beräkning av trolighetsfunktionen kan sannolikheterna bli väldigt små, särskilt när många observationer multipliceras. För att undvika numeriska fel är det därmed mer lämpligt att istället beräkna logaritmen av trolighetsfunktionen [14, s.30] genom ln(L(θ|X̄)) = n∑ i=1 [zi ln (π(D = 1|θ, xi)) + (1− zi) ln (π(D = 0|θ, xi))] . (6) För att faktiskt göra en uppskattning av de okända parametrarna i den logistiska regressionsmodel- len används en bayesiansk skattning med utgångspunkt i ML-metoden (eng: Maximum-Likelihood Estimation), vilket ger en skattning av parametrarna. En ML-skattning är de värdena på paramet- rarna som maximerar värdet på trolighetsfunktionen i ekvation (5). Med andra ord så maximerar ML-skattningen sannolikheten att observera datamängden. I praktiken är det lättare genom att hitta värdet som maximerar ekvation (6) [13, s.161]. 2.2.4 Multinomial logistisk regression I tidigare avsnitt har den logistiska regressionsmodellen för binära utfall presenterats. Denna modell kan generaliseras till att hantera fler än två diskreta utfall, vilket kallas för multinomial logistisk regression [12, s.35]. För att utföra multinomial regression utses en av utfallsvariablerna som en 4 referenskategori, vilken de andra variablerna jämförs med. Valet av referenskategori har inte nå- gon påverkan på resultatet och kan därmed väljas godtyckligt [11, s.435]. I detta avsnitt kommer referenskategorin betecknas kategori 0. Modellen för multinomial logistisk regression fungerar i princip på samma sätt som logistisk regres- sion för det binära fallet, med skillnaden att det är en vektor av sannolikheter som beräknas. För en uppsättning av k oberoende variabler och s utfall inklusive en referenskategori, kan vektorn av data X̄ = [ x1 x2 · · · xk ]T definieras. Vektorn av konstanttermer ges av ᾱ = [ α1 α2 · · · αk ]T , och regressionskoefficienterna β̄ beskrivs av en matris med dimension (s− 1)× k enligt β̄ =  β11 β12 · · · β1k β21 . . . β2k ... . . . ... β(s−1)1 β(s−1)2 · · · β(s−1)k  . Parametrarna θ = [ᾱ, β̄T 1 , . . . , β̄ T s−1] är på samma sätt som tidigare okända parametrar som ska uppskattas, nu för i ∈ {1,2, · · · ,s − 1}, j ∈ {1,2, · · · ,k}. För att förenkla notationen framöver definieras sedan h̄ = β̄X̄ + ᾱ = [ h1(X̄) h2(X̄) · · · hs−1(X̄) ]T . Därefter definieras sannolikhetsfördelningarna för det stokastiska utfallet D givet data och modell- parametrarna enligt P(D|X̄) =  π(D = 0|X̄,ᾱ, β̄) π(D = 1|X̄,ᾱ, β̄) ... π(D = s− 1|X̄,ᾱ, β̄)  = 1 1 + ∑s−1 i=1 exp (hi(X̄))  1 exp(h1(X̄)) ... exp(hs−1(X̄))  . Här ges sannolikheten för att observationen tillhör respektive kategori i = 0, 1, . . . , s− 1, där alla sannolikheter är positiva och summeras till 1. Givet n oberoende observationer kan den fullständiga trolighetsfunktionen för modellen uttryckas som L(ᾱ, β̄|X̄) = n∏ m=1 s−1∏ i=0 π(D = i|X̄m,ᾱ,β̄)zim , (7) där X̄m är de observerade variablerna för datapunkt m och indikatorvariabeln zim definieras zim = { 1, om m tillhör kategori i 0, annars. De okända parametrarna ᾱ och β̄ uppskattas därefter genom att maximera L(ᾱ, β̄|X̄) [11, kap.12]. På samma sätt som tidigare går det även att maximera ln(L(ᾱ, β̄|X̄)) [14, s.30]. 2.2.5 Markov Chain Monte Carlo I de fall där posteriorifördelningen inte kan beräknas analytiskt kan MCMC-metoder användas för att uppskatta denna, genom att använda markovkedjor för att ta fram stickprov från fördelningen. Givet en sannolikhetsfördelning π är målet med MCMC att simulera en slumpvariabel θ som har just denna fördelning. Markovkedjan som ska skapas är en sekvens slumpvariabler θ0, θ1,..., θn där varje parameter är beroende av endast den tidigare parametern i kedjan. Kedjan genereras tills dess att den konvergerar till en stationär fördelning, vilken är en god uppskattning av π. När kedjan har konvergerat används de genererade värdena som stickprov för sannolikhetsfördelningen π [15]. En vanlig metod för att konstruera markovkedjan är Metropolis-Hastings-algoritmen. Algoritmen konstruerar en reversibel markovkedja θ0,..., θn som har stationär fördelning (målfördelning) π(θ), där π är en diskret sannolikhetsfördelning [15]. Algoritmen fortgår enligt följande: 5 1. Simulera en startpunkt θ1 för algoritmen. Låt sedan θt vara det nuvarande värdet i kedjan vid en viss tid t. 2. Generera ett förslagsvärde θ∗ till kedjan från förslagsfördelningen q(θ∗|θt), som beskriver sannolikheten för att θ∗ föreslagits givet att det nuvarande värdet är θt. 3. Beräkna sedan acceptanssannolikheten α = min { π(θ∗)q(θt|θ∗) π(θt)q(θ∗|θt) , 1 } (8) där π(θ∗) är målfördelningen vid θ∗, vilket mäter hur sannolikt det nya värdet är enligt den sökta fördelningen. Hela kvoten beskriver därmed hur väl det föreslagna värdet stämmer överens med målfördelningen, jämfört med det tidigare värdet i markovkedjan. 4. Generera ett slumpmässigt tal U ∼ U(0,1) som är likformigt fördelat mellan (0,1). Om U ≤ α accepteras det föreslagna steget och då sätts θt+1 = θ∗, alltså det föreslagna värdet läggs till i kedjan. Annars avslås det föreslagna steget, och då sätts istället θt+1 = θt. Steg 2-5 i algoritmen upprepas sedan fram till att kedjan som skapats konvergerat till den öns- kade sannolikhetsfördelningen [10, kap. 9]. Förslagsfördelningen q som används för att utforska potentiella nya steg i markovkedjan kan i stort sett vara godtycklig, så länge det är möjligt att enkelt dra ett stickprov från denna. Är förslagsfördelningen symmetrisk, så att q(θt|θ∗) = q(θ∗|θt), kan kvoten i uttrycket för acceptanssannolikheten α förenklas till att endast vara en kvot mellan målfördelningarna. Detta gäller bland annat då förslagsfördelningen är normalfördelad [10]. Med en sekvens av stickprov θ1, θ2, . . . , θN för posteriorifördelningen som genererats genom MCMC kan därefter ekvation (4) uppskattas numeriskt enligt π(ynew|θ) = ∫ π(ynew|θ)π(θ|y) ≈ 1 N N∑ i=1 π(ynew|θi), (9) där π(ynew|θ) är den prediktiva fördelningen för nya observationer ynew [16, s.262]. 2.2.6 Den multivariata normalfördelningen Normalfördelningen kan generaliseras till flerdimensionella vektorer, denna kallas för den multiva- riata normalfördelningen, multinormala fördelningen eller multinormalfördelningen. En multinor- malfördelad n−dimensionell vektor X̄ = [ X1 X2 . . . Xn ] kan beskrivas med µ̄ = E(X̄) och en kovariansmatris Λ =  λ11 λ12 . . . λ1n λ21 . . . λ2n ... . . . ... λn1 λn2 . . . λnn  , där i,j ∈ {1,2, · · · ,n} och λij = λji = Cov(Xi, Xj) om i ̸= j och λii = Var(Xi) annars. Detta kan betecknas som X̄ ∼ N (µ̄,Λ). En konsekvens av denna generalisering är att alla komponenter Xi av X̄ är normalfördelade [17]. 2.2.7 Centrala gränsvärdessatsen Centrala gräsvärdessatsen säger att summan av oberoende och likafördelade slumpvariabler approx- imerar en normalfördelning. Mer precist, låt θ1,θ2, . . . ,θn vara oberoende och likfördelade slump- variabler med väntevärde µ och varians σ2. För stora n gäller då [18], θ1 + · · ·+ θn ≈ N (nµ,nσ2). Satsen kan även generaliseras till det flerdimensionella fallet, där summan istället approximeras av en multinormalfördelning [19]. 6 2.2.8 Mätning av modellprestanda med AUC-värden En vanlig teknik för att utvärdera en prediktionsmodells prestanda är korsvalidering. Vid korsvali- dering delas datamängden upp i två delar: den träningsdata som används för att bygga modellen, och den testdata som används för att bedöma modellens förutsägelseförmåga. Det är viktigt att testdata inte används under träningen av modellen, då detta kan leda till att modellens förut- sägelseförmåga överanpassas. En särskild typ av korsvalidering är LOOCV (eng: leave one out cross validation), där varje enskild datapunkt används som testdata, medan resterande datapunk- ter används som träningsdata. I varje iteration tränas modellen på träningsdata och utvärderas på den aktuella testdata. Proceduren upprepas tills varje datapunkt har använts som testdata en gång. LOOCV möjliggör beräkning av teststatistik som återspeglar modellens förutsägelseförmå- ga, där medelvärdet av dessa utvärderingar används som en uppskattning av modellens generella prestanda. LOOCV är särskilt lämplig för fall med små datamängder [20]. För att kvantifiera modellens prestanda kan en konfusionsmatris (eng: confusion matrix) användas. Varje rad i denna matris representerar antalet gånger modellen förutspådde en viss klassifikation, medan varje kolumn visar det faktiska antalet individer i respektive klass. En klassifikation kan delas upp i en positiv klass och en negativ klass. Exempelvis kan en positiv klass vara blåögdhet och en negativ klass icke-blåögdhet. Detta ger upphov till begreppen sanna positiva förutsägelser, falska positiva förutsägelser, falska negativa förutsägelser och sanna negativa förutsägelser. Dessa kommer hädanefter benämnas TP, FP, FN respektive TN, efter engelskans true och false, positive och negative. I tabell 1 presenteras en generaliserad konfunsionsmatris som använder sig av dessa benämningar. Tabell 1: Tabellen visar ett exempel på en konfusionsmatris, där TP står för true positive, FP för false positive, FN för false negative och TN för true negative. Förutspådda klasser Positiv förutsägelse Negativ förutsägelse Observerade klasser Positiva klasser TP FN Negativa klasser FP TN Med detta kan måtten sensitivitet, specificitet och noggrannhet definieras. Sensitiviteten, som är ett mått på andelen korrekta förutsägelser på den positiva klassen, definieras som TP TP+FN . Specificiteten ges av TN FP+TN och mäter istället andelen korrekta förutsägelser på den negativa klassen. Slutligen beräknas noggrannheten till TP+TN TP+FP+FN+TN och tolkas som ett mått på andelen korrekta gissningar på den totala datamängden. Modellens prestanda kan sedan visualiseras med hjälp av ROC-kurvor (eng: Receiver Operating Characteristic) och arean under dessa [21]. Denna area kallas för AUC (eng: Area Under Curve). En ROC-kurva plottas på området [0,1]× [0,1], där y-axeln representerar modellens sensitivitet och x-axeln visar 1− specitiviteten = FP FP+TN . Kurvan plottas genom att betrakta sannolikheterna för den positiva klassen för respektive individ. En gräns varieras sedan stegvis, där individerna vars sannolikhet överskrider gränsen klassificeras som positiva och övriga negativa. Till exempel innebär en gräns på 0% att modellen tilldelar den positiva klassen till alla individer oavsett sannolikheterna den tilldelat dem, och en gräns på 100% innebär att modellen endast klassificerar en individ som medlem av den positiva klassen om den är 100% säker på att individen tillhör den klassen. Kurvan skapas sedan genom att öka gränsen från 0% till 100% och plotta sensitiviteten och 1−specitiviteten vid varje värde. AUC-värdet är ett lämpligt mått på en modells prestanda då det är invariant mot fördelningen av klasserna i datamängden [21]. En annan fördel med AUC är att den kan tolkas som sannolikheten att modellen tilldelar en högre sannolikhet för en positiv förutsägelse till en slumpvald individ från den positiva klassen, jämfört med en slumpvald individ från den negativa klassen. Detta innebär att AUC får ett värde mellan 0,5 och 1, eftersom modellens prediktioner kan inverteras och byta plats på positiva och negativa utfall om värdet är mindre än 0,5. 7 Värt att notera är att metoden endast fungerar för binära utfallsrum. Det finns flera generali- seringar av ROC-grafer och AUC [21]. En av dessa generaliseringar är att producera s stycken ROC-grafer, där s är antalet klasser. För varje klass låts den valda klassen vara den positiva klas- sen och resterande klasser vara den negativa klassen. AUC-värdet kan sedan beräknas för varje klass. Notera att detta kan bli lägre än 0,5 eftersom det nu inte går att vända om modellen på samma sätt som för två kategorier. Det totala AUC-värdet för modellen väljs sedan som ett viktat medelvärde av alla AUC-värden enligt AUCtotal = s∑ i=1 c(i) N · AUCi, (10) där c(i) är antalet individer av klass i i datamängden, N antalet individer i hela datamängden och AUCi är värdet med klass i som det positiva utfallet [22]. Fördelen med denna generalisering är att den är enkel att beräkna och visualisera. Dock sker den på bekostnad av AUC-värdenas invarians av klassfördelningar [21]. Generellt gäller det att det högsta AUC-värdet är det bästa. Det tolkas som att modeller med AUC-värde ≥ 0,8 har god prestanda, och AUC ≥ 0,9 har utmärkt prestanda. Även AUC ≥ 0,7 kan tolkas som en acceptabel prestanda för modellen, medan AUC ≤ 0,7 kan tolkas som att modellens prestanda är låg eller otillräcklig [23]. 3 Metod Eftersom en prediktionsmodell kan utvecklas på flera olika sätt behövde metoden avgränsas genom flera val. I följande delkapitel beskrivs hur de centrala komponenterna i modellen är sammanfogade samt de metodval som har gjorts. 3.1 Avgränsningar Utförandet av projektet begränsades främst av tidsramen, men även av tillgången till data för de fenotypiska egenskaper som modellen predicerade. Av denna anledning valdes det att endast ut- veckla modeller för att predicera hår- och ögonfärg, medan andra fenotypiska egenskaper uteslöts. Tidsbegränsningen påverkade även de metodval som undersöktes, vilket blev valet av regressions- modell samt priorifunktionen. Den typ av modell som arbetet fokuserade på var logistisk regression, där både en binär och en multinomial variant utvecklades och analyserades. Priorifunktionen går att väljas på flera sätt, men denna rapport begränsade sig till att undersöka två alternativ: en icke- proper likformig fördelning och en multinormalfördelning. Den icke-propra likformiga priorifunk- tionen är vanligt förekommande när det saknas tidigare information om parametrarnas fördelning [24, s.24]. Användningen av en multinormalfördelning motiverades av centrala gränsvärdessatsen, då modellparametrarna antogs gå mot en multinormalfördelning. 3.2 Datainsamling och databehandling Datamaterialet var uppsamlat och givet av Rättsgenetik vid nationellt forensiskt centrum i Linkö- ping. Den var uppdelad i två delar, en för ögonfärg och en för hårfärg. Varje del innehöll information kopplad till 85 individers ögon- respektive hårfärg och deras tillhörande genotyp. Fördelningarna av de observerade hår- och ögonfärgerna presenteras i figur 1. Ögonfärgerna delades upp i katego- rierna blå, intermediär och brun. De intermediära ögonfärgerna avsåg de som inte tydligt kunde klassificeras som blå eller brun. Hårfärgerna klassificerades som brun, svart, blond och röd. Dessa uppdelningar hade med störst sannolikhet gjorts genom visuell bedömning av en människa, vilket kan introducera viss variation i datamängden genom subjektiv bedömning. 8 Blå 50 st (58.8%) Intermediär 25 st (29.4%) Brun 10 st (11.8%) Frekvens av observerad ögonfärg (totalt antal = 85 st) Blå Intermediär Brun (a) Brun 54 st (63.5%) Svart 14 st (16.5%) Blond 10 st (11.8%) Röd 7 st (8.2%) Frekvens av observerad hårfärg (totalt antal = 85 st) Brun Svart Blond Röd (b) Figur 1: Frekvensfördelningen av observerad ögonfärg (a) och hårfärg (b), angivet i både antal och andel i procent. Det totala antalet observerade individer är 85 för respektive datamängd. I den givna datamängden fanns ett antal SNP:er för ögonfärgerna och hårfärgerna. Namnen på dessa presenteras i tabell 2. Tabell 2: Givna SNP:er i datamängden som användes i denna studie. SNP:er för ögonfärg SNP:er för hårfärg rs12203592 rs1393350 rs28777 rs12203592 rs4959270 rs1805005 rs1805006 rs12896399 rs1800407 rs683 rs1042602 rs12821256 rs11547464 rs1805007 rs16891982 rs12913832 rs312262906_N29insA rs1800407 rs2402130 rs1110400 rs1805008 rs1805009 rs2378249 rs2228479 rs12913832 rs885479 rs201326893_Y152OCH rs16891982 För att visualisera datamängden och få en bättre förståelse för hur varje SNP påverkade före- komsten av de olika fenotyperna visualiserades de i ett histogram över frekvensen av alla alleler för alla SNP:er. För data över ögonfärg observerades det att i SNP rs12913832 hade alla med blå ögonfärg allelen GG, medan endast personerna med allelen AA hade brun ögonfärg enligt figur 2a. Detta innebar att om en individ hade AA i den specifika SNP:n hade den bruna ögon enligt den klassificering av ögonfärg som användes. Liknande slutsatser kunde även dras för flera genetiska markörer för hårfärgsdatasetet. Exempelvis var den svarta hårfärgen den enda som innehöll allelen CC i SNP rs28777 enligt figur 2b. Resterande genetiska markörer som uppvisade liknande beteende presenteras i bilaga A. 9 Blå Intermediär Brun Observerad ögonfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 6: rs12913832 Allel G,G A,G A,A (a) Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 1: rs28777 Allel A,A C,A C,C (b) Figur 2: Andelen, i procent, av de olika allelerna i rs12913832 (a) och rs28777 (b) för ögonfärg respektive hårfärg. För hårfärgsdatamängden kunde det även observeras att vissa SNP:er endast innehöll samma allel för alla individer. Dessa presenteras i tabell 3. Då dessa inte kan användas för att särskilja individer påverkar de inte prediktionsförmågan hos modellen, och därför togs de bort. Tabell 3: SNP:er med endast en allel för alla observationer i hårfärgsdatasetet. SNP Observerad allel rs312262906_N29insA CC rs1805006 CC rs201326893_Y152OCH CC rs11547464 GG rs1110400 TT För att möjliggöra analysen behövde datamängden tilldelas numeriska värden. Därför tilldelades klassifikationerna och varje allel inom varje SNP ett numeriskt heltal. Till exempel valdes blå till 0, intermediär till 1, brun till 2 för den multinomiala ögonfärgsmodellen och för SNP rs12203592 tilldelades allelerna CC och CT värdena 1 respektive 2. På detta sätt tilldelades en modellparameter βi för varje SNP. 3.3 Modellutveckling För denna undersökning användes programmeringsspråket R. Utvecklingen av de binära och de multinomiala logistiska regressionsmodellerna var nästan identisk. De skiljde sig endast åt i hur trolighetsfunktionerna definierades: för den binära modellen beskrevs trolighetsfunktionen av ek- vation (5), medan den beskrevs av ekvation (7) för den multinomiala modellen. De utvecklade modellerna grundades i en bayesiansk statistikram, som introducerades i teoride- len av rapporten. Syftet med modellerna var att, givet observerad data y, beräkna sannolikheten π(ynew|y) för nya prediktioner ynew. Denna sannolikhet approximerades numeriskt med hjälp av MCMC-metoder enligt ekvation (9). För att möjliggöra detta introducerades stokastiska paramet- rar θ. ML-skattningen för θ valdes som starten av markovkedjan. Denna extrempunkt beräknades nume- riskt genom R-funktionen nlm, där samtliga parametrar initialiserades med startvärde 1. Därefter simulerades en markovkedja med 10000 iterationer, förutom för de binära hårfärgsmodellerna där 10 markovkedjan simulerades med 50000 iterationer. Varje nytt förslag på parametervektorn θ∗ gene- rerades enligt θ∗ = θt + ϵ, där θt var det senaste elementet i markovkedjan och ϵ var en slumpmäs- sig vandring med multinormalfördelningen N (0, σ2I), där I var identitetsmatrisen. Värdet på σ anpassades individuellt för varje modell: för ögonfärgerna sattes σ = 0,7 för binära regressionsmo- deller och σ = 1 för multinomiala modeller. För hårfärgerna valdes σ = 0,01 för den multinomiala modellen med likformig priorifunktion, medan σ = 0,1 användes i övriga modeller. Valet av stan- dardavvikelserna baserades på behovet av en balans mellan spridning och acceptans i kedjan. Om σ var för stor blev hoppet mellan gamla och nya parametrar för stort, vilket ledde till låg acceptans i markovkedjan, medan för små σ skulle det innebära att kedjan konvergerade mycket långsamt. För att avgöra om det föreslagna steget θ∗ skulle accepteras och läggas till i markovkedjan beräk- nades acceptanssannolikheten enligt ekvation (8). Eftersom förslagsfunktionen q(θ∗|θt) = N (θt, σ 2) hade en symmetrisk densitet kring väntevärdet θt innebar det att q(θ∗|θt) = q(θt|θ∗), vilket för- enklade uttrycket för acceptanssannolikheten enligt teoriavsnitt 2.2.5. Posteriorifördelningarna för både θt och θ∗ beräknades med hjälp av ekvation (1), där trolighetsfunktionen i sin tur beräknades via ekvation (5) för de binära modellerna respektive ekvation (7) för de multinomiala modellerna. Det fanns många olika priorifunktioner att välja bland. I detta arbete valdes det att utveckla mo- deller både med en icke-proper likformig priorifunktion och med en multinormal priorifunktion. Vid icke-proper likformig priori gällde det att π(θt) = π(θ∗), vilket förenklade acceptanssannolikhe- ten ytterligare. För den multinormalfördelade priorifunktionerna användes R-funktionen dmnormt från biblioteket mnormt, som beräknade sannolikheten för en multinormalfördelning med vänte- värde µ och en kovariansmatris Λ. Här valdes ML-värdet θstart som väntevärde och en diagonal kovariansmatris med värde di längs diagonalen. Detta val baserades på det naiva antagandet att generna för olika SNP:er var oberoende, vilket innebar att kovarians mellan dem var 0. Värdet för diagonalelementen di valdes utifrån observationer av konvergensen av parametrarna för mo- dellerna med de icke-propra likformiga priorifunktionerna, se bilaga B.5. För modellerna baserade på hårfärgsdatamängden sattes samtliga diagonalelement till 1, och för den binära modellen för ögonfärgsdatamängden valdes di = 10 för SNP rs12913832 och konstanttermen medan resteran- de diagonalelement valdes till di = 1. För den multinomiala ögonfärgsmodellen sattes samtliga diagonalelement till di = 10. Av numeriska stabilitetsskäl beräknades logaritmen av acceptanssannolikheten. Detta påverkade inte beslutet så länge som logaritmen även togs av det slumpmässiga talet U i steg 4 av Metropolis- Hastings-algoritmen. Då accepterades θ∗ om log(U) ≤ log(α), vilket var korrekt eftersom logarit- men är kontinuerlig och strikt monoton då U,α > 0. Iterationen avslutades med att antingen lägga till θ∗ på slutet av kedjan om den accepterades, eller att lägga till det gamla θt på kedjan. Därefter påbörjades en ny iteration av MCMC-algoritmen. Med den senare halvan av markovkedjan kunde uppskattningen av sannolikheten π(ynew|y) be- räknas enligt ekvation (9). Anledningen till att den första halvan av kedjan inte användes var för att ta bort den delen av kedjan då parametrarna inte hade konvergerat till den stationära fördel- ningen. Därefter valdes den klassificering som maximerade sannolikheten π(ynew|y) som modellens prediktion. 3.4 Modellvalidering Korsvalidering av typen LOOCV, som beskrivs i teoriavsnitt 2.2.8, användes för samtliga mo- deller för att beräkna teststatistik för varje enskild datapunkt. Dessa teststatistiker användes för att konstruera konfusionsmatriser som tabulerade modellernas prestanda. Teststatistiken använ- des även för att skapa ROC-kurvor samt beräkna AUC-värden, vilket genomfördes med hjälp av R-funktionen roc och auc från biblioteket pROC. LOOCV var lämpligt att använda eftersom datamängderna var förhållandevis små. 4 Resultat Avsnittet nedan börjar med att presentera en sammanställning av de viktigaste resultaten i tre tabeller: modellernas AUC-värden, sensitivitet och specificitet. Därefter uppvisas resultatet mer 11 utförligt för två modeller: den binära ögonfärgsmodellen med en icke-proper likformig priorifunk- tion och den multinomiala hårfärgsmodellen med en multinormal priorifunktion. Detta då dessa modeller är de som uppvisar bäst respektive sämst prestanda. Resultaten som presenteras för de två modellerna är deras ROC-kurvor, konfusionsmatriser och sannolikhetsfördelningarna över prediktionerna. Resultaten för de övriga modellernas ROC-kurvor, konfusionsmatriser och sanno- likhetsfördelningar presenteras i bilaga B.1, B.2 respektive B.4. Påverkan av en sannolikhetströskel på 70% för samtliga modeller visualiseras i bilaga B.3. Konvergensen för parametrarna för de olika modellerna illustreras i bilaga B.5. Det kan observeras att alla parametrar konvergerade. Undantag görs för den multinomiala modellen baserad på hårfärgsdata eftersom den modellen använder 54 modellparametrar vilket är opraktiskt att analysera. 4.1 AUC-värden för alla modeller Modellernas AUC-värden sammanställs i tabell 4 där varje kolumn representerar de fall då den givna färgen valdes till det positiva utfallet. Det totala AUC-värdet beräknades med ekvation (10). Tabell 4: Sammanställning av AUC-värden för de olika modellerna med olika priorifunktioner. Modell Priorifunktion Blå Intermediär Brun Blond Röd Svart Total Binär ögonfärg Icke-proper likformig 0,732 - - - - - 0,732 Multinormal 0,7154 - - - - - 0,7154 Multinomial ögonfärg Icke-proper likformig 0,7469 0,5847 0,5747 - - - 0,6789 Multinormal 0,7194 0,5713 0,5573 - - - 0,6568 Binär hårfärg Icke-proper likformig - - 0,5812 - - - 0,5812 Multinormal - - 0,5795 - - - 0,5795 Multinomial hårfärg Icke-proper likformig - - 0,5125 0,5840 0,9469 0,6529 0,5798 Multinormal - - 0,5119 0,5800 0,9469 0,6479 0,5781 4.2 Sensitivitets- och specificitetstabeller Tabell 5 visar modellernas sensitivitet och noggrannhet. Tabell 6 visar modellernas specificitet. Vid beräkning av specificiteterna ansågs samtliga negativa klasser som samma klass. Exempelvis sågs en gissning på brun ögonfärg på en individ med intermediär ögonfärg som en sann negativ förutsägelse eftersom både färgerna var negativa klasser när blå ögonfärg valdes som positiv klass. Tabell 5: Sammanställning av sensitiviteter för olika modeller med olika priorifunktioner. Vid användande av en sannolikhetströskel togs de individerna där prediktionsmodellen gav en lägre sannolikhet än 70% ut ur totalen. Noggrannheten visas i kolumnen längst till höger. Modell Priorifunktion Blå Intermediär Brun Blond Röd Svart Icke-blå Icke-brun Noggrannhet Multinomial ögonfärg Icke-proper likformig 94% 28% 70% - - - - - 71,76% Multinormal 94% 28% 70% - - - - - 71,76% Multinomial ögonfärg (70% tröskel) Icke-proper likformig 97,56% 27,78% 66,67% - - - - - 75% Multinormal 97,30% 31,58% 70% - - - - - 74,24% Binär ögonfärg Icke-proper likformig 96% - - - - - 54,29% - 78,82% Multinormal 98% - - - - - 54,29% - 80% Binär ögonfärg (70% tröskel) Icke-proper likformig 97,30% - - - - - 58,62% - 80,30% Multinormal 97,50% - - - - - 58,62% - 81,16% Multinomial hårfärg Icke-proper likformig - - 85,19% 0% 57,14% 35,71% - - 64,71% Multinormal - - 85,19% 0% 57,14% 35,71% - - 64,71% Multinomial hårfärg (70% tröskel) Icke-proper likformig - - 76,47% 0% 60% 37,50% - - 59,26% Multinormal - - 77,14% 0% 60% 28,57% - - 59,26% Binär hårfärg Icke-proper likformig - - 75,93% - - - - 22,58% 56,47% Multinormal - - 77,78% - - - - 19,35% 56,47% Binär hårfärg (70% tröskel) Icke-proper likformig - - 78,57% - - - - 14,29% 51,02% Multinormal - - 83,87% - - - - 10,00% 54,90% 12 Tabell 6: Sammanställning av specificiteter för olika modeller med olika priorifunktioner. Vid an- vändande av en sannolikhetströskel togs de individerna där prediktionsmodellen gav en lägre san- nolikhet än 70% ut ur totalen. Modell Priorifunktion Blå Intermediär Brun Blond Röd Svart Icke-blå Icke-brun Multinomial ögonfärg Icke-proper likformig 54,29% 90,00% 97,33% - - - - - Multinormal 51,43% 90,00% 98,67% - - - - - Multinomial ögonfärg (70% tröskel) Icke-proper likformig 59,26% 92,00% 96,61% - - - - - Multinormal 58,62% 91,49% 98,21% - - - - - Binär ögonfärg Icke-proper likformig 54,29% - - - - - 96,00% - Multinormal 54,29% - - - - - 98,00% - Binär ögonfärg (70% tröskel) Icke-proper likformig 58,62% - - - - - 97,30% - Multinormal 58,62% - - - - - 97,30% - Multinomial hårfärg Icke-proper likformig - - 32,26% 97,33% 97,44% 92,96% - - Multinormal - - 32,26% 97,33% 97,44% 92,96% - - Multinomial hårfärg (70% tröskel) Icke-proper likformig - - 30,00% 97,87% 95,92% 89,13% - - Multinormal - - 28,32% 97,87% 95,92% 89,36% - - Binär hårfärg Icke-proper likformig - - 22,58% - - - - 75,93% Multinormal - - 19,35% - - - - 77,78% Binär hårfärg (70% tröskel) Icke-proper likformig - - 14,29% - - - - 78,57% Multinormal - - 10,00% - - - - 83,87% 4.3 ROC-kurvor för de utvalda modellerna Figur 3 visar ROC-kurvan för den binära ögonfärgsmodellen med en icke-proper likformig prior, tillsammans med det tillhörande AUC-värdet på 0,732. 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,732) Figur 3: ROC-kurva och tillhörande AUC för binär ögonfärg vid användning av en icke-proper likfördelad priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. Det totala AUC-värdet för multinomiala hårfärgsmodellen med multinormal priorifunktion beräk- nades till 0,5781 enligt ekvation (10). ROC-kurvor och AUC-värden för respektive hårfärg presen- teras i figur 4, där AUC uppgick till 0,5800 för blond, 0,5119 för brun, 0,9469 för röd och 0,6479 för svart hårfärg. 13 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,58) (a) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5119) (b) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,9469) (c) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,6479) (d) Figur 4: ROC-kurvor för den multinomiala modellen för hårfärg vid användande av multinormal prior. Kurvan (a) tillhör blond hårfärg, (b) brun, (c) röd och (d) svart som positivt utfall. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som refe- rens. 4.4 Konfusionsmatriser för de utvalda modellerna Konfusionsmatrisen för den binära ögonfärgsmodellen med en icke-proper likformig priorifunktion visas i figur 5. Denna predicerar förekomsten eller avsaknaden av blå ögonfärg hos individerna. Figur 6 presenterar konfusionsmatrisen för den multinomiala hårfärgsmodellen med en multinormal priorifunktion. 14 Blå Icke-blå Förutspådd färg Bl å Ick e- bl åOb se rv er ad 48 2 16 19 Konfusionsmatris för binär ögonfärg med icke-proper likformig priorifunktion Figur 5: Konfusionsmatrisen för den binära ögonfärgsmodellen med en icke-proper likformig prio- rifunktion. Matrisen visar antal korrekta och felaktiga klassificeringar, där diagonalen visar träffar och övriga rutor felklassificeringar. Blond Brun Röd Svart Förutspådd färg Bl on d Br un Rö d Sv ar t Ob se rv er ad 0 10 0 0 1 46 2 5 0 3 4 0 1 8 0 5 Konfusionsmatris för multinomiell hårfärg med mutinormal priorifunktion Figur 6: Konfusionsmatrisen för den multinomiala hårfärgsmodellen med en multinormal priori- funktion. Matrisen visar antal korrekta och felaktiga klassificeringar, där diagonalen visar träffar och övriga rutor felklassificeringar. 4.5 Sannolikhetsfördelningar för de utvalda modellerna Figur 7a visar resultatet över de predicerade sannolikheterna för den binära ögonfärgsmodellen med en icke-proper likformig priorifördelning. Varje stapel innehåller information om procentsat- serna för samtliga klassificeringar för varje prediktion i LOOCV. Figuren är uppdelad i korrekta och felaktiga prediktioner där staplarna är sorterade utefter klassificeringen av prediktionen. San- nolikhetsfördelningen för den multinomiala hårfärgsmodellen med en multinormal priorifunktion uppvisas i figur 7b. 15 Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlå Icke-blå (a) Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlond Brun Röd Svart (b) Figur 7: Sannolikhetsfördelningarna för binär ögonfärgsmodellen och multinomial hårfärgsmodell. Figur (a) visar sannolikheterna för prediktionsmodellen för binär ögonfärg med icke-proper likfor- mig priorifunktion. Figur (b) visar sannolikheterna för prediktionsmodellen för multinomial hårfärg med en multinormal priorifunktion. De vänstra figurerna illustrerar de korrekta prediktionerna me- dan de högra figurerna illustrerar de felaktiga prediktionerna. 5 Diskussion I detta arbete har det studerats hur ögon- och hårfärg kan förutspås från genetiska markörer i DNA utifrån de tre centrala aspekterna: datamaterialets tillförlitlighet, modellernas konstruk- tion samt dess prestanda. Två huvudsakliga prediktionsmodeller baserade på logistisk regression har framtagits, en binär och en multinomial. Modellerna utvecklades ytterligare genom att två olika priorifunktioner testades. Dessa var en icke-proper likformig priorifunktion samt en multi- normal priorifunktion. Sammanlagt utvecklades därmed fyra olika prediktionsmodeller för varje datamängd. I följande avsnitt tolkas och jämförs resultatet från prediktionsmodellerna med hänsyn till hur väl de presterar, samt mot bakgrund av tidigare forskning inom ämnet. Därtill diskuteras begränsande faktorer som kan ha haft inverkan på resultatet, likaså förslag på möjliga förbättringar för framtida studier. 16 5.1 Tolkning av resultat Resultaten visar överlag att modellen uppnår låga AUC-värden, vilket tyder på en otillfredsställan- de prediktiv förmåga. Dessutom kan det observeras i tabell 4 att ett användande av en multinormal priorifunktion gav lägre AUC-värden jämfört med de modeller som använde en icke-proper likfor- mig priorifunktion. De totala AUC-värdena varierar mellan 0,5781 och 0,732, vilket motsvarar en prestanda som sträcker sig från låg till, i bästa fall, acceptabel. Modellen för binär ögonfärg, med ett totalt AUC-värde på 0,7154 och 0,732 för en multinormal respektive likformig prior, är den enda modellen som uppnår en acceptabel prestanda enligt intervallen i kapitel 2.2.8. Det tyder på att det finns egenskaper bland den givna DNA-data som modellen kan använda för att förutspå ögonfärger, men att dessa inte är tillräckliga för att få säkra svar från modellerna. Däremot lycka- des modellen för multinomial hårfärg få ett AUC-värde på 0,9469 för röd hårfärg, vilket kan tyda på att modellerna har en förmåga att särskilja rödhåriga från övriga individer. Emellertid kan det innebära att de rödhåriga individerna i datamängden har varit lättare att särskilja från resterande individer, men att detta nödvändigtvis inte är representativt för alla rödhåriga. Genom att använda LOOCV för att utvärdera modellernas prestanda framgår det att samtliga modeller tenderar att predicera den klassifikation med flest datapunkter. För ögonfärgsdatamäng- den är det den blåa färgen med en andel på 58,8% och för hårfärgsdatamängden är det den bruna färgen med en andel på 63,5%, vilket visas i figur 1. Att klassifikationerna med flest datapunk- ter överrepresenteras i prediktionerna återspeglas i konfusionmatriserna i bilaga B.2. De binära ögonfärgsmodellerna predicerar i genomsnitt blå i 75,9% av fallen, medan de multinomiala ögon- färgsmodellerna gör detta i 74,7%. De binära och multinomiala hårfärgsmodellerna förutspår brun hårfärg i 77,6% respektive 78,8% av fallen i genomsnitt. Detta kan vara en indikation på att model- lerna har en bias för majoritetsklassen, vilket sannolikt beror på den obalanserade klassfördelningen i datamängderna. Det kan vara ett tecken på att minoritetsklasserna innehåller för få observationer för att modellen ska kunna identifiera tillräckliga mönster och därmed göra tillförlitliga prediktio- ner. Undersökning med en större datamängd skulle därför behöva göras. Tabell 5 och 6 illustrerar modellernas sensitivitet och specificitet. Eftersom sensitivitet och specifi- citet är mått på andelen korrekta förutsägelser av positiva respektive negativa klasser, kan modeller med låga AUC-värden fortfarande användas beroende på användarens mål. En modell med hög sensitivitet och låg specificitet tenderar att ofta klassificera observationer tillhörande den positiva klassen, samtidigt som den sällan korrekt identifierar de negativa klasserna. Denna egenskap skulle kunna användas för att minska misstankarna kring förekomsten av den givna positiva färgen när modellen förutspår att individen tillhör den negativa klassen. Med liknande resonemang kan en hög specificitet och låg sensitivitet användas för att styrka befintliga misstankar om förekomsten av den givna färgen. Exempelvis klassificerar den multinomiala hårfärgsmodellen brun hårfärg med hög sensitivitet och låg specificitet, vilket innebär att individer som förutspås som icke-brunhåriga troligen är det. Den multinomiala hårfärgsmodellen klassificerar även röd hårfärg med hög spe- cificitet och låg sensitivitet, vilket innebär att individer som förutspås som rödhåriga troligen är rödhåriga. Det omvända gäller däremot inte, vilket innebär att en prediktion som utesluter röd hårfärg inte bör påverka misstanken om att en individ är rödhårig. Genom att sannolikhetströskeln på 70% läggs till kan flera prediktioner med låg säkerhet sållas bort, vilket illustreras i figurerna i bilaga B.3. Det visar sig dock i figur 22 och 23 att modellerna för hårfärg ger så pass osäkra prediktioner att en väldigt stor del av dessa inte överstiger sannolik- hetströskeln. När det gäller andelen korrekta prediktioner visar tabell 5 att sannolikhetströskeln ger en liten förbättring av exaktheten för ögonfärgsmodellerna. Däremot visar tabellen att andelen korrekta prediktioner för hårfärgsmodellerna minskar med sannolikhetströskeln. Detta tyder på att fler korrekta prediktioner har låg sannolikhet, medan de felaktiga prediktionerna i större grad har högre sannolikhet. I kombination med de låga AUC-värdena för hårfärgsmodellerna uppvisar detta modellernas låga prestanda. Observera även att sannolikhetsfördelningarna i figur 7 för både korrekta och felaktiga prediktioner har en liknande fördelning av sannolikheter, vilket även gäller för de resterande modellerna som presenteras i bilaga B.4. En sannolikhetströskel bidrar alltså inte till en förbättring av prediktionsförmågan för modellerna, eftersom tröskeln tar bort samma andel korrekta och inkorrekta förutsägelser. 17 Tidigare forskning från Nationellt forensiskt centrum av noggrannheten för prediktionsmodeller av hår- och ögonfärg resulterade i att 80% av ögonfärgerna förutspåddes korrekt, medan 58% av hårfärgerna förutspåddes korrekt enligt teoriavsnitt 2.1.3. Denna studie visade även att sannolik- hetströskeln på 0,7 ökade noggrannheten för ögonfärgerna till 85% men inte påverkade andelen korrekt förutspådda hårfärger [9]. Studien använde en datamängd av liknande storlek, vilket gör den relevant för jämförelse med detta arbete. I tabell 5 presenteras de beräknade noggrannheterna för respektive modell, med och utan sannolikhetströskel. Det uppvisas att noggrannheten för de multinomiala ögonfärgsmodellerna ger liknande resultat som i den tidigare studien, med 71,76% noggrannhet för både icke-proper likformig och multinormal priorifunktion. Dessutom orsakar san- nolikhetströskeln en liknande förbättring av noggrannheten som i den tidigare studien, med 75% respektive 74,24% noggrannhet. Modellerna för multinomial hårfärg uppvisade högre noggrannhet jämfört med den tidigare studien, med 64,71% för båda priorifunktionerna. Sannolikhetströskeln medför däremot lägre noggrannhet för alla hårfärgsmodeller. En slutsats som kan dras från detta är att de framtagna modellerna ändå uppvisar förhållandevis höga noggrannheter i jämförelse med tidigare modeller som redan används inom prediktion av fenotypiska egenskaper, åtminstone när det gäller en liknande datamängd. 5.2 Begränsande faktorer och förbättringsmöjligheter En problematik med modellerna är hur färgerna klassificeras. Möjligtvis klassificerades de observe- rade färgerna genom en subjektiv bedömning. Därför kan en ögonfärg som genetiskt förväntas vara blå ha klassificerats som en intermediär färg, om den subjektiva bedömningen av färgen har varit otydlig. Sedan tidigare är det känt att grön ögonfärg är en svår ögonfärg att förutspå [9]. Detta uppenbaras även i detta projekt då sensitiviteten för intermediär ögonfärg var låg enligt tabell 5. En intressant observation är att de multinomiala ögonfärgsmodellerna aldrig predicerar brun ögonfärg på blåögda individer eller blå ögonfärg på brunögda individer, vilket illustreras i figur 21 i bilaga B.3. Detta är ett tecken på att modellerna lyckas differentiera de olika ögonfärgerna men att subjektiviteten av den intermediära kategorin och de observerade ögonfärgerna introducerar en felkälla. Det är sedan tidigare känt att hårfärger kan bli mörkare med ålder [8], vilket kan vara ett problem för klassificeringen av hårfärger. Subjektiviteten i kategorisering av data kan därmed innebära att en observerad brunhårig individ bär blonda gener. För att undvika sådana felkällor skulle en större studie behövas kring hur ögon- och hårfärger uppfattas i samband med de genetiska förutsättningarna. Det finns även risk för att mörkandet av hårfärg inte är inkodat i DNA. Mer forskning om gener för hårmörkande och modeller som även tar hänsyn till individers ålder kan möjligtvis ge bättre resultat. Ett ytterligare problem med modellerna är valet av att representera förekomsten av olika alleler med heltal. Den numeriska representationen introducerar en artificiell ordning på allelerna som inte överensstämmer med dess verkliga karaktär, eftersom det finns en inbördes ordning hos de reella talen. Detta kan påverka modellernas förmåga att anpassa parametrarna till datamängden. Framtida modeller kan kräva en bättre förbehandling av data för att motverka problemet, exem- pelvis genom att representera varje möjlig allel för varje SNP med en separat parameter. Dessutom skulle detta potentiellt förbättra modellens förmåga att identifiera mönster i allelfördelningen för varje SNP. Modellen skulle, i enlighet med figur 2a, exempelvis få möjlighet att lära sig att endast individer som har allelparet AA för SNP rs12913832 är brunögda. Då den föreslagna modellen skulle använda en separat parameter för varje allel skulle den potentiellt ha bättre kapacitet att lära sig denna information. I arbetet baserades modellerna i en bayesiansk statistisk ram. En undersökning av andra förslags- funktioner och deras påverkan på prediktionsförmågan skulle även kunna utföras genom andra val på standardavvikelsen eller förslagsfunktionen. Alternativa modeller kan även utvecklas inom en frekventistisk ram med konfidensintervall och signifikansnivå. I teorin är det även möjligt att an- vända neutrala nätverk som en prediktionsmodell, men i praktiken skulle detta kräva en betydligt större datamängd. Priorifördelningarnas påverkan på modellernas prestanda kan även undersökas genom att variera 18 valet av priorifördelningar. Dessutom kan hyperparametrar, såsom kovariansmatrisen för multi- normalfördelningarna, justeras och därmed kan högre AUC-värden åstadkommas. För större data- mängder skulle en adaptiv multinormal priorifunktion kunna användas. Denna skulle implemen- teras genom att först skapa en markovkedja för parametrarna genom att använda MCMC med en icke-proper likformig priorifunktion, för att sedan numeriskt beräkna kovariansmatrisen för para- meterkedjan. Kovariansmatrisen skulle sedan användas för att skapa en multinormal priorifunktion. 6 Samhälleliga och etiska aspekter Den utvecklade prediktionsmodellen har en inverkan på flera samhälleliga och etiska aspekter. Pre- diktionsmodellen är utvecklad för att huvudsakligen användas av rättsväsendet för att identifiera gärningsmän utifrån DNA-spår på brottsplatser. Detta kan bidra till effektivare och träffsäkrare brottsutredningar, vilket kan stärka rättssäkerheten och öka förtroendet för rättsväsendet. Trots denna samhällsnytta så finns det samtidigt en risk för felträffar, vilket kan negativt påverka enskilda individer genom att oskyldiga felaktigt pekas ut. Det är av denna anledning viktigt, från ett samhälleligt perspektiv, att avgöra i vilket samman- hang som prediktionsmodellerna ska användas och vara medveten om modellens begränsningar. Eftersom prediktionsmodellen endast tar fram sannolikheter för fenotypiska egenskaper utifrån de genetiska markörerna, så finns det alltid en viss osäkerhet i prediktionen. Därmed är det viktigt att prediktionen inte ensamt kan användas som bevisning i en rättegång, utan att övrig bevisning alltid måste vägas in för att faktiskt kunna fälla en misstänkt för ett brott. För att prediktionsmodellen i praktiken ska vara användbar för rättsväsendet behöver modellen ha hög träffsäkerhet för korrekta prediktioner. Träffsäkerheten kräver att den data som model- len bygger på är tillförlitlig när det gäller korrekthet, storlek av datamängd och bias. Bias i den ursprungliga datamängden kan leda till att individer i redan utsatta grupper i större grad blir ut- pekade av modellen, då modellen kan bli partisk för att göra vissa prediktioner. Detta kan därmed öka diskriminering och kränkningar för redan utsatta grupper i samhället. På lång sikt kan felak- tiga utpekningar från undermåliga prediktionsmodeller påverka samhällets syn på rättssystemets trovärdighet. Ett annat etiskt dilemma är integritetsfrågan. Användning av prediktionsmodellen kan möjligtvis innebära en inskränkning av individers skydd av deras genetiska information. Detta kan skapa en känsla av övervakning, vilket riskerar att minska tilliten för myndigheter och andra institutioner som använder modellen. Däremot kan det diskuteras om visuella egenskaper som utseende egentli- gen kan ses som privat data. Utseende är inte endast känt för individen i fråga, utan även för alla som sett personen. En ytterligare central fråga är vem som får tillgång till prediktionsmodellen. Även om användan- det av modellen begränsas till auktoriserade aktörer, så kommer med stor sannolikhet ytterligare aktörer kunna få tillgång till dessa eller liknande modeller. Detta innebär att det finns en risk för att privatpersoner, företag eller utländska myndigheter missbrukar användandet av modellen för att främja deras intressen. Om prediktionsmodellen vidare utvecklas till en perfekt modell som kan konstruera fantombilder från genetiska markörer, så kan missbruket exempelvis vara att företag samlar och säljer mer personlig data om privatpersoner, vilket ökar inskränkningarna i individers rätt till integritet och autonomi. Om modellerna skulle missbrukas av länder som inte följer Sveri- ges lagar och värderingar finns det även en risk för att den skulle kunna användas som ett verktyg för att diskriminera och förfölja redan utsatta minoritetsgrupper i samhället. 7 Slutsatser I detta projekt utvecklades en statistisk modell för att predicera hår- och ögonfärg på individer baserat på en datamängd med uppsättning genetiska markörer, bestående av 85 individers geno- typ och observerade fenotyper. Modellen byggdes med hjälp av bayesiansk statistik och logistisk regression, både i binär och multinomial form. För dessa användes två typer av priorifunktioner: en 19 icke-proper likformig priorifunktion och en multinormal priorifunktion. Dessa modellers prestanda jämfördes med hjälp av ROC-kurvor samt AUC-värden. Samtliga modeller fick låga totala AUC-värden. Detta förklaras av flera faktorer, däribland hur parametrarna tilldelades, storleken av datamängden samt hur den klassificerades. Att tilldela en separat parameter för varje SNP medför att modellen introducerar ett artificiellt numeriskt sam- band, vilket i sin tur försvårar upptäckten av mönster i hur allelerna är fördelade inom varje SNP. Den begränsade storleken på datamängden innebär att modellen inte lär sig relevanta mönster som skiljer klasserna åt. Den ospecifika klassificeringen av datamängden, speciellt färgen intermediär, kan även ha haft inverkan i det slutgiltiga resultatet. Detta då variationen i allelerna kan ha varit för stor för modellen att upptäcka. Trots resultaten antyds det att ett samband mellan fenotypen och den genetiska uppsättningen existerar, även om modellerna i sin helhet inte är lämpliga för användning inom forensisk verksamhet. 20 Referenser [1] Statens medicinsk-etiska råd (SMER), Kort om DNA och brottsutredning, 2021. URL: https: //smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf, Hämtad: 30 januari 2025. [2] N. Hagen, “I gränslandet mellan genotyp och fenotyp. Motsägelser i samband med prediktiv genetisk testning”, Socialmedicinsk tidskrift, årg. 88, nr 3, s. 266–272, 2011. URL: https: //socialmedicinsktidskrift.se/index.php/smt/article/download/788/636/0, Hämtad 31 januari 2025. [3] D. P. Clark, Molecular Biology, 1. utg. Elsevier Science & Technology Books, juni 2005, isbn: 9780123785893. URL: https://shop.elsevier.com/books/molecular-biology/clark/ 978-0-12-378589-3. [4] A. A. Komar, Single Nucleotide Polymorphisms: Methods and Protocols (Methods in Mo- lecular Biology), 2. utg. Totowa, NJ: Humana Press, 2009, vol. 212. doi: https://doi.org/ 10.1007/978-1-60327-411-1. [5] S. Bader, A Guide to Forensic DNA Profiling, 1. utg. John Wiley & Sons, Incorporated, mars 2016, isbn: 9781118751527. [6] M. A. Farley, Forensic DNA Technology, 1. utg. Boca Raton, FL, USA: Taylor & Francis Group, 2017. doi: https://doi.org/10.1201/9781351072120. [7] P. R. Haddrill, “Developments in forensic DNA analysis”, Emerging Topics in Life Sci- ences, årg. 5, nr 3, s. 381–393, 2021, issn: 2397-8562. doi: https://doi.org/10.1042/ ETLS20200304. [8] M. Wallin, “Användning av ny DNA-teknik vid brottsbekämpning för att förutsäga männi- skors ögon-, hår- och hudfärg”, Bioscience Explained, årg. 9, nr 1, 2016, Göteborgs universitet, Institutionen för biologi och miljövetenskap. URL: https://gup.ub.gu.se/publication/ 277670. [9] K. Junker, A. Staadig, M. Sidstedt, A. Tillmar och J. Hedman, “Phenotype prediction accu- racy – A Swedish perspective”, Forensic Science International: Genetics Supplement Series, årg. 7, nr 1, s. 384–386, dec. 2019. doi: https://doi.org/10.1016/j.fsigss.2019.10.022. [10] P. M. Lee, Bayesian Statistics: An Introduction (New York Academy of Sciences Series), 1. utg. Hoboken, NJ: John Wiley & Sons, Incorporated, 2012, isbn: 9781118332573. [11] K. David G och M. Klein, Logistic Regression, A Self Learning Text (Statistics for Biology and Health), 3. utg. Springer, 2010, isbn: 978-1-4419-1741-6. doi: https://doi.org/10. 1007/978-1-4419-1742-3. [12] D. W. H. Jr., S. Lemeshow och R. X. Sturdivant, Applied Logistic Regression (Wiley Series in Probability and Statistics). John Wiley & Sons, Inc., 2013, isbn: 9780470582473. doi: https://doi.org/10.1002/9781118548387. [13] H. Richard M och B. Holland, Statistical Analysis and Data Display, An Intermediate Course with Examples in R (Springer Texts in Statistics). Springer, 2015, Appendix G, isbn: 978-1- 4939-2122-5. doi: https://doi.org/10.1007/978-1-4939-2122-5. [14] Y. Pawitan, In All Likelihood: Statistical Modelling and Inference Using Likelihood, English, 1. utg. Oxford University Press, Incorporated, 2001, isbn: 9780199671229. doi: https:// doi.org/10.1093/oso/9780198507659.001.0001. [15] R. P. Dobrow, Introduction to stochastic processes with R. Nashville, TN: John Wiley & Sons, febr. 2016. doi: 10.1002/9781118740712. [16] A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari och D. B. Rubin, Baye- sian Data Analysis, 3. utg. Chapman och Hall/CRC, 2025. URL: https://sites.stat. columbia.edu/gelman/book/. [17] A. Gut, An Intermediate Course in Probability (Springer Texts in Statistics), 2. utg. Springer New York, NY, 2009. doi: https://doi.org/10.1007/978-1-4419-0162-0. URL: https: //link.springer.com/book/10.1007/978-1-4419-0162-0. [18] S. M. Ross, “Distributions of Sampling Statistics”, i Introduction to Probability and Sta- tistics for Engineers and Scientists, 5. utg., Författarens affiliering: University of Southern California, Los Angeles, USA., Oxford: Academic Press, 2014, kap. 6, s. 207–233, isbn: 978- 0-12-394811-3. doi: 10.1016/B978-0-12-394811-3.50006-X, Hämtad: 4 maj 2025. 21 https://smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf https://smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf https://socialmedicinsktidskrift.se/index.php/smt/article/download/788/636/0 https://socialmedicinsktidskrift.se/index.php/smt/article/download/788/636/0 https://shop.elsevier.com/books/molecular-biology/clark/978-0-12-378589-3 https://shop.elsevier.com/books/molecular-biology/clark/978-0-12-378589-3 https://doi.org/https://doi.org/10.1007/978-1-60327-411-1 https://doi.org/https://doi.org/10.1007/978-1-60327-411-1 https://doi.org/https://doi.org/10.1201/9781351072120 https://doi.org/https://doi.org/10.1042/ETLS20200304 https://doi.org/https://doi.org/10.1042/ETLS20200304 https://gup.ub.gu.se/publication/277670 https://gup.ub.gu.se/publication/277670 https://doi.org/https://doi.org/10.1016/j.fsigss.2019.10.022 https://doi.org/https://doi.org/10.1007/978-1-4419-1742-3 https://doi.org/https://doi.org/10.1007/978-1-4419-1742-3 https://doi.org/https://doi.org/10.1002/9781118548387 https://doi.org/https://doi.org/10.1007/978-1-4939-2122-5 https://doi.org/https://doi.org/10.1093/oso/9780198507659.001.0001 https://doi.org/https://doi.org/10.1093/oso/9780198507659.001.0001 https://doi.org/10.1002/9781118740712 https://sites.stat.columbia.edu/gelman/book/ https://sites.stat.columbia.edu/gelman/book/ https://doi.org/https://doi.org/10.1007/978-1-4419-0162-0 https://link.springer.com/book/10.1007/978-1-4419-0162-0 https://link.springer.com/book/10.1007/978-1-4419-0162-0 https://doi.org/10.1016/B978-0-12-394811-3.50006-X [19] J. Tacq, “Multivariate Normal Distribution”, i International Encyclopedia of Education (Third Edition), 3. utg., Oxford: Elsevier, 2010, s. 332–338, isbn: 978-0-08-044894-7. doi: https: //doi.org/10.1016/B978-0-08-044894-7.01351-8, Hämtad: 4 maj 2025. [20] M. McDonough, Cross-validation, Encyclopedia Britannica Academic. Senast reviderad av Erik Gregersen, 12 september 2023. URL: https://www.britannica.com/technology/ cross-validation-computer-science, Hämtad: 26 april 2025. [21] T. Fawcett, “An introduction to ROC analysis”, Pattern Recognition Letters, årg. 27, nr 8, s. 861–874, 2006, ROC Analysis in Pattern Recognition, issn: 0167-8655. doi: https://doi. org/10.1016/j.patrec.2005.10.010. [22] F. Provost och P. Domingos, “Well-trained PETs: Improving probability estimation trees”, Raport instytutowy IS-00-04, Stern School of Business, New York University, årg. 1, okt. 2000. URL: https://pages.stern.nyu.edu/~fprovost/Papers/pet-wp.pdf, Hämtad: 9 maj 2025. [23] F. S. Nahm, “Receiver operating characteristic curve: overview and practical use for clini- cians”, Korean Journal of Anesthesiology, årg. 75, nr 1, s. 25–36, jan. 2022. doi: https: //doi.org/10.4097/kja.21209. [24] D. Rios Insua, F. Ruggeri och M. P. Wiper, Bayesian Analysis of Stochastic Process Models (Wiley Series in Probability and Statistics). John Wiley & Sons, Ltd, 2012. doi: https: //doi.org/10.1002/9780470975916. 22 https://doi.org/https://doi.org/10.1016/B978-0-08-044894-7.01351-8 https://doi.org/https://doi.org/10.1016/B978-0-08-044894-7.01351-8 https://www.britannica.com/technology/cross-validation-computer-science https://www.britannica.com/technology/cross-validation-computer-science https://doi.org/https://doi.org/10.1016/j.patrec.2005.10.010 https://doi.org/https://doi.org/10.1016/j.patrec.2005.10.010 https://pages.stern.nyu.edu/~fprovost/Papers/pet-wp.pdf https://doi.org/https://doi.org/10.4097/kja.21209 https://doi.org/https://doi.org/10.4097/kja.21209 https://doi.org/https://doi.org/10.1002/9780470975916 https://doi.org/https://doi.org/10.1002/9780470975916 8 AI-användning AI-användning har begränsats i arbetet. AI användes för att ge förslag på hur tabellerna i förordet kan utformas, men användes inte för att generera hela tabellerna. På detaljnivå har AI i vissa fall använts för att ge förslag på omformuleringar av redan färdigskrivna meningar samt grammatik- och stavningskontroll, men detta har gjorts väldigt sparsamt. AI har inte använts för att generera hela text- eller kodstycken. AI användes inte under arbetet med att utforma prediktionsmodellen. För att generera plottar har AI använts som en “sökmotor”, för att till exempel söka upp hur specifika paket fungerar. Den AI som har använts har varit GPT-4o mini och den inbyggda GPT modellen för overleaf (OpenAI). 23 A Datavisualisering Figur 8 och 9 är de SNP:er som uppvisar samma beteende som de i figur 2, där en allel är unik för en observation. Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 18: rs885479 Allel G,G G,A A,A (a) Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 14: rs1805007 Allel C,C C,T T,T (b) Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 20: rs2378249 Allel G,A A,A G,G (c) Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 6: rs12821256 Allel T,T T,C C,C (d) Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 21: rs16891982 Allel G,G C,G C,C (e) Brun Röd Svart Blond Observerad hårfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 1: rs28777 Allel A,A C,A C,C (f) Figur 8: Alla SNP:er där en allel är unik för en hårfärgsobservation. Figurerna visar andelen alleler, i procent, för varje observation. I (a) ses AA endast hos individer med svart hår, (b) visar att TT är unikt för rött hår, (c) och (d) visar att GG respektive CC förekommer enbart vid brun hårfärg, medan CC i både (e) och (f) är specifik för svart hår. Blå Intermediär Brun Observerad ögonfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 6: rs12913832 Allel G,G A,G A,A (a) Blå Intermediär Brun Observerad ögonfärg 0% 20% 40% 60% 80% 100% An de l ( % ) Andel alleler för SNP 5: rs16891982 Allel G,G C,G C,C (b) Figur 9: Alla SNP:er där en allel är unik för en ögonobservation. Figurerna visar andelen alleler, i procent, för varje observation. I (a) och (b) förkommer endast allelen AA respektive CC endast för brun ögonfärg. B Figurer och tabeller Figurerna nedan illustrerar resultaten som modellerna skapade. i B.1 ROC-kurvor ROC-kurvan för binär ögonfärg med multinormal priorifunktion med tillhörande AUC-värde pre- senteras i figur 10, där AUC beräknades till 0,7154. 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,7154) Figur 10: ROC-kurva och tillhörande AUC för binär ögonfärg, vid användning av en multinormal priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. ROC-kurvorna för modellen för multinomial ögonfärg med likformig priorifunktion återges i figur 11, där AUC-värdena för blå, intermediär och brun ögonfärg var 0,7469, 0,5847 respektive 0,5747. Det sammanvägda AUC-värdet beräknades enligt ekvation (10) och uppgick till 0,6789. 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,7469) (a) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5847) (b) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5747) (c) Figur 11: ROC-kurvor för den multinomiala modellen för ögonfärg vid användande av icke-proper likformig prior. Kurvan (a) tillhör blå ögonfärg, (b) intermediär och (c) brun som positivt utfall. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. ROC-kurvorna för multinomial ögonfärg med multinormal priorifunktion illustreras i figur 12. Figur 12a, 12b och 12c representerar ROC-kurvorna för respektive ögonfärg. AUC för blå, intermediär och brun ögonfärg som positivt utfall var 0,7194, 0,5713 och 0,5573, vilket ger det totala AUC-värdet på 0,6568 enligt ekvation (10). ii 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,7194) (a) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5713) (b) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5573) (c) Figur 12: ROC-kurvor för den multinomiala modellen för ögonfärg vid användande av multinormal likformig prior. Kurvan (a) tillhör blå ögonfärg, (b) intermediär och (c) brun som positivt utfall. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. AUC-värdet för modellen för binär hårfärg med likformig priorifunktion beräknades till 0,5812 enligt figur 33. 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5812) Figur 13: ROC-kurva och tillhörande AUC för binär hårfärg, vid användning av en icke-proper likformig priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. För modellen för binär hårfärg med en multinormal priorifunktion beräknades AUC-värdet till 0,5795, vilket redovisas i figur 14. iii 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5795) Figur 14: ROC-kurva och tillhörande AUC för binär hårfärg, vid användning av en multinomial priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. För modellen för multinomial hårfärg med icke-proper likformig priorifunktion beräknades det totala AUC-värdet till 0,5798 med hjälp av ekvation (10). Varje fenotyp hade AUC-värdena 0,5840, 0,5125, 0,9469 och 0,6529 för blond, brun, röd respektive svart. Detta redovisas i figur 15. 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,584) (a) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,5125) (b) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,9469) (c) 0,00 0,25 0,50 0,75 1,00 0,000,250,500,751,00 Specificitet S en si tiv ite t ROC Kurva (AUC = 0,6529) (d) Figur 15: ROC-kurvor för den multinomiala modellen för hårfärg vid användande av icke-proper likformig prior. Kurvan (a) tillhör blond hårfärg, (b) brun, (c) röd och (d) svart som positivt utfall. Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som referens. B.2 Konfusionsmatriser Nedan presenteras konfusionsmatriserna för alla modeller med båda priorifunktionerna. Figur 16 visar konfusionsmatriserna för binär ögonfärg och figur 17 för den multinomiala modellen som förutspådde förekomsten av blå, intermediär eller brun ögonfärg. I figurer 18 och 19 visas konfu- sionsmatriserna för de binära respektive multinomiala hårfärgsmodellerna. iv Blå Icke-blå Förutspådd färg Bl å Ick e- bl å Ob se rv er ad 48 2 16 19 Med icke-proper likformig priorifunktion Blå Icke-blå Förutspådd färg Bl å Ick e- bl å 49 1 16 19 Konfusionsmatriser vid prediktion av ögonfärg för två olika priorifunktioner Med mutinormal priorifunktion Figur 16: Konfusionsmatris för binär prediktion av ögonfärg. Prediktionen har gjorts med två olika priorifunktioner. Blå Intermediär Brun Förutspådd färg Bl å In te rm ed iä r Br un Ob se rv er ad 47 3 0 16 7 2 0 3 7 Med icke-proper likformig priorifunktion Blå Intermediär Brun Förutspådd färg Bl å In te rm ed iä r Br un 47 3 0 17 7 1 0 3 7 Konfusionsmatriser vid prediktion av ögonfärg för två olika priorifunktioner Med mutinormal priorifunktion Figur 17: Konfusionsmatris för multinomial prediktion av ögonfärg. Prediktionen har gjorts med två olika priorifunktioner. v Brun Icke-brun Förutspådd färg Br un Ick e- br un Ob se rv er ad 41 13 24 7 Med icke-proper likformig priorifunktion Brun Icke-brun Förutspådd färg Br un Ick e- br un 42 12 25 6 Konfusionsmatriser vid prediktion av hårfärg för två olika priorifunktioner Med mutinormal priorifunktion Figur 18: Konfusionsmatris för binär prediktion av hårfärg. Prediktionen har gjorts med två olika priorifunktioner. Blond Brun Röd Svart Förutspådd färg Bl on d Br un Rö d Sv ar t Ob se rv er ad 0 10 0 0 1 46 2 5 0 3 4 0 1 8 0 5 Med icke-proper likformig priorifunktion Blond Brun Röd Svart Förutspådd färg Bl on d Br un Rö d Sv ar t 0 10 0 0 1 46 2 5 0 3 4 0 1 8 0 5 Konfusionsmatriser vid prediktion av hårfärg för två olika priorifunktioner Med mutinormal priorifunktion Figur 19: Konfusionsmatris för multinomial prediktion av hårfärg. Prediktionen har gjorts med två olika priorifunktioner. B.3 Figurer för modellernas prediktioner I avsnittet nedan illustreras resultaten för de olika prediktionsmodellerna i figurerna 20, 21, 22 och 23. Samtliga figurer visar de observerade fenotyperna i den inre cirkelskivan samt de färger som modellerna har predicerat i den yttre cirkelskivan. vi Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 0 % Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd ögonfärg med multinormal priorifunktionBlå Icke-blå Sannolikhet < 0,7 (a) Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 0 % Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd ögonfärg med icke-proper likformig priorifunktionBlå Icke-blå Sannolikhet < 0,7 (b) Figur 20: Resultat av den förutspådda ögonfärgen jämfört med den observerade ögonfärgen för en binär prediktionsmodell. För prediktionen användes i (a) en multinormal priorifunktion medan ingen användes i (b). Det högra cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på 70%. vii Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 0 % Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd ögonfärg med multinormal priorifunktionBlå Intermediär Brun Sannolikhet < 0,7 (a) Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 0 % Observerad ögonfärg Förut spådd ögonf ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd ögonfärg med icke-proper likformig priorifunktionBlå Intermediär Brun Sannolikhet < 0,7 (b) Figur 21: Resultat av den förutspådda ögonfärgen jämfört med den observerade ögonfärgen. För prediktionen användes i (a) en multinormal priorifunktion medan ingen användes i (b). Det högra cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på 70%. viii Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 0 % Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd hårfärg med multinormal priorifunktionBrun Icke-brun Sannolikhet < 0,7 (a) Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 0 % Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd hårfärg med icke-proper likformig priorifunktionBrun Icke-brun Sannolikhet < 0,7 (b) Figur 22: Resultat av den förutspådda hårfärgen jämfört med den observerade hårfärgen för en binär prediktionsmodell. För prediktionen användes i (a) en multinormal priorifunktion medan ingen användes i (b). Det högra cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på 70%. ix Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 0 % Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd hårfärg med multinormal priorifunktionBlond Brun Röd Svart Sannolikhet < 0,7 (a) Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 0 % Observerad hårfärg Förut spådd hår f ärg Sannolikhetströskel = 70,0 % Observerad och förutspådd hårfärg med icke-proper likformig priorifunktionBlond Brun Röd Svart Sannolikhet < 0,7 (b) Figur 23: Resultat av den förutspådda hårfärgen jämfört med den observerade hårfärgen. För prediktionen användes i (a) en multinormal priorifunktion medan ingen användes i (b). Det högra cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på 70%. B.4 Figurer över prediktionsmodellernas sannolikhetsfördelning Figurerna 24, 25, 26 och 27 i nedanstående avsnitt visar resultatet över de predicerade sannolik- heterna. Procentsatserna för respektive gissning är staplade på varandra i figurerna. Figurerna är uppdelade i korrekta gissningar och felaktiga gissningar. x Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlå Icke-blå (a) Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlå Icke-blå (b) Figur 24: Resultat över sannolikheterna för respektive ögonfärg efter prediktion. Figur (a) visar sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke- proper likformig priorifunktion. xi Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlå Intermediär Brun (a) Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlå Intermediär Brun (b) Figur 25: Resultat över sannolikheterna för respektive ögonfärg efter prediktion. Figur (a) visar sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke- proper likformig priorifunktion. xii Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBrun Icke-brun (a) Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBrun Icke-brun (b) Figur 26: Resultat över sannolikheterna för respektive hårfärg efter prediktion. Figur (a) visar sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke- proper likformig priorifunktion. xiii Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlond Brun Röd Svart (a) Individer 0 20 40 60 80 100 Sa nn ol ik he t ( % ) Korrekta gissningar Individer Felaktiga gissningar Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlond Brun Röd Svart (b) Figur 27: Resultat över sannolikheterna för respektive hårfärg efter prediktion. Figur (a) visar sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke- proper likformig priorifunktion. B.5 Figurer för parametrarnas konvergens Figurerna 28, 29, 30, 31, 32, 33 och 34 vi