Prediktion av hårfärg och ögonfärg från genetiska markörer inom forensisk verksamhet Prediction of hair color and eye color from genetic markers in forensic work. Examensarbete för kandidatexamen i matematik vid Göteborgs universitet Kandidatarbete inom civilingenjörsutbildningen vid Chalmers Filippa Johansson Sporre Gustav Järlstam Ludwig Lewis Robin Nilselid Institutionen för Matematiska vetenskaper CHALMERS TEKNISKA HÖGSKOLA GÖTEBORGS UNIVERSITET Göteborg, Sverige 2025 Prediktion av hårfärg och ögonfärg från genetiska markörer inom forensisk verksamhet Examensarbete för kandidatexamen i matematik, med inriktning matematisk sta- tistik, inom Matematikprogrammet vid Göteborgs universitet Robin Nilselid Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk matematik vid Chalmers Filippa Johansson Sporre Ludwig Lewis Kandidatarbete i matematik inom civilingenjörsprogrammet Globala System vid Chalmers Gustav Järlstam Handledare: Petter Mostad Institutionen för Matematiska vetenskaper CHALMERS TEKNISKA HÖGSKOLA GÖTEBORGS UNIVERSITET Göteborg, Sverige 2025 Förord Den här rapporten utforskar möjligheter och utmaningar med att predicera egenskaper kopplade till utseendet hos människor utifrån deras DNA med hjälp av logistisk regression, bayesiansk statistik och Monte Carlo metoder. Vi vill tacka vår handledare Petter Mostad för sin vägledning under arbetets gång och för förslag av ämne för rapporten. Vi vill även tacka Andreas Tillmar och Rättsmedicinalverket som skapade det här projektet och tillät oss att använda deras data. Till sist vill tacka Maria Cervin-Ellqvist och övrig personal på fackspråk som har gett oss bra vägledning och många användbara tips. Även en stor eloge ska lyftas till Café ⟨ν|φ⟩ med personal som försett oss med koffein, socker och glatt humör under hela processen. I tabellen nedan visas den huvudsakliga uppdelningen över hur rapporten har skrivits mellan grupp- medlemmarna. Varje gruppmedlem har även bidragit med återkoppling till resten av gruppen och mindre justeringar av texten. Utöver skrivandet av rapporten så har flertal modeller program- merats. Robin har haft huvudansvaret för modellerna som bara behandlar blå ögon, Ludwig har ansvarat för modellen som behandlar samtliga ögonfärger och Filippa har ansvarat för modellerna som predicerar hårfärg. Avsnitt Rubrik Huvudförfattare Medförfattare Förord Ludwig Populärvetenskaplig text Gustav Filippa Sammandrag / abstract Gustav, Filippa 1 Inledning Gustav 1.1 Bakgrund Gustav 1.2 Syfte Gustav Ludwig 1.3 Avgränsningar Robin Resterade 2.1 Logistisk regression Robin Ludwig 2.2 Bayensiansk inferens Ludwig 2.2.1 Likelihood-funktionen Gustav Ludwig 2.3 Stokastiska processer Ludwig Gustav 2.3.1 Markovkedjor Ludwig, Robin Gustav 2.4 Monte Carlo-metoden Gustav 2.4.1 Monte Carlo Integration Gustav 2.5 Markov Chain Monte Carlo (McMC) Ludwig Robin, Gustav 2.6 Metropolis-Hastings algoritm Robin Ludwig 2.7 Laplace approximation Ludwig, Gustav 2.8 Korsvalidering Gustav Robin 2.9 Förväxlingsmatriser Ludwig Gustav, Robin 3.1 Presentation och transformation av data Gustav, Robin 3.2.1 Härledning av modellgrund Ludwig, Robin 3.2.2 Grundläggande modell Gustav, Ludwig Robin 3.2.3 Numerisk modell Ludwig 3.2.4 Modell för blåa ögon Gustav, Robin Ludwig 3.2.5 Modell för samtliga ögonfärger Ludwig 3.3 Prediktionsmodeller för hårfärg Filippa, Gustav 4.1 Grundläggande modell och numerisk beräkning Ludwig, Gustav 4.2 Prediktionsmodell för blåa ögon Gustav Ludwig 4.3 Prediktionsmodell för samtliga ögonfärger Ludwig Gustav 4.4 Prediktionsmodell för brunt hår Filippa Ludwig 4.5 Prediktionsmodell för samtliga hårfärger Filippa Ludwig 4.6 Prediktionsmodell för blont, rött och svart hår Filippa Ludwig 5.1 Grundläggande modell och numerisk beräkning Gustav 5.2 Modeller för ögonfärg Gustav, Ludwig Filippa 5.3 Modeller för hårfärg Filippa Gustav, Ludwig 5.4 Osäkerheter och utmaningar Gustav, Robin Ludwig, Filippa 5.5 Potentiella användningsområden Gustav, Filippa Robin 5.6 Samhälleliga och etiska aspekter Gustav Filippa 5.6.1 Risk för diskriminering Gustav Filippa 5.6.2 Anpassad lagstiftning Gustav 5.6.3 Hantering av biometriska uppgifter Gustav 6 Slutsats Filippa, Gustav, Ludwig Populärvetenskaplig presentation Efter att ett brott har begåtts startas en brottsutredning. Under en brottsutredning samlas det in prover från brottsplatsen för att undersöka om det finns DNA-spår. Idag används nästan all- tid en metod där DNA:t som hittats på brottsplatsen jämförs direkt med DNA:t från en miss- Figur 1: Insamling av forensiska bevis [1], Används med tillstånd från Britannica ImageQuest. tänkt gärningsperson. Detta sker antingen genom att gärningsper- sonens DNA finns i en databas eller genom direkt jämförelse vid så kallas topsning. Men vad gör man när det inte finns något DNA att jämföra med? Genom att kombinera biologi och matematik skulle det vara möj- ligt att, utifrån DNA-spår som hittats på en brottsplats, få fram information om hur en person ser ut. Detta kan i sin tur hjälpa brottsutredningen genom att smalna av sökfältet till vissa utseen- dedrag, såsom ögonfärg eller hårfärg, hos den potentiellt misstänk- ta personen. DNA finns i alla våra celler och fungerar som en instruktion för hur kroppen ska utvecklas och fungera. Alla människors DNA är nästintill identiska med varandra, vilket innebär att man behöver studera DNA:t noggrant för att hitta skillnader. Om man vill hitta en specifik genetisk markör som exempelvis avgör ögonfärg, behö- ver man jämföra specifika delar av DNA:t. En genetisk markör är en sådan plats i DNA:t där det finns variation. DNA är uppbyggt av fyra olika kvävebaser: adenin (A), tymin (T), guanin (G) och cytosin (C). A parar sig alltid med T, och G med C. Man skulle kunna se på människans DNA som en bok som har skri- vits av väldigt många gånger. När man snabbt bläddrar igenom böckerna ser de identiska ut. Men om man tittar närmare går det att upptäcka att det kan finnas små stavfel och i DNA:t Figur 2: DNA sträng med kvä- vebaser. [2], Används med till- stånd från Britannica Image- Quest. skulle det vara så att det står A-T där det brukar stå G-C, det är en variation. Det är variationerna i dessa baspar som gör att vi får olika egenskaper. Genom att samla in information från många människor, till exem- pel om deras ögonfärg eller hårfärg, och analysera deras DNA, är det möjligt att identifiera mönster. Detta innebär att det är fullt möjligt, utifrån variationerna i DNA:t från en okänd person, att gö- ra en kvalificerad gissning om vissa utseendedrag. Det är lite som att kunna skissa fram ett suddigt porträtt av en person, endast baserat på vilka genvarianter som finns i dennes DNA. För att kunna göra den här typen av förutsägelser använder man sig av statistiska modeller. Det är ungefär som att skapa en ma- tematisk översättning mellan DNA och olika egenskaper. Modellen tittar på tidigare data, alltså DNA från personer där vi redan vet exempelvis deras ögonfärg, och utifrån detta lär sig modellen hur vissa variationer i DNA ofta hänger ihop med vissa utseendedrag. När modellen sedan får in DNA från en person vi inte vet något om, kan den använda denna ”matematiska översättning” för att räkna ut vilka utseendedrag som är mest sannolika. Eftersom metoden bygger på sannolikhetsberäkningar innebär det att resultaten aldrig är helt säkra. Exem- pelvis kan en person ha störst sannolikhet för bruna ögon men ändå ha blå ögon. Därför är det viktigt att använda dessa beräkningar som ett hjälpmedel och inte ett absolut bevis. Genom att använda statistiska modeller är det möjligt att, med bara några DNA-molekyler som utgångspunkt, börja ana konturerna av en människa. Detta är i sig kanske inte tillräckligt för att klara upp en utredning, men det kan vara det som krävs för att leda en brottsutredare åt rätt håll, och få utredningen att ta ett avgörande steg framåt. Sammandrag Just nu pågår studier om nya tekniker inom forensisk verksamhet som ska möjliggöra använd- ning av DNA för att förutsäga fenotypiska egenskaper, såsom ögon- och hårfärg, från biologiskt material som hittats på brottsplatser. Dessa prediktioner kan vara särskilt värdefulla i utred- ningar där traditionell DNA-profilering inte ger tillräcklig information. I denna rapport har data från Rättsmedicinalverket använts, bestående av sex single-nucleotide polymorphisms (SNPs) associerade med ögonfärg och 22 SNPs associerade med hårfärg, insamlade från 85 individer. Syftet med rapporten är att utveckla en statistisk prediktionsmodell som pålitligt kan klassificera ögon- och hårfärg baserat på genetisk information med hjälp av Markov chain Monte Carlo (McMC)-metoder. Det utvecklades flera modeller under projektets gång men i huvudsak användes två modeller för ögonfärger och tre modeller för hårfärger. Prediktions- modellerna för ögonfärg visade mycket god förmåga att särskilja personer med blå och bruna ögon. Däremot uppstod svårigheter vid identifiering av individer med gröna ögon eller ögon- färger som låg mellan blått och brunt. För hårfärg visade modellen en styrka i att identifiera personer med brunt hår, men hade begränsad förmåga att korrekt klassificera övriga hårfär- ger, exempelvis tenderade individer med blont, rött eller svart hår att felaktigt klassificeras som brunhåriga. Dessa resultat understryker behovet av vidare forskning med större och mer varierade datamängder för att förbättra modellens inlärningsförmåga och precision. Tekni- ken har stor potential att bidra till effektivare brottsutredningar genom att avgränsa antalet möjliga misstänkta, men det är också viktigt att beakta de osäkerheter som är förknippade med fenotypisk prediktion. I rapporten diskuteras faktorer som kan påverka prediktionernas tillförlitlighet, såsom tekniska begränsningar, kosmetiska förändringar, miljöfaktorer och trau- man. Sammantaget indikerar resultaten att området är lovande, men att fortsatt forskning är nödvändig för att stärka metodens praktiska användbarhet. Abstract There are ongoing studies in forensic fields with focus on using DNA to predict phenotyp- ical characteristics, such as eye- and hair colour, from biological materials found at crime scenes. Phenotypical prediction has the potential to guide police investigations when conven- tional DNA profiling is not providing enough information for criminal investigators to con- tinue the investigation. This study utilises data from the National Board of Forensic Medicine (Rättsmedicinalverket), comprising the six most eye colour-informative and 22 hair colour- informative single nucleotide polymorphisms (SNPs), collected from 85 individuals. The aim is to develop a statistical prediction model capable of accurately classifying an individual’s eye- and hair colour using Markov Chain Monte Carlo (McMC) probability estimation based solely on DNA data. Several models were developed during the course of the project, but primarily two models were used for eye color and three models for hair color. The prediction models for eye color demonstrated a great ability to distinguish between individuals with blue and brown eyes. However, the model had difficulties in identifying individuals with green eyes or eye colors that fell between blue and brown. For hair color, the model showed considerable strength in identifying individuals with brown hair but had limited ability to correctly classify other hair colors, for example were individuals with blonde, red, or black hair often falsly clas- sified as having brown hair. These results show the need for further research with larger and more diverse datasets to improve the model’s learning capability and precision. The technol- ogy holds great potential to contribute to more effective criminal investigations by narrowing down the number of potential suspects, but it is also important to consider the uncertainties associated with phenotypic prediction. The report discusses factors that can affect the reli- ability of the predictions, such as technical limitations, cosmetic alterations, environmental factors, and trauma. Overall, the results indicate that the field is promising, but continued research is necessary to strengthen the practical usefulness of the method. Innehåll 1 Inledning 1 1.1 Bakgrund . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Syfte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 Avgränsningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 Teori 3 2.1 Logistisk regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.2 Bayesiansk Inferens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.2.1 Likelihood-funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3 Stokastiska Processer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.3.1 Markovkedjor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.4 Monte Carlo-metoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.4.1 Monte Carlo-Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.5 Markov Chain Monte Carlo (McMC) . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.6 Metropolis-Hastings algoritm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.7 Laplace approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.8 Korsvalidering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 2.9 Förväxlingsmatriser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 3 Metod 7 3.1 Presentation och transformation av data . . . . . . . . . . . . . . . . . . . . . . . . 7 3.2 Prediktionsmodeller för ögonfärg . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2.1 Härledning av modellgrund . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.2.2 Grundläggande modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.3 Numerisk modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.4 Modell för blåa ögon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 3.2.5 Modell för samtliga ögonfärger . . . . . . . . . . . . . . . . . . . . . . . . . 11 3.3 Prediktionsmodeller för hårfärg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 4 Resultat 12 4.1 Grundläggande modell och numeriska beräkningar . . . . . . . . . . . . . . . . . . 12 4.2 Prediktionsmodell för blåa ögon . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 4.3 Prediktionsmodell för samtliga ögonfärger . . . . . . . . . . . . . . . . . . . . . . . 13 4.4 Prediktionsmodell för brunt hår . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 4.5 Prediktionsmodell för samtliga hårfärger . . . . . . . . . . . . . . . . . . . . . . . . 14 4.6 Prediktionsmodell för blont, rött och svart hår . . . . . . . . . . . . . . . . . . . . 14 5 Diskussion 15 5.1 Grundläggande modell och numeriska beräkningar . . . . . . . . . . . . . . . . . . 15 5.2 Modeller för ögonfärg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 5.3 Modeller för hårfärg . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.4 Osäkerheter och utmaningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5.5 Potentiella användningsområden . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 5.6 Samhälleliga och etiska aspekter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.6.1 Risk för diskriminering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 5.6.2 Anpassad lagstiftning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 5.6.3 Hantering av biometriska uppgifter . . . . . . . . . . . . . . . . . . . . . . . 19 6 Slutsats 20 A Appendix – Teori i A.1 Prestandamått av förväxlingsmatriser . . . . . . . . . . . . . . . . . . . . . . . . . i B Appendix – Figurer och tabeller ii C Appendix – Kod iii 1 Inledning År 1988 uppklarades ett brott för första gången med hjälp av DNA-bevis när Colin Pitchfork dömdes till livstids fängelse för två mord i Leicestershire, Storbritannien [3]. Detta fall markerade en viktig punkt i kriminalteknikens historia. Pitchfork kunde avslöjas efter det allra första mass- DNA-testet, där över 5 000 män testades. Metoden byggde på att jämföra DNA-profiler för att säkerställa en exakt matchning mellan biologiska spår från brottsplatsen och misstänkta indivi- der. Introduktionen av DNA-bevis i rättssalen har haft en stor effekt på både brottsutredningar och rättsliga bedömningar [4]. Det möjliggjorde mer träffsäkra identifieringar av gärningspersoner samtidigt som det också kunde bidra till att fria oskyldiga från brottsmisstankar. Den 24 april 2018 arresterades en misstänkt gärningsperson i det omtalade fallet ”Golden State Kil- ler” i Kalifornien [5]. Den misstänkte Joseph James DeAngelo, en tidigare polis, var misstänkt för 12 mord och åtminstone 45 våldtäkter som skett mellan 1976 och 1986. Genom användningen av en ny teknik, nämligen genetisk släktforskning, lyckades polisen med hjälp av DNA-bevis från brotts- platsutredningar identifiera familjemedlemmar till den misstänkta genom en gratis DNA-databas. Efter denna rapportering uppstod en debatt i Sverige om ett motsvarande tillvägagångssätt kunde användas i svenska brottsutredningar [6]. En del av den här diskussionen har fokuserat på möjligheterna att utifrån DNA förutse utseen- demässiga drag, vilket är något som idag undersöks av Rättsmedicinalverket i Linköping [7]. I en pilotstudie där ungefär 15 personer deltog gjordes just detta. Bilder skapades utifrån de medver- kandes DNA och sedan fick en separat utvärderingsgrupp i uppgift att försöka matcha ihop de genererade bilderna med personerna som var med i studien. I ett mejl från Andreas Tillmar, som jobbar på Rättsmedicinalverket, menar han att det finns ett stort intresse inom rättsgenetiken att kunna göra prediktioner av fenotyper utifrån DNA-data [8]. Användningen för dessa prediktioner skulle främst vara för att hitta okända gärningspersoner eller för att kunna identifiera kvarlevor när den avlidnes identitet är helt okänd. I dagsläget är det vanligt att främst använda logistiska regressionsanalyser som tillvägagångssätt vid denna typ av prediktioner. Det finns dock ett växan- de intresse för att undersöka om andra angreppssätt kan ge förbättrade resultat, vilket ligger till grund för detta arbete. 1.1 Bakgrund Vid utredning av brott där DNA-spår har en avgörande roll används idag mikrosatelliter, också kallat Short Tandem Repeats (STR) [6]. Vanligtvis är STR-analys en standardmetod inom krimi- naltekniken. STR är DNA-fragment i sekvenser av 1-6 baspar som upprepas i lång följd. STR-analys gör det möjligt att identifiera en individ genom att jämföra DNA-profiler från brottsplatsen i form av biologiska spår. Metoden är effektiv när det redan finns en misstänkt person som det går att jämföra mot eller när DNA-profilen matchas mot en befintlig profil i en kriminalteknisk databas. Det finns dock fall där DNA-profilen som genererats från bevismaterialet inte matchar någon känd individ. När detta sker kan utredningen stanna upp, ett så kallat kallt fall. På grund av dessa begränsningar har det på senare år utvecklats metoder för att utvinna mer information ur DNA, det är möjligt att statistiskt kunna förutsäga vissa fysiska egenskaper baserat på en individs genetiska kod [9]. En sådan metod kallas för Forensisk DNA fenotypning (FDF) och innebär att man analyserar vissa specifika markörer som är kopplade till nedärvda synliga drag såsom ögonfärg eller hårfärg. Till skillnad från STR-analys, som endast kan skapa identifikationer genom direkt jämförelse med befintliga DNA-profiler, gör FDF det möjligt att få en fysisk beskrivning av en okänd person endast genom att kolla på deras genetiska kod. Detta kan ge utredare värdefull information när de saknar en matchande DNA-profil och därmed saknar en direkt misstänkt att arbeta vidare mot [10]. FDF ger dock inte en exakt bild av en persons utseende, utan den ger endast sannolikheter för olika drag [9]. En locus (plural, loci) är en specifik, fysisk plats på en kromosom där en viss gen eller genetisk markör är lokaliserad [11]. En single-nucleotide polymorphism (SNP) är en variation vid en enda position i DNA-sekvensen, det vill säga en basparsvariation i genomet [12]. En SNP kan förekomma vid en specifik locus, vilket innebär att variationen befinner sig på en exakt plats i DNA-sekvensen. 1 En SNP är alltså en variation som kan hittas vid en specifik locus på en kromosom och detta visualiseras i figur 3. Figur 3: Illustration över baspars variationer i DNA:t. [13], CC-BY-SA 4.0. Fenotyp är det observerbara uttrycket av en individs genotyp, exempelvis genom utseende eller symtom vid sjukdomar [14]. Genotypen påverkar produktionen av proteiner, cellfunktioner och biologiska processer. Genotypen bidrar på så sätt direkt till observerbara egenskaper och formar därmed fenotypen, tillsammans med utomstående miljöfaktorer [15]. FDF bygger på att man identifierar variationer i DNA-sekvensen, genom att analysera vissa utvalda SNP:er som ofta återfinns på specifika loci i genomet [16]. Genom att kombinera information från dessa markörer kan man statistiskt beräkna sannolikheten för att en individ uppvisar vissa observerbara egenskaper, vilket ger en indikation på den okända personens fenotyp. Att kunna förutsäga en persons ögon- och hårfärg utifrån DNA handlar inte bara om att hitta rätt genetiska kopplingar, utan också om att förstå hur säkra dessa förutsägelser faktiskt är. Genom att använda statistiska metoder går det att uppskatta hur troligt det är att en viss DNA-profil stämmer överens med en viss egenskap, till exempel att en person har blå ögon [17]. Dessa sannolikheter hjälper inte bara till att skapa en profil av en okänd person, utan de kan också kombineras med annan information för att påverka bevisens styrka i en brottsutredning. 1.2 Syfte Syftet med det här arbetet är att undersöka möjligheten att förutsäga vissa fenotypiska egenskaper, specifikt ögon- och hårfärg, enbart utifrån biologiska DNA-spår. Detta kommer att göras genom att bygga sannolikhetsmodeller som förutspår personers ögon- och hårfärg utifrån olika delar av deras DNA. I det här arbetet kommer det även att ske en analys av osäkerheter kopplade till sannolikhetsmodellerna och dess prediktioner. Rapporten hoppas därmed kunna bidra till hur denna sorts prediktioner kan användas i forensiska sammanhang men även andra områden. Därifrån följer även en analys över samhällsetiska frågor kring huruvida dessa modeller kan och kommer användas i praktiken. 1.3 Avgränsningar Den här rapporten avgränsas av den tillgängliga data som tillhandahålls av Rättsgenetik i Lin- köping. Materialet består av två tabeller med genetisk information från 85 individer. Den första tabellen består av personernas observerade ögonfärg och genetiska variationer (SNP) vid sex spe- cifika loci. Den andra tabellen är liknande, där finns individernas observerade hårfärg och SNP vid 22 olika loci. Därmed begränsas modellerna för prediktioner i detta arbete till ett visst antal individer och specifika delar av deras DNA. Ingen ytterligare data kommer att samlas in under 2 arbetets gång. Arbetet kommer enbart fokusera på att predicera hår- och ögonfärg, det kommer inte att inkludera andra fenotypiska eller genetiska egenskaper. De matematiska modeller som används i detta arbete är främst logistiska regressionsmodeller för att predicera fenotypen samt Bayesiansk statistik för att ta fram parametrarna för den logistis- ka modellen. Andra prediktionsmetoder, såsom maskininlärning med artificiella neurala nätverk, kommer inte att användas. Själva prediktionerna i det här arbetet begränsas till diskreta kategoriseringar av ögon- och hårfärg. För ögonfärg används kategorierna1 blå, brun och intermed, medan hårfärg klassificeras som blond, brun, röd eller svart. Detaljerade variationer inom dessa färger såsom nyanser kommer inte att beaktas. 2 Teori Ett sätt att förutsäga ögon- och hårfärg från DNA-spår är genom sannolikhetsmodeller. I detta avsnitt presenteras den matematiska teorin som utgör grunden för dessa statistiska modeller, samt de metoder som används för att bestämma deras parametrar. 2.1 Logistisk regression Logistisk regression uppskattar sannolikheten att en händelse sker genom att omvandla ett reellt tal till en sannolikhet. En händelse kan, i det här arbetet, tolkas som att en person exempelvis har blå ögon eller inte. Eftersom det vi får ut av en logistisk regression är en sannolikhet kommer svaret alltid att ligga mellan 0 och 1. Om denna typ av modell utvecklas för fler än två utfall kommer resultatet från regressionen istället vara en vektor av sannolikheter. Varje position i vektorn motsvarar då sannolikheten för varje utfall, och summan av elementen i vektorn är därför 1. En logistisk regressionsmodel för datan D är kopplad till en utfalls-slumpvariabel X. Kopplingen är att med all data D kan man konstruera statistiska modeller som beräknar sannolikheten för att observation Di = (Di,1, ..., Di,p) har utfallet X. Detta genom att ta fram parametrarna θi till polynomet θ0+θ1Di,1+ ...+θpDi,p = U som sedan används i den logistiska ekvationen [18, s. 449]. Den logistiska ekvationen för binära utfall är ϕ(U) = exp(U) exp(U) + 1 ∈ (0, 1) (1) och från denna fås sannolikheten för X som, om X är binärt, ges enligt P (X = Sant|θ) = ϕ(θ ·Di), P (X = Falskt|θ) = 1− ϕ(θ ·Di). Vidare kan ekvation (1) utvecklas till en multinomial logistisk ekvation när det finns tre eller flera utfall. Det går nu att ta fram sannolikheten för s+ 1 olika utfall med ϕ(U) = 1 1 + ∑s j=1 exp(Uj) (exp(U1), ..., exp(Us)) [19, s. 721]. (2) Sannolikheterna för s+ 1 olika utfall för X fås nu enligt P (X = j|θ) =  ϕ(Di · θ)j , 1 ≤ j ≤ s 1− s∑ k=1 ϕ(Di · θ)k, j = s+ 1. 1Förklaring av kategorierna finns i kapitel 3.1 3 2.2 Bayesiansk Inferens Inom Bayesiansk Statistik behandlas både parametrar och data som slumpvariabler [18, s. 3]. I praktiken innebär detta att om vi har observerat data D = {D1, D2, . . . , Dn} från någon fördel- ning med parameter θ så ser vi både D och θ som utfall av slumpvariabler. Den gemensamma fördelningen för D och θ är π(D, θ) = π(D|θ)π(θ). Fördelningen π(θ) kallas för en a priori fördelning för θ och kan tolkas som ett grundantagande om θ. Den kan alltså ses som hur man tror parametrarna θ är fördelade och ska inte vara beroende eller baserad på D. Fördelningen π(D|θ) är den sannolikhetsmodell som beskriver hur data genereras givet parametern θ. Med hjälp av Bayes sats erhåller vi att π(θ|D) = π(D|θ)π(θ) π(D) . (3) Den här fördelningen kallas a posteriori fördelningen för θ givet den observerade datan D och innehåller vår uppdaterade tro om θ efter att D har observerats. Oftast räcker det med att beräkna täljaren i ekvation (3) eftersom nämnaren inte beror på θ. Detta ger en funktion f(θ) som är proportionell mot a posteriori fördelningen, alltså har vi att f(θ) = π(D|θ)π(θ) ∝θ π(θ|D). (4) 2.2.1 Likelihood-funktionen Likelihood-funktionen används för att hitta det mest sannolika värdet på en parameter, baserat på observerad data [18, kap 1.2.1]. Likelihood-funktionen definieras som sannolikheten för att observera data D, givet ett värde på parametern θ. Om varje observation Di har ett binärt utfall zi ∈ {0, 1}, där sannolikheten för varje utfall ges av logistisk regression, som definierades i kapitel 2.1, så kan Likelihood-funktionen skrivas som π(D|θ) = n∏ i=1 ϕ(θ ·Di) zi(1− ϕ(θ ·Di)) (1−zi). (5) För att förenkla beräkningar och undvika numeriska problem kan Likelihood-funktionen skrivas om till en log Likelihood log(π(D|θ)) = n∑ i=1 zi log(ϕ(θ ·Di)) + (1− zi) log(1− ϕ(θ ·Di)). (6) Genom att beräkna det θ som maximerar likelihood-funktionen för given data D fås θML som är parametrarna som gör den observerade datan så sannolik som möjligt. θML kallas maximum- likelihood värden och används i rapporten. 2.3 Stokastiska Processer En stokastisk process är en samling av indexerade slumpvariabler Xt, t ∈ I som delar samma ut- fallsrum S [20, s. 6]. Indexeringsmängden I representerar oftast tiden, här används I = 1, 2, 3, ... för en diskret tidsprocess. I denna rapport används stokastiska processer för att lära modellen om parametervärden. Slumpvariablerna i processen kan vara oberoende eller så kan deras fördelningar vara betingade på föregående värden. 2.3.1 Markovkedjor Markovkedjor är en särskild typ av stokastiska processer med egenskapen att deras värde i varje steg endast beror på värdet i det tidigare steget. Processens värden är helt oberoende av andra tidigare värden [20, s. 65]. En följd av slumpvariabler (Xn) ∞ n=0 är en Markovkedja i diskret tid, om det för alla x1, x2, ..., xn, xn+1 ∈ R och n ∈ N gäller att P (Xn+1 = xn+1|Xn = xn, . . . , X1 = x1) = P (Xn+1 = xn+1|Xn = xn). 4 Det betyder att sannolikheten för vad som händer härnäst (P (Xn+1 = xn+1)) endast beror på det nuvarande tillståndet (Xn), och inte på något tidigare steg. 2.4 Monte Carlo-metoden Monte Carlo-metoden är en numerisk metod som används för att lösa problem genom att använda slumpmässiga tal [20, s. 10]. Den grundläggande idén är att upprepa ett slumpmässigt experiment många gånger och använda resultatens frekvens för att uppskatta sannolikheten för en viss händelse. Säg att vi vill uppskatta sannolikheten för en händelse B genom att upprepa ett experiment flera gånger. Då kan sekvensen X1, X2, . . . , Xk, definieras som Xk = { 1, om B sker på det k:te försöket, 0, om B inte sker på det k:te försöket, för k ≥ 1. Då vi har gjort n försök är (X1 +X2 + ...+Xn)/n andelen försök då B inträffade. Varje Xk är en identiskt fördelad slumpvariabel med väntevärde E(XK) = P (B). Från den starka versionen av de stora talens lag får vi, lim n→∞ X1 + · · ·+Xn n = P (B), med sannolikhet 1. Detta innebär att om vi gör tillräckligt många försök, kommer andelen gånger som B inträffar att närma sig den verkliga sannolikheten P (B). För stora n, uppskattar Monte Carlo metoden P (B) som P (B) ≈ X1 + ...+Xn n . 2.4.1 Monte Carlo-Integration Monte Carlo-integration är en metod som används för att approximera väntevärdet av en funktion när direkta beräkningar är svåra [18, s. 4]. Väntevärdet av en funktion f(X) med avseende på en sannolikhetsfördelning π(X) ges av integralen E[f(X)] = ∫ f(X)π(X)dX. Eftersom denna integral ofta är svår att beräkna exakt kan vi istället approximera den med hjälp av n oberoende utfall {Xt}nt=1 av X. Genom att använda approximationen E[f(X)] ≈ 1 n n∑ t=1 f(Xt), (7) som kallas Monte Carlo integration kan vi få ett approximativt väntevärde. Populationsmedelvärdet av f(X) uppskattas med stickprovsmedelvärdet. Eftersom utfallenXt är oberoende, ser stora talens lag till att uppskattningen blir mer exakt ju större urvalet n är. 2.5 Markov Chain Monte Carlo (McMC) Markov chain Monte Carlo (McMC) är ett samlingsbegrepp för metoder som tillåter simulering av komplexa och högdimensionella sannolikhetsfördelningar [20, s. 181]. Målet med McMC är att, givet en sannolikhetsfördelning π, simulera en slumpvariabel X vars gränsfördelning är π. Gränsfördelningen kan antingen vara diskret eller kontinuerlig. 2.6 Metropolis-Hastings algoritm Den vanligaste McMC metoden är Metropolis-Hastings algoritmen, i den simulerar man en slump- variabel θ. = (θ.,0, θ.,1, ..., θ.,p) genom att ta fram N olika iterationer av parametern θi där i = 2, ..., N [18, kap. 1]. Varje steg θi i kedjan väljs genom att dra en kandidatpunkt θ∗ från 5 en förslagsfördelning q(θ∗|θi−1). Den första iterationen θ1 är en initial gissning men väljs ofta med Maximum-Likelihood metoden från ekvation (6). Om kandidatpunkten blir nästa iteration i kedjan eller inte bestäms av ekvationen θi = { θ∗ om u ≤ ρ(θ∗, θi−1), θi−1 om u > ρ(θ∗, θi−1), där i = 2, ..., N , u dras från Unif(0, 1) och accepteringssannolikheten ρ(θ∗, θi−1) ges av ρ(θ∗, θi−1) = min ( 1, f(θ∗)q(θi−1|θ∗) f(θi−1)q(θ∗|θi−1) ) ∈ [0, 1] där ρ är acceptanssannolikheten om man accepterar kandidatpunkten eller inte. För att beräkna ρ så behöver man funktionen f som väljs som samma f i ekvation (4), där π(θ|D) är densiteten för θ givet vår observerade data D och π(θ) är densiteten för θ utan någon betingning. Kedjan blir alltså en Markovkedja eftersom varje iteration endast beror på den tidigare iterationen. Med denna kedja är det möjligt att använda Monte Carlo integrering från ekvation (7) för att approximera θ’s fördelning. Värt att notera är fallet då fördelningen för θ∗ är symmetrisk. Exempelvis om θ∗ = θi−1 + ϵ, där ϵ ∼ N(0, σ2). Då är q(θi−1|θ∗) = q(θ∗|θi−1) vilket innebär att ρ reduceras till ρ = min ( 1, f(θ∗) f(θi−1) ) ∈ [0, 1]. 2.7 Laplace approximation Laplace-approximationen är en approximationsmetod som kan användas till att approximera en fördelning π(x) givet en funktion f(x) ∝ π(x) [21, kap 4.7]. Metoden bygger på en andra ordningens Taylorutveckling av g(x) = log f(x) kring en punkt x = x0. Vi utvecklar g(x) kring x = x0 g(x) ≈ g(x0) + (x− x0) ∂g(x) ∂x ∣∣∣∣ x=x0 + (x− x0) 2 2 ∂2g(x) ∂x2 ∣∣∣∣ x=x0 . Om vi väljer x0 = x∗ där x∗ = argmax g(x), så försvinner den första derivatan eftersom den är lika med noll i x∗. Då blir approximationen g(x) ≈ g(x∗) + (x− x∗)2 2 ∂2g(x) ∂x2 ∣∣∣∣ x=x∗ . Vi kan därmed uppskatta f(x) som f(x) ≈ exp ( g(x∗) + (x− x∗)2 2 ∂2g(x) ∂x2 ∣∣∣∣ x=x∗ ) . Detta påminner om tätheten i en normalfördelning. Genom att definiera variansen som σ2 = − ( ∂2g(x) ∂x2 ∣∣∣∣ x=x∗ )−1 , får vi slutligen att π(x) approximeras av en normalfördelning centrerad i x∗ med varians σ2, alltså π(x) ≈ N(x∗, σ2). 6 Laplace-approximationen innebär alltså att vi approximerar π(x) med en normalfördelning cen- trerad vid dess maximum, och där spridningen beror på ”kurvigheten” i logaritmen av tätheten vid detta maximum. I rapporten används Laplace approximationen för att approximera posteriori fördelningen π(θ|D), approximationen används sedan som förslagsfunktion i Metropolis-Hastings algoritmen. Detta är nödvändigt eftersom om olika värden i θ spelar olika mycket roll så funge- rar en förslagsfunktion som tar lika stora steg åt alla håll dåligt och därmed kommer kedjan att konvergera långsamt till den önskade fördelningen. 2.8 Korsvalidering Korsvalidering är en av de enklaste och mest använda metoderna för att undersöka prediktions- förmågan hos statistiska modeller. Korsvalidering går ut på att man delar upp datan i k lika stora bitar, där man sedan tränar k olika modeller [22, kap. 7.5.2]. Vid varje iteration tränas modellen på k− 1 delar av datan och valideras på den återstående delen. Detta upprepas k gånger, så att varje del används exakt en gång som valideringsmängd. Resultatet blir medelvärdet av prestandan efter att de k modellerna har validerats. Det finns olika korsvalideringsmetoder men, i de fall där man har få datapunkter brukar Leave-One-Out korsvalidering (LOOCV) vara en bra metod. LOOCV går ut på att man sätter k = n, alltså lika med antalet observationer. Varje modell tränas på n− 1 datapunkter och valideras på den datapunkt som utelämnats. LOOCV används i rapporten för att validera modellerna. 2.9 Förväxlingsmatriser Förväxlingsmatriser är en sorts matris som används för att presentera prediktionsresultat från klassificeringsmodeller. En förväxlingsmatris för en klassificeringsmodell för k olika klasser är en k×k matris C där element Ci,j anger antalet datapunkter där den korrekta klassen är i och klassen modellen predicerar är j [22, kap 7.4.3]. I rapporten används förväxlingsmatriser för att presentera och utvärdera prestandan hos modellerna för hår och ögonfärg. Tabell 1: Exempel på en 2x2 förväxlingsmatris Pred → Sann ↓ Falsk Sann Falsk C11 C12 Sann C21 C22 Resultaten från förväxlingsmatriser går att använda för att bedöma en modells prestanda, moti- vering för detta presenteras i appendix A. 3 Metod I följande avsnitt presenteras metoder som använts vid konstruktionen av de statistiska modeller som predicerar ögon- och hårfärg hos personer utifrån deras DNA. Samtliga modeller bygger på materialet som presenterats i teoriavsnittet. 3.1 Presentation och transformation av data Datamängderna som det här arbetet har utgått från består av ögon- och hårfärger samt basparsva- riationer på specifika fysiska platser (loci) i DNA-sekvensen hos 85 personer. För att matematiskt kunna arbeta med datan behövde den transformeras från baspar till numeriska värden. De angivna ögonfärgerna i datan är blå, brun och ”intermed”, där intermed syftar på intermediära ögonfärger. Det är alltså ögonfärger som inte kan klassas som varken blå eller bruna. De angivna hårfärgerna i datan är brun, blond, svart och röd. För att underlätta vid programmering och samtal runt det- ta döptes samtliga loci om till en siffra som representerade dess placering i datamängden. De nya 7 namnen blev då exempelvis ”locus 1” istället för locus rs12203592. De nya namnen visas i tabellerna nedan. Tabell 2: Ögon loci Ögon loci rs12203592 locus 1 rs1393350 locus 2 rs12896399 locus 3 rs1800407 locus 4 rs16891982 locus 5 rs12913832 locus 6 Tabell 3: Hår loci Hår loci rs28777 locus h1 rs12203592 locus h2 rs4959270 locus h3 rs683 locus h4 rs1042602 locus h5 rs12821256 locus h6 rs2402130 locus h7 rs1800407 locus h8 rs312262906 locus h9 rs1805005 locus h10 rs1805006 locus h11 rs2228479 locus h12 rs11547464 locus h13 rs1805007 locus h14 rs201326893 locus h15 rs1110400 locus h16 rs1805008 locus h17 rs885479 locus h18 rs1805009 locus h19 rs2378249 locus h20 rs16891982 locus h21 rs12913832 locus h22 Omskrivningen av ögon- och hårfärgerna gjordes genom att beteckna varje enskilt utfall med ett tal. Vilket tal som väljs för vilken färg spelar i sig ingen roll men för enkelhetens skull valdes de naturliga talen i stigande storleksordning, relationen eller i detta fallet storleksordningen på talen har i sig heller ingen påverkan av analysen. Exempelvis i en modell som ger sannolikheter för hårfärgerna brunt, blont, rött och svart anges hårfärgerna med respektive värden: 0, 1, 2 och 3. För att transformera basparsvariationerna från DNA-datan till numeriska värden beräknades fre- kvensen av vissa specifika baspar vid varje locus. För att förtydliga, varje locus, exempelvis locus 2, innehåller en viss uppsättning baspar från två alleler. För just locus 2 kan den innehålla någon kombination av basparen (G,C) eller (A,T). Den numeriska omvandlingen görs nu genom att räk- na hur ofta basparet (i det här fallet (G,C)) förekommer hos varje individ. Detta ger tre möjliga resultat beroende på antalet gånger ett visst baspar förekommer på denna plats: 1. Värde 0: Om en individ inte har några av det specifika basparet (G,C) på någon av sina alleler. 2. Värde 1: Om en individ har basparet (G,C) på en av sina alleler, men inte på den andra. 3. Värde 2: Om en individ har basparet (G,C) på båda sina alleler. Alltså, för locus 2 kan följande kombinationer vara möjliga: • (A,T) och (A,T) → Värde 0 (Inget G,C) • (G,C) och (A,T) → Värde 1 (En G,C och en A,T) • (G,C) och (G,C) → Värde 2 (Två G,C-par) Detta ger en numerisk representation av varje locus, där värdena 0, 1 eller 2 återspeglar hur ofta ett specifikt baspar förekommer på den platsen. All data normaliserades med hjälp av z-normalisering, detta görs för att se till att variablerna är jämförbara med varandra och att all data har samma skala [22, kap 11.5.4]. Varje datapunkt x omvandlades enligt ekvationen z = x− µ σ (8) där µ är medelvärdet och σ2 är stickprovsvariansen för samtliga värden i samma kolumn. Resultatet är att varje variabel får ett medelvärde på 0 och en standardavvikelse på 1, vilket bidrar till en stabilitet i modellen och ser till att variabler med en större numerisk skala inte dominerar beräkningar. 8 Figur 4: Visualisering över data- värden för individer med blå ögon. Figur 5: Visualisering över data- värden för individer med icke- blå ögon. Figur 4 och 5 visar hur ofta ett specifikt baspar förekommer för varje locus för personer med blå respektive icke-blå ögon. Visualiseringen i figur 4 visar att det finns en tydlig koppling mellan att ha värde noll på locus 4, värde 2 på locus 5 och värde två på locus 6 och att ha blå ögon. Men om detta jämförs med figur 5 syns det tydligt att det är samma kriterier för locus 4 och 5 som är viktiga för att en person ska ha icke-blå ögon. Det locus som skiljer sig mest mellan blå och icke-blå ögon och alltså locus 6. 3.2 Prediktionsmodeller för ögonfärg Arbetet började med att konstruera en prediktionsmodell för ögonfärg eftersom den skulle bli mindre komplex än hårfärgsmodellen. Detta eftersom datamängden för ögonfärg innehöll färre datapunkter, endast sex stycken loci. 3.2.1 Härledning av modellgrund Modeller byggs genom att bestämma fördelningen π(Dny|D) där D är angiven data och Dny är DNA-data för en ny person vars ögonfärg ska förutsägas. Genom att introducera parametern θ ∈ Rn, som i det här arbetet symboliserar vikten av den numeriska representationen för varje loci, ges ekvationen π(Dny|D) = ∫ ∞ −∞ π(Dny, θ|D)dθ = ∫ ∞ −∞ π(Dny|θ)π(θ|D)dθ, som med ekvation (3) ger oss π(Dny|D) = ∫ ∞ −∞ π(Dny|θ) π(D|θ)π(θ) π(D) dθ. Denna integral går att beräkna genom att applicera logistisk regression för att bestämma π(Dny|θ) och π(D|θ). π(Dny|θ) = ϕ(Dny · θ). Likelihoodfunktionen π(D|θ) är samma som i ekvation (5) och π(D) ges av π(D) = ∫ ∞ −∞ π(D|θ)dθ. Det slutgiltiga uttrycket blir därmed π(Dny|D) = ∞∫ −∞ ϕ(Dny · θ) π(D|θ)π(θ) ∞∫ −∞ π(D|θ∗)dθ∗ dθ. (9) 9 Integralen i ekvation (9) kan approximeras med hjälp av Monte Carlo-integration från avsnitt 2.4.1. Uttrycket blir då π(Dny|D) ≈ 1 n n∑ i=1 π(Dny|θi), (10) där θi är stickprov ur posteriorifördelningen π(θ|D). 3.2.2 Grundläggande modell Som en utgångspunkt för arbetet, och för att få en grundläggande förståelse för datans struktur, utvecklades en enkel prediktionsmodell. Ett av delmålen med den här modellen var att identifiera vilka av de sex givna loci som har störst inverkan på fenotypen blåa ögon. Tidiga observationer i vårt arbete, som illustreras i figur 4 och 5, visade att det var locus 6 som hade en tydlig påverkan över modellens förmåga att förutsäga ifall en person borde ha blå ögon eller inte. Detta fynd stöttades även av tidigare forskning som också har visat att locus 6 har en stark koppling till ögonfärg [17], [23], [24]. Därför fattades beslutet att börja med en modell som endast använder locus 6. Modellen konstruerades genom att transformera datan enligt avsnitt 3.1 och färgerna klassificerades endast i två kategorier: blåa ögon och icke-blåa ögon. För att få fram startpunkter användes meto- den som presenteras i avsnitt 2.2.1 genom att maximera log likelihood-funktionen från ekvation (6), maximum-likelihood värdena kallas θ1,: = (θ1,0, θ1,1), där θ1,0 representerar skärningspunkten och θ1,1 representerar koefficienten för locus 6. Därefter tillämpades Metropolis-Hastings algoritmen, vilken förklaras i avsnitt 2.6, med θ1,: som startpunkt för att få nya iterationer θi,: och därmed en Markov kedja. Nya kandidatpunkter genererades genom att sätta θ∗ = θj−1 + ϵ där ϵ är en vektor med längd två och vars element är oberoende och normalfördelade runt 0. Resultatet för modellen togs fram genom att beräkna sannolikheten för blå ögon givet de möjliga värdena för locus 6, alltså 0, 1 eller 2. 3.2.3 Numerisk modell För att verifiera att det inte fanns några beräkningsfel i den grundläggande modellen skapades även en modell som kunde beräkna integralen i ekvation (9) numeriskt. Men på grund av den inre integralen i nämnaren, är det endast möjligt att genomföra denna beräkningen numeriskt i lägre dimensioner då den blir alltför beräkningstung i höga dimensioner. Beräkningen utgick därför från det locus som har störst påverkan på modellen, locus 6, och använde således två dimensioner för θ, en för skärningspunkten och en som koefficient för locuset. 3.2.4 Modell för blåa ögon Efter att den grundläggande modellen fungerade relativt bra utvecklades den för att kunna hante- ra alla sex loci. Startpunkterna togs fram på samma sätt som i den grundläggande modellen fast denna gång i en sjudimensionell vektor θ1,: = (θ1,0, . . . , θ1,6). Från Metropolis-Hastings algoritm togs kandidatpunkter fram genom att sätta θ∗ = θj−1 + ϵ där ϵ har samma funktion som innan men nu är den istället en sjudimensionell vektor. För att begränsa storleken på modellparamet- rarna och därmed minska risken för överanpassning användes en normalfördelad prior i modellen. Komponenterna i priorfördelningen för parametern θ är fördelade enligt θi ∼ N(0, σ2), där σ är standardavvikelsen. Väntevärdet valdes till 0 eftersom parametrarna uppfattades som små. Standardavvikelsen σ valdes till 5, vilket tillåter variation i parametrarna utan att tillåta alltför stora värden. Denna avvägning ger modellen flexibilitet att anpassa sig till data, men samtidigt en viss begränsning för att undvika att den överanpassar sig till brus och blir instabil. För den slutgiltiga valideringen av modellen användes LOOCV, vilket förklaras i avsnitt 2.8. 10 3.2.5 Modell för samtliga ögonfärger För att utöka modellen till att omfatta alla ögonfärger användes den generaliserade logistiska ekvationen i ekvation (2) med s = 2. Parametern θ är nu en 2× 7 matris där varje rad motsvarar en ögonfärg och varje kolumn ett locus. Dessa två rader av θ-värden används för att ge sannolikheten för att en viss person har ögonfärgen blå respektive intermed. För att få sannolikheten för att en person ska ha bruna ögon användes det faktum att summan av sannolikheterna för de olika utfallen är 1, vilket gör att sannolikheten för bruna ögon kan beräknas med P (Blå|θ,Di) = ϕ(Di · θ)1 =: P1 P (Intermed|θ,Di) = ϕ(Di · θ)2 =: P2 P (Brun|θ,Di) = 1− ϕ(Di · θ)− ϕ(Di · θ)2 =: P3. Detta kan skrivas med en log likelihood från avsnitt 2.2.1 log(π(D|θ)) = 85∑ i=1 log(Pzi), där zi är 1, 2 eller 3 om person i har blå, intermed eller bruna ögon. Från denna bestämdes θ1 genom maximering med avseende på θ. Som tidigare valdes nya kandidatpunkter genom att sätta θ∗ = θj−i+ϵ, där ϵ är en vektor med 14 punkter vars element är normalfördelade enligt N(0, σ). För att hjälpa kedjan att konvergera snabbare valdes priorfördelningen N(0, 3) för θ.Modellen testades med LOOCV prediktioner. Efter testning och undersökning av modellen upptäcktes dålig blandning inom Markovkedjorna vilket innebär att kedjorna inte utforskar fördelningen för parametern θ på ett bra sätt. För att åtgärda detta ändrades förslagsfunktionen för nya kandidatpunkter. Istället för att sätta θ∗ = θj−1 + ϵ, ϵ ∼ N(0, σ2) så användes en multivariat normalfördelning centrerad i θj−1 vars kovari- ansmatris kom från en Laplace approximation av posteriorifördelningen för θ vilket presenteras i avsnitt 2.7. En jämförelse av kedjornas första dimension med de olika förslagsfunktionerna visas i Figur 6. Det syns tydligt att den nya förslagsfunktionen rör sig snabbare genom fördelningen. (a) Kedja utan Laplace-approximerad förslagsfunktion. (b) Kedja med Laplace-approximerad förslagsfunktion Figur 6: Jämförelse av kedjorna för dimension 1 i θ med och utan Laplace approximationen som förslags- funktion. 3.3 Prediktionsmodeller för hårfärg Efter att ha fått en förståelse för metodiken genom utvecklingen av modellerna för ögonfärger anpassades modellerna för att hantera hårfärger. Samma modellgrund används för att predicera 11 hårfärg. Den största skillnaden i att predicera hårfärg jämfört med ögonfärg är att det nu finns fyra olika utfall istället för tre och att den har fler parametrar då den använder sig av 22 istället för sex stycken loci. Istället för att skapa en grundläggande modell för att hitta vilken eller vilka loci som är mest viktiga, användes istället en visualisering av datan. Genom visualiseringen, som visas i figur 10 i appendix B, upptäcktes det att vissa locus hade samma värde för alla personer i den givna datamängden oavsett hårfärg. Därför exkluderades samtliga av dessa loci från modellen då de inte hade någon påverkan på modellens prestation. Dessa loci var locus h9, locus h11, locus h13, locus h15 och locus h16. Dessutom upptäcktes det att alla personer utom en hade samma värde i locus h1 som i locus h21. Därför valdes även att locus h1 skulle exkluderas. Figur 7: Visualisering över vär- den för brunt hår Figur 8: Visualisering över vär- den för icke-brunt hår Även modellen som predicerar samtliga hårfärger utgick från modellerna för ögonfärger. Båda modellerna använder sig av samma ovannämnda loci, den enda skillnaden är att antalet klasser som ska prediceras nu är tre, brunt, blont och rött hår där sannolikheten för svart hår beräknas på samma sätt som i avsnitt 3.2.5. Till skillnad från modellerna för ögonfärger utvecklades även en modell som analyserar samtliga hårfärger exklusive brunt hår. Modellen fungerar likadant som modellen som predicerar samtliga hårfärger förutom att personer med brunt hår exkluderades från datan. 4 Resultat I detta avsnitt presenteras modellernas prestanda genom tabeller och förväxlingsmatriser. Först presenteras den grundläggande modellen och resultatet från numeriska beräkningar. Efter det pre- senteras modeller som predicerar ögonfärg och slutligen presenteras modeller som predicerar hår- färg. 4.1 Grundläggande modell och numeriska beräkningar Eftersom den grundläggande modellens resultat verifierades med numeriska beräkningar kommer resultatet från båda dessa modeller att presenteras samtidigt. Tabell 4: Sannolikheter för blåa ögon givet värde i locus 6. Värde Sannolikhet 0 0.00063 1 0.0031 2 0.897 12 Tabell 5: 2x2 Förväxlingsmatris för den grundläggande modellen. Pred → Sann ↓ Icke-blåa ögon Blåa ögon Icke-blå ögon 17 18 Blåa ögon 0 50 Resultatet från de numeriska beräkningarna visar att samtliga som har värde 2 har en hög san- nolikhet att klassificeras som blåögda personer, medan de som har värde 1 eller 0 har en väldigt låg sannolikhet att klassificeras som blåögda. I praktiken innebär detta att alla individer som har värde 2 för locus 6 klassificeras som blåögda. Den grundläggande modellens resultat presenteras i en förväxlingsmatris som visas i tabell 5. Den visar att modellen är bra på att upptäcka blå ögon, men har problem med att särskilja blå och icke-blå ögon och överklassificerar icke-blåögda som blåögda i viss mån. 4.2 Prediktionsmodell för blåa ögon Förväxlingsmatrisen i tabell 6 visar resultatet från tio upprepade analyser av LOOCV där, varje kedja har en längd på 10 000. Alla medelvärden (µ) och standardavvikelser (σ) från de upprepade analyserna presenteras i förväxlingsmatrisen på följande vis µ ± σ. Resultatet visar att modellen fortfarande är bra på att predicera om en person har blå ögon, dock med något sämre resultat än den grundläggande modellen. De låga standardavvikelserna visar att modellen är stabil i sina prediktioner. McMC-kedjor och modellens prestanda presenteras i appendix B. Tabell 6: Förväxlingsmatris för modell för blåa ögon. Pred → Sann ↓ Icke-blå (0) Blå (1) Icke-blå (0) 18.4± 0.49 16.6± 0.49 Blå (1) 2.0± 0.48 48± 0.48 4.3 Prediktionsmodell för samtliga ögonfärger Förväxlingsmatrisen i tabell 7 visar hur ofta modellen förväxlar de olika ögonfärgerna. Tabell 7: Förväxlingsmatris för modell med samtliga ögonfärger. Pred → Sann ↓ Blå (0) Intermed (1) Brun (2) Blå (0) 47.7± 0.64 2.3± 0.64 0.0± 0.0 Intermed (1) 16.0± 0.0 5.9± 1.22 3.1± 1.22 Brun (2) 0.0± 0.0 4.1± 0.7 5.9± 0.7 Tabell 7 visar resultatet från tio upprepade analyser av LOOCV, där varje kedja har en längd på 10 000. Modellen visar en hög precision för att korrekt klassificera blå ögon, med en låg förväx- lingsgrad med intermed och ingen alls med brun. För intermed ögon kan vi se att majoriteten av individerna har klassificerats ha blå ögon av modellen och att det är samma 16 individer som förväxlas varje gång eftersom standardavvikelsen är 0. Modellen har även problem att skilja på bruna och intermed ögon vilket syns i matrisens högra nedre del. Standardavvikelserna visar att modellen är stabil i sina prediktioner och att det finns ganska små variationer i förväxlingsgraden. De simulerade kedjorna visas, upp till dimension tre, i figur 9 i appendix B. 13 4.4 Prediktionsmodell för brunt hår Prediktionsmodellen för brunt hår resulterar i förväxlingsmatrisen, som återges i tabell 8. Matrisen visar att modellen har svårt att korrekt predicera icke-brunt hår, vilket leder till både många falska negativa och falska positiva prediktioner. Tabell 8: Förväxlingsmatris för modell för brun hårfärg. Pred → Sann ↓ Icke-brunt hår Brunt hår Icke-brunt hår 5.5± 1.28 25.5± 1.28 Brunt hår 15.5± 1.03 38.5± 1.03 Tabell 9: Prestandamått för modell för brunt hår. Accuracy 52% Precision 60% Recall 71% Specificity 18% Tabell 15 i appendix B visar prestandamåtten för modellen som predicerar brunt hår. Här kan ses en tydlig skillnad mellan precision och specificitet, vilket tyder på att modellen ofta identifierar personer med brunt hår men sällan korrekt identifierar dem utan brunt hår. 4.5 Prediktionsmodell för samtliga hårfärger Förväxlingsmatrisen för modellen som predicerar samtliga hårfärger visas i tabell 10. Även här framgår att modellen ofta predicerar brunt hår för personer som i själva verket har en annan hårfärg. Samtliga personer med blont hår prediceras ha brunt hår, medan modellen predicerar rätt vid fyra tillfällen och fel vid tio för svart hår. Personer med rött hår prediceras rätt ungefär hälften av gångerna och prediceras ha brunt hår resterande gånger. Modellen uppnår en accuracy på 67.06%. Tabell 10: 4x4 Förväxlingsmatris för prediktionsmodell för samtliga hårfärger. Pred → Sann ↓ Brunt hår Blont hår Rött hår Svart hår Brunt hår 43.4± 1.56 4.4± 0.66 1.8± 0.75 4.4± 0.92 Blont hår 8.0± 0.0 0.0± 0.0 0.0± 0.0 2.0± 0.0 Rött hår 3.3± 0.9 0.0± 0.0 3.7± 0.9 0.0± 0.0 Svart hår 10.0± 0.0 0.0± 0.0 0.0± 0.0 4.0± 0.0 Tabell 11 visar tydligt att modellen har betydligt bättre förmåga att predicera brunt hår jämfört med övriga hårfärger. För brunt hår uppnår modellen en precision på 67% och en recall på 80%, vilket innebär att majoriteten av de som prediceras ha brunt hår faktiskt har det, samt att nästan alla personer med brunt hår korrekt identifieras. För blont hår är dock både precisionen och recall 0%, vilket indikerar att modellen helt misslyckas med att identifiera blonda personer, varken några riktiga positiva träffar hittas eller några korrekta prediktioner görs. Modellen lyckas i viss mån identifiera röd- och svarthåriga men inte med samma säkerhet som brunhåriga. Resultatet visar alltså en tydlig snedfördelning där modellen är partisk mot att identifiera brunt hår. 4.6 Prediktionsmodell för blont, rött och svart hår När brunt hår exkluderas från modellen förbättras resultaten markant. Förväxlingsmatrisen för modellen som predicerar endast icke-bruna hårfärger återges i tabell 12. En jämförelse mellan 14 Tabell 11: Prestandamått för samtliga hårfärger. Hårfärg Precision Recall Brunt hår 67% 80% Blont hår 0% 0% Rött hår 67% 53% Svart hår 38% 29% prestandamåtten för modellen med brunt hår i tabeller 11 och 13 visar att modellen som exkluderar brunt hår är betydligt bättre på att särskilja de icke-bruna hårfärgerna. Precisionen är högre för både blont och svart hår men något sämre för rött hår. Recallvärdena kunde dock vara bättre då modellen endast identifierar 31% av alla med blont hår, 77% av alla med rött hår och 59% av alla med svart hårt, men identifierar ändå fler jämfört med tidigare modeller. Sammanfattningsvis visar denna jämförelse att modellen utan brunt hår presterar betydligt bättre för de icke-bruna färgerna än vad den ursprungliga modellen gjorde. Tabell 12: 3x3 Förväxlingsmatris för prediktionsmodell för blont, rött och svart hår. Pred → Sann ↓ Blont hår Rött hår Svart hår Blont hår 3.1± 0.3 2.7± 0.46 4.2± 0.4 Rött hår 1.6± 0.66 5.4± 0.66 0.0± 0.0 Svart hår 5.0± 0.0 0.8± 0.4 8.2± 0.4 Tabell 13: Prestandamått för samtliga hårfärger när brunt hår är exkluderat. Hårfärg Precision Recall Blont hår 32% 31% Rött hår 61% 77% Svart hår 66% 59% 5 Diskussion 5.1 Grundläggande modell och numeriska beräkningar Den grundläggande modellen visade ett bra resultat, men den var för påverkad av den data som den tränades på. Modellen lärde sig i praktiken endast att om en individ har värde 2 på locus 6 så förutsägs den personen ha blå ögon. Detta stämmer dock inte i verkligheten, det stämmer inte heller om man endast kollar på den tillgängliga data som finns. I datamängden finns det 18 personer med värde 2 men som klassificeras som intermed. Det är dessa individer som kan ses i figur 5 som klassas som icke-blå och har värde 2. Trots att resultatet från modellen framstår som bra är det inte ett önskvärt beteende i en prediktiv modell. Från figurer 4 och 5 går det att se att alla som har värde 2 kommer klassificeras som blåögda. 5.2 Modeller för ögonfärg Resultatet från modellen som predicerar blå ögon och inkluderar alla loci är något sämre jämfört med den grundläggande modellen. Detta beror förmodligen på att modellen blir påverkad av de övriga fem loci som lades till. Dessa fem loci kan eventuellt vara mer informativa för att förutsäga brun eller intermed men är inte så informativa för blåa ögon. Modellen som predicerar samtliga ögonfärger har vissa svårigheter med att skilja blå och brun från intermed. Detta innebär att modellen ibland felaktigt klassificerar en brun- eller blåögd individ som intermed eller tvärtom, vilket syns i tabell 7. Däremot är modellen betydligt bättre på att 15 skilja mellan blåögda och brunögda personer. Att modellen har problem med att skilja på blå och intermed samt brun och intermed är inte förvånande då det även är väldigt svårt att skilja dessa åt genom att bara undersöka datan. Det finns exempelvis två individer med identisk DNA uppsättning men den ena klassas som blå och den andra som intermed. Det hade därför varit värdefullt att ha tillgång till visuella representationer av de fall som klassas som intermed. Detta för att lättare kunna validera ifall modellens klassificering faktiskt motsvarar verkligheten. Vid närmare studier av de 16 personer som har intermed ögon men alltid klassificeras som blåögda av modellen syns att de alla har en sak gemensamt. Alla har värde 2 på locus 6. I resultatet för de enkla ögonfärgsmodellerna, kap 4.1, noterades att locus 6 i särklass är det viktigaste locuset för att avgöra om en person har blåa ögon eller inte och därför är det inte så konstigt att modellen gör detta felet. Med fler individer eller SNPs i datan skulle det kanske vara möjligt att klassificera dessa individer bättre, men det skulle även kunna finnas yttre anledningar till att dessa personer har intermed ögon. 5.3 Modeller för hårfärg Modellen som predicerar brunt hår har svårt att särskilja icke-brunt hår från brunt hår. En möjlig förklaring till detta skulle kunna vara att den tillgängliga datan har en överrepresentation av personer med brunt hår, vilket innebär att modellen har tränats mer på denna hårfärg än på de övriga. Samma problem återkommer i modellen som predicerar samtliga hårfärger, även den har stora svårigheter att skilja på de övriga hårfärgerna med brunt hår vilket är tydligt i tabell 10. Modellen har mest problem med att hitta blont hår. Detta skulle kunna bero på att anlaget för blont hår är en recessiv gen och både mörkt och rött hår är en dominant genetisk egenskap [25]. En person som har svart hår kan bära på anlaget för blont men anlaget för svart hår dominerar. På grund av detta finns det en risk att modellen förknippar de blonda anlagen med andra färger. Tillsammans med faktumet att det endast är tio individer som har blont hår, leder detta till att modellen inte får träna tillräckligt mycket på att identifiera blonda (recessiva) anlag. Modellen som bara hanterar blont, rött och svart hår får bättre prediktioner än de tidigare för de relevanta färgerna. Detta beror antagligen på att den överrepresenterade klassen brunt hår har tagits bort vilket tillåter modellen att lära sig mer om de specifika anlag som krävs för exempelvis blont hår. Dock presterar modellen fortfarande ganska dåligt. En möjlig förklaring till detta är att datamängden är ännu mindre, endast 31 datapunkter. Trots användning av LOOCV för utvärdering är detta väldigt lite data att utgå från. En annan möjlig förklaring är att det finns andra genotyper som påverkar hårfärgerna som inte är med i datamängden. En annan, något mer spekulativ, anledning till att modellerna inte presterar tillfredsställande skulle kunna vara att hårfärger kan ändras med ålder. Vissa personer som i vuxen ålder uppfattas ha brunt hår hade som barn blont, eller ibland vitt hår. Detta är även något som Andreas Tillmar, från Rättsmedicinalverket i Linköping, nämner i en intervju [7]. Han menar att detta, tillsammans med andra miljöfaktorer som exempelvis solexponering, är en av svårigheterna med att predicera hud- och hårfärg. Om detta är fallet skulle det innebära att några datapunkter för individer med brunt och blont hår eventuellt har ett visst överlapp och att det är en av anledningarna för modellens svårigheter att skilja på just brunt och blont hår. En ytterligare spekulation till varför modellen har svårt att skilja hårfärgerna åt kan vara att det även är svårt att skilja dessa åt i verkligheten. På en skala, är det exempelvis inte helt tydligt var blont hår övergår till brunt hår eller var brunt hår övergår till svart hår. Det är möjligt att detta reflekteras i genetiken och övergången mellan de olika färgerna inte är särskilt tydliga. 5.4 Osäkerheter och utmaningar När det gäller statistik och prediktioner kommer det alltid att finnas en viss osäkerhet kring resulta- ten. Även om en modell uppnår hög precision är det viktigt att se prediktionerna som sannolikheter snarare än absolut sanning. Modeller ger en uppskattning av de mest troliga resultaten baserat på tillgänglig data, men de kan aldrig förutsäga ett resultat med fullständig säkerhet. Detta innebär att även om modellen indikerar en hög sannolikhet för ett visst resultat, kommer det alltid att 16 finnas en risk för felaktigheter eller avvikelser från de förväntade resultaten. Ett exempel på detta i arbetet skulle kunna vara att ögonfärgen hos en viss person kan påverkas av andra SNP:er som inte inkluderades i denna rapport. Ingen modell kan fånga alla variationer i den verkliga världen. Det finns alltid okända faktorer eller influenser som inte syns i DNA:t som kan påverka utseende såsom skador, åldrande, kosmetiska ingrepp eller andra åkommor, och därför kommer det att finnas en viss grad av osäkerhet i varje prediktion. Ett känt exempel på yttre påverkan av hur en persons ögonfärg uppfattas är artisten David Bowies vänstra öga. Bowies vänstra pupill var permanent utvidgad efter en skada i ett slagsmål [26]. Hans vänstra öga uppfattas därför ofta som helt svart vilket skapar en stark kontrast mot hans blåa högra öga. På grund av osäkerheterna med yttre påverkan så är det viktigt i ett rättsligt sammanhang att denna typ av modeller inte används som bevismaterial i sig, utan som ett verktyg som utredare kan använda sig av som stöd i den initiala utredningsprocessen. En av de största osäkerheterna i det här arbetet är datan i sig som består av angivna ögon- och hårfärger samt loci och SNP. Ögon- och hårfärgerna är också klassificerade av personerna själva och det finns inte något sätt att verifiera hur de faktiskt ser ut. Det finns alltså en osäkerhet över hur varje person tolkar sin egna ögon- och hårfärg. En studie från år 2000 visade att människor generellt uppfattar färger på liknande sätt, men att det finns stor variation i hur nyanser tolkas [27]. Detta innebär att subjektiva bedömningar kan påverka både träningen av modellen och hur man förstår dess resultat beroende på vem det är som tolkar det. Detta kommer att påverka modellerna i det här arbetet, som i sin tur kommer att påverka prediktionerna. Det är alltså oklart för oss hur tydliga gränserna är mellan de olika färgklasserna. I datan som anger ögonfärg finns det även en osäkerhet i klassificeringen, det finns en ögonfärg som klassas intermed. Det är alltså en färg som inte är brun eller blå, detta kan betyda att ögonfärgen är grön, blå-grön, brun-grön eller blå med bruna fläckar. Allt som inte är just blå eller brun. I det här arbetet blir en sådan färg problematisk då det inte är möjligt att verifiera exakt hur de specifika intermedfärgerna ser ut. Även modellen får svårt att predicera intermed som en färg då vissa eventuellt är närmare blå än brunt eller tvärtom. Hårfärgerna hos personerna är självskattade enligt Fischer-Saller skalan. Men det är, precis som med ögon-datan, osäkert var gränsen mellan de olika nyanserna går. Att hårfärgerna skattas enligt en skala är rimligt, men eftersom datan redan var klassificerad innan den överlämnades till det här arbetet är det svårt att veta var gränserna dragits. En annan osäkerhet gäller DNA-spår där endast en liten mängd DNA finns tillgängligt. När DNA- mängden är låg kommer analyserna att bli mer osäkra vilket i sin tur ökar risken för feltolkningar. Det kan även uppstå problem vid insamlingen av DNA från brottsplatsen. Med detta menas att DNA vanligtvis är kontaminerat på en brottsplats, oftast är DNA-spår tagna från blod, hud, hår eller liknande, vilket kan ha smuts i sig. Det kanske till och med kan vara så att det är ihopblandat med andras DNA på en brottsplats. För att motverka detta brukar polisen även ta DNA från målsägande för att använda som ”eliminerings-DNA” [6]. Ett annat problem är även att DNA kan bli kontaminerad vid hanteringen, antingen redan vid insamling eller vid analyser. 5.5 Potentiella användningsområden Det här arbetet har från början utgått från att tekniken ska kunna användas inom forensisk verksamhet och det finns flera områden inom forensisk verksamhet som skulle kunna dra nytta av en sådan teknik. Ett av de viktigaste uppgifterna tekniken kan hjälpa till med är att ge kalla fall en chans till uppklarning. Genom att använda tekniken i fall där det saknas en känd gärningsperson, men där biologiskt material har säkrats från brottsplatsen, kan utredare få nya spår att följa och därmed en ny riktning i en annars ouppklarad utredning. En annan potentiell tillämpning inom forensisk verksamhet är inom identifiering av offer i sam- band med brottsutredningar, naturkatastrofer eller terrorattacker. Detta kan gälla exempelvis fall där kroppen är svårt skadad till följd av dödsorsaken eller där det saknas anhöriga i landet som kan hjälpa till vid identifiering. Om ingen anhörig finns tillgänglig för att identifiera kroppen, kan en prediktion av personens fenotyp användas för att skapa en sannolik bild eller beskrivning av personen. Denna bild eller beskrivning kan sedan spridas via media eller polisens nätverk, vilket i 17 sin tur kan leda till tips från allmänheten. Det kan också vara så att brottsoffret saknar identifika- tionsbevis och inte är registrerad i svenska databaser, men ändå finns med i andra internationella register. Här kan en fenotypbaserad profil spridas till utländska myndigheter och därefter ge dem ett bättre underlag för att göra kopplingar till vad som efterlyses. Ytterligare en potentiell användning av tekniken är att initialt smalna av utredningar som saknar en direkt misstänkt. Om brottsplatsen innehåller DNA från gärningspersonen kan fenotypiska prediktioner hjälpa polisen att prioritera vilka individer som bör utredas först, särskilt i väldigt breda eller resurskrävande utredningar. Även här måste man vara kritisk till modellen. Då den aldrig kan vara helt säker är det viktigt att inte blint lita på resultatet av analysen. Det finns en risk att viktiga spår missas, eller att utredningen leds bort från den faktiska gärningspersonen på grund av felaktiga antaganden. Tekniken bör därför ses som ett komplement till och inte en ersättning för vanliga utredningsmetoder. Vidare användningsområden är att skapa digitala fantombilder. Här krävs mer information än bara ögon- och hårfärg men det skulle vara möjligt att, genom att analysera DNA från okända individer, rekonstruera deras utseende och därigenom underlätta identifieringsprocessen. Dessa fantombilder skulle kunna användas i de fall där det inte finns något ögonvittne. Ett användningsområde som inte är kopplat till forensisk verksamhet är att fenotypiska predik- tioner i framtiden kan användas vid insemination eller IVF (in vitro-fertilisering). Vid assisterad befruktning kan föräldrar ibland välja mellan olika donatorer och vid IVF sker befruktningen i ett provrör. Med hjälp av fenotypisk prediktion kan man tänka sig att tekniken skulle kunna användas för att skapa en uppskattning av hur ett barn potentiellt kan se ut. Detta skulle exempelvis kunna ske genom att jämföra barnets DNA och potentiella utseende för respektive donator. Detta skulle kunna ge föräldrar en mer ”visuell” förståelse för genetiska utfall och kan vara av intresse för de som önskar att barnet liknar dem själva. 5.6 Samhälleliga och etiska aspekter Användningen av DNA-baserad fenotypisk prediktion för att bestämma egenskaper såsom hår- och ögonfärg innebär både potentiella fördelar och nackdelar. Dessa aspekter är viktiga att noggrant utvärdera för att säkerställa en rättssäker och etiskt försvarbar implementering av tekniken. 5.6.1 Risk för diskriminering Teknikens osäkerheter kan innebära risker när det kommer till rättssäkerheten, framförallt om den används som ett huvudsakligt bevis i en brottsutredning. Det finns en risk att en prediktion av en profil leder till att utredningar riktas felaktigt. Detta kan leda till att fel person utreds eller att andra alternativ förbises och att fallet förblir ouppklarat. Något att beakta i utvecklingen av en teknik som kan predicera ögon- och hårfärg är risken för partiskhet, särskilt när det gäller olika etniska grupper. En liknande studie, vilken använde sig av samma loci som i det här arbetet, visade att prediktionen av ögonfärg var mer säker för europé- er och närliggande populationer [9]. En trolig orsak till detta är att den utvalda genotyp-datan huvudsakligen kommer ifrån personer med ett europeiskt ursprung. Denna typ av partiskhet kan leda till diskriminering genom att individer från vissa populationer inte får användning av teknikens fulla nytta. Om en prediktionsmodell är mindre träffsäker för personer med ett visst ursprung kan det leda till att deras fysiska egenskaper inte identifieras med samma säkerhet. Detta innebär att tekniken kan vara mindre användbar för att exempelvis identifiera brottsoffer eller saknade personer i dessa grupper. En annan central aspekt är integriteten och den potentiella diskrimineringen som kan uppstå. Om den genetiska informationen inkluderar fler drag såsom hudfärg eller geografiskt ursprung, kan det leda till att vissa genetiska grupper utsätts för ökad övervakning och orättvist misstänkliggörande [16]. Ur ett juridiskt perspektiv skulle en sådan vinkling potentiellt strida mot dataskyddsförordningens (GDPR) princip om korrekthet, som föreskriver att behandling av personuppgifter ska vara rättvis, skälig och proportionerlig i förhållande till den registrerade individen [28]. Principen om rättvisa innebär att personuppgifter ska behandlas på ett sätt som den registrerade rimligen kan förvänta 18 sig och att hanteringen inte får vara diskriminerande, varken i metod eller i resultat. Om en DNA-baserad prediktionsmodell systematiskt ger sämre resultat för vissa etniska grupper, kan detta betraktas som en diskriminerande effekt av personuppgiftshanteringen, trots att syftet med tekniken inte är att diskriminera. För att motverka dessa problem är det viktigt att framtida studier försöker att ge en mer representativ träningsdata som täcker en bredare genetisk variation genom att samla in DNA från en större del av världens befolkning. Det bör även finnas en tydlig kommunikation i metodik och felmarginal. Detta är framför allt viktigt i rättsliga sammanhang där tekniken kan påverka beslut om misstankar och utredningar. Men diskrimineringar kan även ske utanför den forensiska verksamheten, tidigare nämndes att en potentiell användning av tekniken skulle kunna vara att predicera hur sitt framtida barn kommer att se ut. Det är viktigt att poängtera att en sådan tillämpning väcker många etiska frågor. Det finns en risk att tekniken används för att göra val baserade på personliga ideal. Ett sådant beteende skulle kunna förstärka normer kring att det finns mer ”önskvärda” utseenden. Om dessa tankar blir mer utbredda skulle det kunna leda till en minskad mångfald i fenotyp och att vissa ”mindre önskvärda” utseenden diskrimineras. Gällande optimeringen av personers genitiska egenskaper finns det så kallade ”designer babies” där föräldrar genom genetiska ingrepp kan välja önskvärda egenskaper hos sina barn, något som även det ställer frågor kring etiken med dessa typer av metoder. En annan aspekt är frågan om det faktiskt är moraliskt försvarsbart att helt och hållet kontrollera skapandet av liv och huruvida detta utsätter foster för fara. 5.6.2 Anpassad lagstiftning I takt med att tekniker för att predicera fenotypiska egenskaper utvecklas uppstår ett behov av att anpassa den befintliga lagstiftningen. Den nuvarande svenska lagstiftningen är anpassad efter användningen av DNA i identifieringssyfte, exempelvis genom STR-profiler i kriminaltekniska da- tabaser. Att använda tekniker för att förutsäga fysiska egenskaper utan att identifiera en specifik individ regleras inte av dagens lagstiftning. Om en helt ny teknik implementeras kan det leda till en juridisk gråzon, där det saknas tydliga riktlinjer för hur och när dessa verktyg får användas. För att säkerställa en rättssäker och etiskt försvarbar användning av dessa tekniker behövs tydliga ramverk som reglerar hur information från fenotypiska prediktioner ska tolkas och integreras i brottsutred- ningar. Ett sådant ramverk vore exempelvis att tekniken regleras till att endast användas som ett utredningsstöd och inte som bevis i domstol. Svensk lagstiftning är under ständig utveckling. Den 1 Juli 2025 träder en ny lag i kraft som möjliggör användning av DNA-baserade släktforskningsdatabaser i brottsutredningar för att iden- tifiera potentiella gärningspersoner [29]. Denna lag kommer att regleras genom att den begränsas till utredning av särskilt grova brott, såsom mord och grov våldtäkt. Lagändringen innebär att biometriska uppgifter kan samlas in, registreras och användas i betydligt större utsträckning än tidigare. Det är Nationellt forensiskt centrum (NFC) som ansvarar för att ta fram en process för DNA-baserad släktforskning. Liknande juridiska ramar skulle kunna utvecklas och användas för fler typer av användningsområden som exmpelvis den typ av modell som tagits fram i det här arbetet. 5.6.3 Hantering av biometriska uppgifter Eftersom teknikens syfte är att förutsäga fenotypiska egenskaper utifrån DNA i forensiskt syfte, blir hanteringen av dessa uppgifter en central fråga. DNA är en biometrisk uppgift vilka anses vara känsliga personuppgifter i GDPR och dessa kräver ett särskilt starkt skydd [30]. Artikel 9 i GDPR reglerar behandling av känsliga personuppgifter [31]. Det finns dock en del undantag som möjliggör hantering av dessa uppgifter, exempelvis när det är nödvändigt för syften som rör rättsväsendet, såsom brottsutredningar eller fastställande av rättsliga anspråk. För att dessa undantag ska vara tillämpliga krävs att behandlingen sker med tydliga rättsliga grunder, och under strikt reglerade former. Behandling av biometriska uppgifter ställer höga krav på datasäkerhet. För att skydda indivi- dens integritet ska uppgifterna pseudonymiseras och krypteras. Organisationer måste även löpande 19 säkerställa att systemens konfidentialitet, integritet och tillgänglighet upprätthålls. Regelbundna säkerhetsgranskningar är nödvändiga för att minimera risken för obehörig åtkomst eller dataläckor. En annan viktig aspekt är individens rätt till radering. Enligt artikel 17 i GDPR har en per- son rätt att få sina personuppgifter raderade utan dröjsmål [32]. Detta gäller bland annat när personuppgifterna inte längre behövs för de ändamål för vilka personuppgifterna samlats in. Polisen har ett särskilt register som innehåller DNA från alla personer dömda för brott med påföljd som inte är böter [33]. Enligt rättegångsbalken får polisen samla in DNA från personer som är skäli- gen misstänkta för brott som kan ge fängelse som påföljd. Dessa uppgifter får sparas i DNA-registret så länge som personen finns kvar i belastningsregistret. Men var skulle Forensisk DNA fenotypings profiler (FDF-profiler) falla in? Det finns ett specifikt register som kallas för fingeravtrycks- och signalementsregistret, där behandlas uppgifter om misstänkta eller dömda personer [33]. Sådana uppgifter får dock behandlas i sjuttio år efter registreringen om de avser utredningar om grova brott. 6 Slutsats Samtidigt som DNA-baserad fenotypisk prediktion har potential att förbättra brottsutredningar, medför den också betydande vetenskapliga, etiska och juridiska utmaningar. Tekniken måste tilläm- pas med försiktighet och i kombination med andra utredningsmetoder för att säkerställa att dess användning inte leder till felaktiga domar eller diskriminering. Fortsatt forskning och noggranna etiska överväganden är nödvändiga för att balansera teknikens möjligheter med dess risker. Ett förslag för att kunna motverka tolkningsosäkerheten som uppstår av de självskattade färgerna är att låta flera människor annotera datan innan den skickas ut. Det hade även kunnat vara en möjlighet att ha fler klasser, speciellt på hår då färgerna jämförs med en skala och där gränsen för de olika färgerna inte är helt tydlig. Det hade exempelvis kunnat vara en kategori för mörkblont och rödbrunt. För ögon hade man kunnat skilja på gröna ögon och blå ögon med bruna fläckar och vice versa istället för samla ihop alla dessa till klassen intermed ögon. Ett förslag för att undvika problemen som uppkommer med recessiva anlag, som blont hår, är att utforska beslutsträdsmodel- ler. Dessa skulle eventuellt fånga upp de hierarkiska förhållanden som finns bland anlagen bättre än våra statistiska modeller. En annan viktig aspekt för framtida studier är att använda en större datamängd och en jämnare balans mellan de olika utseendedragen. För att modellen ska kunna göra bättre prediktioner krävs en stor mängd data att träna på. Datan som använts i detta arbete har varit begränsad och framförallt för kategorier som inte är blå ögon eller brunt hår, vilket har lett till svårigheter när det kommer till att predicera dessa. För att kunna göra en ordentlig datainlärning hade det krävts betydligt större mängd data. Det finns även ett behov av mer forskning om andra loci på DNA:t då vi upptäckte att för ögon- färgerna ser vi personer som har olika färger men samma kombination av baspar i datan. Bland hårfärgerna upptäckte vi att vissa loci inte hade någon variation alls mellan de olika individerna. I en större mängd data hade man eventuellt kunnat upptäcka variationer hos dessa. Fenotypisk prediktion är baserad på statistiska sannolikheter snarare än absoluta deterministiska samband. Detta innebär att även om en viss genetisk profil indikerar en hög sannolikhet för en viss ögon- eller hårfärg, finns det alltid en grad av osäkerhet. Miljöfaktorer som trauman, åldrande, kosmetiska ingrepp och sjukdomar kan förändra en individs utseende på sätt som tekniken inte har en möjlighet att förutse. Forensisk prediktion kan ge en sannolikhet för vissa genetiska drag, men den är begränsad i det faktum att den inte kan förutse kalkylerade förändringar som exempelvis hårfärgning eller användning av kontaktlinser. Tekniken har potential att nyttjas i forensiska sammanhang genom att smalna av antalet miss- tänkta, hjälpa till med identifiering av avlidna och leda brottsundersökningar i rätt riktning. För att så rättssäkert som möjligt kunna implementera tekniken är det däremot av stor vikt att ha förståelse för dess begränsningar och risker. 20 Referenser [1] Forensic Evidence, [Fotografi], 2016. URL: quest-eb-com.eu1.proxy.openathens.net/ images/132_1255305 (hämtad 2025-04-11). [2] S. Sutton och R. Managed, DNA, [Fotografi], 2021. URL: quest- eb- com.eu1.proxy. openathens.net/images/139_3828894 (hämtad 2025-03-23). [3] R. AARli, “The Status and Meaning of Criminal Procedure: An exploration of the reception of DNA evidence in the criminal process”, Bergen Journal of Criminal Law & Criminal Justice, årg. 1, nr 1, s. 63–74, 2013. doi: 10.15845/bjclcj. URL: http://dx.doi.org/10. 15845/bjclcj.v1i1.524. [4] N. R. Council, D. on Earth, L. Studies, C. on Life Sciences, C. on DNA Forensic Science och A. Update, “The evaluation of forensic DNA evidence”, 1997. [5] C. J. Guerrini, J. O. Robinson, D. Petersen och A. L. McGuire, “Should police have access to genetic genealogy databases? Capturing the Golden State Killer and other criminals using a controversial new forensic technique”, PLoS biology, årg. 16, nr 10, e2006906, 2018. URL: https://doi.org/10.1371/journal.pbio.2006906. [6] S. medicinsk-etiska råd, “Kort om DNA och brottsutredning”, Kort om, 2021. URL: https:// smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf (hämtad 2025-01-29). [7] Rättsmedicinalverket, “Forskningsprojekt om ansiktsprediktion med hjälp av DNA”, 2023. URL: https://www.rmv.se/aktuellt/forskningsprojekt-om-ansiktsprediktion-med- hjalp-av-dna/ (hämtad 2025-03-01). [8] A. Tillmar, Privat kommunikation, Maj 2025. [9] S. Walsh, L. Chaitanya, L. Clarisse m. fl., “Developmental validation of the HIrisPlex sy- stem: DNA-based eye and hair colour prediction for forensic and anthropological usage”, Forensic Science International: Genetics, årg. 9, s. 150–161, 2014, issn: 1872-4973. doi: 10.1016/j.fsigen. URL: https://www.sciencedirect.com/science/article/pii/ S1872497313002536 (hämtad 2025-01-29). [10] S. Matheson, “DNA Phenotyping: Snapshot of a Criminal”, Cell, årg. 166, s. 1061–1064, 2016. doi: 10.1016/j.cell. URL: http://dx.doi.org/10.1016/j.cell.2016.08.016. [11] E. Sidransky, “Locus”, 2025. URL: https://www.genome.gov/genetics-glossary/Locus (hämtad 2025-03-06). [12] A. J. Brookes, “The essence of SNPs”, Gene, årg. 234, nr 2, s. 177–186, 1999. URL: https: //doi.org/10.1016/S0378-1119(99)00219-X (hämtad 2025-03-06). [13] K. Mäkelä, Simple illustration showcasing basic genetics terminology in a hierarchical man- ner. [Illustration], 2022. URL: https://upload.wikimedia.org/wikipedia/commons/2/ 2d/AllelemodWlocus%26karyotype_eng.png (hämtad 2025-03-07). [14] M. K. Wojczynski och H. K. Tiwari, “Definition of phenotype”, Advances in genetics, årg. 60, s. 75–105, 2008. URL: https://doi.org/10.1016/S0065-2660(07)00404-X (hämtad 2025-03-06). [15] D. Adams, “Genotype”, 2025. URL: https://www.genome.gov/genetics- glossary/ genotype (hämtad 2025-03-06). [16] B.-J. Koops och M. Schellekens, Forensic DNA phenotyping: regulatory issues, 2008. URL: https://papers.ssrn.com/sol3/papers.cfm?abstract_id=975032 (hämtad 2025-03-03). [17] W. Branicki, F. Liu, K. van Duijn m. fl., “Model-based prediction of human hair color using DNA variants”, Human genetics, årg. 129, s. 443–454, 2011. URL: https://doi.org/10. 1007/s00439-010-0939-8. [18] W. Gilks, S. Richardson och D. Spiegelhalter, Markov Chain Monte Carlo in Practice. Chap- man Hall, 1996. [19] W. H. Greene, Econometric Analysis. Pretince Hall, 2003. [20] R. P. Dobrow, Introduction to Stochastic Processes With R. John Wiley Sons, Inc, 2016, isbn: 9781118740712. doi: 10.1002/9781118740712. URL: http://dx.doi.org/10.1002/ 9781118740712 (hämtad 2025-02-24). [21] M. Blangiardo och M. Cameletti, Spatial and Spatio-Temporal Bayesian Models with R - INLA. John Wiley Sons, 2015. [22] S. S. Skiena, The Data Science Design Manual. Springer International Publishing, 2017. URL: https://doi.org/10.1007/978-3-319-55444-0 (hämtad 2025-05-06). quest-eb-com.eu1.proxy.openathens.net/images/132_1255305 quest-eb-com.eu1.proxy.openathens.net/images/132_1255305 quest-eb-com.eu1.proxy.openathens.net/images/139_3828894 quest-eb-com.eu1.proxy.openathens.net/images/139_3828894 https://doi.org/10.15845/bjclcj http://dx.doi.org/10.15845/bjclcj.v1i1.524 http://dx.doi.org/10.15845/bjclcj.v1i1.524 https://doi.org/10.1371/journal.pbio.2006906 https://smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf https://smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf https://www.rmv.se/aktuellt/forskningsprojekt-om-ansiktsprediktion-med-hjalp-av-dna/ https://www.rmv.se/aktuellt/forskningsprojekt-om-ansiktsprediktion-med-hjalp-av-dna/ https://doi.org/10.1016/j.fsigen https://www.sciencedirect.com/science/article/pii/S1872497313002536 https://www.sciencedirect.com/science/article/pii/S1872497313002536 https://doi.org/10.1016/j.cell http://dx.doi.org/10.1016/j.cell.2016.08.016 https://www.genome.gov/genetics-glossary/Locus https://doi.org/10.1016/S0378-1119(99)00219-X https://doi.org/10.1016/S0378-1119(99)00219-X https://upload.wikimedia.org/wikipedia/commons/2/2d/AllelemodWlocus%26karyotype_eng.png https://upload.wikimedia.org/wikipedia/commons/2/2d/AllelemodWlocus%26karyotype_eng.png https://doi.org/10.1016/S0065-2660(07)00404-X https://www.genome.gov/genetics-glossary/genotype https://www.genome.gov/genetics-glossary/genotype https://papers.ssrn.com/sol3/papers.cfm?abstract_id=975032 https://doi.org/10.1007/s00439-010-0939-8 https://doi.org/10.1007/s00439-010-0939-8 https://doi.org/10.1002/9781118740712 http://dx.doi.org/10.1002/9781118740712 http://dx.doi.org/10.1002/9781118740712 https://doi.org/10.1007/978-3-319-55444-0 [23] H. M. Wallace, A. Jackson, J. Gruber och A. Thibedeau, “Forensic DNA databases–Ethical and legal standards: A global review”, Egyptian Journal of Forensic Sciences, årg. 4, nr 3, s. 57–63, 2014. URL: https://doi.org/10.1016/j.ejfs.2014.04.002. [24] K. N. B. m. S. Walsh F. Liu, “IrisPlex: A sensitive DNA tool for accurate prediction of blue and brown eye colour in the absence of ancestry information”, Forensic Science International: Genetics, årg. 5, nr 3, s. 170–180, 2011. [25] G. C. Davenport och C. B. Davenport, “Heredity of hair color in man”, The American Natu- ralist, årg. 43, nr 508, s. 193–211, 1909. URL: https://www.journals.uchicago.edu/doi/ pdf/10.1086/279048 (hämtad 2025-05-09). [26] K. Hunt, The remarkable story behind David Bowie’s most iconic feature, 2016. URL: https: //www.dailymail.co.uk/health/article-3394180/The-remarkable-story-David- Bowie-s-iconic-feature.html (hämtad 2025-05-09). [27] M. A. Webster, E. Miyahara, G. Malkoc och V. E. Raker, “Variations in normal color vision. II. Unique hues”, Journal of the Optical Society of America A, årg. 17, nr 9, s. 1545–1555, 2000. [28] Integritetsskyddsmyndigheten, “Principen om korrekthet och diskriminerande algoritmer”, 2024. URL: https : / / www . imy . se / verksamhet / dataskydd / innovationsportalen / vagledning-om-gdpr-och-ai/gdpr-och-ai/principen-om-korrekthet-och-diskriminerande- algoritmer/ (hämtad 2025-03-09). [29] V. Strömberg och T. Mossinge-Norheim, “Klart: Polisen får använda dna-baserad släktforsk- ning vid vissa brott”, SVT, 2025. URL: https://www.svt.se/nyheter/inrikes/klart- polisen - far - anvanda - dna - baserad - slaktforskning - vid - vissa - brott (hämtad 2025-04-18). [30] Integritetsskyddsmyndigheten, “Känsliga personuppgifter”, Introduktion till dataskyddsför- ordningen, 2021. URL: https://www.imy.se/privatperson/dataskydd/introduktion- till-gdpr/vad-ar-personuppgifter/kansliga-personuppgifter/ (hämtad 2025-04-18). [31] Europaparlamentet och E. unionens råd, “Regulation (EU) 2016/679 of the European Parlia- ment and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protec- tion Regulation), Article 9”, OJ L 119, 2016. URL: https://gdpr-info.eu/art-9-gdpr/ (hämtad 2025-04-16). [32] Europaparlamentet och E. unionens råd, “Regulation (EU) 2016/679 of the European Parlia- ment and of the Council of 27 April 2016 on the protection of natural persons with regard to the processing of personal data and on the free movement of such data (General Data Protec- tion Regulation), Article 17”, OJ L 119, 2016. URL: https://gdpr-info.eu/art-17-gdpr/ (hämtad 2025-04-16). [33] Polisen, “Polisens register”, 2024. URL: https : / / polisen . se / lagar - och - regler / behandling-av-personuppgifter/polisens-register/ (hämtad 2024-04-24). https://doi.org/10.1016/j.ejfs.2014.04.002 https://www.journals.uchicago.edu/doi/pdf/10.1086/279048 https://www.journals.uchicago.edu/doi/pdf/10.1086/279048 https://www.dailymail.co.uk/health/article-3394180/The-remarkable-story-David-Bowie-s-iconic-feature.html https://www.dailymail.co.uk/health/article-3394180/The-remarkable-story-David-Bowie-s-iconic-feature.html https://www.dailymail.co.uk/health/article-3394180/The-remarkable-story-David-Bowie-s-iconic-feature.html https://www.imy.se/verksamhet/dataskydd/innovationsportalen/vagledning-om-gdpr-och-ai/gdpr-och-ai/principen-om-korrekthet-och-diskriminerande-algoritmer/ https://www.imy.se/verksamhet/dataskydd/innovationsportalen/vagledning-om-gdpr-och-ai/gdpr-och-ai/principen-om-korrekthet-och-diskriminerande-algoritmer/ https://www.imy.se/verksamhet/dataskydd/innovationsportalen/vagledning-om-gdpr-och-ai/gdpr-och-ai/principen-om-korrekthet-och-diskriminerande-algoritmer/ https://www.svt.se/nyheter/inrikes/klart-polisen-far-anvanda-dna-baserad-slaktforskning-vid-vissa-brott https://www.svt.se/nyheter/inrikes/klart-polisen-far-anvanda-dna-baserad-slaktforskning-vid-vissa-brott https://www.imy.se/privatperson/dataskydd/introduktion-till-gdpr/vad-ar-personuppgifter/kansliga-personuppgifter/ https://www.imy.se/privatperson/dataskydd/introduktion-till-gdpr/vad-ar-personuppgifter/kansliga-personuppgifter/ https://gdpr-info.eu/art-9-gdpr/ https://gdpr-info.eu/art-17-gdpr/ https://polisen.se/lagar-och-regler/behandling-av-personuppgifter/polisens-register/ https://polisen.se/lagar-och-regler/behandling-av-personuppgifter/polisens-register/ Användning av AI Rapporten har använt sig av AI på flera sätt. Det främsta användningsområdet har varit kodning. Vi har använt AI-verktyg som OpenAis ChatGPT och Mistrals LeChat för att felsöka kod, om- strukturera kod för att öka dess effektivitet och för att skapa visualiseringar snabbt. AI-verktyg har även använts för att dubbelkolla meningsuppbyggnader och formuleringar i flera delar av rap- porten, främst för avsnitt 1 och 3. AI-verktyg har inte använts för att samla information eller för att skapa nytt material. A Appendix – Teori A.1 Prestandamått av förväxlingsmatriser Med en förväxlingsmatris för en modell på en viss datamängd finns det olika prestandamått man kan beräkna för att tolka och döma modellen [22]. Prestandamåtten som vi använder i rapporten är följande: • Accuracy definieras som andelen korrekta prediktioner. Alltså för en n×n förxälingsmatris blir det C11+...+Cnn∑ i ∑ j Cij . • Precision för klass j mäter hur ofta modellen hade rätt när den predicerade klass j, defini- tionen ges av Cjj C1j+...+Cnj . • Recall är andelen observationer av klass j som modellen gissade rätt på och definieras som Cjj∑n i=1 Cji . • Specificity är ett mått på hur ofta man haft rätt när man gissat falsk och för en n×n-matris definieras det för klass j som TNj TNj+FPj där TNj = ∑ i ̸=j ∑ k ̸=j Cik och FPj = ∑ i ̸=j Cji. i B Appendix – Figurer och tabeller Kedjor och modellernas prestation Prediktionsmodell blå ögon Accuracy 78% Precision 75% Recall 94% Specificity 54% Tabell 14: Prestandamått för blå ögon Prediktionsmodell samtliga ögonfärger Figur 9: Markovkedjor för tre av 14 dimensioner Prediktionsmodell brunt hår Tabell 15: Prestandamått för enkel modell för brunt hår Accuracy 52% Precision 60% Recall 71% Specificity 18% Figur 10: Visualisering av värden i alla loci för brunt hår och icke-brunt hår ii C Appendix – Kod Nedan visas kod för den grundläggande modellen. Först presenteras de matematiska funktionerna sedan visas hur kedjan simuleras. import numpy as np from s c ipy . opt imize import minimize from s c ipy . s t a t s import norm # Läs data l oc i_data = np . read ( " loc i_data . npy" ) eye_data = np . read ( "eye_data . npy" ) # Sanno l i k h e t s f unk t i on def phi ( x ) : return np . exp (x ) / (np . exp (x ) + 1) # Vä l j l o c i s e l e c t e d_ l o c i = [ 0 , 1 , 2 , 3 , 4 , 5 , 6 ] # Log l i k e l i h o o d funk t i on def l o g_ l i k e l i h ood ( theta , loc i_data=loci_data , eye_data=eye_data ) : z = np . dot ( loc i_data [ : , s e l e c t e d_ l o c i ] , theta ) phi_vals = phi ( z ) return np .sum( eye_data ∗ np . l og ( phi_vals ) + (1 − eye_data ) ∗ np . l og (1 − phi_vals ) ) # Normalfö rde l ad p r i o r def l og_pr ior ( theta ) : return sum(norm . logpd f ( theta , l o c=np . z e r o s ( len ( theta ) ) , s c a l e =5)) # Beräkna maximum l i k e l i h o o d med minimize n_loc i s = len ( s e l e c t e d_ l o c i ) theta_1 = minimize (lambda t : −l o g_ l i k e l i h ood ( t ) , np . z e r o s ( n_loc i s ) ) . x # Printa maximum l i k e l i h o o d print ( f "Maximum␣ l i k e l i h o o d ␣ f ö r ␣ i n t e r c e p t : ␣{ theta_1 [ 0 ] } " ) for i in range (1 , len ( theta_1 ) ) : print ( f "Maximum␣ l i k e l i h o o d ␣ f ö r ␣ _ { i } : ␣{ theta_1 [ i ] } " ) # Accep t e r in g s sanno l i k h e t # Logaritmerad f ö r a t t ge numerisk s t a b i l i t e t def rho ( theta_new , theta_old , loc i_data=loci_data , eye_data=eye_data ) : numerator = l og_ l i k e l i h ood ( theta_new , loci_data , eye_data ) + log_pr ior ( theta_new ) denominator = l og_ l i k e l i h ood ( theta_old , loc i_data , eye_data ) + log_pr ior ( theta_old ) return np . exp ( numerator − denominator ) iii # Antal s t e g i kedjan N = 10000 # Varians var = 0 .2 # Matrix med no l l o r f ö r a t t spara kedjan theta_vals = np . z e ro s ( [N, n_loc i s ] ) # Beräkna slumpade värden som används i i t e r a t i o n e rna norm_vals = np . random . normal (0 , var , [N, n_loc i s ] ) un i f_va l s = np . random . uniform (0 , 1 , N) # Sä t t f ö r s t a vä rde t t i l l maximum l i k e l i h o o d värdena theta_vals [ 0 , : ] = theta_1 n_accepted = 0 for i in range (1 , N) : # Fö r e s l ä ny t t t h e t a theta_new = theta_vals [ i − 1 , : ] + norm_vals [ i , : ] # Beräkna accep tansn iv ä accpetance_prob = rho ( theta_new , theta_vals [ i − 1 , : ] ) i f uni f_va l s [ i ] < accpetance_prob : # Acceptera nya t h e t a theta_vals [ i , : ] = theta_new n_accepted += 1 else : # Sä t t nya t h e t a t i l l gamla t h e t a theta_vals [ i , : ] = theta_vals [ i − 1 , : ] # Burn in f ö r konvergens burn_in = N // 2 burned_theta_vals = theta_vals [ burn_in : , : ] # Ny persons DNA vars ö gonf ä rg v i v i l l p r ed i c e ra # Pla t s n o l l ä r a l l t i d 1 f ö r i n t e r c e p t new_DNA = [1 , 0 , 2 , 1 , 0 , 2 , 2 ] # Phi av t h e t a gänger nya DNA värden phi_vals = phi (np . dot ( burned_theta_vals , new_DNA)) # Medelvä rde t av a l l a phi−värden ger p r ed i k t i onen p r ed i c t i on = np .mean( phi_vals ) print ( f "Prob␣ o f ␣having␣ blue ␣ eyes : ␣{ p r ed i c t i on }" ) iv Inledning Bakgrund Syfte Avgränsningar Teori Logistisk regression Bayesiansk Inferens Likelihood-funktionen Stokastiska Processer Markovkedjor Monte Carlo-metoden Monte Carlo-Integration Markov Chain Monte Carlo (McMC) Metropolis-Hastings algoritm Laplace approximation Korsvalidering Förväxlingsmatriser Metod Presentation och transformation av data Prediktionsmodeller för ögonfärg Härledning av modellgrund Grundläggande modell Numerisk modell Modell för blåa ögon Modell för samtliga ögonfärger Prediktionsmodeller för hårfärg Resultat Grundläggande modell och numeriska beräkningar Prediktionsmodell för blåa ögon Prediktionsmodell för samtliga ögonfärger Prediktionsmodell för brunt hår Prediktionsmodell för samtliga hårfärger Prediktionsmodell för blont, rött och svart hår Diskussion Grundläggande modell och numeriska beräkningar Modeller för ögonfärg Modeller för hårfärg Osäkerheter och utmaningar Potentiella användningsområden Samhälleliga och etiska aspekter Risk för diskriminering Anpassad lagstiftning Hantering av biometriska uppgifter Slutsats Appendix – Teori Prestandamått av förväxlingsmatriser Appendix – Figurer och tabeller Appendix – Kod