Prediktion av hårfärg och ögonfärg från genetiska
markörer inom forensisk verksamhet

Prediction of Hair and Eye Color Using Genetic Markers
in Forensic Work
Kandidatarbete inom civilingenjörsutbildningen vid Chalmers

Stella Brenden Linna
Sophie Dahlgren
David Huynh Thuan Duong
Felix Årebo Nettby

Institutionen för Matematiska vetenskaper
CHALMERS TEKNISKA HÖGSKOLA
GÖTEBORGS UNIVERSITET
Göteborg, Sverige 2025


Prediktion av hårfärg och ögonfärg från genetiska markörer
inom forensisk verksamhet

Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk matematik vid
Chalmers
David Huynh Thuan Duong Felix Årebo Nettby

Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk fysik vid Chal-
mers
Stella Brenden Linna Sophie Dahlgren

Handledare: Petter Mostad

Institutionen för Matematiska vetenskaper
CHALMERS TEKNISKA HÖGSKOLA
GÖTEBORGS UNIVERSITET
Göteborg, Sverige 2025


Förord
Vi vill börja med att tacka vår handledare Petter Mostad för hans engagemang och fantastiska
stöd under hela processen med vårt kandidatarbete. Vi vill även tacka Rättsgenetik vid nationellt
forensiskt centrum i Linköping och Andreas Tillmar för den data som användes i arbetet.

Under projektet har loggbok förts över de enskilda gruppmedlemmarnas prestationer. Denna logg-
bok bestod av en veckovis “dagbok” som inkluderade tidsloggar för varje gruppmedlem, där det
noterades vad varje medlem jobbat med under veckan som gått. Nedan presenteras en tabell över de
huvudsakliga författarna för varje avsnitt i kandidatrapporten. Alla gruppmedlemmar bidrog sedan
till korrekturläsning och renskrivning av den färdiga rapporten. Under utvecklingsfasen av model-
lerna bidrog alla gruppmedlemmar med att skriva kod. Den prediktionsmodell som i slutändan
användes skrevs av David, som vidareutvecklade modellen och producerade resultatet. Gruppen
anser att alla medlemmar har bidragit likvärdigt till arbetet.

Bidragsrapport
Avsnitt Rubrik Författare

Förord Stella
Populärvetenskaplig presentation Stella
Sammandrag och abstract Stella, Sophie

1 Inledning Stella
1.1 Syfte Felix, Sophie
2 Teori Stella

2.1 Genetik Stella
2.1.1 Genotyp och fenotyp Stella
2.1.2 Genetisk analys inom forensik Stella
2.1.3 Användning av DNA-teknik för att

förutsäga ögon- och hårfärg
Stella

2.2 Statistisk modellering Stella
2.2.1 Bayesiansk statistik Stella, David
2.2.2 Logistisk regression Stella, David
2.2.3 Trolighetsfunktion med logistisk

regression
Stella, David

2.2.4 Multinomial logistisk regression Stella, David
2.2.5 Markov Chain Monte Carlo Stella
2.2.6 Den multinormala fördelningen David
2.2.7 Centrala gränsvärdessatsen Felix
2.2.8 Mätning av modellprestanda David, Felix

3 Metod Felix
3.1 Avgränsningar Sophie, Felix
3.2 Datainsamling och visualisering av

data
Sophie

3.3 Modellutveckling Felix
3.4 Modellvalidering Felix
4 Resultat Alla
5 Diskussion Alla

5.1 Tolkning av resultat Alla
5.2 Begränsande faktorer och

förbättringsmöjligheter
Alla

6 Samhälleliga och etiska aspekter Felix, Stella
7 Slutsatser Felix, Sophie

Bilaga A Datavisualisering Sophie, Felix
Bilaga B Figurer och tabeller Sophie, David
Bilaga C Källkod David, Felix


Figurer och tabeller i huvuddelen
Nummer Skapare

Tabell 1, 2, 4 och 6 David
Tabell 3 och 5 Sophie
Fig: 1, 2, 5, 6 och 7 Sophie
Fig: 3, 4 David

Figurer i bilagan
Nummer Skapare

Fig: 8 och 9 Sophie, Felix
Fig: 16, 17, 18, 19, 20, 21, 22, 23, 24,
25, 26 och 27

Sophie

Fig: 10, 11, 12, 13, 14, 15, 28, 29, 30,
31, 32, 33 och 34

David


Populärvetenskaplig presentation
Skulle det vara möjligt att endast utifrån DNA-spår på en brottsplats kunna skapa en perfekt
fantombild av en gärningsman? För många utredare inom rättsväsendet låter detta som en utopi,
en möjlighet att sätta ett ansikte på en gärningsman även då vittnen saknas. I nuläget är detta en ny
teknik som är under utveckling, och det finns redan amerikanska företag som påstår sig behärska att
producera sådana fantombilder. För att skapa en fantombild utan vittnen måste det finnas teknik
som kan förutsäga visuella egenskaper hos en individ utifrån specifika DNA-sekvenser. Det är här
matematiken kommer in, eftersom statistiska modeller kan byggas upp för att göra precis sådana
förutsägelser. I det här arbetet har statistiska modeller använts för att, utifrån DNA-sekvenser,
förutsäga vilken ögonfärg eller hårfärg en individ har. Dessutom har sannolikheten för att modellen
förutspår rätt resultat beräknats, så att det är möjligt att avgöra huruvida resultaten är tillförlitliga
att använda i praktiken.

DNA är den kod som bestämmer allt kring en människas uppbyggnad. I DNA-spiralen finns små
sekvenser som kan vara olika uppbyggda mellan olika individer, och det är dessa som bidrar till
att vi människor har unika egenskaper. Dessa sekvenser kan kallas för genetiska markörer. Det
finns vissa specifika genetiska markörer som styr till exempel vilken ögonfärg en person har, och
andra genetiska markörer som styr hårfärgen. Genom att använda sig av befintlig data över vilka
genetiska markörer som bidrar till en viss egenskap kan en statistisk modell byggas upp, som sedan
kan användas för att göra förutsägelser av exempelvis vilken ögonfärg en viss sekvens av genetiska
markörer kan ge.

Modellen som har tagits fram bygger på logistisk regression, vilket är en statistisk modell som
används för att modellera sannolikheter. Den enklaste logistiska regressionsmodellen har två möj-
liga utfall, till exempel då ögonfärg studeras kan den förutsäga att en individ antingen har blå
ögon eller inte. Detta kallas för binär logistisk regression. Dessutom ger modellen sannolikheten
för hur säker den är på att förutsägelsen stämmer. Modellen byggs upp från data över en mängd
testpersoner, där det är givet vilken ögonfärg personen har och vilka genetiska markörer dessa kan
vara kopplade till. Den logistiska modellen använder sedan informationen i datamängden för att
hitta ett samband mellan blå ögonfärg och de genetiska markörerna. Därefter kan modellen ta
emot genetisk information från en individ med okänd ögonfärg och beräkna sannolikheten för att
denna individ har blå ögonfärg, eller inte blå ögonfärg.

Den logistiska modellen kan dessutom utvecklas för att hantera fler möjliga utfall än två, som till
exempel då modellen ska förutspå de tre ögonfärgerna blå, brun och grön. En sådan modell kallas
för multinomial logistisk regressionsmodell. Precis som tidigare lär modellen sig samband mellan
genetiska markörer och ögonfärg, för att sedan göra en förutsägelse av vilken ögonfärg som en
okänd individ har. Skillnaden är att modellen bestämmer vilken ögonfärg som förutsägs genom att
beräkna sannolikheterna för att de genetiska markörerna ska ge blå, brun eller gröna ögon som utfall
och använder sedan det mest sannolika utfallet som resultat. På det tekniska planet fungerar det
även lite annorlunda, eftersom en multinomial logistisk regressionsmodell jämför varje kategori (till
exempel brun och grön) med en referenskategori (blå). Sedan utför modellen en logistisk regression
för varje jämförelse för att sedan slå ihop resultatet av dessa.

I arbetet har data använts som insamlades av Rättsgenetik vid nationellt forensiskt centrum i
Linköping. Datamängden bestod av information över 85 testpersoners ögon- och hårfärg, samt
data över individernas genetiska markörer. Genom denna data har logistiska modeller tagits fram
för att göra förutsägelser av vilken ögon- och hårfärg en okänd person har utifrån dennes genetiska
markörer. Modellen testades genom att jämföra resultatet av förutsägelsen med de faktiska ögon-
och hårfärgerna för personen.

Förhoppningen med modellen är att den ska ge så pass tillförlitliga resultat att den i praktiken skulle
vara möjlig att använda för att avgöra visuella aspekter som ögon- och hårfärg utifrån DNA. Det
innebär att sannolikheten för att den gör rätt förutsägelser behöver vara väldigt hög, eller att det är
tydligt till vilken grad modellen går att lita på genom att sannolikheterna tydligt presenteras. Detta
är en teknik som är under utveckling i Sverige, med stor potential för användning i rättsväsendet.
I framtiden kan därför liknande tekniker bli ett viktigt verktyg för brottsutredningar, och ett sätt
att bidra till att bringa klarhet i fler ouppklarade fall.


Sammandrag

Ett utvecklingsområde inom forensiska verksamheter är DNA-fenotyping, vilket är en tek-
nik för att utifrån DNA kunna predicera visuella egenskaper för en individ. I detta arbete
undersöktes hur väl statistiska modeller kan utföra prediktion av ögon- och hårfärg utifrån
genetiska markörer i DNA. De modeller som framtogs var logistiska regressionsmodeller som
använde en MCMC-metod med en Metropolis-Hastings-algoritm för att uppskatta posteriori-
fördelningen. Två binära logistiska regressionsmodeller med två olika priorifördelningar jämför-
des, en icke-proper likformig priorifunktion och en multinormal priorifunktion. På samma sätt
jämfördes två multinomiala logistiska regressionsmodeller med samma två priorifördelningar.

Den datamängd som användes i arbetet omfattade ögon- och hårfärg för 85 individer och
bestod av observerade färger samt genetiska markörer kopplade till färgerna. De ögonfärger
som undersöktes var brun, blå och intermediär, medan de hårfärger som undersöktes var brun,
blond, röd och svart.

Modellernas prestanda utvärderades genom ROC-grafer (eng: Receiver Operating Charac-
teristic) och tillhörande AUC-värden (eng: Area Under the Curve). Resultatet uppvisade att
modellerna överlag hade låga AUC-värden och därmed presterade dåligt. Ingen av modellerna
lyckades uppnå ett totalt AUC-värde på över 0,75. Däremot presterade modellerna för pre-
diktion av ögonfärg generellt bättre än modellerna för hårfärg. Det upptäcktes emellertid att
modellen för multinomial hårfärg gav bra resultat när det gällde att predicera röd hårfärg med
ett AUC-värde på 0,94. En stor begränsning för modellerna som kan ha påverkat resultatet är
den begränsade datamängden. Finns det inte tillräckliga skillnader i den givna datamängden
över genetiska markörer mellan de olika klasserna av färger får modellen svårt att kunna göra
säkra prediktioner. Eftersom alla modeller har stora begränsningar är de i nuläget inte an-
vändbara för användning i praktiken, men genom fortsatt forskning skulle liknande statistiska
modeller i framtiden kunna användas för mer tillförlitliga prediktioner.

Abstract

An emerging area within forensic sciences is DNA phenotyping, which is a technique used
to predict an individual’s attributes from their DNA. This thesis investigated how well sta-
tistical models could predict eye and hair color from genetic markers. The models developed
were logistic regression models that utilized an MCMC method using the Metropolis-Hastings
algorithm to estimate the posterior distribution. Two binary logistic regression models with
different prior distributions were compared: one with an improper uniform prior and another
with a multinormal prior. Similarly, two multinomial logistic regression models with the same
two prior distributions were also evaluated.

The dataset used in this study included eye and hair color information from 85 individuals,
consisting of observed phenotypes as well as their associated genetic markers. The eye colors
investigated were blue, brown and intermediate, while the hair colors included brown, blonde,
red and black.

The models’ performance was evaluated using ROC curves (Reciever Operating Charac-
teristic) and the corresponding AUC values (Area Under the Curve). The results showed that
the models generally had low AUC values, and therefore performed unsatisfactorily. None of
the models achieved a total AUC value over 0.75. However, the models that predicted eye
color generally performed better than those predicting hair color. Interestingly, the multi-
nomial hair color model was able to predict red hair with high accuracy, achieving an AUC
value of 0.94. A key limitation of the models was the small dataset. If there are insufficient
differences in the genetic marker data between the different color classes, the model struggles
to make reliable predictions. Given these limitations, the models are currently not suitable
for practical use. Nonetheless, with continued research, future statistical models of this kind
could potentially provide more reliable predictions.


Innehåll
1 Inledning 1

1.1 Syfte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2 Teori 1
2.1 Genetik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.1.1 Genotyp och fenotyp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
2.1.2 Genetisk analys inom forensik . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.1.3 Användning av DNA-teknik för att förutsäga ögon- och hårfärg . . . . . . . 2

2.2 Statistisk modellering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2.2.1 Bayesiansk statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.2 Logistisk regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.2.3 Trolighetsfunktion med logistisk regression . . . . . . . . . . . . . . . . . . 4
2.2.4 Multinomial logistisk regression . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2.5 Markov Chain Monte Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.6 Den multivariata normalfördelningen . . . . . . . . . . . . . . . . . . . . . . 6
2.2.7 Centrala gränsvärdessatsen . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.8 Mätning av modellprestanda med AUC-värden . . . . . . . . . . . . . . . . 7

3 Metod 8
3.1 Avgränsningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Datainsamling och databehandling . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.3 Modellutveckling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Modellvalidering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Resultat 11
4.1 AUC-värden för alla modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 Sensitivitets- och specificitetstabeller . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 ROC-kurvor för de utvalda modellerna . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.4 Konfusionsmatriser för de utvalda modellerna . . . . . . . . . . . . . . . . . . . . . 14
4.5 Sannolikhetsfördelningar för de utvalda modellerna . . . . . . . . . . . . . . . . . . 15

5 Diskussion 16
5.1 Tolkning av resultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
5.2 Begränsande faktorer och förbättringsmöjligheter . . . . . . . . . . . . . . . . . . . 18

6 Samhälleliga och etiska aspekter 19

7 Slutsatser 19

8 AI-användning 23

A Datavisualisering i

B Figurer och tabeller i
B.1 ROC-kurvor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii
B.2 Konfusionsmatriser . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
B.3 Figurer för modellernas prediktioner . . . . . . . . . . . . . . . . . . . . . . . . . . vi
B.4 Figurer över prediktionsmodellernas sannolikhetsfördelning . . . . . . . . . . . . . x
B.5 Figurer för parametrarnas konvergens . . . . . . . . . . . . . . . . . . . . . . . . . xiv

C Källkod xviii


1 Inledning
Sedan 1989 har DNA-analys använts som ett verktyg inom forensiska verksamheter i Sverige. Ett
område inom detta fält som fortfarande är under utveckling är Forensisk DNA fenotypning. Feno-
typing innebär att delar av DNA används för att göra fenotypiska prediktioner, alltså förutsägelser
av visuella egenskaper hos en individ. Detta kan vara exempelvis hårfärg och ögonfärg och kan vara
värdefull information då ögonvittnen eller övervakningskameror saknas under en brottsutredning
[1].

Denna typ av prediktion kan baseras på regressionsmodeller från bayesiansk statistik för att ana-
lysera sambandet mellan genetiska markörer i DNA och fenotypiska egenskaper. Genom statistiska
metoder kan även osäkerheter i modellens prediktioner kvantifieras. En perfekt modell skulle kunna
ta fram en färdig fantombild av en brottsmisstänkt mer effektivt och med mindre resurser än vad
som krävs i nuläget. Genom DNA-fenotyping skulle alltså brottsutredningar kunna effektiviseras
och därmed öka sannolikheten för att brottsmål uppklaras, vilket är av intresse för rättsväsendet.
Samtidigt måste prediktionerna från modellen alltid vägas mot annan typ av bevisning för att
undvika felaktiga slutsatser.

1.1 Syfte
Syftet med arbetet är att utveckla en prediktionsmodell som utifrån genetiska markörer kan förut-
spå karakteristiska egenskaper hos individer. I projektet utvecklas modellen med målet att förutspå
genetiska ögon- och hårfärger. Modellen kommer att utvecklas med hjälp av bayesiansk statistik,
och dess effektivitet och träffsäkerhet kommer att utvärderas för att bedöma om modellen kan
tillämpas i praktiska sammanhang. Arbetet fokuserar på tre centrala aspekter: datamaterialets
tillförlitlighet, modellens konstruktion samt utvärdering av dess prestanda.

2 Teori
I detta kapitel presenteras den teoretiska bakgrunden som ligger till grund för prediktionsmodellen.
Till en början introduceras viktiga begrepp inom genetisk analys och vidare ges en introduktion
till de metoder inom bayesiansk statistik och de regressionsmodeller som är relevanta för arbetet.

2.1 Genetik
Nedan introduceras centrala begrepp som används inom genetisk analys, såsom genotyp och feno-
typ. Vidare presenteras hur DNA används inom forensiska undersökningar och den nya tekniken
DNA-fenotyping.

2.1.1 Genotyp och fenotyp

Två begrepp som ofta används inom genetiken är genotyp och fenotyp. Genotyp beskriver en
individs totala uppsättning gener, den arvsmassa (DNA) som individen ärvt från sina föräldrar.
Fenotyp beskriver de fysiologiska egenskaper en individ har, såsom utseende och andra fysiska
beteenden. Fenotypen för en individ formas utifrån genotypen men kan även till viss del påverkas
av miljö [2]. På kemisk nivå är DNA uppbyggt av fyra sorters kvävebaser; adenin, guanin, cytosin
och tymin. Dessa förkortas med A, G, C och T [3, s.54]. DNA har strukturen av en dubbel-helix, där
de två strängarna med kvävebaser kopplas samman med vätebindningar. Dessa kopplingar bildar
baspar av kvävebaser där A i den ena strängen alltid är kopplad samman med T i den andra, och
på samma sätt är G alltid sammankopplad med C [3, s.57-59].

Ett sätt att beskriva skillnader i fenotyp för olika individer är genom analys av genomet. Polymorfi
är en variation i DNA-sekvensen mellan två individer som kan förklara varför individerna har olika
egenskaper. Den vanligaste formen av polymorfi är SNP, enbaspolymorfi (eng: Single Nucleotide
Polymorphism), vilket är enskilda positioner i DNA-sekvensen som kan variera mellan olika indi-
vider. Detta sker genom att en enda kvävebas i sekvensen är utbytt mot en annan kvävebas [3, s.
686]. Det uppskattas att det i mänskligt genom finns ett SNP per tusen baspar, och mer än tre

1


miljoner enbaspolymorfier har hittills kartlagts. Omkring hälften av dessa kan vara direkt kopplade
till fenotypiska egenskaper för en individ [4, s.16-17].

2.1.2 Genetisk analys inom forensik

DNA finns i flera typer av biologiska material, såsom blod, kroppsvätskor eller hudceller från
fingeravtryck och svett [5, s.45]. Målet med analys av sådan typ av bevisning är bestämning av
identitet för den person som lämnat DNA på en brottsplats. Historiskt har det varit möjligt att
utföra analys av blodgrupp eller andra genetiska markörer såsom proteiner, men dessa kan skapa en
profil som stämmer för ett flertal personer. Genom DNA-analys av biologisk bevisning kan istället
en enskild person identifieras, eftersom alla individer (bortsett från enäggstvillingar) har en unik
uppsättning gener [6, s.63]. Den kemiska stabiliteten i DNA är användbar för forensiker eftersom
det är möjligt att analysera biologisk bevisning lång tid efter att brottet begåtts [5, s.45]. Sedan
1985 har det varit möjligt att göra DNA-analys på en liten mängd insamlat material genom PCR-
tekniken (eng: Polymerase Chain Reaction). Tack vare PCR kan DNA från en enda cell kopieras
till flera miljoner DNA-segment som sedan kan analyseras. PCR kan även genomföras under kort
tid, och oftast uppnås en stor mängd DNA efter mindre än 24 timmar [6, s.64-67].

Ett relativt nytt område inom forensik är Forensisk DNA-fenotyping (eng: Forensic DNA Phenoty-
ping, FDP). Detta kan användas när klassisk DNA-profilering inte kan hjälpa en brottsutredning då
det inte finns någon misstänkt att matcha profilen mot, eller det inte går att hitta någon matchning
med existerande DNA-databaser. Genom FDP kan prediktioner göras av synliga fenotypiska egen-
skaper från insamlat DNA, vilket kan smalna av potentiella misstänkta i ett brottsmål. FDP kan
även användas för identifikation av till exempel försvunna personer, genom att skapa fantombilder
utifrån DNA-spår [7].

2.1.3 Användning av DNA-teknik för att förutsäga ögon- och hårfärg

Forensisk DNA-fenotyping är en komplicerad teknik eftersom många gener har inverkan på de
flesta synliga karaktärsdragen för en människa. I nuläget är de genetiska markörerna som styr kön,
hårfärg och ögonfärg de mest tillförlitliga. Det pågår även forskning kring kartläggning av geners
inblandning i bland annat ansiktsform, längd och ålder, men mer kunskap behövs kring både geners
påverkan och miljö. Än så länge går det endast att förutsäga fenotypiska drag utifrån DNA med
en viss sannolikhet, men trots detta kan FDP bidra till att leda brottsutredningar framåt [8].

Det finns däremot flera begränsande faktorer till prediktion av bland annat ögon- och hårfärg in-
om forensiskt arbete. UV-ljus, sjukdomar, droger och åldrande kan ha en påverkan på melaninets
syntes. Till exempel kan barn med blont hår bli allt mer brunhåriga när de blir äldre. Ett ytter-
ligare problem är att grön ögonfärg är svår att förutsäga, då det i dagsläget saknas väl kartlagda
genetiska markörer för denna egenskap. Även yttre faktorer, såsom färgning av hår, kan påverka
hur användbara fenotypiska prediktioner är i praktiken [8].

Hur tillförlitliga existerande metoder för fenotypiska prediktioner är har tidigare studerats i Sverige.
I denna analyserades säkerheten för prediktion av 111 svenska individer genom användning av
systemet ForenSeq och instrumentet MiSeq FGx (Verogen). De förutspådda ögon- och hårfärgerna
som genom systemen gav störst sannolikhet jämfördes med de observerade färgerna. Resultatet av
studien uppvisade att 80% av ögonfärgerna förutspåddes korrekt, men att systemet misslyckades
med att förutsäga grön ögonfärg. För hårfärg lyckades systemet göra 58% korrekta prediktioner.
När sedan en sannolikhetströskel på 0,7 infördes ökade korrekt predicerade ögonfärger till 85%,
medan andelen korrekta hårfärger inte påverkades nämnvärt [9].

2.2 Statistisk modellering
För att göra prediktioner av fenotypiska egenskaper utifrån ett givet DNA kan statistiska modeller
användas. En specifik modell som bygger på bayesiansk statistik är den logistiska regressions-
modellen. Den teoretiska bakgrunden till den logistiska regressionsmodellen för både binära och
multipla utfall presenteras i detta kapitel. Dessutom presenteras MCMC-metoden (eng: Markov

2


Chain Monte Carlo) som använder Metropolis-Hastings-algoritmen vilket är en central komponent
i metoden.

2.2.1 Bayesiansk statistik

Bayes sats är kärnan inom bayesiansk statistik och beskriver ett sätt att beräkna betingade san-
nolikheter. För en modell där observerad data beskrivs av den stokastiska variabeln y och där θ är
en vektor av modellparametrar ger Bayes sats ett samband för posteriorifördelningen π(θ|y), vilket
är den betingade sannolikheten för θ givet y, enligt

π(θ|y) = π(y|θ)π(θ)
π(y)

∝ π(y|θ)π(θ). (1)

Sannolikheten för observerad data givet parametrarna π(y|θ) kallas trolighetsfunktionen (eng: like-
lihood function) och π(θ) är priorifördelningen som beskriver tidigare kunskap kring θ. Nämnaren
kan ses som en normaliseringskonstant, vilket innebär att ekvationen (1) kan skrivas π(θ|y) ∝
π(y|θ)π(θ) [10, s.9].

Den betingade sannolikheten är definierad som

π(y|x) = π(x, y)

π(x)
, (2)

där π(x,y) är den gemensamma sannolikhetsfördelningen för de stokastiska variablerna x och y.
Marginalfördelningen π(x) definieras som [10, s.20]

π(x) =

∫
π(x, y)dy, (3)

där ∫
π(x)dx = 1.

Från ekvation (2) och (3) kan sedan sannolikheten π(ynew|y) beskrivas, där ynew är nya observa-
tioner som ska förutsägas och y är tidigare observerad data. Detta beskrivs av

π(ynew|y) =
∫

π(ynew, θ|y)dθ =

∫
π(ynew|θ)π(θ|y)dθ, (4)

vilket är en integral som i praktiken är svår att beräkna exakt, och istället används ofta numeriska
metoder såsom MCMC för att göra en uppskattning av denna.

Ett vanligt användningsområde för att modellera sannolikheter inom bayesiansk inferens är lo-
gistisk regression, vilken möjliggör direkt modellering av sannolikheten för ett givet utfall som
en funktion av en uppsättning oberoende variabler. I följande avsnitt introduceras den logistis-
ka regressionsmodellen för binärt utfall, som sedan generaliseras till en modell för multinomial
logistisk regression där fler än två utfall kan hanteras.

2.2.2 Logistisk regression

Den logistiska funktionen

f(x) =
ex

1 + ex

lämpar sig väl för modellering av sannolikheter eftersom dess definitionsmängd är (−∞,∞) och
dess värdemängd ligger i intervallet (0,1). Den är utformad för att representera sannolikheter, vilka
är ett tal mellan 0 och 1. Definitionsmängden innebär att funktionen kan ha alla reella värden
som argument och samtidigt säkerställa att den ger ett definierat värde som utfall. Den logistiska
funktionen kan därför generaliseras till att modellera sannolikheten för ett utfall baserat på en
linjärkombination av flera oberoende variabler. Detta görs genom att definiera en vektor av data
X̄ =

[
x1 x2 · · · xk

]T där xi är data som ska analyseras. Låt sedan θ =
[
α β1 β2 · · · βk

]
3


vara en vektor av okända parametrar som ska uppskattas, där α är en konstantterm och βi är
regressionskoefficienter för i ∈ {1,2, · · · ,k}. Definiera sedan z(X̄|θ) = α+β1x1+β2x2+ · · ·+βkxk.
Från detta kan den generaliserade logistiska funktionen sammanfattas som

f(X̄,θ) =
ez(X̄|θ)

1 + ez(X̄|θ) ,

vilken används för att modellera sannolikheten för ett binärt utfall [11, kap. 1]. De okända para-
metrarna behöver uppskattas utifrån observerad data, vilket kan göras genom konstruktion av en
trolighetsfunktion.

2.2.3 Trolighetsfunktion med logistisk regression

Den logistiska regressionsmodellen bygger på att uppskatta de okända parametrarna i modellen,
genom att observera den givna uppsättningen data. Den logistiska funktionen som introducerades
i tidigare avsnitt har två möjliga utfall D som definieras D = 0 samt D = 1. Sannolikheterna för
dessa utfall ges av den logistiska funktionen genom

π(D = 1|θ, X̄) =
ez(X̄|θ)

1 + ez(X̄|θ)

och
π(D = 0|θ, X̄) = 1− π(D = 1|θ, X̄).

Summan av sannolikheterna för de två utfallen är 1, vilket säkerställer att hela utfallsrummet
täcks. Utifrån detta kan nu sannolikheten för att observera en given uppsättning data beräknas
genom trolighetsfunktionen

L(θ|X̄) =

n∏
i=1

π(D = 1|θ, xi)
ziπ(D = 0|θ, xi)

1−zi , (5)

där n är antalet datapunkter och varje observation xi har ett tillhörande utfall zi ∈ {0,1}, där
zi = 0 om datapunkt i har utfallet D = 0 och zi = 1 om datapunkt i har utfallet D = 1.
Trolighetsfunktionen är alltså en produkt av de individuella sannolikheterna för varje observation
[12, kap. 1] och representerar således sannolikheten att observera den givna datamängden givet de
valda parametrarna.

R använder sig av IEEE 754 binär flyttalsaritmetik. Denna begränsar den numeriska noggrannheten
till ungefär 16 decimaler [13, s.753]. Vid beräkning av trolighetsfunktionen kan sannolikheterna bli
väldigt små, särskilt när många observationer multipliceras. För att undvika numeriska fel är det
därmed mer lämpligt att istället beräkna logaritmen av trolighetsfunktionen [14, s.30] genom

ln(L(θ|X̄)) =

n∑
i=1

[zi ln (π(D = 1|θ, xi)) + (1− zi) ln (π(D = 0|θ, xi))] . (6)

För att faktiskt göra en uppskattning av de okända parametrarna i den logistiska regressionsmodel-
len används en bayesiansk skattning med utgångspunkt i ML-metoden (eng: Maximum-Likelihood
Estimation), vilket ger en skattning av parametrarna. En ML-skattning är de värdena på paramet-
rarna som maximerar värdet på trolighetsfunktionen i ekvation (5). Med andra ord så maximerar
ML-skattningen sannolikheten att observera datamängden. I praktiken är det lättare genom att
hitta värdet som maximerar ekvation (6) [13, s.161].

2.2.4 Multinomial logistisk regression

I tidigare avsnitt har den logistiska regressionsmodellen för binära utfall presenterats. Denna modell
kan generaliseras till att hantera fler än två diskreta utfall, vilket kallas för multinomial logistisk
regression [12, s.35]. För att utföra multinomial regression utses en av utfallsvariablerna som en

4


referenskategori, vilken de andra variablerna jämförs med. Valet av referenskategori har inte nå-
gon påverkan på resultatet och kan därmed väljas godtyckligt [11, s.435]. I detta avsnitt kommer
referenskategorin betecknas kategori 0.

Modellen för multinomial logistisk regression fungerar i princip på samma sätt som logistisk regres-
sion för det binära fallet, med skillnaden att det är en vektor av sannolikheter som beräknas. För en
uppsättning av k oberoende variabler och s utfall inklusive en referenskategori, kan vektorn av data
X̄ =

[
x1 x2 · · · xk

]T definieras. Vektorn av konstanttermer ges av ᾱ =
[
α1 α2 · · · αk

]T ,
och regressionskoefficienterna β̄ beskrivs av en matris med dimension (s− 1)× k enligt

β̄ =


β11 β12 · · · β1k

β21
. . . β2k

...
. . .

...
β(s−1)1 β(s−1)2 · · · β(s−1)k

 .

Parametrarna θ = [ᾱ, β̄T
1 , . . . , β̄

T
s−1] är på samma sätt som tidigare okända parametrar som ska

uppskattas, nu för i ∈ {1,2, · · · ,s − 1}, j ∈ {1,2, · · · ,k}. För att förenkla notationen framöver
definieras sedan h̄ = β̄X̄ + ᾱ =

[
h1(X̄) h2(X̄) · · · hs−1(X̄)

]T .

Därefter definieras sannolikhetsfördelningarna för det stokastiska utfallet D givet data och modell-
parametrarna enligt

P(D|X̄) =


π(D = 0|X̄,ᾱ, β̄)
π(D = 1|X̄,ᾱ, β̄)

...
π(D = s− 1|X̄,ᾱ, β̄)

 =
1

1 +
∑s−1

i=1 exp (hi(X̄))


1

exp(h1(X̄))
...

exp(hs−1(X̄))

 .

Här ges sannolikheten för att observationen tillhör respektive kategori i = 0, 1, . . . , s− 1, där alla
sannolikheter är positiva och summeras till 1. Givet n oberoende observationer kan den fullständiga
trolighetsfunktionen för modellen uttryckas som

L(ᾱ, β̄|X̄) =

n∏
m=1

s−1∏
i=0

π(D = i|X̄m,ᾱ,β̄)zim , (7)

där X̄m är de observerade variablerna för datapunkt m och indikatorvariabeln zim definieras

zim =

{
1, om m tillhör kategori i
0, annars.

De okända parametrarna ᾱ och β̄ uppskattas därefter genom att maximera L(ᾱ, β̄|X̄) [11, kap.12].
På samma sätt som tidigare går det även att maximera ln(L(ᾱ, β̄|X̄)) [14, s.30].

2.2.5 Markov Chain Monte Carlo

I de fall där posteriorifördelningen inte kan beräknas analytiskt kan MCMC-metoder användas för
att uppskatta denna, genom att använda markovkedjor för att ta fram stickprov från fördelningen.
Givet en sannolikhetsfördelning π är målet med MCMC att simulera en slumpvariabel θ som har
just denna fördelning. Markovkedjan som ska skapas är en sekvens slumpvariabler θ0, θ1,..., θn där
varje parameter är beroende av endast den tidigare parametern i kedjan. Kedjan genereras tills
dess att den konvergerar till en stationär fördelning, vilken är en god uppskattning av π. När kedjan
har konvergerat används de genererade värdena som stickprov för sannolikhetsfördelningen π [15].

En vanlig metod för att konstruera markovkedjan är Metropolis-Hastings-algoritmen. Algoritmen
konstruerar en reversibel markovkedja θ0,..., θn som har stationär fördelning (målfördelning) π(θ),
där π är en diskret sannolikhetsfördelning [15]. Algoritmen fortgår enligt följande:

5


1. Simulera en startpunkt θ1 för algoritmen. Låt sedan θt vara det nuvarande värdet i kedjan
vid en viss tid t.

2. Generera ett förslagsvärde θ∗ till kedjan från förslagsfördelningen q(θ∗|θt), som beskriver
sannolikheten för att θ∗ föreslagits givet att det nuvarande värdet är θt.

3. Beräkna sedan acceptanssannolikheten

α = min
{
π(θ∗)q(θt|θ∗)
π(θt)q(θ∗|θt)

, 1

}
(8)

där π(θ∗) är målfördelningen vid θ∗, vilket mäter hur sannolikt det nya värdet är enligt den
sökta fördelningen. Hela kvoten beskriver därmed hur väl det föreslagna värdet stämmer
överens med målfördelningen, jämfört med det tidigare värdet i markovkedjan.

4. Generera ett slumpmässigt tal U ∼ U(0,1) som är likformigt fördelat mellan (0,1). Om U ≤ α
accepteras det föreslagna steget och då sätts θt+1 = θ∗, alltså det föreslagna värdet läggs till
i kedjan. Annars avslås det föreslagna steget, och då sätts istället θt+1 = θt.

Steg 2-5 i algoritmen upprepas sedan fram till att kedjan som skapats konvergerat till den öns-
kade sannolikhetsfördelningen [10, kap. 9]. Förslagsfördelningen q som används för att utforska
potentiella nya steg i markovkedjan kan i stort sett vara godtycklig, så länge det är möjligt att
enkelt dra ett stickprov från denna. Är förslagsfördelningen symmetrisk, så att q(θt|θ∗) = q(θ∗|θt),
kan kvoten i uttrycket för acceptanssannolikheten α förenklas till att endast vara en kvot mellan
målfördelningarna. Detta gäller bland annat då förslagsfördelningen är normalfördelad [10].

Med en sekvens av stickprov θ1, θ2, . . . , θN för posteriorifördelningen som genererats genom MCMC
kan därefter ekvation (4) uppskattas numeriskt enligt

π(ynew|θ) =
∫

π(ynew|θ)π(θ|y) ≈
1

N

N∑
i=1

π(ynew|θi), (9)

där π(ynew|θ) är den prediktiva fördelningen för nya observationer ynew [16, s.262].

2.2.6 Den multivariata normalfördelningen

Normalfördelningen kan generaliseras till flerdimensionella vektorer, denna kallas för den multiva-
riata normalfördelningen, multinormala fördelningen eller multinormalfördelningen. En multinor-
malfördelad n−dimensionell vektor X̄ =

[
X1 X2 . . . Xn

]
kan beskrivas med µ̄ = E(X̄) och en

kovariansmatris

Λ =


λ11 λ12 . . . λ1n

λ21
. . . λ2n

...
. . .

...
λn1 λn2 . . . λnn

 ,

där i,j ∈ {1,2, · · · ,n} och λij = λji = Cov(Xi, Xj) om i ̸= j och λii = Var(Xi) annars. Detta kan
betecknas som X̄ ∼ N (µ̄,Λ). En konsekvens av denna generalisering är att alla komponenter Xi

av X̄ är normalfördelade [17].

2.2.7 Centrala gränsvärdessatsen

Centrala gräsvärdessatsen säger att summan av oberoende och likafördelade slumpvariabler approx-
imerar en normalfördelning. Mer precist, låt θ1,θ2, . . . ,θn vara oberoende och likfördelade slump-
variabler med väntevärde µ och varians σ2. För stora n gäller då [18],

θ1 + · · ·+ θn ≈ N (nµ,nσ2).

Satsen kan även generaliseras till det flerdimensionella fallet, där summan istället approximeras av
en multinormalfördelning [19].

6


2.2.8 Mätning av modellprestanda med AUC-värden

En vanlig teknik för att utvärdera en prediktionsmodells prestanda är korsvalidering. Vid korsvali-
dering delas datamängden upp i två delar: den träningsdata som används för att bygga modellen,
och den testdata som används för att bedöma modellens förutsägelseförmåga. Det är viktigt att
testdata inte används under träningen av modellen, då detta kan leda till att modellens förut-
sägelseförmåga överanpassas. En särskild typ av korsvalidering är LOOCV (eng: leave one out
cross validation), där varje enskild datapunkt används som testdata, medan resterande datapunk-
ter används som träningsdata. I varje iteration tränas modellen på träningsdata och utvärderas
på den aktuella testdata. Proceduren upprepas tills varje datapunkt har använts som testdata en
gång. LOOCV möjliggör beräkning av teststatistik som återspeglar modellens förutsägelseförmå-
ga, där medelvärdet av dessa utvärderingar används som en uppskattning av modellens generella
prestanda. LOOCV är särskilt lämplig för fall med små datamängder [20].

För att kvantifiera modellens prestanda kan en konfusionsmatris (eng: confusion matrix) användas.
Varje rad i denna matris representerar antalet gånger modellen förutspådde en viss klassifikation,
medan varje kolumn visar det faktiska antalet individer i respektive klass. En klassifikation kan
delas upp i en positiv klass och en negativ klass. Exempelvis kan en positiv klass vara blåögdhet
och en negativ klass icke-blåögdhet. Detta ger upphov till begreppen sanna positiva förutsägelser,
falska positiva förutsägelser, falska negativa förutsägelser och sanna negativa förutsägelser. Dessa
kommer hädanefter benämnas TP, FP, FN respektive TN, efter engelskans true och false, positive
och negative. I tabell 1 presenteras en generaliserad konfunsionsmatris som använder sig av dessa
benämningar.

Tabell 1: Tabellen visar ett exempel på en konfusionsmatris, där TP står för true positive, FP för
false positive, FN för false negative och TN för true negative.

Förutspådda klasser
Positiv förutsägelse Negativ förutsägelse

Observerade klasser Positiva klasser TP FN
Negativa klasser FP TN

Med detta kan måtten sensitivitet, specificitet och noggrannhet definieras. Sensitiviteten, som
är ett mått på andelen korrekta förutsägelser på den positiva klassen, definieras som TP

TP+FN .
Specificiteten ges av TN

FP+TN och mäter istället andelen korrekta förutsägelser på den negativa
klassen. Slutligen beräknas noggrannheten till TP+TN

TP+FP+FN+TN och tolkas som ett mått på andelen
korrekta gissningar på den totala datamängden.

Modellens prestanda kan sedan visualiseras med hjälp av ROC-kurvor (eng: Receiver Operating
Characteristic) och arean under dessa [21]. Denna area kallas för AUC (eng: Area Under Curve).
En ROC-kurva plottas på området [0,1]× [0,1], där y-axeln representerar modellens sensitivitet och
x-axeln visar 1− specitiviteten = FP

FP+TN . Kurvan plottas genom att betrakta sannolikheterna för
den positiva klassen för respektive individ. En gräns varieras sedan stegvis, där individerna vars
sannolikhet överskrider gränsen klassificeras som positiva och övriga negativa. Till exempel innebär
en gräns på 0% att modellen tilldelar den positiva klassen till alla individer oavsett sannolikheterna
den tilldelat dem, och en gräns på 100% innebär att modellen endast klassificerar en individ som
medlem av den positiva klassen om den är 100% säker på att individen tillhör den klassen. Kurvan
skapas sedan genom att öka gränsen från 0% till 100% och plotta sensitiviteten och 1−specitiviteten
vid varje värde.

AUC-värdet är ett lämpligt mått på en modells prestanda då det är invariant mot fördelningen av
klasserna i datamängden [21]. En annan fördel med AUC är att den kan tolkas som sannolikheten
att modellen tilldelar en högre sannolikhet för en positiv förutsägelse till en slumpvald individ från
den positiva klassen, jämfört med en slumpvald individ från den negativa klassen. Detta innebär
att AUC får ett värde mellan 0,5 och 1, eftersom modellens prediktioner kan inverteras och byta
plats på positiva och negativa utfall om värdet är mindre än 0,5.

7


Värt att notera är att metoden endast fungerar för binära utfallsrum. Det finns flera generali-
seringar av ROC-grafer och AUC [21]. En av dessa generaliseringar är att producera s stycken
ROC-grafer, där s är antalet klasser. För varje klass låts den valda klassen vara den positiva klas-
sen och resterande klasser vara den negativa klassen. AUC-värdet kan sedan beräknas för varje
klass. Notera att detta kan bli lägre än 0,5 eftersom det nu inte går att vända om modellen på
samma sätt som för två kategorier. Det totala AUC-värdet för modellen väljs sedan som ett viktat
medelvärde av alla AUC-värden enligt

AUCtotal =

s∑
i=1

c(i)

N
· AUCi, (10)

där c(i) är antalet individer av klass i i datamängden, N antalet individer i hela datamängden och
AUCi är värdet med klass i som det positiva utfallet [22]. Fördelen med denna generalisering är att
den är enkel att beräkna och visualisera. Dock sker den på bekostnad av AUC-värdenas invarians
av klassfördelningar [21].

Generellt gäller det att det högsta AUC-värdet är det bästa. Det tolkas som att modeller med
AUC-värde ≥ 0,8 har god prestanda, och AUC ≥ 0,9 har utmärkt prestanda. Även AUC ≥ 0,7 kan
tolkas som en acceptabel prestanda för modellen, medan AUC ≤ 0,7 kan tolkas som att modellens
prestanda är låg eller otillräcklig [23].

3 Metod
Eftersom en prediktionsmodell kan utvecklas på flera olika sätt behövde metoden avgränsas genom
flera val. I följande delkapitel beskrivs hur de centrala komponenterna i modellen är sammanfogade
samt de metodval som har gjorts.

3.1 Avgränsningar
Utförandet av projektet begränsades främst av tidsramen, men även av tillgången till data för de
fenotypiska egenskaper som modellen predicerade. Av denna anledning valdes det att endast ut-
veckla modeller för att predicera hår- och ögonfärg, medan andra fenotypiska egenskaper uteslöts.
Tidsbegränsningen påverkade även de metodval som undersöktes, vilket blev valet av regressions-
modell samt priorifunktionen. Den typ av modell som arbetet fokuserade på var logistisk regression,
där både en binär och en multinomial variant utvecklades och analyserades. Priorifunktionen går
att väljas på flera sätt, men denna rapport begränsade sig till att undersöka två alternativ: en icke-
proper likformig fördelning och en multinormalfördelning. Den icke-propra likformiga priorifunk-
tionen är vanligt förekommande när det saknas tidigare information om parametrarnas fördelning
[24, s.24]. Användningen av en multinormalfördelning motiverades av centrala gränsvärdessatsen,
då modellparametrarna antogs gå mot en multinormalfördelning.

3.2 Datainsamling och databehandling
Datamaterialet var uppsamlat och givet av Rättsgenetik vid nationellt forensiskt centrum i Linkö-
ping. Den var uppdelad i två delar, en för ögonfärg och en för hårfärg. Varje del innehöll information
kopplad till 85 individers ögon- respektive hårfärg och deras tillhörande genotyp. Fördelningarna
av de observerade hår- och ögonfärgerna presenteras i figur 1. Ögonfärgerna delades upp i katego-
rierna blå, intermediär och brun. De intermediära ögonfärgerna avsåg de som inte tydligt kunde
klassificeras som blå eller brun. Hårfärgerna klassificerades som brun, svart, blond och röd. Dessa
uppdelningar hade med störst sannolikhet gjorts genom visuell bedömning av en människa, vilket
kan introducera viss variation i datamängden genom subjektiv bedömning.

8


Blå

50 st 
  (58.8%)

Intermediär
25 st 

  (29.4%)

Brun

10 st 
  (11.8%)

Frekvens av observerad ögonfärg (totalt antal = 85 st)
Blå
Intermediär
Brun

(a)

Brun

54 st 
(63.5%)

Svart
14 st 

(16.5%)

Blond

10 st 
(11.8%)

Röd

7 st 
(8.2%)

Frekvens av observerad hårfärg (totalt antal = 85 st)
Brun
Svart
Blond
Röd

(b)

Figur 1: Frekvensfördelningen av observerad ögonfärg (a) och hårfärg (b), angivet i både antal och
andel i procent. Det totala antalet observerade individer är 85 för respektive datamängd.

I den givna datamängden fanns ett antal SNP:er för ögonfärgerna och hårfärgerna. Namnen på
dessa presenteras i tabell 2.

Tabell 2: Givna SNP:er i datamängden som användes i denna studie.

SNP:er för ögonfärg SNP:er för hårfärg

rs12203592 rs1393350 rs28777 rs12203592 rs4959270 rs1805005 rs1805006
rs12896399 rs1800407 rs683 rs1042602 rs12821256 rs11547464 rs1805007
rs16891982 rs12913832 rs312262906_N29insA rs1800407 rs2402130 rs1110400 rs1805008

rs1805009 rs2378249 rs2228479 rs12913832 rs885479
rs201326893_Y152OCH rs16891982

För att visualisera datamängden och få en bättre förståelse för hur varje SNP påverkade före-
komsten av de olika fenotyperna visualiserades de i ett histogram över frekvensen av alla alleler
för alla SNP:er. För data över ögonfärg observerades det att i SNP rs12913832 hade alla med blå
ögonfärg allelen GG, medan endast personerna med allelen AA hade brun ögonfärg enligt figur 2a.
Detta innebar att om en individ hade AA i den specifika SNP:n hade den bruna ögon enligt den
klassificering av ögonfärg som användes. Liknande slutsatser kunde även dras för flera genetiska
markörer för hårfärgsdatasetet. Exempelvis var den svarta hårfärgen den enda som innehöll allelen
CC i SNP rs28777 enligt figur 2b. Resterande genetiska markörer som uppvisade liknande beteende
presenteras i bilaga A.

9


Blå Intermediär Brun
Observerad ögonfärg

0%

20%

40%

60%

80%

100%
An

de
l (

%
)

Andel alleler för SNP 6: rs12913832
Allel

G,G
A,G
A,A

(a)

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 1: rs28777
Allel

A,A
C,A
C,C

(b)

Figur 2: Andelen, i procent, av de olika allelerna i rs12913832 (a) och rs28777 (b) för ögonfärg
respektive hårfärg.

För hårfärgsdatamängden kunde det även observeras att vissa SNP:er endast innehöll samma allel
för alla individer. Dessa presenteras i tabell 3. Då dessa inte kan användas för att särskilja individer
påverkar de inte prediktionsförmågan hos modellen, och därför togs de bort.

Tabell 3: SNP:er med endast en allel för alla observationer i hårfärgsdatasetet.

SNP Observerad allel

rs312262906_N29insA CC
rs1805006 CC
rs201326893_Y152OCH CC
rs11547464 GG
rs1110400 TT

För att möjliggöra analysen behövde datamängden tilldelas numeriska värden. Därför tilldelades
klassifikationerna och varje allel inom varje SNP ett numeriskt heltal. Till exempel valdes blå till
0, intermediär till 1, brun till 2 för den multinomiala ögonfärgsmodellen och för SNP rs12203592
tilldelades allelerna CC och CT värdena 1 respektive 2. På detta sätt tilldelades en modellparameter
βi för varje SNP.

3.3 Modellutveckling
För denna undersökning användes programmeringsspråket R. Utvecklingen av de binära och de
multinomiala logistiska regressionsmodellerna var nästan identisk. De skiljde sig endast åt i hur
trolighetsfunktionerna definierades: för den binära modellen beskrevs trolighetsfunktionen av ek-
vation (5), medan den beskrevs av ekvation (7) för den multinomiala modellen.

De utvecklade modellerna grundades i en bayesiansk statistikram, som introducerades i teoride-
len av rapporten. Syftet med modellerna var att, givet observerad data y, beräkna sannolikheten
π(ynew|y) för nya prediktioner ynew. Denna sannolikhet approximerades numeriskt med hjälp av
MCMC-metoder enligt ekvation (9). För att möjliggöra detta introducerades stokastiska paramet-
rar θ.

ML-skattningen för θ valdes som starten av markovkedjan. Denna extrempunkt beräknades nume-
riskt genom R-funktionen nlm, där samtliga parametrar initialiserades med startvärde 1. Därefter
simulerades en markovkedja med 10000 iterationer, förutom för de binära hårfärgsmodellerna där

10


markovkedjan simulerades med 50000 iterationer. Varje nytt förslag på parametervektorn θ∗ gene-
rerades enligt θ∗ = θt + ϵ, där θt var det senaste elementet i markovkedjan och ϵ var en slumpmäs-
sig vandring med multinormalfördelningen N (0, σ2I), där I var identitetsmatrisen. Värdet på σ
anpassades individuellt för varje modell: för ögonfärgerna sattes σ = 0,7 för binära regressionsmo-
deller och σ = 1 för multinomiala modeller. För hårfärgerna valdes σ = 0,01 för den multinomiala
modellen med likformig priorifunktion, medan σ = 0,1 användes i övriga modeller. Valet av stan-
dardavvikelserna baserades på behovet av en balans mellan spridning och acceptans i kedjan. Om
σ var för stor blev hoppet mellan gamla och nya parametrar för stort, vilket ledde till låg acceptans
i markovkedjan, medan för små σ skulle det innebära att kedjan konvergerade mycket långsamt.

För att avgöra om det föreslagna steget θ∗ skulle accepteras och läggas till i markovkedjan beräk-
nades acceptanssannolikheten enligt ekvation (8). Eftersom förslagsfunktionen q(θ∗|θt) = N (θt, σ

2)
hade en symmetrisk densitet kring väntevärdet θt innebar det att q(θ∗|θt) = q(θt|θ∗), vilket för-
enklade uttrycket för acceptanssannolikheten enligt teoriavsnitt 2.2.5. Posteriorifördelningarna för
både θt och θ∗ beräknades med hjälp av ekvation (1), där trolighetsfunktionen i sin tur beräknades
via ekvation (5) för de binära modellerna respektive ekvation (7) för de multinomiala modellerna.

Det fanns många olika priorifunktioner att välja bland. I detta arbete valdes det att utveckla mo-
deller både med en icke-proper likformig priorifunktion och med en multinormal priorifunktion.
Vid icke-proper likformig priori gällde det att π(θt) = π(θ∗), vilket förenklade acceptanssannolikhe-
ten ytterligare. För den multinormalfördelade priorifunktionerna användes R-funktionen dmnormt
från biblioteket mnormt, som beräknade sannolikheten för en multinormalfördelning med vänte-
värde µ och en kovariansmatris Λ. Här valdes ML-värdet θstart som väntevärde och en diagonal
kovariansmatris med värde di längs diagonalen. Detta val baserades på det naiva antagandet att
generna för olika SNP:er var oberoende, vilket innebar att kovarians mellan dem var 0. Värdet
för diagonalelementen di valdes utifrån observationer av konvergensen av parametrarna för mo-
dellerna med de icke-propra likformiga priorifunktionerna, se bilaga B.5. För modellerna baserade
på hårfärgsdatamängden sattes samtliga diagonalelement till 1, och för den binära modellen för
ögonfärgsdatamängden valdes di = 10 för SNP rs12913832 och konstanttermen medan resteran-
de diagonalelement valdes till di = 1. För den multinomiala ögonfärgsmodellen sattes samtliga
diagonalelement till di = 10.

Av numeriska stabilitetsskäl beräknades logaritmen av acceptanssannolikheten. Detta påverkade
inte beslutet så länge som logaritmen även togs av det slumpmässiga talet U i steg 4 av Metropolis-
Hastings-algoritmen. Då accepterades θ∗ om log(U) ≤ log(α), vilket var korrekt eftersom logarit-
men är kontinuerlig och strikt monoton då U,α > 0. Iterationen avslutades med att antingen lägga
till θ∗ på slutet av kedjan om den accepterades, eller att lägga till det gamla θt på kedjan. Därefter
påbörjades en ny iteration av MCMC-algoritmen.

Med den senare halvan av markovkedjan kunde uppskattningen av sannolikheten π(ynew|y) be-
räknas enligt ekvation (9). Anledningen till att den första halvan av kedjan inte användes var för
att ta bort den delen av kedjan då parametrarna inte hade konvergerat till den stationära fördel-
ningen. Därefter valdes den klassificering som maximerade sannolikheten π(ynew|y) som modellens
prediktion.

3.4 Modellvalidering
Korsvalidering av typen LOOCV, som beskrivs i teoriavsnitt 2.2.8, användes för samtliga mo-
deller för att beräkna teststatistik för varje enskild datapunkt. Dessa teststatistiker användes för
att konstruera konfusionsmatriser som tabulerade modellernas prestanda. Teststatistiken använ-
des även för att skapa ROC-kurvor samt beräkna AUC-värden, vilket genomfördes med hjälp
av R-funktionen roc och auc från biblioteket pROC. LOOCV var lämpligt att använda eftersom
datamängderna var förhållandevis små.

4 Resultat
Avsnittet nedan börjar med att presentera en sammanställning av de viktigaste resultaten i tre
tabeller: modellernas AUC-värden, sensitivitet och specificitet. Därefter uppvisas resultatet mer

11


utförligt för två modeller: den binära ögonfärgsmodellen med en icke-proper likformig priorifunk-
tion och den multinomiala hårfärgsmodellen med en multinormal priorifunktion. Detta då dessa
modeller är de som uppvisar bäst respektive sämst prestanda. Resultaten som presenteras för
de två modellerna är deras ROC-kurvor, konfusionsmatriser och sannolikhetsfördelningarna över
prediktionerna. Resultaten för de övriga modellernas ROC-kurvor, konfusionsmatriser och sanno-
likhetsfördelningar presenteras i bilaga B.1, B.2 respektive B.4. Påverkan av en sannolikhetströskel
på 70% för samtliga modeller visualiseras i bilaga B.3. Konvergensen för parametrarna för de olika
modellerna illustreras i bilaga B.5. Det kan observeras att alla parametrar konvergerade. Undantag
görs för den multinomiala modellen baserad på hårfärgsdata eftersom den modellen använder 54
modellparametrar vilket är opraktiskt att analysera.

4.1 AUC-värden för alla modeller
Modellernas AUC-värden sammanställs i tabell 4 där varje kolumn representerar de fall då den
givna färgen valdes till det positiva utfallet. Det totala AUC-värdet beräknades med ekvation (10).

Tabell 4: Sammanställning av AUC-värden för de olika modellerna med olika priorifunktioner.

Modell Priorifunktion Blå Intermediär Brun Blond Röd Svart Total

Binär ögonfärg Icke-proper likformig 0,732 - - - - - 0,732
Multinormal 0,7154 - - - - - 0,7154

Multinomial ögonfärg Icke-proper likformig 0,7469 0,5847 0,5747 - - - 0,6789
Multinormal 0,7194 0,5713 0,5573 - - - 0,6568

Binär hårfärg Icke-proper likformig - - 0,5812 - - - 0,5812
Multinormal - - 0,5795 - - - 0,5795

Multinomial hårfärg Icke-proper likformig - - 0,5125 0,5840 0,9469 0,6529 0,5798
Multinormal - - 0,5119 0,5800 0,9469 0,6479 0,5781

4.2 Sensitivitets- och specificitetstabeller
Tabell 5 visar modellernas sensitivitet och noggrannhet. Tabell 6 visar modellernas specificitet.
Vid beräkning av specificiteterna ansågs samtliga negativa klasser som samma klass. Exempelvis
sågs en gissning på brun ögonfärg på en individ med intermediär ögonfärg som en sann negativ
förutsägelse eftersom både färgerna var negativa klasser när blå ögonfärg valdes som positiv klass.

Tabell 5: Sammanställning av sensitiviteter för olika modeller med olika priorifunktioner. Vid
användande av en sannolikhetströskel togs de individerna där prediktionsmodellen gav en lägre
sannolikhet än 70% ut ur totalen. Noggrannheten visas i kolumnen längst till höger.

Modell Priorifunktion Blå Intermediär Brun Blond Röd Svart Icke-blå Icke-brun Noggrannhet

Multinomial ögonfärg Icke-proper likformig 94% 28% 70% - - - - - 71,76%
Multinormal 94% 28% 70% - - - - - 71,76%

Multinomial ögonfärg (70% tröskel) Icke-proper likformig 97,56% 27,78% 66,67% - - - - - 75%
Multinormal 97,30% 31,58% 70% - - - - - 74,24%

Binär ögonfärg Icke-proper likformig 96% - - - - - 54,29% - 78,82%
Multinormal 98% - - - - - 54,29% - 80%

Binär ögonfärg (70% tröskel) Icke-proper likformig 97,30% - - - - - 58,62% - 80,30%
Multinormal 97,50% - - - - - 58,62% - 81,16%

Multinomial hårfärg Icke-proper likformig - - 85,19% 0% 57,14% 35,71% - - 64,71%
Multinormal - - 85,19% 0% 57,14% 35,71% - - 64,71%

Multinomial hårfärg (70% tröskel) Icke-proper likformig - - 76,47% 0% 60% 37,50% - - 59,26%
Multinormal - - 77,14% 0% 60% 28,57% - - 59,26%

Binär hårfärg Icke-proper likformig - - 75,93% - - - - 22,58% 56,47%
Multinormal - - 77,78% - - - - 19,35% 56,47%

Binär hårfärg (70% tröskel) Icke-proper likformig - - 78,57% - - - - 14,29% 51,02%
Multinormal - - 83,87% - - - - 10,00% 54,90%

12


Tabell 6: Sammanställning av specificiteter för olika modeller med olika priorifunktioner. Vid an-
vändande av en sannolikhetströskel togs de individerna där prediktionsmodellen gav en lägre san-
nolikhet än 70% ut ur totalen.

Modell Priorifunktion Blå Intermediär Brun Blond Röd Svart Icke-blå Icke-brun

Multinomial ögonfärg Icke-proper likformig 54,29% 90,00% 97,33% - - - - -
Multinormal 51,43% 90,00% 98,67% - - - - -

Multinomial ögonfärg (70% tröskel) Icke-proper likformig 59,26% 92,00% 96,61% - - - - -
Multinormal 58,62% 91,49% 98,21% - - - - -

Binär ögonfärg Icke-proper likformig 54,29% - - - - - 96,00% -
Multinormal 54,29% - - - - - 98,00% -

Binär ögonfärg (70% tröskel) Icke-proper likformig 58,62% - - - - - 97,30% -
Multinormal 58,62% - - - - - 97,30% -

Multinomial hårfärg Icke-proper likformig - - 32,26% 97,33% 97,44% 92,96% - -
Multinormal - - 32,26% 97,33% 97,44% 92,96% - -

Multinomial hårfärg (70% tröskel) Icke-proper likformig - - 30,00% 97,87% 95,92% 89,13% - -
Multinormal - - 28,32% 97,87% 95,92% 89,36% - -

Binär hårfärg Icke-proper likformig - - 22,58% - - - - 75,93%
Multinormal - - 19,35% - - - - 77,78%

Binär hårfärg (70% tröskel) Icke-proper likformig - - 14,29% - - - - 78,57%
Multinormal - - 10,00% - - - - 83,87%

4.3 ROC-kurvor för de utvalda modellerna
Figur 3 visar ROC-kurvan för den binära ögonfärgsmodellen med en icke-proper likformig prior,
tillsammans med det tillhörande AUC-värdet på 0,732.

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,732)

Figur 3: ROC-kurva och tillhörande AUC för binär ögonfärg vid användning av en icke-proper
likfördelad priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering
och används i detta fall som referens.

Det totala AUC-värdet för multinomiala hårfärgsmodellen med multinormal priorifunktion beräk-
nades till 0,5781 enligt ekvation (10). ROC-kurvor och AUC-värden för respektive hårfärg presen-
teras i figur 4, där AUC uppgick till 0,5800 för blond, 0,5119 för brun, 0,9469 för röd och 0,6479
för svart hårfärg.

13


0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,58)

(a)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5119)

(b)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,9469)

(c)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,6479)

(d)

Figur 4: ROC-kurvor för den multinomiala modellen för hårfärg vid användande av multinormal
prior. Kurvan (a) tillhör blond hårfärg, (b) brun, (c) röd och (d) svart som positivt utfall. Den
streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som refe-
rens.

4.4 Konfusionsmatriser för de utvalda modellerna
Konfusionsmatrisen för den binära ögonfärgsmodellen med en icke-proper likformig priorifunktion
visas i figur 5. Denna predicerar förekomsten eller avsaknaden av blå ögonfärg hos individerna.
Figur 6 presenterar konfusionsmatrisen för den multinomiala hårfärgsmodellen med en multinormal
priorifunktion.

14


Blå Icke-blå
Förutspådd färg

Bl
å

Ick
e-

bl
åOb

se
rv

er
ad

48 2

16 19

Konfusionsmatris för binär ögonfärg med icke-proper likformig priorifunktion

Figur 5: Konfusionsmatrisen för den binära ögonfärgsmodellen med en icke-proper likformig prio-
rifunktion. Matrisen visar antal korrekta och felaktiga klassificeringar, där diagonalen visar träffar
och övriga rutor felklassificeringar.

Blond Brun Röd Svart
Förutspådd färg

Bl
on

d
Br

un
Rö

d
Sv

ar
t

Ob
se

rv
er

ad

0 10 0 0

1 46 2 5

0 3 4 0

1 8 0 5

Konfusionsmatris för multinomiell hårfärg med mutinormal priorifunktion

Figur 6: Konfusionsmatrisen för den multinomiala hårfärgsmodellen med en multinormal priori-
funktion. Matrisen visar antal korrekta och felaktiga klassificeringar, där diagonalen visar träffar
och övriga rutor felklassificeringar.

4.5 Sannolikhetsfördelningar för de utvalda modellerna
Figur 7a visar resultatet över de predicerade sannolikheterna för den binära ögonfärgsmodellen
med en icke-proper likformig priorifördelning. Varje stapel innehåller information om procentsat-
serna för samtliga klassificeringar för varje prediktion i LOOCV. Figuren är uppdelad i korrekta
och felaktiga prediktioner där staplarna är sorterade utefter klassificeringen av prediktionen. San-
nolikhetsfördelningen för den multinomiala hårfärgsmodellen med en multinormal priorifunktion
uppvisas i figur 7b.

15


Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlå
Icke-blå

(a)

Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlond
Brun
Röd
Svart

(b)

Figur 7: Sannolikhetsfördelningarna för binär ögonfärgsmodellen och multinomial hårfärgsmodell.
Figur (a) visar sannolikheterna för prediktionsmodellen för binär ögonfärg med icke-proper likfor-
mig priorifunktion. Figur (b) visar sannolikheterna för prediktionsmodellen för multinomial hårfärg
med en multinormal priorifunktion. De vänstra figurerna illustrerar de korrekta prediktionerna me-
dan de högra figurerna illustrerar de felaktiga prediktionerna.

5 Diskussion
I detta arbete har det studerats hur ögon- och hårfärg kan förutspås från genetiska markörer
i DNA utifrån de tre centrala aspekterna: datamaterialets tillförlitlighet, modellernas konstruk-
tion samt dess prestanda. Två huvudsakliga prediktionsmodeller baserade på logistisk regression
har framtagits, en binär och en multinomial. Modellerna utvecklades ytterligare genom att två
olika priorifunktioner testades. Dessa var en icke-proper likformig priorifunktion samt en multi-
normal priorifunktion. Sammanlagt utvecklades därmed fyra olika prediktionsmodeller för varje
datamängd.

I följande avsnitt tolkas och jämförs resultatet från prediktionsmodellerna med hänsyn till hur väl
de presterar, samt mot bakgrund av tidigare forskning inom ämnet. Därtill diskuteras begränsande
faktorer som kan ha haft inverkan på resultatet, likaså förslag på möjliga förbättringar för framtida
studier.

16


5.1 Tolkning av resultat
Resultaten visar överlag att modellen uppnår låga AUC-värden, vilket tyder på en otillfredsställan-
de prediktiv förmåga. Dessutom kan det observeras i tabell 4 att ett användande av en multinormal
priorifunktion gav lägre AUC-värden jämfört med de modeller som använde en icke-proper likfor-
mig priorifunktion. De totala AUC-värdena varierar mellan 0,5781 och 0,732, vilket motsvarar en
prestanda som sträcker sig från låg till, i bästa fall, acceptabel. Modellen för binär ögonfärg, med
ett totalt AUC-värde på 0,7154 och 0,732 för en multinormal respektive likformig prior, är den
enda modellen som uppnår en acceptabel prestanda enligt intervallen i kapitel 2.2.8. Det tyder på
att det finns egenskaper bland den givna DNA-data som modellen kan använda för att förutspå
ögonfärger, men att dessa inte är tillräckliga för att få säkra svar från modellerna. Däremot lycka-
des modellen för multinomial hårfärg få ett AUC-värde på 0,9469 för röd hårfärg, vilket kan tyda
på att modellerna har en förmåga att särskilja rödhåriga från övriga individer. Emellertid kan det
innebära att de rödhåriga individerna i datamängden har varit lättare att särskilja från resterande
individer, men att detta nödvändigtvis inte är representativt för alla rödhåriga.

Genom att använda LOOCV för att utvärdera modellernas prestanda framgår det att samtliga
modeller tenderar att predicera den klassifikation med flest datapunkter. För ögonfärgsdatamäng-
den är det den blåa färgen med en andel på 58,8% och för hårfärgsdatamängden är det den bruna
färgen med en andel på 63,5%, vilket visas i figur 1. Att klassifikationerna med flest datapunk-
ter överrepresenteras i prediktionerna återspeglas i konfusionmatriserna i bilaga B.2. De binära
ögonfärgsmodellerna predicerar i genomsnitt blå i 75,9% av fallen, medan de multinomiala ögon-
färgsmodellerna gör detta i 74,7%. De binära och multinomiala hårfärgsmodellerna förutspår brun
hårfärg i 77,6% respektive 78,8% av fallen i genomsnitt. Detta kan vara en indikation på att model-
lerna har en bias för majoritetsklassen, vilket sannolikt beror på den obalanserade klassfördelningen
i datamängderna. Det kan vara ett tecken på att minoritetsklasserna innehåller för få observationer
för att modellen ska kunna identifiera tillräckliga mönster och därmed göra tillförlitliga prediktio-
ner. Undersökning med en större datamängd skulle därför behöva göras.

Tabell 5 och 6 illustrerar modellernas sensitivitet och specificitet. Eftersom sensitivitet och specifi-
citet är mått på andelen korrekta förutsägelser av positiva respektive negativa klasser, kan modeller
med låga AUC-värden fortfarande användas beroende på användarens mål. En modell med hög
sensitivitet och låg specificitet tenderar att ofta klassificera observationer tillhörande den positiva
klassen, samtidigt som den sällan korrekt identifierar de negativa klasserna. Denna egenskap skulle
kunna användas för att minska misstankarna kring förekomsten av den givna positiva färgen när
modellen förutspår att individen tillhör den negativa klassen. Med liknande resonemang kan en
hög specificitet och låg sensitivitet användas för att styrka befintliga misstankar om förekomsten av
den givna färgen. Exempelvis klassificerar den multinomiala hårfärgsmodellen brun hårfärg med
hög sensitivitet och låg specificitet, vilket innebär att individer som förutspås som icke-brunhåriga
troligen är det. Den multinomiala hårfärgsmodellen klassificerar även röd hårfärg med hög spe-
cificitet och låg sensitivitet, vilket innebär att individer som förutspås som rödhåriga troligen är
rödhåriga. Det omvända gäller däremot inte, vilket innebär att en prediktion som utesluter röd
hårfärg inte bör påverka misstanken om att en individ är rödhårig.

Genom att sannolikhetströskeln på 70% läggs till kan flera prediktioner med låg säkerhet sållas
bort, vilket illustreras i figurerna i bilaga B.3. Det visar sig dock i figur 22 och 23 att modellerna
för hårfärg ger så pass osäkra prediktioner att en väldigt stor del av dessa inte överstiger sannolik-
hetströskeln. När det gäller andelen korrekta prediktioner visar tabell 5 att sannolikhetströskeln
ger en liten förbättring av exaktheten för ögonfärgsmodellerna. Däremot visar tabellen att andelen
korrekta prediktioner för hårfärgsmodellerna minskar med sannolikhetströskeln. Detta tyder på
att fler korrekta prediktioner har låg sannolikhet, medan de felaktiga prediktionerna i större grad
har högre sannolikhet. I kombination med de låga AUC-värdena för hårfärgsmodellerna uppvisar
detta modellernas låga prestanda. Observera även att sannolikhetsfördelningarna i figur 7 för både
korrekta och felaktiga prediktioner har en liknande fördelning av sannolikheter, vilket även gäller
för de resterande modellerna som presenteras i bilaga B.4. En sannolikhetströskel bidrar alltså inte
till en förbättring av prediktionsförmågan för modellerna, eftersom tröskeln tar bort samma andel
korrekta och inkorrekta förutsägelser.

17


Tidigare forskning från Nationellt forensiskt centrum av noggrannheten för prediktionsmodeller
av hår- och ögonfärg resulterade i att 80% av ögonfärgerna förutspåddes korrekt, medan 58% av
hårfärgerna förutspåddes korrekt enligt teoriavsnitt 2.1.3. Denna studie visade även att sannolik-
hetströskeln på 0,7 ökade noggrannheten för ögonfärgerna till 85% men inte påverkade andelen
korrekt förutspådda hårfärger [9]. Studien använde en datamängd av liknande storlek, vilket gör
den relevant för jämförelse med detta arbete. I tabell 5 presenteras de beräknade noggrannheterna
för respektive modell, med och utan sannolikhetströskel. Det uppvisas att noggrannheten för de
multinomiala ögonfärgsmodellerna ger liknande resultat som i den tidigare studien, med 71,76%
noggrannhet för både icke-proper likformig och multinormal priorifunktion. Dessutom orsakar san-
nolikhetströskeln en liknande förbättring av noggrannheten som i den tidigare studien, med 75%
respektive 74,24% noggrannhet. Modellerna för multinomial hårfärg uppvisade högre noggrannhet
jämfört med den tidigare studien, med 64,71% för båda priorifunktionerna. Sannolikhetströskeln
medför däremot lägre noggrannhet för alla hårfärgsmodeller. En slutsats som kan dras från detta
är att de framtagna modellerna ändå uppvisar förhållandevis höga noggrannheter i jämförelse med
tidigare modeller som redan används inom prediktion av fenotypiska egenskaper, åtminstone när
det gäller en liknande datamängd.

5.2 Begränsande faktorer och förbättringsmöjligheter
En problematik med modellerna är hur färgerna klassificeras. Möjligtvis klassificerades de observe-
rade färgerna genom en subjektiv bedömning. Därför kan en ögonfärg som genetiskt förväntas vara
blå ha klassificerats som en intermediär färg, om den subjektiva bedömningen av färgen har varit
otydlig. Sedan tidigare är det känt att grön ögonfärg är en svår ögonfärg att förutspå [9]. Detta
uppenbaras även i detta projekt då sensitiviteten för intermediär ögonfärg var låg enligt tabell
5. En intressant observation är att de multinomiala ögonfärgsmodellerna aldrig predicerar brun
ögonfärg på blåögda individer eller blå ögonfärg på brunögda individer, vilket illustreras i figur 21
i bilaga B.3. Detta är ett tecken på att modellerna lyckas differentiera de olika ögonfärgerna men
att subjektiviteten av den intermediära kategorin och de observerade ögonfärgerna introducerar
en felkälla.

Det är sedan tidigare känt att hårfärger kan bli mörkare med ålder [8], vilket kan vara ett problem
för klassificeringen av hårfärger. Subjektiviteten i kategorisering av data kan därmed innebära
att en observerad brunhårig individ bär blonda gener. För att undvika sådana felkällor skulle
en större studie behövas kring hur ögon- och hårfärger uppfattas i samband med de genetiska
förutsättningarna. Det finns även risk för att mörkandet av hårfärg inte är inkodat i DNA. Mer
forskning om gener för hårmörkande och modeller som även tar hänsyn till individers ålder kan
möjligtvis ge bättre resultat.

Ett ytterligare problem med modellerna är valet av att representera förekomsten av olika alleler
med heltal. Den numeriska representationen introducerar en artificiell ordning på allelerna som
inte överensstämmer med dess verkliga karaktär, eftersom det finns en inbördes ordning hos de
reella talen. Detta kan påverka modellernas förmåga att anpassa parametrarna till datamängden.
Framtida modeller kan kräva en bättre förbehandling av data för att motverka problemet, exem-
pelvis genom att representera varje möjlig allel för varje SNP med en separat parameter. Dessutom
skulle detta potentiellt förbättra modellens förmåga att identifiera mönster i allelfördelningen för
varje SNP. Modellen skulle, i enlighet med figur 2a, exempelvis få möjlighet att lära sig att endast
individer som har allelparet AA för SNP rs12913832 är brunögda. Då den föreslagna modellen
skulle använda en separat parameter för varje allel skulle den potentiellt ha bättre kapacitet att
lära sig denna information.

I arbetet baserades modellerna i en bayesiansk statistisk ram. En undersökning av andra förslags-
funktioner och deras påverkan på prediktionsförmågan skulle även kunna utföras genom andra val
på standardavvikelsen eller förslagsfunktionen. Alternativa modeller kan även utvecklas inom en
frekventistisk ram med konfidensintervall och signifikansnivå. I teorin är det även möjligt att an-
vända neutrala nätverk som en prediktionsmodell, men i praktiken skulle detta kräva en betydligt
större datamängd.

Priorifördelningarnas påverkan på modellernas prestanda kan även undersökas genom att variera

18


valet av priorifördelningar. Dessutom kan hyperparametrar, såsom kovariansmatrisen för multi-
normalfördelningarna, justeras och därmed kan högre AUC-värden åstadkommas. För större data-
mängder skulle en adaptiv multinormal priorifunktion kunna användas. Denna skulle implemen-
teras genom att först skapa en markovkedja för parametrarna genom att använda MCMC med en
icke-proper likformig priorifunktion, för att sedan numeriskt beräkna kovariansmatrisen för para-
meterkedjan. Kovariansmatrisen skulle sedan användas för att skapa en multinormal priorifunktion.

6 Samhälleliga och etiska aspekter
Den utvecklade prediktionsmodellen har en inverkan på flera samhälleliga och etiska aspekter. Pre-
diktionsmodellen är utvecklad för att huvudsakligen användas av rättsväsendet för att identifiera
gärningsmän utifrån DNA-spår på brottsplatser. Detta kan bidra till effektivare och träffsäkrare
brottsutredningar, vilket kan stärka rättssäkerheten och öka förtroendet för rättsväsendet. Trots
denna samhällsnytta så finns det samtidigt en risk för felträffar, vilket kan negativt påverka enskilda
individer genom att oskyldiga felaktigt pekas ut.

Det är av denna anledning viktigt, från ett samhälleligt perspektiv, att avgöra i vilket samman-
hang som prediktionsmodellerna ska användas och vara medveten om modellens begränsningar.
Eftersom prediktionsmodellen endast tar fram sannolikheter för fenotypiska egenskaper utifrån de
genetiska markörerna, så finns det alltid en viss osäkerhet i prediktionen. Därmed är det viktigt
att prediktionen inte ensamt kan användas som bevisning i en rättegång, utan att övrig bevisning
alltid måste vägas in för att faktiskt kunna fälla en misstänkt för ett brott.

För att prediktionsmodellen i praktiken ska vara användbar för rättsväsendet behöver modellen
ha hög träffsäkerhet för korrekta prediktioner. Träffsäkerheten kräver att den data som model-
len bygger på är tillförlitlig när det gäller korrekthet, storlek av datamängd och bias. Bias i den
ursprungliga datamängden kan leda till att individer i redan utsatta grupper i större grad blir ut-
pekade av modellen, då modellen kan bli partisk för att göra vissa prediktioner. Detta kan därmed
öka diskriminering och kränkningar för redan utsatta grupper i samhället. På lång sikt kan felak-
tiga utpekningar från undermåliga prediktionsmodeller påverka samhällets syn på rättssystemets
trovärdighet.

Ett annat etiskt dilemma är integritetsfrågan. Användning av prediktionsmodellen kan möjligtvis
innebära en inskränkning av individers skydd av deras genetiska information. Detta kan skapa en
känsla av övervakning, vilket riskerar att minska tilliten för myndigheter och andra institutioner
som använder modellen. Däremot kan det diskuteras om visuella egenskaper som utseende egentli-
gen kan ses som privat data. Utseende är inte endast känt för individen i fråga, utan även för alla
som sett personen.

En ytterligare central fråga är vem som får tillgång till prediktionsmodellen. Även om användan-
det av modellen begränsas till auktoriserade aktörer, så kommer med stor sannolikhet ytterligare
aktörer kunna få tillgång till dessa eller liknande modeller. Detta innebär att det finns en risk för
att privatpersoner, företag eller utländska myndigheter missbrukar användandet av modellen för
att främja deras intressen. Om prediktionsmodellen vidare utvecklas till en perfekt modell som kan
konstruera fantombilder från genetiska markörer, så kan missbruket exempelvis vara att företag
samlar och säljer mer personlig data om privatpersoner, vilket ökar inskränkningarna i individers
rätt till integritet och autonomi. Om modellerna skulle missbrukas av länder som inte följer Sveri-
ges lagar och värderingar finns det även en risk för att den skulle kunna användas som ett verktyg
för att diskriminera och förfölja redan utsatta minoritetsgrupper i samhället.

7 Slutsatser
I detta projekt utvecklades en statistisk modell för att predicera hår- och ögonfärg på individer
baserat på en datamängd med uppsättning genetiska markörer, bestående av 85 individers geno-
typ och observerade fenotyper. Modellen byggdes med hjälp av bayesiansk statistik och logistisk
regression, både i binär och multinomial form. För dessa användes två typer av priorifunktioner: en

19


icke-proper likformig priorifunktion och en multinormal priorifunktion. Dessa modellers prestanda
jämfördes med hjälp av ROC-kurvor samt AUC-värden.

Samtliga modeller fick låga totala AUC-värden. Detta förklaras av flera faktorer, däribland hur
parametrarna tilldelades, storleken av datamängden samt hur den klassificerades. Att tilldela en
separat parameter för varje SNP medför att modellen introducerar ett artificiellt numeriskt sam-
band, vilket i sin tur försvårar upptäckten av mönster i hur allelerna är fördelade inom varje SNP.
Den begränsade storleken på datamängden innebär att modellen inte lär sig relevanta mönster som
skiljer klasserna åt. Den ospecifika klassificeringen av datamängden, speciellt färgen intermediär,
kan även ha haft inverkan i det slutgiltiga resultatet. Detta då variationen i allelerna kan ha varit
för stor för modellen att upptäcka. Trots resultaten antyds det att ett samband mellan fenotypen
och den genetiska uppsättningen existerar, även om modellerna i sin helhet inte är lämpliga för
användning inom forensisk verksamhet.

20


Referenser
[1] Statens medicinsk-etiska råd (SMER), Kort om DNA och brottsutredning, 2021. URL: https:

//smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf, Hämtad: 30 januari
2025.

[2] N. Hagen, “I gränslandet mellan genotyp och fenotyp. Motsägelser i samband med prediktiv
genetisk testning”, Socialmedicinsk tidskrift, årg. 88, nr 3, s. 266–272, 2011. URL: https:
//socialmedicinsktidskrift.se/index.php/smt/article/download/788/636/0,
Hämtad 31 januari 2025.

[3] D. P. Clark, Molecular Biology, 1. utg. Elsevier Science & Technology Books, juni 2005, isbn:
9780123785893. URL: https://shop.elsevier.com/books/molecular-biology/clark/
978-0-12-378589-3.

[4] A. A. Komar, Single Nucleotide Polymorphisms: Methods and Protocols (Methods in Mo-
lecular Biology), 2. utg. Totowa, NJ: Humana Press, 2009, vol. 212. doi: https://doi.org/
10.1007/978-1-60327-411-1.

[5] S. Bader, A Guide to Forensic DNA Profiling, 1. utg. John Wiley & Sons, Incorporated, mars
2016, isbn: 9781118751527.

[6] M. A. Farley, Forensic DNA Technology, 1. utg. Boca Raton, FL, USA: Taylor & Francis
Group, 2017. doi: https://doi.org/10.1201/9781351072120.

[7] P. R. Haddrill, “Developments in forensic DNA analysis”, Emerging Topics in Life Sci-
ences, årg. 5, nr 3, s. 381–393, 2021, issn: 2397-8562. doi: https://doi.org/10.1042/
ETLS20200304.

[8] M. Wallin, “Användning av ny DNA-teknik vid brottsbekämpning för att förutsäga männi-
skors ögon-, hår- och hudfärg”, Bioscience Explained, årg. 9, nr 1, 2016, Göteborgs universitet,
Institutionen för biologi och miljövetenskap. URL: https://gup.ub.gu.se/publication/
277670.

[9] K. Junker, A. Staadig, M. Sidstedt, A. Tillmar och J. Hedman, “Phenotype prediction accu-
racy – A Swedish perspective”, Forensic Science International: Genetics Supplement Series,
årg. 7, nr 1, s. 384–386, dec. 2019. doi: https://doi.org/10.1016/j.fsigss.2019.10.022.

[10] P. M. Lee, Bayesian Statistics: An Introduction (New York Academy of Sciences Series),
1. utg. Hoboken, NJ: John Wiley & Sons, Incorporated, 2012, isbn: 9781118332573.

[11] K. David G och M. Klein, Logistic Regression, A Self Learning Text (Statistics for Biology
and Health), 3. utg. Springer, 2010, isbn: 978-1-4419-1741-6. doi: https://doi.org/10.
1007/978-1-4419-1742-3.

[12] D. W. H. Jr., S. Lemeshow och R. X. Sturdivant, Applied Logistic Regression (Wiley Series
in Probability and Statistics). John Wiley & Sons, Inc., 2013, isbn: 9780470582473. doi:
https://doi.org/10.1002/9781118548387.

[13] H. Richard M och B. Holland, Statistical Analysis and Data Display, An Intermediate Course
with Examples in R (Springer Texts in Statistics). Springer, 2015, Appendix G, isbn: 978-1-
4939-2122-5. doi: https://doi.org/10.1007/978-1-4939-2122-5.

[14] Y. Pawitan, In All Likelihood: Statistical Modelling and Inference Using Likelihood, English,
1. utg. Oxford University Press, Incorporated, 2001, isbn: 9780199671229. doi: https://
doi.org/10.1093/oso/9780198507659.001.0001.

[15] R. P. Dobrow, Introduction to stochastic processes with R. Nashville, TN: John Wiley & Sons,
febr. 2016. doi: 10.1002/9781118740712.

[16] A. Gelman, J. B. Carlin, H. S. Stern, D. B. Dunson, A. Vehtari och D. B. Rubin, Baye-
sian Data Analysis, 3. utg. Chapman och Hall/CRC, 2025. URL: https://sites.stat.
columbia.edu/gelman/book/.

[17] A. Gut, An Intermediate Course in Probability (Springer Texts in Statistics), 2. utg. Springer
New York, NY, 2009. doi: https://doi.org/10.1007/978-1-4419-0162-0. URL: https:
//link.springer.com/book/10.1007/978-1-4419-0162-0.

[18] S. M. Ross, “Distributions of Sampling Statistics”, i Introduction to Probability and Sta-
tistics for Engineers and Scientists, 5. utg., Författarens affiliering: University of Southern
California, Los Angeles, USA., Oxford: Academic Press, 2014, kap. 6, s. 207–233, isbn: 978-
0-12-394811-3. doi: 10.1016/B978-0-12-394811-3.50006-X, Hämtad: 4 maj 2025.

21

https://smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf
https://smer.se/wp-content/uploads/2021/04/smer_dna_brott_tga.pdf
https://socialmedicinsktidskrift.se/index.php/smt/article/download/788/636/0
https://socialmedicinsktidskrift.se/index.php/smt/article/download/788/636/0
https://shop.elsevier.com/books/molecular-biology/clark/978-0-12-378589-3
https://shop.elsevier.com/books/molecular-biology/clark/978-0-12-378589-3
https://doi.org/https://doi.org/10.1007/978-1-60327-411-1
https://doi.org/https://doi.org/10.1007/978-1-60327-411-1
https://doi.org/https://doi.org/10.1201/9781351072120
https://doi.org/https://doi.org/10.1042/ETLS20200304
https://doi.org/https://doi.org/10.1042/ETLS20200304
https://gup.ub.gu.se/publication/277670
https://gup.ub.gu.se/publication/277670
https://doi.org/https://doi.org/10.1016/j.fsigss.2019.10.022
https://doi.org/https://doi.org/10.1007/978-1-4419-1742-3
https://doi.org/https://doi.org/10.1007/978-1-4419-1742-3
https://doi.org/https://doi.org/10.1002/9781118548387
https://doi.org/https://doi.org/10.1007/978-1-4939-2122-5
https://doi.org/https://doi.org/10.1093/oso/9780198507659.001.0001
https://doi.org/https://doi.org/10.1093/oso/9780198507659.001.0001
https://doi.org/10.1002/9781118740712
https://sites.stat.columbia.edu/gelman/book/
https://sites.stat.columbia.edu/gelman/book/
https://doi.org/https://doi.org/10.1007/978-1-4419-0162-0
https://link.springer.com/book/10.1007/978-1-4419-0162-0
https://link.springer.com/book/10.1007/978-1-4419-0162-0
https://doi.org/10.1016/B978-0-12-394811-3.50006-X


[19] J. Tacq, “Multivariate Normal Distribution”, i International Encyclopedia of Education (Third
Edition), 3. utg., Oxford: Elsevier, 2010, s. 332–338, isbn: 978-0-08-044894-7. doi: https:
//doi.org/10.1016/B978-0-08-044894-7.01351-8, Hämtad: 4 maj 2025.

[20] M. McDonough, Cross-validation, Encyclopedia Britannica Academic. Senast reviderad av
Erik Gregersen, 12 september 2023. URL: https://www.britannica.com/technology/
cross-validation-computer-science, Hämtad: 26 april 2025.

[21] T. Fawcett, “An introduction to ROC analysis”, Pattern Recognition Letters, årg. 27, nr 8,
s. 861–874, 2006, ROC Analysis in Pattern Recognition, issn: 0167-8655. doi: https://doi.
org/10.1016/j.patrec.2005.10.010.

[22] F. Provost och P. Domingos, “Well-trained PETs: Improving probability estimation trees”,
Raport instytutowy IS-00-04, Stern School of Business, New York University, årg. 1, okt.
2000. URL: https://pages.stern.nyu.edu/~fprovost/Papers/pet-wp.pdf, Hämtad: 9
maj 2025.

[23] F. S. Nahm, “Receiver operating characteristic curve: overview and practical use for clini-
cians”, Korean Journal of Anesthesiology, årg. 75, nr 1, s. 25–36, jan. 2022. doi: https:
//doi.org/10.4097/kja.21209.

[24] D. Rios Insua, F. Ruggeri och M. P. Wiper, Bayesian Analysis of Stochastic Process Models
(Wiley Series in Probability and Statistics). John Wiley & Sons, Ltd, 2012. doi: https:
//doi.org/10.1002/9780470975916.

22

https://doi.org/https://doi.org/10.1016/B978-0-08-044894-7.01351-8
https://doi.org/https://doi.org/10.1016/B978-0-08-044894-7.01351-8
https://www.britannica.com/technology/cross-validation-computer-science
https://www.britannica.com/technology/cross-validation-computer-science
https://doi.org/https://doi.org/10.1016/j.patrec.2005.10.010
https://doi.org/https://doi.org/10.1016/j.patrec.2005.10.010
https://pages.stern.nyu.edu/~fprovost/Papers/pet-wp.pdf
https://doi.org/https://doi.org/10.4097/kja.21209
https://doi.org/https://doi.org/10.4097/kja.21209
https://doi.org/https://doi.org/10.1002/9780470975916
https://doi.org/https://doi.org/10.1002/9780470975916


8 AI-användning
AI-användning har begränsats i arbetet. AI användes för att ge förslag på hur tabellerna i förordet
kan utformas, men användes inte för att generera hela tabellerna. På detaljnivå har AI i vissa fall
använts för att ge förslag på omformuleringar av redan färdigskrivna meningar samt grammatik-
och stavningskontroll, men detta har gjorts väldigt sparsamt. AI har inte använts för att generera
hela text- eller kodstycken. AI användes inte under arbetet med att utforma prediktionsmodellen.
För att generera plottar har AI använts som en “sökmotor”, för att till exempel söka upp hur
specifika paket fungerar. Den AI som har använts har varit GPT-4o mini och den inbyggda GPT
modellen för overleaf (OpenAI).

23


A Datavisualisering
Figur 8 och 9 är de SNP:er som uppvisar samma beteende som de i figur 2, där en allel är unik för
en observation.

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 18: rs885479
Allel

G,G
G,A
A,A

(a)

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 14: rs1805007
Allel

C,C
C,T
T,T

(b)

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 20: rs2378249
Allel

G,A
A,A
G,G

(c)

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 6: rs12821256
Allel

T,T
T,C
C,C

(d)

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 21: rs16891982
Allel

G,G
C,G
C,C

(e)

Brun Röd Svart Blond
Observerad hårfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 1: rs28777
Allel

A,A
C,A
C,C

(f)

Figur 8: Alla SNP:er där en allel är unik för en hårfärgsobservation. Figurerna visar andelen alleler,
i procent, för varje observation. I (a) ses AA endast hos individer med svart hår, (b) visar att TT
är unikt för rött hår, (c) och (d) visar att GG respektive CC förekommer enbart vid brun hårfärg,
medan CC i både (e) och (f) är specifik för svart hår.

Blå Intermediär Brun
Observerad ögonfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 6: rs12913832
Allel

G,G
A,G
A,A

(a)

Blå Intermediär Brun
Observerad ögonfärg

0%

20%

40%

60%

80%

100%

An
de

l (
%

)

Andel alleler för SNP 5: rs16891982
Allel

G,G
C,G
C,C

(b)

Figur 9: Alla SNP:er där en allel är unik för en ögonobservation. Figurerna visar andelen alleler,
i procent, för varje observation. I (a) och (b) förkommer endast allelen AA respektive CC endast
för brun ögonfärg.

B Figurer och tabeller
Figurerna nedan illustrerar resultaten som modellerna skapade.

i


B.1 ROC-kurvor
ROC-kurvan för binär ögonfärg med multinormal priorifunktion med tillhörande AUC-värde pre-
senteras i figur 10, där AUC beräknades till 0,7154.

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,7154)

Figur 10: ROC-kurva och tillhörande AUC för binär ögonfärg, vid användning av en multinormal
priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och används
i detta fall som referens.

ROC-kurvorna för modellen för multinomial ögonfärg med likformig priorifunktion återges i figur
11, där AUC-värdena för blå, intermediär och brun ögonfärg var 0,7469, 0,5847 respektive 0,5747.
Det sammanvägda AUC-värdet beräknades enligt ekvation (10) och uppgick till 0,6789.

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,7469)

(a)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5847)

(b)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5747)

(c)

Figur 11: ROC-kurvor för den multinomiala modellen för ögonfärg vid användande av icke-proper
likformig prior. Kurvan (a) tillhör blå ögonfärg, (b) intermediär och (c) brun som positivt utfall.
Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som
referens.

ROC-kurvorna för multinomial ögonfärg med multinormal priorifunktion illustreras i figur 12. Figur
12a, 12b och 12c representerar ROC-kurvorna för respektive ögonfärg. AUC för blå, intermediär och
brun ögonfärg som positivt utfall var 0,7194, 0,5713 och 0,5573, vilket ger det totala AUC-värdet
på 0,6568 enligt ekvation (10).

ii


0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,7194)

(a)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5713)

(b)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5573)

(c)

Figur 12: ROC-kurvor för den multinomiala modellen för ögonfärg vid användande av multinormal
likformig prior. Kurvan (a) tillhör blå ögonfärg, (b) intermediär och (c) brun som positivt utfall.
Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som
referens.

AUC-värdet för modellen för binär hårfärg med likformig priorifunktion beräknades till 0,5812
enligt figur 33.

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5812)

Figur 13: ROC-kurva och tillhörande AUC för binär hårfärg, vid användning av en icke-proper
likformig priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och
används i detta fall som referens.

För modellen för binär hårfärg med en multinormal priorifunktion beräknades AUC-värdet till
0,5795, vilket redovisas i figur 14.

iii


0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5795)

Figur 14: ROC-kurva och tillhörande AUC för binär hårfärg, vid användning av en multinomial
priorifunktion. Den streckade diagonalen representerar en slumpmässig klassificering och används
i detta fall som referens.

För modellen för multinomial hårfärg med icke-proper likformig priorifunktion beräknades det
totala AUC-värdet till 0,5798 med hjälp av ekvation (10). Varje fenotyp hade AUC-värdena 0,5840,
0,5125, 0,9469 och 0,6529 för blond, brun, röd respektive svart. Detta redovisas i figur 15.

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,584)

(a)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,5125)

(b)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,9469)

(c)

0,00

0,25

0,50

0,75

1,00

0,000,250,500,751,00
Specificitet

S
en

si
tiv

ite
t

ROC Kurva (AUC = 0,6529)

(d)

Figur 15: ROC-kurvor för den multinomiala modellen för hårfärg vid användande av icke-proper
likformig prior. Kurvan (a) tillhör blond hårfärg, (b) brun, (c) röd och (d) svart som positivt utfall.
Den streckade diagonalen representerar en slumpmässig klassificering och används i detta fall som
referens.

B.2 Konfusionsmatriser
Nedan presenteras konfusionsmatriserna för alla modeller med båda priorifunktionerna. Figur 16
visar konfusionsmatriserna för binär ögonfärg och figur 17 för den multinomiala modellen som
förutspådde förekomsten av blå, intermediär eller brun ögonfärg. I figurer 18 och 19 visas konfu-
sionsmatriserna för de binära respektive multinomiala hårfärgsmodellerna.

iv


Blå Icke-blå
Förutspådd färg

Bl
å

Ick
e-

bl
å

Ob
se

rv
er

ad

48 2

16 19

Med icke-proper likformig priorifunktion

Blå Icke-blå
Förutspådd färg

Bl
å

Ick
e-

bl
å

49 1

16 19

Konfusionsmatriser vid prediktion av ögonfärg för två olika priorifunktioner
Med mutinormal priorifunktion

Figur 16: Konfusionsmatris för binär prediktion av ögonfärg. Prediktionen har gjorts med två olika
priorifunktioner.

Blå Intermediär Brun
Förutspådd färg

Bl
å

In
te

rm
ed

iä
r

Br
un

Ob
se

rv
er

ad

47 3 0

16 7 2

0 3 7

Med icke-proper likformig priorifunktion

Blå Intermediär Brun
Förutspådd färg

Bl
å

In
te

rm
ed

iä
r

Br
un

47 3 0

17 7 1

0 3 7

Konfusionsmatriser vid prediktion av ögonfärg för två olika priorifunktioner
Med mutinormal priorifunktion

Figur 17: Konfusionsmatris för multinomial prediktion av ögonfärg. Prediktionen har gjorts med
två olika priorifunktioner.

v


Brun Icke-brun
Förutspådd färg

Br
un

Ick
e-

br
un

Ob
se

rv
er

ad

41 13

24 7

Med icke-proper likformig priorifunktion

Brun Icke-brun
Förutspådd färg

Br
un

Ick
e-

br
un

42 12

25 6

Konfusionsmatriser vid prediktion av hårfärg för två olika priorifunktioner
Med mutinormal priorifunktion

Figur 18: Konfusionsmatris för binär prediktion av hårfärg. Prediktionen har gjorts med två olika
priorifunktioner.

Blond Brun Röd Svart
Förutspådd färg

Bl
on

d
Br

un
Rö

d
Sv

ar
t

Ob
se

rv
er

ad

0 10 0 0

1 46 2 5

0 3 4 0

1 8 0 5

Med icke-proper likformig priorifunktion

Blond Brun Röd Svart
Förutspådd färg

Bl
on

d
Br

un
Rö

d
Sv

ar
t

0 10 0 0

1 46 2 5

0 3 4 0

1 8 0 5

Konfusionsmatriser vid prediktion av hårfärg för två olika priorifunktioner
Med mutinormal priorifunktion

Figur 19: Konfusionsmatris för multinomial prediktion av hårfärg. Prediktionen har gjorts med två
olika priorifunktioner.

B.3 Figurer för modellernas prediktioner
I avsnittet nedan illustreras resultaten för de olika prediktionsmodellerna i figurerna 20, 21, 22 och
23. Samtliga figurer visar de observerade fenotyperna i den inre cirkelskivan samt de färger som
modellerna har predicerat i den yttre cirkelskivan.

vi


Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 0 %

Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd ögonfärg med multinormal priorifunktionBlå
Icke-blå
Sannolikhet < 0,7

(a)

Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 0 %

Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd ögonfärg med icke-proper likformig priorifunktionBlå
Icke-blå
Sannolikhet < 0,7

(b)

Figur 20: Resultat av den förutspådda ögonfärgen jämfört med den observerade ögonfärgen för
en binär prediktionsmodell. För prediktionen användes i (a) en multinormal priorifunktion medan
ingen användes i (b). Det högra cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på
70%.

vii


Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 0 %

Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd ögonfärg med multinormal priorifunktionBlå
Intermediär
Brun
Sannolikhet < 0,7

(a)

Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 0 %

Observerad
 ögonfärg

Förut spådd  ögonf ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd ögonfärg med icke-proper likformig priorifunktionBlå
Intermediär
Brun
Sannolikhet < 0,7

(b)

Figur 21: Resultat av den förutspådda ögonfärgen jämfört med den observerade ögonfärgen. För
prediktionen användes i (a) en multinormal priorifunktion medan ingen användes i (b). Det högra
cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på 70%.

viii


Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 0 %

Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd hårfärg med multinormal priorifunktionBrun
Icke-brun
Sannolikhet < 0,7

(a)

Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 0 %

Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd hårfärg med icke-proper likformig priorifunktionBrun
Icke-brun
Sannolikhet < 0,7

(b)

Figur 22: Resultat av den förutspådda hårfärgen jämfört med den observerade hårfärgen för en
binär prediktionsmodell. För prediktionen användes i (a) en multinormal priorifunktion medan
ingen användes i (b). Det högra cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på
70%.

ix


Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 0 %

Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd hårfärg med multinormal priorifunktionBlond
Brun
Röd
Svart
Sannolikhet < 0,7

(a)

Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 0 %

Observerad
 hårfärg

Förut spådd  hår f ärg

Sannolikhetströskel = 70,0 %

Observerad och förutspådd hårfärg med icke-proper likformig priorifunktionBlond
Brun
Röd
Svart
Sannolikhet < 0,7

(b)

Figur 23: Resultat av den förutspådda hårfärgen jämfört med den observerade hårfärgen. För
prediktionen användes i (a) en multinormal priorifunktion medan ingen användes i (b). Det högra
cirkeldiagrammet i både (a) och (b) har en sannolikhetströskel på 70%.

B.4 Figurer över prediktionsmodellernas sannolikhetsfördelning
Figurerna 24, 25, 26 och 27 i nedanstående avsnitt visar resultatet över de predicerade sannolik-
heterna. Procentsatserna för respektive gissning är staplade på varandra i figurerna. Figurerna är
uppdelade i korrekta gissningar och felaktiga gissningar.

x


Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlå
Icke-blå

(a)

Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlå
Icke-blå

(b)

Figur 24: Resultat över sannolikheterna för respektive ögonfärg efter prediktion. Figur (a) visar
sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke-
proper likformig priorifunktion.

xi


Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlå
Intermediär
Brun

(a)

Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade ögonfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlå
Intermediär
Brun

(b)

Figur 25: Resultat över sannolikheterna för respektive ögonfärg efter prediktion. Figur (a) visar
sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke-
proper likformig priorifunktion.

xii


Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBrun
Icke-brun

(a)

Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBrun
Icke-brun

(b)

Figur 26: Resultat över sannolikheterna för respektive hårfärg efter prediktion. Figur (a) visar
sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke-
proper likformig priorifunktion.

xiii


Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med multinormal priorifunktionBlond
Brun
Röd
Svart

(a)

Individer
0

20

40

60

80

100

Sa
nn

ol
ik

he
t (

%
)

Korrekta gissningar

Individer

Felaktiga gissningar

Predicerade hårfärgssannolikheter vid korrekt och felaktig klassificering med icke-proper likformig priorifunktionBlond
Brun
Röd
Svart

(b)

Figur 27: Resultat över sannolikheterna för respektive hårfärg efter prediktion. Figur (a) visar
sannolikheterna för prediktionsmodellen med en multinormal priorifunktion och (b) med en icke-
proper likformig priorifunktion.

B.5 Figurer för parametrarnas konvergens
Figurerna 28, 29, 30, 31, 32, 33 och 34 vi