Prediktion av hårfärg och ögonfärg från genetiska markörer inom forensisk verksamhet
Publicerad
Typ
Examensarbete för kandidatexamen
Bachelor Thesis
Bachelor Thesis
Program
Modellbyggare
Tidskriftstitel
ISSN
Volymtitel
Utgivare
Sammanfattning
Ett utvecklingsområde inom forensiska verksamheter är DNA-fenotyping, vilket är en teknik för att utifrån DNA kunna predicera visuella egenskaper för en individ. I detta arbete
undersöktes hur väl statistiska modeller kan utföra prediktion av ögon- och hårfärg utifrån
genetiska markörer i DNA. De modeller som framtogs var logistiska regressionsmodeller som
använde en MCMC-metod med en Metropolis-Hastings-algoritm för att uppskatta posteriorifördelningen. Två binära logistiska regressionsmodeller med två olika priorifördelningar jämfördes, en icke-proper likformig priorifunktion och en multinormal priorifunktion. På samma sätt
jämfördes två multinomiala logistiska regressionsmodeller med samma två priorifördelningar.
Den datamängd som användes i arbetet omfattade ögon- och hårfärg för 85 individer och
bestod av observerade färger samt genetiska markörer kopplade till färgerna. De ögonfärger
som undersöktes var brun, blå och intermediär, medan de hårfärger som undersöktes var brun,
blond, röd och svart.
Modellernas prestanda utvärderades genom ROC-grafer (eng: Receiver Operating Characteristic) och tillhörande AUC-värden (eng: Area Under the Curve). Resultatet uppvisade att
modellerna överlag hade låga AUC-värden och därmed presterade dåligt. Ingen av modellerna
lyckades uppnå ett totalt AUC-värde på över 0,75. Däremot presterade modellerna för prediktion av ögonfärg generellt bättre än modellerna för hårfärg. Det upptäcktes emellertid att
modellen för multinomial hårfärg gav bra resultat när det gällde att predicera röd hårfärg med
ett AUC-värde på 0,94. En stor begränsning för modellerna som kan ha påverkat resultatet är
den begränsade datamängden. Finns det inte tillräckliga skillnader i den givna datamängden
över genetiska markörer mellan de olika klasserna av färger får modellen svårt att kunna göra
säkra prediktioner. Eftersom alla modeller har stora begränsningar är de i nuläget inte användbara för användning i praktiken, men genom fortsatt forskning skulle liknande statistiska
modeller i framtiden kunna användas för mer tillförlitliga prediktioner.