Matematiska modeller för smittspridning av
covid-19
En jämförelse av statistiska och mekanistiska modeller

Mathematical Modeling of Disease Transmission of
COVID-19
Kandidatarbete inom civilingenjörsutbildningen vid Chalmers

Dan Johansson
Erman Kulaglic
William Nilsen
Zackarias Olofsson
Isabella Simonsson

Institutionen för Matematiska vetenskaper
CHALMERS TEKNISKA HÖGSKOLA
GÖTEBORGS UNIVERSITET
Göteborg, Sverige 2022


Matematiska modeller för smittspridning av covid-19

En jämförelse av statistiska och mekanistiska modeller

Kandidatarbete i matematik inom civilingenjörsprogrammet Teknisk matematik vid
Chalmers
Erman Kulaglic Zackarias Olofsson

Kandidatarbete i matematik inom civilingenjörsprogrammet Bioteknik vid Chalmers

Dan Johansson William Nilsen Isabella Simonsson

Handledare: Philip Gerlee

Institutionen för Matematiska vetenskaper
CHALMERS TEKNISKA HÖGSKOLA
GÖTEBORGS UNIVERSITET
Göteborg, Sverige 2022


Förord
Vi vill rikta ett stort tack till vår handledare Philip Gerlee som har bidragit med sin expertis
inom ämnet. Vi vill även tacka våra examinatorer Maria Roginskaya och Ulla Dinger som hjälpt
till med det administrativa i kursen och svarat på de frågor vi haft om det. Till sist vill vi tacka
Hans Malmström som har bidragit med sin fackspråkliga kompetens och svarat på de fackspråkliga
frågor vi har haft.

Gruppens arbetsgång
Vi började med att diskutera med vår handledare över vad vi eventuellt vill göra i detta projekt.
Vi kom ganska snabbt fram till att dela upp arbetet i två, där den ena gruppen tittar på statistiska
modeller och den andra gruppen tittar på mekanistiska modeller. Vid eventuella problem med ar-
betet så vände vi oss först och främst till varandra och därefter till våra möten med vår handledare
som vi haft varje vecka på torsdagar.

För att inkludera alla i båda sidor utav arbetet, hölls gruppmöten efter handledningsmötet på
torsdagar där vi gick igenom vad vi har gjort samt eventuella problem och hur alla i gruppen mår.
Vid behov så har extrainsatta gruppmöten skett på tisdagar.

Vid skrivprocessen har interna deadlines satts för att skicka utkast till handledare för att få åter-
koppling. Vid eventuella återgärder har Trello använts för att veta vad som har åtgärdats samt
vad som fortfarande behövts åtgärdas.

Projektets arbete har införts i en loggbok där varje gruppmedlem har skrivit vad de har gjort
och hur lång tid det har tagit. Dagbok har skrivits varje vecka, där ansvaret har cirkulerat inom
gruppen. Samma person har även varit mötessekreterare den veckan. Nedan följer en beskrivning
av hur vi har arbetat individuellt, samt vad den individen har skrivit i rapporten i ett första utkast.
Texterna har sedan bearbetats av samtliga i gruppen.

Dan Johansson
Under projektets gång så har jag arbetat med SIR-modellerna. Eftersom jag har tidigare kunskaper
och ett stort intresse för programmering så tog jag på mig det ansvaret att skriva majoriteten av
kodbasen för SIR-modellerna samt plottning av de producerade resultaten. På grund av detta har
mitt fokus för skrivandet varit på metod, resultat samt tolkningen av resultatet i diskussionen. I
rapporten har jag skrivit på sektionerna:

• Metod 3, Mobilitetsbaserad SIR-modell 3.6, Konfidens- och prediktionsintervall för SIR-
modeller 3.6.1, Global parameteroptimering 3.6.2, Resultat 4, Diskussion 5-5.4, Slutsats 7.

Erman Kulaglic
Under projektets gång så har jag arbetat med de statistiska modellerna. Inledningsvis började jag
med att läsa på om teorin för både linjär och ickelinjär regression. Jag tittade även närmare på
vilka modeller vi ville studera. Modellerna implementerades sedan i Python och samtidigt försökte
jag även skriva på rapporten. I rapporten så har jag bidragit med att skriva på sektionerna:

• Förord, Gruppens arbetsgång, Populärvetenskaplig presentation, Sammanfattning, 2.5. Root
mean square error, 2.5.2 Mean absolute percentage error, 4.1, 4.3 Resultat, 5 Diskussion

William Nilsen
Då programmering var ett nytt område för mig inledde jag projektets arbetsgång med att sätta
mig in i grunderna för att använda Python som programspråk. Under projektets gång jobbade
jag med de mekanistiska SIR-modellerna. Där bidrog jag mest med att söka och tolka litteratur,


men även med att implementera en del data i modellen, samt input vid utveckling av modellerna.
Jag skrev abstract, stycket om samhälleliga och etiska aspekter och bidrog till diskussionen. Jag
införde även figurer och en del av härledningen till SIR-modellen.

• Abstract, 6. Samhälleliga och etiska aspekter, 5.3-5.4 Diskussion, 2.4.1 En del av härledning
av SIR i teori

Zackarias Olofsson
Under projektets gång så jobbade jag med de logistiska modellerna. Detta arbetet innefattade
att läsa på om modellerna och teorin för regression, implementera lösningarna i Python, generera
grafer på resultaten samt tolka resultaten. Utöver de logistiska modellerna jobbade jag även en hel
del på en autoregresiv modell som tyvärr inte kom med i rapporten. I rapporten har jag skrivit på
sektionerna:

• 2.1 Regression, 2.2 Linjär regression, 2.3 Ickelinjär regression, 2.5 Utvärderingsmetoder för
modellerna, 3 inledande stycke till metod, 3.2-3.5 metod för de logistiska modellerna, 3.7
Jämförelse av modellerna, 5.1 Analys MAPE, 5.2 Analys ISα, 5.3 Analys totalt antal inskriv-
ningar.

Isabella Simonsson
Inledningsvis försökte jag lära mig att programmera i Python, då det var nytt för mig. Efter
uppdelningen av modellerna arbetade jag med SIR-modellerna, och började med att läsa in mig på
dem. Jag insåg ganska snabbt att mina programmeringskunskaper inte var tillräckliga för att kunna
bidra till arbetet med kodning av modellerna. I stället försökte jag hjälpa Dan så gott jag kunde
med inputs kring vad som var relevant att ta med, och fokuserade mest på teorin och själva texten
i rapporten. Utöver de avsnitt som står nedan, har jag lagt mycket tid på rapporten som helhet.
Jag har kontinuerligt läst igenom vad alla har skrivit i de olika avsnitten och rättat grammatiska
fel, särskrivningar, och så vidare. Jag har försökt göra vår text mer enhetlig, samt skapa ett flow i
texten med formuleringar som gör den lätt att förstå, även om man inte är van vid programmering
och matematisk modellering.

• Sammanfattning, 1 Inledning, 2.4 Mekanistiska modeller, 3.1 Inskrivningar och 3.4 Jämförelse
av modellerna.


Populärvetenskaplig presentation
En sjukdom som sprider sig väldigt fort får ofta stora konsekvenser för ett samhälle. När en sådan
sjukdom spridit sig till angränsande geografiska områden kallas det epidemi, och när en epidemi
har spridit sig till en eller flera världsdelar så kallas det pandemi. Genom människans utveckling
har vi gått igenom flera olika pandemier och epidemier som har dödat väldigt många människor.
Några som vi har kämpat oss igenom är digerdöden, spanska sjukan och nyligen covid-19.

För att underlätta hanteringen av pandemier kan prognoser göras, vilket matematiken kan hjälpa
oss med. För att designa och analysera ett simulerat händelseförlopp kan matematisk modellering
användas.

Målet med arbetet är att titta närmare på vilka matematiska modeller som kan representera
smittspridningen av covid-19. Matematiska modeller för smittspridning kan ha många former. I
denna studie kommer vi endast beakta statistiska och mekanistiska modeller.

De statistiska modellerna bygger på matematiska ekvationer med ett variande antal paramete-
rar vars värden bestäms genom anpassning till ett verkligt händelseförlopp. Totalt beaktas fyra
statistiska modeller som alla är baserade på den logistiska ekvationen. Alla fyra modeller beskriver
hur många som blir inskrivna på sjukhus, och anpassas efter inskrivningsdata från Sahlgrenska
Universitetssjukhus. Den första baseras bara på den logistiska ekvationen. Den andra har en be-
gränsning på hur många som kommer bli inskrivna totalt. Den tredje baseras på den logistiska
ekvationen men använder sig av mobilitetsdata för att beskriva hur inskrivningarna sker. Den fjär-
de och sista har både en begränsning på hur många som blir inskrivna totalt och använder sig av
mobilitetsdatan.

De mekanistiska SIR-modellerna bygger på kopplade differentialekvationer som tar hänsyn till
mänsklig kontakt, smittans effektiva överföringstakt samt tiden det tar för befolkningen att insjuk-
na och tillfriskna. Från grunden byggdes dessa modeller utifrån ett statiskt perspektiv där både
befolkningens rörelsemönster och tidsramen för smittans spridning ignorerades. Detta utvecklades
under arbetets gång för att till slut koppla grundparametrarna samman med mobilitetsfunktioner
där två modeller byggdes på två olika dataset.

Modellerna som byggs anpassas till en stigande mängd träningsdata. Utifrån dessa modeller jäm-
förs de med det verkliga händelseförloppet för att se hur väl prediktionerna stämmer överens med
det verkliga utfallet. Detta görs med hjälp av olika jämförelsemetoder för att ge en så tydlig bild
som möjligt om vilka modeller som är bäst i olika perspektiv.

Den största nyttan med att hitta bra modeller är att man med dessa kan planera sjukdomen
effektivare. På så vis kan resurserna placeras på rätt ställe så att konsekvenserna i samhället kan
minskas. Utöver detta kan vi också eventuellt få en större förståelse hur människan bör ändra sitt
beteende i en framtida pandemi. Smittspridningen kan eventuellt bromsas och de stora konsekven-
serna i samhället kan minskas.

Vid jämförelse av modellerna visar det sig att olika jämförelsemetoder ger olika resultat. Däre-
mot konstateras det att de logistiska modellerna ger ett bättre resultat så länge infektionen endast
ger en våg och om taket är känt på förhand. Vid längre pandemier som ger fler vågor så lämpar
sig en mekanistisk modell som SIR-modellen bättre.


Sammanfattning

De senaste åren har världen präglats av covid-19-pandemin. För att förutspå dess utveckling har
matematisk modellering använts. En matematisk modell är en förenklad beskrivning av ett verkligt
fenomen, som ger en djupare förståelse om vilka mekanismer som styr ett system. I detta arbete
har logistiska modeller och SIR-modeller använts för att beskriva smittspridningen av covid-19
under pandemins första våg, det vill säga mellan 1 mars 2020 och 31 juli 2020. Syftet med arbetet
är att konstruera och jämföra olika modeller för inskrivningar på Sahlgrenska Universitetssjukhus
till följd av covid-19. Detta görs både kvantitativt och kvalitativt. De utvärderingsmetoder som
används vid jämförelsen är: Mean absolute percentage error (MAPE), ISα, samt prediktioner av
totalt antal inskrivningar vid ett givet slutdatum.

Modellerna baseras huvudsakligen på två dataset: antalet inskrivningar per dag på Sahlgrenska
Universitetssjukhus i Västra götalandsregionen, till följd av covid-19, samt mobilitetsdata från
Västtrafik och Google. De sistnämnda används som parametrar för att hjälpa modellerna att
prediktera antalet inskrivningar, som sedan jämförs med det första datasetet. De logistiska mo-
dellerna använder linjär och ickelinjär regression för att prediktera antalet inskrivningar, medan
SIR-modellerna även modellerar smittspridningen. Utifrån den kan antalet inskrivningar predikte-
ras 21 dagar framåt i tiden, till följd av en tidsfördröjning.

Under antagandet att infektionen endast ger en våg inskrivningar visar våra resultat att de lo-
gistiska modellerna ger ett bättre resultat än SIR-modellerna. Resultaten är bäst då maxtaket på
antalet inskrivningar har begränsats. Vid längre pandemier, som ger fler vågor, visar våra resultat
att SIR-modellerna är bättre då de modellerar den dynamiska infektiviteten bättre.

Abstract

The COVID-19 pandemic has for the last few years impacted all corners of the world. In many
attempts to predict the development of the disease, mathematical modelling has been a key asset.
Mathematical models are simplified descriptions of real life events and can be used both as tools to
give deeper understanding about mechanisms in larger systems, and in order to make predictions
about future events.

This report deals with SIR models and logistic regression models to describe the hospital admis-
sions due to COVID-19 during the first wave of the pandemic in Gothenburg. The main purpose
of the project was to compare and evaluate these different models of disease transmission.

The models are based mainly on two data sets: the number of admitted COVID-19 patients at
Sahlgrenska University Hospital aswell as a mobility data sets from the local municipal trafic,
Västtrafik, and Google mobility data. The mobility data sets are used as parameters, helping the
models to predict admissions which in turn can be compared to the first data set. The logistical
models utilize linear and non-linear regression to predict hospital admissions. The SIR models also
predict the disease transmission as a three week forcast due to an implemented time shift.

Assuming that the transmission of COVID-19 only leads to one wave of hospital admissions, the
logistical models provides a preferable result, particullarly when the total number of admission
is assumed to be fixed. When predicting a long lasting pandemic with several waves of infection
we argue that the SIR models are superior, due to the ability to better model the dynamics och
disease transmission.


Innehåll
1 Inledning 3

1.1 Modeller för smittspridning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Teori 4
2.1 Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2 Linjär Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

2.2.1 Minsta kvadratmetoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Konfidens- och prediktionsintervall . . . . . . . . . . . . . . . . . . . . . . . 6

2.3 Ickelinjär regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3.1 Linjär approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Mekanistiska modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.1 Härledning av SIR-modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5 Utvärderingsmetoder för modellerna . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5.1 Root mean square error . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5.2 Mean absolute percentage error . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5.3 ISα scoring rule . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3 Metod 9
3.1 Inskrivningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.2 Logistiska modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Logistiska modellen med begränsat tak . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Logistiska modellen med mobilitetsdata . . . . . . . . . . . . . . . . . . . . . . . . 10
3.5 Logistiska modellen med mobilitetsdata och begränsat tak . . . . . . . . . . . . . . 10
3.6 Mobilitetsbaserad SIR-modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.6.1 Konfidens- och prediktionsintervall för SIR-modeller . . . . . . . . . . . . . 11
3.6.2 Global parameteroptimering . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.7 Jämförelse av modellerna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Resultat 12
4.1 Statistiska modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.2 SIR-modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4.2.1 Global paramtersökning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.3 Jämförelse av modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

4.3.1 MAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3.2 Interval score . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.3.3 Totala inskrivningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

5 Diskussion 14
5.1 Analys MAPE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
5.2 Analys ISα . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.3 Analys totalt antal inskrivningar . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
5.4 Kvalitativ jämförelse av modeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
5.5 Ytterligare förkunskaper och framtida problemställningar . . . . . . . . . . . . . . 16

6 Samhälleliga och etiska aspekter 17

7 Slutsats 18

8 Referenser 19

9 Appendix 21
9.1 Figurer från SIR-modellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2


1 Inledning
Få saker genom människans historia har skördat så många liv, och format våra samhällen så mycket
som pandemier [1]. Hundratals miljoner människor har dött som konsekvens av olika smittsamma
sjukdomar såsom pesten, polio och spanska sjukan [2]. Med modern vetenskap och läkemedel blir
vi bättre och bättre på att undvika dem, men de senaste åren har världen präglats av ännu en pan-
demi: covid-19-pandemin. I slutet av december 2019 meddelades WHO av kinesiska myndigheter
om utbrott av lunginflammation av okänt ursprung i Wuhan, Kina [3]. I januari 2020 identifierades
ett coronavirus som orsaken, och i mars meddelade WHO att utbrottet skulle klassas som en pan-
demi. Därefter dröjde det inte länge innan viruset spridit sig till alla världsdelar och stora delar
av världen stängdes ned.

Covid-19 är en så kallad droppsmitta, som huvudsakligen sprids via nära kontakter mellan män-
niskor genom små och stora droppar från luftvägarna [4]. Trots att viruset inte är en så kallad
luftburen smitta, kan de små dropparna finnas kvar i luften under en tid, och vistelse i trånga
utrymmen med dålig ventilation tillsammans med andra människor kan därför leda till infektion.
Smittan kan ta sig in i kroppen både via inandning och genom att röra ögon eller slemhinnor i
näsa och mun med kontaminerade händer. Genom att hålla avstånd från varandra samt tvätta
händerna kan smitta undvikas.

Sedan covid-19-pandemins början har Folkhälsomyndigheten använt matematisk modellering för
att försöka förutspå utvecklingen av pandemin. Modellerna har bland annat använts för att studera
och prediktera smittspridningen, sjukdomsfall och dödsfall i befolkningen, samt behovet av sjuk-
vårdsresurser [5]. Till detta kan olika modelltyper användas, varav några vanligt förekommande
är:

• Statistiska modeller. Dessa skapar prediktioner med antagandet att framtida data kommer
följa ett visst mönster i tid, till exempel antalet dagliga fall.

• Fackmodeller, eller tillståndsmodeller. Dessa är en typ av mekanistiska modeller, där popu-
lationen delas in i olika fack eller hälsotillstånd. Individer flyttas sedan mellan facken med
en viss takt.

• Agentbaserade modeller. Dessa är också en typ av mekanistiska modeller, som liknar till-
ståndsmodeller. Skillnaden är att varje individ beskrivs för sig, vilket kan ge en mer detaljerad
bild av demografin hos populationen.

1.1 Modeller för smittspridning
En matematisk modell är en abstrakt och förenklad beskrivning av ett verkligt fenomen eller
problem. Dessa modeller gör det möjligt att lösa komplexa problem numeriskt eller ge djupa-
re förståelse om vilka mekanismer som styr ett system [6]. I detta projekt används matematisk
modellering för att beskriva smittspridingen av covid-19, samt inskrivningar på Sahlgrenska Uni-
versitetssjukhus i Västra götalandsregionen till följd av covid-19. Inskrivningsdatan visas i Figur
1. Modelleringen har valts att begränsas till första vågen, det vill säga från 1 mars 2020 till 31 juli
2020. Detta på grund av att ingen sedan tidigare var vaccinerad eller haft viruset, vilket förenklar
modelleringen avsevärt. Modelleringen görs med hjälp av statistiska och mekanistiska modeller,
som implementeras i Python. De statistiska modellerna modellerar endast antalet inskrivningar,
medan de mekanistiska modellerna modellerar både antalet inskrivningar och smittspridningen.

3


(a) (b)

Figur 1: (a) Inskrivningsdata från Sahlgrenska Universitetssjukhus per dag. (b) Kumulativ inskriv-
ningsdata.

De statistiska modellerna som används är logistiska modeller, som huvudsakligen baseras på två
dataset: antalet inskrivningar per dag på Sahlgrenska Universitetssjukhus i början av pandemin
samt mobilitetsdata från Västtrafik. Mobilitetsdatan används som en parameter för att predik-
tera antalet inskrivningar, som sedan jämförs med det dataset som är hämtat från Sahlgrenska
Universitetssjukhus. Utöver det kommer extern kunskap användas om hur högt taket på antalet
inskrivna ska sättas till. Därefter används statistiska metoder och kurvanpassning för att förutspå
utvecklingen av antalet inskrivningar. För modelleringen används linjär och ickelinjär regression,
där koefficienterna anpassas till att passa kurvan för antalet inskrivningar.

De mekanistiska modellerna som används är SIR-modeller, vilka är en typ av fackmodeller. Dessa
utgörs av ett system av kopplade differentialekvationer som förutspår antalet mottagliga (Suseptible),
infekterade (Infectious) och återhämtade (Recovered) individer vid en viss tidpunkt. Med hjälp av
modellerna kan antalet inskrivningar uppskattas. Detta genom att anta att en andel p av antalet
infekterade individer vid samma tidpunkt kommer skrivas in på sjukhus efter ta veckor. Tidsför-
dröjningen ta är tiden från det att en person blir smittad tills denne blir inskriven [7]. Även dessa
modeller baseras på data för antalet inskrivningar på Sahlgrenska Universitetssjukhus respektive
mobilitetsdata från Västtrafik samt Google. Mobiliteten används som en parameter då den antas
påverka infektiviteten av viruset, eftersom smittöverföring sker i nära kontakt med andra männi-
skor.

Det genomgående syftet med denna rapport är att konstruera och jämföra olika statistiska och me-
kanistiska modeller för smittspridningen under den första vågen av covid-19. Jämförelsen kommer
göras på två sätt:

• Kvantitativt, genom konfidens- och prediktionsintervall, samt jämförelser av modellernas pre-
diktioner med det verkliga utfallet. Det görs med hjälp av mått som Root mean square error,
Mean absolute percentage error och ISα.

• Kvalitativt, genom för- och nackdelar med diverse användningsområden, samt en diskussion
kring samhälleliga och etiska aspekter.

Rapporten inleds härefter med ett teoriavsnitt för de statistiska respektive mekanisktiska model-
lerna. Därefter följer ett metodavsnitt som beskriver hur teorin implementerats för att konstruera
modellerna, samt hur modellerna ska jämföras. Sedan följer ett resultatavsnitt med figurer som
visar prediktionen för de olika modellerna, samt prediktionsfelen. Efter det kommer ett diskus-
sionsavsnitt med diskussion kring resultaten för respektive modelltyp, samt en jämförelse mellan
modellerna. Därefter följer en diskussion kring samhälleliga och etiska aspekter. Rapporten avslutas
sedan med vår slutsats.

2 Teori
I detta avsnitt hanteras teorin som ligger till grund för projektet. Teoriavsnittet inleds med att
behandla matematiska begrepp, viktiga satser och matematiska verktyg så som linjär och ickelinjär

4


regression. Dessa presenteras på djupet för att visa vilka metoder som använts för att optimera
och anpassa modellerna. Därefter introduceras grunderna för konstruktion av de mekanistiska samt
statistiska modeller som använts under projektets gång. Avslutningsvis presenteras de verktyg som
använts vid jämförelsen och konfidens- och prediktionsintervall för modellerna.

2.1 Regression
I detta arbete kommer sex olika modeller genereras. Alla dessa modeller kommer beskriva det ku-
mulativa antalet inskrivna, y från 2020-03-01 till dag t. Dessa modeller kommer baseras på ett par
olika dataset. För att anpassa dessa modeller till datan så kommer en metod som kallas regression
användas.

Regression är en metod med målet att anpassa en funktion utefter observerad data, oftast för
att få felet mellan funktionen och den observerade datan så litet som möjligt. Vid regression tän-
ker vi oss att de observerade datapunkterna yi följer en funktion h exakt men att det vid mätningen
av yi uppstår ett additivt fel ϵi. Skriver vi ut det har vi att

yi = h(xi,β) + ϵi, (1)

där xi är kända tillståndsvariabler och β är okända parametrar. Vi antar även att felen är oberoende
och att ϵi ∼ N(0, σ2) med en okänd standardavvikelse σ. Med denna notationen blir problemet
att välja en funktion h och hitta dess parametrar β så att felet mellan h och de observerade
datapunkterna blir så litet som möjligt. Exakt vilken metod som används för att bestämma β
beror på funktionen h [8].

2.2 Linjär Regression
Då h beror linjärt på xi i (1), det vill säga

yi = h(xi, β) = β0 + β1xi1 + β2xi2 + . . .+ βkxik + ϵi,

så har vi så kallad linjär regression. I detta fallet kan vi skriva om (1) på matrisform

y = Xβ + ϵ, (2)

där

y =


y1
y2
y3
...
yn

 , X =


1 x11 x12 . . . x1k

1 x21 x22 . . . x2k

1 x31 x32 . . . x3k

...
...

... . . .
...

1 xn1 xn2 . . . xnk

 ,β =


β0

β1

β2

...
βk

 , ϵ =


ϵ1
ϵ2
ϵ3
...
ϵk

 ,

n är antalet observationer, k är antalet variabler och ϵ ∼ N(0, Iσ2). En vanlig metod för att skatta
β vid linjär regression är minsta kvadratmetoden [9].

2.2.1 Minsta kvadratmetoden

Syftet med minstakvadratmetoden är att minimera den totala kvadratiska avvikelsen,

n∑
i=1

(yi − h(xi,β))
2

vilket i det linjära fallet blir

n∑
i=1

(yi − β0 − β1xi1 − β2xi2 − . . .− βkxik)
2.

5


Minimerar vi detta får vi skattningen

β ≈ argmin
β

(
n∑

i=1

(yi − β0 − β1xi1 − β2xi2 − . . .− βkxik)
2

)
= argmin

β

[
(y −Xβ)T (y −Xβ)

]
[9].

Minsta kvadrat skattningen, β, hittar vi genom att att lösa ekvationen

∂

∂β

[
(y −Xβ)T (y −Xβ)

]
=

∂

∂β

[
(yTy − 2yTXβ + βTXTXβ)

]
= 0.

Partialderiverar vi sedan med avsende på varje parameter av β får vi normalekvationen

XTXβ = XTy.

Om matrisen (XTX) sedan är inverterbar, är (XTX)−1XTy minsta kvadrat-skattningen av β

till y = Xβ + ϵ [9, Theorem 3.12]. Skattningen β̂ kommer vara normalfördelad med väntevär-
de β = (XTX)−1XTy och varians σ2(XTX)−1, där σ är standardavvikelsen för alla ϵi. Denna
standardavvikelse är obestämbar och måste därför skattas. En vanlig skattning är

s2 =

n∑
i=1

r2i
n− (k + 1)

, ri = yi − (β0 + β1xi1 + ...+ βkxik). (3)

Med denna skattning så får vi istället att β̂ är t-fördelad med n− (k + 1) frihetsgrader [9].

2.2.2 Konfidens- och prediktionsintervall

Givet en godtycklig datapunkt w = (1, w1, w2, ..., wk) så har vi nu en skattning ŷ = wT β̂. Även
denna skattning kommer att vara normalfördelad men med väntevärde E[ŷ] = wTβ och varians
Var(ŷ) = wTσ2(XTX)−1w. Skattar vi σ med (3) får vi ett konfidensintervall

y = wTβ ± a · s
√
wT (XTX)−1w,

där a kommer från t-distributionen med n− (k + 1) frihetsgrader och bestämmer hur stort konfi-
densintervallet ska vara. Vi beräknar a genom att först observera att

wT β̂ −wTβ

s
√
wT (XTX)−1w

∼ tn−(k+1).

Sedan för att få ett 1− α % konfidensintervall beräknar vi a så att

P

(
−a <

wT β̂ −wTβ

s
√
wT (XTX)−1w

< a

)
= 1− α.

För att få fram ett prediktionsintervall tar vi även hänsyn till mätfelet ϵ [9]. Detta ger oss en
extra term σ2 i variansen för vår skattning. Skattar vi återigen σ med (3) får vi prediktionsinter-
vallet

y = wTβ ± a · s
√
wT (XTX)−1w + 1 .

2.3 Ickelinjär regression
Då h i (1) inte är linjär så har vi så kallad ickelinjär regression. För ickelinjära h finns det inte alltid
något analytiskt sätt att skatta β som det finns vid linjär regression. Då måste man använda rent
numeriska metoder. För minsta kvadratmetoden beskrivet ovan måste man då använda numeris-
ka minimeringsmetoder. Även konfidens- och prediktionsintervall kan behövas skattas numeriskt.
Ibland går det dock att linjärisera problemen för att kunna använda teorin nämnd ovan [8].

6


2.3.1 Linjär approximation

Då det finns ett analytiskt uttryck för h, samt då h är deriverbar med avseende på β, kan vi
linjärisera h genom Taylorutveckling med avsende på β. Vi får då att

h(x, β̂) ≈ h(x,β) +∇βh(x,β)
T (β̂ − β) (4)

där β̂ är vår normalfördelade skattning och β är väntevärdet av denna skattning [8]. Med hjälp av
(4) kan vi approximera variansen av vår skattning,

Var
(
h(x, β̂)

)
= Var (h(x,β)) + Var

(
∇βh(x,β)

T β̂
)
+ Var

(
∇βh(x,β)

Tβ
)

= ∇βh(x,β)
TVar(β̂)∇βh(x,β),

(5)

enligt räknereglerna för varians. I (5) antas β och Var(β̂) vara kända sedan tidigare. Det som
återstår för att beräkna konfidens- och prediktionsintervall är att hitta väntevärdet av vår skattning
samt att skatta σ. Väntevärdet är likt vid den linjära regressionen h(x,β) och σ skattas på samma
sätt som i (3). Detta ger oss konfidensintervallet

y = h(x,β)± a

√
∇βh(x,β)TVar(β̂)∇βh(x,β)

och prediktionsintervallet

y = h(x,β)± a

√
∇βh(x,β)TVar(β̂)∇βh(x,β) + s2.

2.4 Mekanistiska modeller
En mekanistisk modell är en matematisk beskrivning av de element som formar ett system, samt
deras interaktioner med varandra respektive miljön [10]. Statistiska metoder används för att skatta
parametrar i modellen, vilket gör det möjligt att förutsäga beteendet hos systemet. Vid modellering
av epidemier används ofta SIR-modellen, som utvecklades av Kermack and McKendrick år 1927
[11]. Modellen är en fackmodell, vilket innebär att vid spridning av en infektion kan populationen
delas in i tre fack:

• Friska individer som kan bli smittade. Kallas för mottagliga individer (susceptible individu-
als), och betecknas med S.

• Smittade individer, som även antas vara smittsamma. Kallas för infekterade individer (infec-
ted individuals), och betecknas med I.

• Återhämtade individer, som även antas vara immuna, samt borttagna individer. Kallas för
återhämtade/borttagna individer (recovered/removed individuals), och betcknas med R.

Individer flyttas mellan de olika facken, och därav varierar deras storlek med tiden. En förutsättning
för modellen är att den totala populationsstorleken N antas vara konstant, och kan därav definieras
som summan av varje fack:

N = S(t) + I(t) +R(t).

Det finns dock SIR-modeller där födslar tas hänsyn till, i vilka även N är en funktion av tiden
N(t). Hur snabbt individer flyttas mellan facken beror på infektiviteten, β, respektive återhämt-
ningstakten, γ. Modellen kan beskrivas schematiskt med ett flödesschema enligt Figur 2.

Figur 2: Flödesscchema över hur individer flyttar mellan olika fack i SIR-modellen [12].

7


2.4.1 Härledning av SIR-modellen

SIR-modellen består av ett system av kopplade differentialekvationer som varierar med tiden, med
givna initialvillkor S(0), I(0) och R(0) [11]. Vi antar att en infekterad individ har κ kontakter per
tidsenhet, där κ är oberoende av populationsstorleken. Antalet kontakter med mottagliga individer
blir då κS/N . Med överförbarheten τ , det vill säga andelen kontakter som resulterar i smittöverfö-
ring, får vi att varje infekterad individ smittar κτS/N mottagliga individer per tidsenhet. Vidare
får vi att infektiviteten β = κτ/N = b/N per tidsenhet. För antalet mottagliga individer får vi
följande differentialekvation:

dS

dt
= −βSI,

som minskar med antalet individer som blir infekterade. Dessa ökar dock samtidigt i belopp, ef-
tersom det är en funktion av I, som blir större desto fler som blir infekterade. Individer flyttas
från fack S till I, varefter de individer som återhämtats eller dött flyttas vidare till fack R. Detta
sker med en återhämtningstakt γ per tidsenhet, som följer av infektionens varaktighet D = 1/γ
tidsenheter. Av detta fås följande differentialekvationer:

dI

dt
= βSI − γI

dR

dt
= γI.

Således bildar följande system av differentialfunktioner SIR-modellen [13]:

dS

dt
= −βSI

dI

dt
= βSI − γI

dR

dt
= γI

2.5 Utvärderingsmetoder för modellerna
För att utvärdera hur väl prediktionerna stämmer överens med inskrivningsdatan använder vi tre
olika metoder: Root mean square error, Mean absolute percentage error, samt ISα scoring rule.
Root mean square error och mean absolute percentage error används för att se hur väl modellerna
stämmer överens med inskrivningsdatan medan ISα är ett mått som beaktar både träffsäkerheten
och osäkerhet i prediktionerna.

2.5.1 Root mean square error

Root mean square error, eller RMSE, är en metod för att få fram en siffra som beskriver hur bra
en modell överensstämmer med det verkliga utfallet. RMSE beräknas som

RMSE =

√√√√ 1

n

n∑
i=1

(yi − xi)2 (6)

där n är antalet datapunkter, yi är modellens predikterade värde och xi är det verkliga värdet [14].

2.5.2 Mean absolute percentage error

Mean absolute percentage error, eller MAPE, är ett ytterliggare mått på hur modellen överens-
stämmer med det verkliga utfallet och fås i procent. MAPE beräknas som

MAPE =
1

n

n∑
i=1

| xi − yi
xi

| (7)

där n är antalet datapunkter, yi är modellens predikterade värde och xi är det verkliga värdet [15].

8


2.5.3 ISα scoring rule

För att ta hänsyn till osäkerheten i prediktionerna kan en scoring rule användas. Vi har valt att
använda ISα, som beräknas enligt

ISα(F, y) = (u− l) +
2

α
· (l − y) · 1(y < l) +

2

α
· (y − u) · 1(y > u) (8)

där F är modellen, y är den observerade datan vid tidpunkt t, u och l är den övre respektive
undre gränsen på det (1 − α) · 100% prediktionsintervallet av F vid tidpunkt t och 1(y < l) = 1
om y > l och 0 annars. Den första termen i (8) bestämmer bredden på prediktionsintervallet.
De andra två termerna är strafftermer som adderas om den observerade datan ligger utanför
prediktionsintervallen [16, sida 3-4].

3 Metod
Det primära verktyget som använts i projektet är programmeringsspråket Python, vilket genomför
alla beräkningar och hjälper oss visualisera resultaten. Utöver Pythons baskod har vi importerat
och använt olika bibliotek som innehåller viktiga funktioner, för att underlätta arbetet. Några av de
viktigaste biblioteken som använts är SciPy, Plotly, Numpy och Pandas. SciPy innehåller metoder
och funktioner som används brett inom naturvetenskap, men i vårt fall för att lösa differentialekva-
tionssystem samt optimering av parametrar. Plotly används frekvent genom projektet, eftersom
det erbjuder många olika sätt att visualisera och presentera data och resultat. Nympy och Pandas
används för importering och hantering av de olika dataset som framkommer i projektet. All kod,
inklusive datan, finns att hämta på projektets GitHub. Eftersom datan som används i detta projekt
är statisk fungerar även projektets Github som en databas för de dataset som används.

Till de modeller som togs fram användes tre olika dataset. Det första var antalet inskrivningar
på Sahlgrenska Universitetssjukhus per dag mellan datumen 2020-03-01 och 2020-07-31. I detta
dataset saknades data för vissa datum, där det antogs vara 0 inskrivningar. Det andra var mo-
bilitetsdata från Västtrafiks kundräkningssystem, beskrivet i veckovis procentuell skillnad i det
totala resandet jämfört med vecka 9 2020. Här avser den totala skillnaden i resandet, skillnaden i
resandet med buss, tåg och spårvagn. Det tredje var mobilitetsdata från Google, som innefattar en
procentändring av populationens rörelsemönster i kollektivtrafiken från ett basvärde som hämtades
från första datumet, (2020-03-01).

3.1 Inskrivningar
I denna rapport definieras en inskrivning som en person som skrivs in på sjukhus till följd av
covid-19. Detta inkluderar även de som inte vårdats på IVA-avdelningen. Antalet inskrivningar
kan beskrivas med hjälp av SIR-modellen genom att anta att en andel p = 0.013 av antalet
infekterade personer vid en viss tidpunkt kommer bli inskrivna efter ta = 21 dagar. Detta beror
på tidsfördröjningen från att en person blir smittad tills denne blir inskriven [7]. Dessa värden är
hämtade från en studie som gjort liknande prediktioner som i detta arbete. De är dock beräknade
för alla regioner i Sverige, och inte specifikt Sahlgrenska Universitetssjukhus upptagningsområde i
Västra götalandsregionen, från vilket inskrivningsdatan som används är hämtad.

3.2 Logistiska modellen
Den första statistiska modellen som anpassades till datan var den så kallade logistiska ekvationen

y = h(t,β) = h(t, L, k, t0) =
L

1 + e−k(t−t0)
. (9)

Denna modell beskriver det kumulativa antalet inskrivningar fram till dag t. För att anpassa denna
modell till inskrivningsdatan summerades därför inskrivningsdatan så att den beskrev det kumu-
lativa antalet från 2020-03-01 till dag t istället för antalet inskrivningar vid dag t. För att beräkna
β = (L, k, t0) samt covariansmatrisen för β̂, Var(β̂), användes scipy.optimize.curve_fit() som

9

https://github.com/Dan-Irl/MVEX-Matematiska-modeller-f-r-smittspridning


använder sig av en ickelinjär minstakvadratmetod. För att curve_fit() skulle kunna hitta en lös-
ning sattes en startgissning av β till (100, 1, 1). Valet av dessa siffror var ganska godtyckligt, alla
sattes till positiva tal då modellen inte riktigt fungerar för negativa värden.

För att beräkna konfidens- och prediktionsintervallen användes metoden beskriven i 2.3.1 där
gradienten av h med avseende på parametrarna beräknades till

∇βh =


1

1+e−k(t−t0)

L(t−t0)e
−k(t−t0)

1+e−k(t−t0)

−kLe−k(t−t0)

1+e−k(t−t0)

 .

3.3 Logistiska modellen med begränsat tak
Den andra statistiska modellen var också den logistiska ekvationen (9) men denna gången begrän-
sades maxtaket på antalet inskrivna L till att ligga mellan 1450 och 1550. Valet av 1450 och 1550
baserades på inskrivningsdatan och ska representera möjligheten att skatta taket i förväg baserat
på data från andra länder som ligger tidigare i smittspridningen. Detta gjordes genom att sätta
gränser i curve_fit(). I curve_fit() måste antingen alla eller inga parametrar ha gränser för att
det ska fungera. Gränserna för k och t0 sattes till 0 och ∞. Startgissningen ändrades till (1500, 1, 1)
för att vara innanför gränserna. Resterande löstes på samma sätt som för den logistiska ekvationen
utan begränsat tak.

3.4 Logistiska modellen med mobilitetsdata
Den tredje statistiska modellen var en anpassad logistisk ekvation som även tog hänsyn till mobi-
litetsdatan, m(t), från Västtrafik

y = y(t,β) = h(t, L, k, t0, d) =
L

1 + e−k(1+d·m(t−21))(t−t0)
. (10)

Skillnaden mellan (9) och (10) är en faktor 1+d·m(t−21) i exponenten. Denna faktor ska represen-
tera att hastigheten på antalet som skrivs in vid dag t påverkas av mobiliteten av populationen 21
dagar innan dag t. Valet av 21 dagar baserades på en studie som visade att mobilitetrestriktioner
påverkade antalet inläggningar 9 till 25 dagar framåt [7]. I termen är d en parameter mellan 0 och
1 som ska skattas. Anledningen till just detta intervall är att −k(1 + d ·m(t− 21)) inte ska kunna
bli positivt.

Datan från Västtrafik var veckovis men inskrivningsdatan var dagsvis. Därför användes linjär
interpolation för att göra mobilitetsdatan från Västtrafik dagsvis. Mobilitetsdatan från Västtrafik
sträckte sig inte tillräckligt långt bak i tiden så det antogs att resandet vecka 6, 7 och 8 var samma
som vecka 9.

Denna modell löstes på samma sätt som den logistiska modellen med curve_fit() och meto-
den från 2.3.1 men med andra parametrar, ett till dataset och en gradient, ∇βh, beräknad från
(10).

3.5 Logistiska modellen med mobilitetsdata och begränsat tak
Den fjärde statistiska modellen var (10) men där L var begränsad till att ligga mellan 1450 och
1550. Detta gjordes på samma sätt som för den logistiska ekvationen med begränsat tak.

3.6 Mobilitetsbaserad SIR-modell
Den första mobilitetsbaserade SIR-modellen baserades på Google mobilitetsdata hämtad från Our
world in data. Detta dataset kommer från Google’s Community Mobility Report som publicerades
på grund av covid-19-pandemin. På liknande sätt hämtades även mobilitetsdatan för kollektivtrafik

10


från Västtrafik. För att kunna använda mobilitetsdatan som en tidsberoende parameter interpo-
lerades datapunkterna till tidsberoende funktioner. Dessa mobilitetsfunktioner användes sedan i
SIR-modellen som tidsberoende parametrar, dock med koefficienter för att bilda en viktad linjär-
kombination:

κ = c0 + c1 ∗ Mobility data function (t)

där c0 representerar en basal infektivitetshastighet, c1 viktar mobilitetsfunktionen och κ är kontak-
ter per tidsenhet. Dessa koefficienter skattades sedan med hjälp av SciPy’s curve_fit()-funktion
vilket returnerar de optimala värdena samt deras kovarians. Här skattades c0 och c1 så att felet
mellan antalet infekterade individer I från modellen och inskrivningsdata minimerades. Återhämt-
ningstakten γ sattes till 0.2 för dagliga modellen och till 1.4 veckoliga modellen [7].

Tidsstegen i modellen har fram tills nu varit dagsvis, men en veckobaserad modell implementerades
också för att ge en mjukare trend jämfört med den mer oregelbundna dagsmodellen. Veckomodellen
konstruerades genom att summera den dagliga inskrivningsdatan till veckolig och sedan parame-
teroptimera till detta dataset istället.

3.6.1 Konfidens- och prediktionsintervall för SIR-modeller

Eftersom SIR-modellen saknar en analytiskt lösning kommer konfidens- och prediktionsintervall
beräknas med hjälp av en parametrisk bootstrap [7]. För beräkning av konfidensintervall definie-
rades en matris av modellvärden, genom att generera nya parametervärden för modellen utifrån
en normalfördelning i varje tidsintervall. För normalfördelningen användes de optimala värdera för
parametrarna som medel samt deras kovarians som erhölls från curve_fit(). Konfidensintervallen
beräknades med stödfunktionen quantile() från Numpy. Denna funktion tar emot en matris av
modellvärden samt en konfidensintervallgräns och returnerar värdena för konfidensintervallet.

Prediktionsintervallen beräknades på liknande sätt som konfindensintervallen, med skillnaden att
både parametrarnas varians och modellens mätfel måste inkorporeras. En fördelning av para-
metrar plockades ut som tidigare ur en normalfördelning. Medelvärdet antogs vara 0 och stan-
dardavvikelsen av felet mellan modellen och datan beräknades. För att skatta felet användes
en t-fördelningsfunktion och värden genererades för varje tidssteg. Parameterfördelningen samt
mätfels-fördelningen användes för att generera datapunkter. Med hjälp av quantile()-funktionen
beräknades den undre och övre gränsen av prediktionsintervallet i varje tidssteg.

3.6.2 Global parameteroptimering

Utöver parameteroptimering med curve_fit() gjordes också en global sökning av parametervär-
den. Här genererades ett intervall av parametervärden, varefter varje kombination av dessa olika
värden ställdes upp i en matris för att skapa ett parameterrum. Parameterrummet utvärderades se-
dan genom att skapa en konturplot av log(RMSE) mot parameterrummet, vilket gjordes enkelt med
Plotly. Detta möjliggör att visuellt hitta lokala minimum samt bra startvärden för curve_fit()
att optimera från. Detta gjordes för data från både Västtrafik och Google.

3.7 Jämförelse av modellerna
För att jämföra modellerna användes tre olika metoder. Alla gick ut på att anpassa modellerna till
ett ökande antal datapunkter n, där en datapunkt motsvarar en dag. Sedan beräknades hur bra
modellens prediktioner stämde överens med datan som följde efter träningsdatan. De tre metoderna
är:

• MAPE, som beräknades för de 21 nästkommande dagarna efter n. Se Ekvation (7).

• ISα scoring rule, som beräknade osäkerheten i parametrarna. Här beräknades medeltalet över
de nästkommande 21 dagarna efter n. Se Ekvation (8).

• Jämförelse av det totala antalet inskrivna vid den sista tidpunkten, 2020-07-31.

11


4 Resultat
Följande avsnitt innehåller resultat för statistiska respektive SIR-modellerna, samt en jämförande
del där olika utvärderingsmetoder används. Dessa ger en bättre förståelse av prediktionsförmåga,
stabilitet och applicerbarhet av modellerna.

4.1 Statistiska modeller
I Figur 3 ser vi en logistisk modell anpassad till all inskrivningsdata, det vill säga 153 datapunkter.
I Figur (3a) ser vi modellen där endast inskrivningsdatan använts för att anpassa den logistiska
ekvationen. I Figur (3b) inkluderar modellen även ett tak på totalt antal inskrivningar. Villkoret
säger att det totala antalet inskrivningar vid slutdatum ska vara mellan 1450 och 1550 inskrivning-
ar. I Figur (3c) anpassas den logistiska ekvationen till inskrivningsdata samt mobilitetsdata från
Västtrafik. I Figur (3d) används inskrivnings- och mobilitetsdata, och det sätts ett tak på totalt
antal inskrivningar vid slutdatum mellan 1450 och 1550 inskrivningar 1.

(a) (b)

(c) (d)

Figur 3: (a) visar den statistiska modellen, (b) visar den statistiska modellen med tak, (c) visar den
statistiska modellen med mobilitetsdata och (d) visar den statistiska modellen med mobilitetsdata
samt tak plottad mot inskrivningsdata med konfidens- och prediktionsintervall.

4.2 SIR-modeller
I detta avsnitt kommer de samlade resultaten för SIR-modellerna, inklusive parametersökningen
som gjordes för att hitta goda startvärden för parameteroptimisering av curve_fit().

4.2.1 Global paramtersökning

Resulatet från parametersökningen kan ses i Figur 9a-10b i Appendix 9.1. Vi observerade att RM-
SE skiljer sig mycket berode på vart man placerar sig i parameterrummet, och därför minskades
sökområdet för parameter c1. Utifrån denna plot valdes en initial gissning för parameteranpass-
ningen för Västtrafik mobilitetsdata till c1 = 1, c2 = 0.07.

Den globala parametersökningen för Googles mobilitetsdata gav ett mindre tydligt resultat. Vi ob-
serverade att ett fel log(RMSE) under 4.4 hittas i en stor del av parameterrummet. En nedskalning
av parameterrummet gav bättre resultat. Utifrån resultatet valdes en initial gissning för Googles

1Grafer med alla resultat för alla olika n finner du här.

12

https://github.com/Dan-Irl/MVEX-Matematiska-modeller-f-r-smittspridning/tree/main/gifs


mobilitetsdata till c0 = 3, c1 = 0.6.

Med de implementerade initialgissningarna fortsatte Västtrafiks mobilitetsdata att ge goda resultat
vid modellanpassning, medan Googles mobilitetsdata var för oregelbunden för parameteranpass-
ning med curve_fit(). På grund av detta togs beslutet att förkasta modellen baserad på Google
mobilitetsdata och endast fortsätta med den Västtrafik-baserade modellen. Preliminärt resultat
för Västtrafik baserad modell kan ses i Figur 11 i Appendix 9.1.

De slutgiltiga resultaten för de dagsbaserade samt veckobaserade modellerna, som blivit anpas-
sade till hela datasetet av inskrivningar, kan ses i Figur 4 vilket visar det kumulativa antalet
inskrivningar.

(a) (b)

Figur 4: (a) visar den dagsbaserade kumulativa SIR-modellen. (b) visar veckobaserade kumulativa
modellen plottad mot inskrivningsdata med konfidens- och prediktionsintervall.

4.3 Jämförelse av modeller
Nedan följer jämförelser av modellerna med tre olika metoder: MAPE, ISα score samt totalt antal
inskrivna vid ett slutdatum. Utifrån dessa kommer modellerna utvärderas och diskuteras.

4.3.1 MAPE

I Figur 5 ser vi resultatet av MAPE för både de logistiska modellerna och SIR-modellerna mot
ökande mängd anpassningsdata.

(a) (b)

Figur 5: MAPE beräknat som en funktion av ökande anpassningsdata för (a) de logistiska-
modellerna, och (b) SIR-modellerna.

4.3.2 Interval score

I Figur 6 ser vi resultatet av ISα score för både de logistiska modellerna och SIR-modellerna mot
ökande mängd anpassningsdata.

13


(a) (b)

Figur 6: ISα score beräknat som en funktion av ökande anpassningsdata för (a) de logistiska-
modellerna, och (b) SIR-modellerna.

4.3.3 Totala inskrivningar

I Figur 7 ser vi resultatet av totala antalet inskrivningar vid 31 juli 2020 för både de logistiska
modellerna och SIR-modellerna mot ökande mängd anpassningsdata.

(a) (b)

Figur 7: Totalt antal inskrivningar beräknat som en funktion av ökande anpassningsdata för (a)
de logistiska-modellerna, och (b) SIR-modellerna.

5 Diskussion
I detta avsnitt diskuteras resultatet i samma ordning som de är presenterade i föregående avsnitt.
En diskussion hålls om varje jämförelsemetod för de logistiska modellerna och SIR-modellerna,
där de gås igenom individuellt och sedan jämförs med varandra. Därefter diskuteras behovet av
ytterligare kunskap och eventuella framtida problemställningar inom ämnet.

5.1 Analys MAPE
I Figur 5a ser vi att alla fyra logistiska modeller blir bättre på att prediktera de 21 nästkommande
dagarna ju mer data de tränas på. Detta kan dels bero på att modellerna i allmänhet stämmer
mer överens med datan då de tränas på mer data. Det kan dock också bero på att förändringen i
antalet inskrivningar avtar då t är stort, detta kan göra att prediktionerna blir säkrare.

I Figur 5a ser vi även att de modeller med begränsat tak är sämre på att prediktera de 21 nästkom-
mande än de som inte har begränsat tak när de har data fram till april att anpassa sig efter. De är
dock betydligt bättre på att prediktera när de har data fram till maj och juni att anpassa sig efter.
Att de är bättre senare beror på att det begränsade taket gör störst nytta i slutet då modellerna
enligt begränsningarna hamnar nära det faktiska värdet. Att de är sämre med mindre data, fram
till april, beror på att inskrivningsdatan inte är helt utformad som en logistisk kurva, se Figur
3. Detta gör att de modeller med begränsat tak hela tiden begränsas till att ha fel form samti-
digt som de utan begränsat tak kan anpassa sig mer till hur inskrivningsdatan ser ut fram till april.

För SIR-modellerna observerar vi i Figur 5b att det finns en generell trend av sjunkande MAPE

14


med ökande mängd anpassningsdata. Dock ökar MAPE mot slutet av anpassningsdatan för den
dagliga modellen. Vi observerar generellt en relativt stor varians för MAPE, det vill säga MAPEs
värde är känsligt för hur många och vilka datapunkter som utgör anpassningsdatan. Över lag ob-
serveras ett mindre fel i veckoliga modellen.

Om vi jämför MAPE-resultatet för logistiska och SIR-modellerna ser vi att SIR-modellen har
ett lägre initialt MAPE som sedan stannar mellan 0-20%, medan de logistiska modellerna har
ett högt initialt MAPE som till slut, med tillräckligt mycket anpassningsdata, når ett fel som är
jämförbart med SIR-modellerna.

5.2 Analys ISα

I Figur 6a ser vi att de två modellerna med begränsat tak har liknande kurvor och att de modellerna
utan begränsat tak också har liknande kurvor. Detta beror på att de modeller med begränsat tak
har stora prediktionsintervall samtidigt som de utan begränsat tak har smala prediktionsintervall.
Detta gör att det framförallt är bredden på prediktionsintervallen som bestämmer ISα för de med
begränsat tak. För de modeller utan begränsat tak är det istället strafftermerna som dominerar
ISα. Särskilt stor skillnad mellan modellerna med och utan begränsat tak är det i slutet. Detta
eftersom de med begränsat tak har smala prediktionsintervall som ändå innesluter inskrivningsda-
tan och därmed får små ISα värden. De med obegränsat tak får något större prediktionsintervall
men trots detta innesluter de inte inskrivningsdatan. Därav får de väldigt stora ISα-värden.

Om vi i Figur 6a jämför modellerna utan begränsat tak ser vi att modellen med mobilitetsda-
ta hela tiden har lägre värden än den utan. Detta beror på att den har en parameter extra som
kan göra att den bättre anpassas till inskrivningsdatan samtidigt som den generellt sett har större
prediktionsintervall och därmed oftare innesluter inskrivningsdatan. Om vi istället jämför de med
begränsat tak så ser vi att modellen utan mobilitetsdata har lägre ISα värden förutom runt april.
Detta beror på att båda modellerna i stort följer inskrivningsdatan och att prediktionsintervallen
för båda innesluter inskrivningsdatan. Prediktionsintervallen för modellen utan mobilitetsdata är
dock mindre än de för modellen med mobilitetsdata, därav lägre ISα-värden. Att ISα-kurvan får
en topp runt april beror på att prediktionsintervallen minskar kring april och inskrivningsdatan
hamnar då utanför prediktionsintervallen. Detta beror på att inflexionspunkten på den logistiska
kurvan hamnar runt april-maj och då blir (t− t0)-termen i ∇βh väldigt liten vilket gör att predik-
tionsintervallen minskar.

ISα för SIR-modellerna ser dock ganska annorlunda ut, vi observerar direkt en stor skillnad i
storleksordning av ISα mellan logistiska modellerna och SIR-modellerna. Logistiska modellerna
når ett maxvärde på cirka 7000 medan SIR-modellerna når maxvärden över 30 000. Vi observerar
också att värdet ökar med mängden inskrivningsdata. De höga ISα-värdena för den dagsbasera-
de modellen kan vara ett resultat av att modellen var svår att anpassa till datan, se Figur 4a.
Det vill säga breda prediktionsintervall som växer med mängden inskrivningsdatan. Den veckoliga
modellen visar ett mycket stabilare ISα dock också med en uppåttrend, vilket förklaras av att
prediktionsintervallets bredd växer med mängden inskrivingsdata även i detta fall.

Jämför vi logistiska och SIR modellerna i Figur 6 kan vi konstatera att logistiska modellerna
speciellt dem med tak generarar bäst resultat med andra ord högst säkerhet i prediktionen.

5.3 Analys totalt antal inskrivningar
I Figur 7 ser vi resultatet av beräknade kumulativa inläggningar på IVA mellan första mars och sista
juli. Vi observerar i Figur 7a att de logistiska modellerna med tak direkt predikterar att slutgiltiga
antalet inskrivningar ska vara cirka 1500, vilket är förväntat av dessa modeller på grund av att
initialgissningen var 1500 inskrivningar. För modellerna utan tak observerar vi att prediktionerna
för slutgiltigt antal inskrivningar blir grovt underskattade med liten mängd inskrivningsdata. Det-
ta resultat är inte helt oväntat då modellen gör en lång framtidsprediktion med liten datamängd.
Dessa resultat medför att en modell med tak är att föredra för långsiktiga prediktioner, förutsatt

15


att det finns goda kunskaper eller argument att grunda värdet av taket på. För kortsiktiga predik-
tioner erbjuder modeller med eller utan tak liknande resultat som vi såg i MAPE-resultatet.

I Figur 7b ser vi resultatet av beräknade kumulativa inskrivningar för båda SIR-modellerna. Vi
observerar att kurvan stiger väldigt hastigt för den dagsbaserade modellen, medan mer rimliga vär-
den presenteras om beräkningen görs veckovis. Anledningen till detta kan vara att modellen svarar
för fort på inskrivningsdatan vid den dagliga beräkningen. Efter ett tag når modellen ett tak och
därmed sjunker antalet inskrivningar fort igen. Vad gäller den veckovisa modellen hinner modellen
anpassa sig till taket innan antalet inskrivningar ökar för mycket, därav ser kurvan mer stabil ut.
Över lag erbjuder dagliga SIR-modellen ett dåligt resultat för långsiktiga framtida prediktioner
med låg mängd inskrivningsdata medan veckoliga modellen erbjuder ett jämförtbart bra resultat
även med låg mängd inskrivningsdata.

Totala antalet inskrivningar vid ett slutdatum visade sig vara problematiskt att prediktera för
alla modeller då datamängden var liten, förutom logistiska modellerna med tak som diskuterats
tidigare. De logistika modellerna har en tendens att underskatta de totala inskrivningarna vil-
ket är förväntat med tanke på logistiska funktionens mittvärdesparameter, t0, som uppskattas av
curve_fit(). Detta leder till att modellen når sitt maximala värde för tidigt, vilket medför en
underskattning av slutvärdet. Detta till skillnad från SIR-modellerna som överskattar slutgiltiga
antalet inläggningar speciellt vid låga datamängder. Detta är också förväntat beteende då SIR-
modellerna tidigt i pandemin beskriver exponentiell tillväxt, och om infektiviteten överskattas som
vid låg datamängd kan responsen av modellen snabbt bli väldigt stor. Utifrån detta resultat kan vi
konstatera att veckoliga SIR modellen producerar bäst långsiktig prediktion bortsätt från logistiska
modellerna med tak.

5.4 Kvalitativ jämförelse av modeller
Både logistiska modellerna och SIR-modellerna producerade användbara resultat i en efterstudie
som denna, men under en aktiv pandemi har båda metoderna olika styrkor och svagheter. För att
kunna använda den logistiska metoden krävs att infektionen endast sker i en våg, eller att modellen
endast beskriver en våg åt gången, vilken är en stor begränsning. De logistiska modeller där ett tak
används, krävs också kunskap om vad det totala antalet infektioner kommer bli, vilket kan vara
väldigt svårt att uppskatta tidigt i en pandemi. Fördelen med logistiska modellerna att de inte
kräver mobilitetsdata, till skillnad från SIR-modellerna. Dessutom kräver SIR-modellerna kunskap
om återhämtningstakten γ samt längden på tidsfördröjningen mellan infektion och inskrivning på
sjukhus. Båda dessa parameterar påverkar modellen starkt och är därför väldigt viktiga att få rätt,
vilket också kan vara svårt i början på en pandemi. En klar styrka med SIR-modellen är dock att
den kan beskriva flera vågor.

5.5 Ytterligare förkunskaper och framtida problemställningar
Som tidigare nämnts finns det en mängd olika variationer och valmöjligheter av vilka modeller
som kan användas för modellering av smittspridning. Beroende på hur mycket förkunskap man har
från smittspridningar med liknande karaktär kan man enklare anpassa det förebyggande arbetet
till framtida pandemier. Problemet med covid-19 och dess mutationer är att mekanismerna för
hur smittan fortlöper ser olika ut för varje variant. För att kunna prediktera och konstruera väl
anpassade modeller för dessa krävs stora mängder data om de olika biologiska faktorer som spelar
in på hur befolkningen smittar varandra genom kontakt samt hur kraftig reaktion smittan har.

En ambition med projektet var att även applicera bayesianska modeller på vårt aktuella område.
Med en sådan modell kan man beräkna sannolikheten att smittspridningen kommer fortlöpa på
ett specifikt sätt beroende på tidigare kunskap om smittspridningen och modellera därefter med
ny insamlad empirisk data. Detta hade varit ett sätt att utveckla modelleringen vidare, men vi
valde att begränsa oss till de urval av statistiska och mekanistiska modeller som diskuterats tidigare.

Framgången av artificiell intelligens är också ett fenomen som kan öppna möjligheter för en grad

16


förbättringar inom modellereingsområdet. Detta då man kan lära modeller att använda data som
känns igen och med hjälp av detta anpassa ny data som uppkommer. Till exempel kan man tillämpa
”Neural Ordinary Differential Equations” på mekanistiska modeller och på så sätt få ut prediktio-
ner från data utan att definiera ekvationssystemen själv på förhand [17]. Med denna utveckling
kommer en mängd problem som behöver tas hänsyn till. Kan en AI vara tillräcklig pålitlig för att
prediktera fortgången av en epidemi? Det arbete vi genomfört kan eventuellt användas som grund
för att utveckla AI-baserade modeller och är därmed en viktig problemställning att uppmärksam-
ma.

Något som inte togs hänsyn till i denna rapport är vaccinationens bromsning av smittspridningen
av covid-19. Grunden till detta är att en mängd andra parametrar behöver hanteras och optimeras
vilket leder till att mycket mer komplicerade modeller bör konstrueras. Dock finns stor potential för
framtida problemställningar om just modellering med hänsyn till massvaccination för att utveckla
dessa modeller mer.

6 Samhälleliga och etiska aspekter
Covid-19-pandemin har i över två års tid drabbat hela världens samhälleliga strukturer på en
mängd olika plan. Allt från folkhälsan till statsekonomin världen över har påverkats, och flera år
av återuppbyggnad kommer krävas för att återgå till hur det var innan pandemin.

Matematiska modeller, som de vi har behandlat i denna rapport, ska i huvudsak fungera som verk-
tyg för samhällets olika organ, för att kunna se tillbaka på hur man tidigare hanterat pandemier
och hur det påverkade smittans spridning och samhället i stort. Modellerna kan även användas
för att förutspå framtida krissituationer. På så sätt kan de fungera som prediktioner för hur man
bör agera för minsta påverkan på samhället i stort. Ett mer nischat område för våra modeller är
planering inom sjukvården. Dels på grund av datan vi använt, som kommer från just inskrivningar
på sjukhus, och dels på grund av det kortare tidsintervall som vi begränsat oss till. Modellerna
förutspår smittans utveckling tre veckor framåt i tiden vilket skulle kunna användas för att planera
sjukvården för kommande veckor.

Viktigt att tillägga är att modeller som dessa kan bli missvisande om de inte genomgår ständig
granskning och hålls uppdaterade. Det är exempelvis inte hållbart att förlita sig på endast en mo-
dell. Detta beror på att sådana här modeller kan vara baserade på ett flertal olika parametrar som
kan vara mer specifika för vissa områden. Till exempel konstruerades de modeller som vi hanterat
på statistik från Västra Götalandsregionen vad gäller antal inskrivningar på sjukhus, samt befolk-
ningens mobilitet under den tid som undersökts. Detta innebär att dessa modeller lämpar sig väl
till regioner med liknande utbredning och storlek. Däremot uppstår problem då den appliceras på
mindre befolkade områden eller för att ge ett helhetsperspektiv på covid-19-pandemins fortgång i
hela Sverige.

En konsekvens av oförsiktighet eller förhastade slutsatser kan vara att felaktiga prognoser sprids
i samhället. Detta leder till desinformation som är skadligt både för den offentliga och privata
sektorn. Beroende på hur regeringar väljer att agera statspolitiskt utifrån de prediktioner som
modellerna kan ge, påverkar detta hela samhället. Utifrån detta perspektivet kan man även disku-
tera hur korrupta regeringar kan använda felaktiga prognoser till sin egen fördel genom att styra
befolkningens beteende. Ett viktigt arbete för att motverka detta är att se till att det finns ett
tydligt och transparent samarbete mellan myndigheter och flera olika forskningsinstitutioner.

17


7 Slutsats
Sammanfattningsvis observerar vi från resultatavsnittet att MAPE över lag minskar med tiden och
ISα över lag ökar med tiden. Detta gäller för alla modeller förutom de logistiska modellerna med
tak. Detta kan tolkas som att felet i modellerna minskar med mängden anpassningsdata medan
osäkerheten av modellerna ökar. Logistiska metoden producerar bättre resultat så länge det är
känt att infektionen endast kommer hålla i en våg och även bättre om taket kan beräknas. Vid
prediktioner över en mer utdragen pandemi med flera vågor så lämpar sig en mekanistisk modell
som SIR bättre då den kan modelera denna mer dynamiska ineffektivitet bättre.

18


8 Referenser
[1] D. Huremović, “Brief History of Pandemics (Pandemics Throughout History)”, Psychiatry

of Pandemics, s. 7–35, 2019. doi: 10.1007/978- 3- 030- 15346- 5{\_}2. URL: https:
//link.springer.com/chapter/10.1007/978-3-030-15346-5_2.

[2] “Visualizing the History of Pand Visualizing the History of Pandemics”, URL: https://www.
visualcapitalist.com/history-of-pandemics-deadliest.

[3] WHO/Europe | Coronavirus disease (COVID-19) outbreak - About the virus. URL: https:
//www.euro.who.int/en/health-topics/health-emergencies/coronavirus-covid-
19/novel-coronavirus-2019-ncov.

[4] Smittspridning — Folkhälsomyndigheten. URL: https://www.folkhalsomyndigheten.se/
smittskydd-beredskap/utbrott/aktuella-utbrott/covid-19/om-sjukdomen-och-
smittspridning/smittspridning/.

[5] A. Jöud, P. Gerlee, A. Spreco och T. Timpka, “Sammanställning och utvärdering av modeller
för pandemiprediktion i Sverige under 2020”, Chalmers tekniska högskola och Göteborgs uni-
versitet, tekn. rapport, 2021, s. 46. URL: https://libris.kb.se/bib/9pd99cc97s93zqr4.

[6] P. Gerlee och T. Lundh, Vetenskapliga modeller : svarta lådor, röda atomer och vita lögn-
er. Studentlitteratur, 2012, isbn: 9789144074207. URL: https : / / search . ebscohost .
com/login.aspx?direct=true&db=cat07470a&AN=clc.bbbecf26.579d.49ce.b546.
2bd319745313 & site = eds - live & scope = site & authtype = guest & custid = s3911979 &
groupid=main&profile=eds.

[7] P. Gerlee, J. Karlsson, I. Fritzell m. fl., “Predicting regional COVID-19 hospital admissions
in Sweden using mobility data”, Scientific Reports 2021 11:1, årg. 11, nr 1, s. 1–8, dec. 2021,
issn: 2045-2322. doi: 10.1038/s41598-021-03499-y. URL: https://www.nature.com/
articles/s41598-021-03499-y.

[8] A. Ruckstuhl, “Introduction to nonlinear regression”, IDP Institut für Datenanalyse und
Prozessdesign. ZHAW Zürcher Hochschule für Angewandte Wissenschaften. stat. ethz. ch/
stahel/courses/cheming/nlreg10E. pdf, 2010.

[9] X. Yan och X. Su, Linear Regression Analysis: Theory And Computing. Singapore, SING-
APORE: World Scientific Publishing Company, 2009, isbn: 9789812834119. URL: http:
//ebookcentral.proquest.com/lib/chalmers/detail.action?docID=477274.

[10] E. Stalidzans, M. Zanin, P. Tieri m. fl., “Mechanistic Modeling and Multiscale Applications
for Precision Medicine: Theory and Practice”, https://home.liebertpub.com/nsm, årg. 3, nr 1,
s. 36–56, maj 2020. doi: 10.1089/NSM.2020.0002. URL: https://www.liebertpub.com/
doi/full/10.1089/nsm.2020.0002.

[11] M. Martcheva, An Introduction to Mathematical Epidemiology. Boston, MA: Springer US,
2015, vol. 61, isbn: 978-1-4899-7611-6. doi: 10.1007/978-1-4899-7612-3.

[12] (PDF) Mathematical models for introduction, spread and early detection of infectious dise-
ases in veterinary epidemiology. URL: https://www.researchgate.net/publication/
318394911_Mathematical_models_for_introduction_spread_and_early_detection_
of_infectious_diseases_in_veterinary_epidemiology.

[13] H. Weiss, “The SIR model and the Foundations of Public Health”, 2013.

[14] D. S. K. Karunasingha, “Root mean square error or mean absolute error? Use their ratio as
well”, Information Sciences, årg. 585, s. 609–629, mars 2022, issn: 0020-0255. doi: 10.1016/
J.INS.2021.11.036.

[15] A. de Myttenaere, B. Golden, B. Le Grand och F. Rossi, “Mean Absolute Percentage Error
for regression models”, Neurocomputing, årg. 192, s. 38–48, juni 2016, issn: 0925-2312. doi:
10.1016/J.NEUCOM.2015.12.114.

[16] J. Bracherid, E. L. Ray, T. Gneitingid och N. G. Reichid, “Evaluating epidemic forecasts in
an interval format”, 2021. doi: 10.1371/journal.pcbi.1008618.

19

https://doi.org/10.1007/978-3-030-15346-5{\_}2
https://link.springer.com/chapter/10.1007/978-3-030-15346-5_2
https://link.springer.com/chapter/10.1007/978-3-030-15346-5_2
https://www.visualcapitalist.com/history-of-pandemics-deadliest
https://www.visualcapitalist.com/history-of-pandemics-deadliest
https://www.euro.who.int/en/health-topics/health-emergencies/coronavirus-covid-19/novel-coronavirus-2019-ncov
https://www.euro.who.int/en/health-topics/health-emergencies/coronavirus-covid-19/novel-coronavirus-2019-ncov
https://www.euro.who.int/en/health-topics/health-emergencies/coronavirus-covid-19/novel-coronavirus-2019-ncov
https://www.folkhalsomyndigheten.se/smittskydd-beredskap/utbrott/aktuella-utbrott/covid-19/om-sjukdomen-och-smittspridning/smittspridning/
https://www.folkhalsomyndigheten.se/smittskydd-beredskap/utbrott/aktuella-utbrott/covid-19/om-sjukdomen-och-smittspridning/smittspridning/
https://www.folkhalsomyndigheten.se/smittskydd-beredskap/utbrott/aktuella-utbrott/covid-19/om-sjukdomen-och-smittspridning/smittspridning/
https://libris.kb.se/bib/9pd99cc97s93zqr4
https://search.ebscohost.com/login.aspx?direct=true&db=cat07470a&AN=clc.bbbecf26.579d.49ce.b546.2bd319745313&site=eds-live&scope=site&authtype=guest&custid=s3911979&groupid=main&profile=eds
https://search.ebscohost.com/login.aspx?direct=true&db=cat07470a&AN=clc.bbbecf26.579d.49ce.b546.2bd319745313&site=eds-live&scope=site&authtype=guest&custid=s3911979&groupid=main&profile=eds
https://search.ebscohost.com/login.aspx?direct=true&db=cat07470a&AN=clc.bbbecf26.579d.49ce.b546.2bd319745313&site=eds-live&scope=site&authtype=guest&custid=s3911979&groupid=main&profile=eds
https://search.ebscohost.com/login.aspx?direct=true&db=cat07470a&AN=clc.bbbecf26.579d.49ce.b546.2bd319745313&site=eds-live&scope=site&authtype=guest&custid=s3911979&groupid=main&profile=eds
https://doi.org/10.1038/s41598-021-03499-y
https://www.nature.com/articles/s41598-021-03499-y
https://www.nature.com/articles/s41598-021-03499-y
http://ebookcentral.proquest.com/lib/chalmers/detail.action?docID=477274
http://ebookcentral.proquest.com/lib/chalmers/detail.action?docID=477274
https://doi.org/10.1089/NSM.2020.0002
https://www.liebertpub.com/doi/full/10.1089/nsm.2020.0002
https://www.liebertpub.com/doi/full/10.1089/nsm.2020.0002
https://doi.org/10.1007/978-1-4899-7612-3
https://www.researchgate.net/publication/318394911_Mathematical_models_for_introduction_spread_and_early_detection_of_infectious_diseases_in_veterinary_epidemiology
https://www.researchgate.net/publication/318394911_Mathematical_models_for_introduction_spread_and_early_detection_of_infectious_diseases_in_veterinary_epidemiology
https://www.researchgate.net/publication/318394911_Mathematical_models_for_introduction_spread_and_early_detection_of_infectious_diseases_in_veterinary_epidemiology
https://doi.org/10.1016/J.INS.2021.11.036
https://doi.org/10.1016/J.INS.2021.11.036
https://doi.org/10.1016/J.NEUCOM.2015.12.114
https://doi.org/10.1371/journal.pcbi.1008618


[17] R. T. Chen, Y. Rubanova, J. Bettencourt och D. Duvenaud, “Neural ordinary differential
equations”, i Advances in Neural Information Processing Systems, vol. 2018-December, Neural
information processing systems foundation, 2018, s. 6571–6583.

20


9 Appendix

9.1 Figurer från SIR-modellen

Figur 8: Mobilitetsdata från Västtrafik i procentuell ändring från basvärdet.

(a) Konturplot av log(RMSE) mot parameterrum-
met för Västtrafik mobilitetsdata.

(b) Konturplot av log(RMSE) mot parameterrum-
met för mobilitetsdata från Västtrafik med försto-
ring av markerat område i (a) som sökområde för
c1.

Figur 9: Konturplot av log(RMSE) mot parameterrummet för mobilitetsdata från Västtrafik för
olika stora sökområden.

21


(a) Konturplot av log(RMSE) mot parameterrum-
met för mobilitetsdata från Google.

(b) Konturplot av log(RMSE) mot parameterrum-
met för mobilitetsdata från Google med förstoring
av markerat område i (a) som sökområde för c1.

Figur 10: Konturplot av log(RMSE) mot parameterrummet för mobilitetsdata från Google för olika
stora sökområden.

Figur 11: Övre delen av figuren visar den veckobaserade modellen. Undre delen visar den dagsba-
serade SIR-modellen plottad mot inskrivningsdata med konfidens- och prediktionsintervall.

22


	Inledning
	Modeller för smittspridning

	Teori
	Regression
	Linjär Regression
	Minsta kvadratmetoden
	Konfidens- och prediktionsintervall

	Ickelinjär regression
	Linjär approximation

	Mekanistiska modeller
	Härledning av SIR-modellen

	Utvärderingsmetoder för modellerna
	Root mean square error
	Mean absolute percentage error
	IS scoring rule


	Metod
	Inskrivningar
	Logistiska modellen
	Logistiska modellen med begränsat tak
	Logistiska modellen med mobilitetsdata
	Logistiska modellen med mobilitetsdata och begränsat tak
	Mobilitetsbaserad SIR-modell
	Konfidens- och prediktionsintervall för SIR-modeller
	Global parameteroptimering

	Jämförelse av modellerna

	Resultat
	Statistiska modeller
	SIR-modeller
	Global paramtersökning

	Jämförelse av modeller
	MAPE
	Interval score
	Totala inskrivningar


	Diskussion
	Analys MAPE
	Analys IS
	Analys totalt antal inskrivningar
	Kvalitativ jämförelse av modeller
	Ytterligare förkunskaper och framtida problemställningar

	Samhälleliga och etiska aspekter
	Slutsats
	Referenser
	Appendix
	Figurer från SIR-modellen