Utveckling och utvärdering av en AI-agent baserad på förstärkningsinlärning för problemlösning i spelet Sokoban
Hämtar...
Ladda ner
Publicerad
Författare
Typ
Examensarbete på kandidatnivå
Bachelor Thesis
Bachelor Thesis
Program
Modellbyggare
Tidskriftstitel
ISSN
Volymtitel
Utgivare
Sammanfattning
Detta arbete har genomförts som ett examensarbete vid Chalmers tekniska högskola
och behandlar utveckling och utvärdering av en AI-agent baserad på förstärkningsinlärning för problemlösning i spelet Sokoban. Syftet med projektet var att undersöka
huruvida olika RL-algoritmer (Reinforcement Learning) såsom PPO, REINFORCE, SARSA och Tabular Q-learning kan lösa problemet, samt att jämföra dessa
med varandra och utvärdera hur de presterar.
Projektet har implementerats i Python och Unity. SARSA, Tabular Q-learning
och REINFORCE tränades i en Python-implementation av Sokoban och kördes på
Chalmers superdator Minerva, varefter de tränade modellerna utvärderades i Unity
miljön. PPO tränades och utvärderades direkt i Unity med hjälp av ML-Agents
ramverket.
Resultatet från projektet visar att tabellbaserad algorithmer som SARSA och Ta
bular Q-learning inte är tillräckliga för att lösa Sokoban då algoritmerna memorerar
lösningarna för tränade kartor och saknar förmågan att generalisera till nya, osedda
kartor. REINFORCE, som bygger på ett neuralt nätverk, visade däremot en viss
förmåga att lösa problemet givet tillräcklig träning och presterade bättre än SARSA
och Q-learning på nya, osedda testkartor. Däremot överträffade den inte en slump
mässig agent på dessa kartor, vilket indikerar att modellen inte uppnådde tillräcklig
generalisering.
Beskrivning
Ämne/nyckelord
Sokoban, AI-agent, Reinforcement learning, SARSA, REINFORCE, Q learning, PPO
