Utveckling och utvärdering av en AI-agent baserad på förstärkningsinlärning för problemlösning i spelet Sokoban

Hämtar...
Bild (thumbnail)

Publicerad

Typ

Examensarbete på kandidatnivå
Bachelor Thesis

Program

Modellbyggare

Tidskriftstitel

ISSN

Volymtitel

Utgivare

Sammanfattning

Detta arbete har genomförts som ett examensarbete vid Chalmers tekniska högskola och behandlar utveckling och utvärdering av en AI-agent baserad på förstärkningsinlärning för problemlösning i spelet Sokoban. Syftet med projektet var att undersöka huruvida olika RL-algoritmer (Reinforcement Learning) såsom PPO, REINFORCE, SARSA och Tabular Q-learning kan lösa problemet, samt att jämföra dessa med varandra och utvärdera hur de presterar. Projektet har implementerats i Python och Unity. SARSA, Tabular Q-learning och REINFORCE tränades i en Python-implementation av Sokoban och kördes på Chalmers superdator Minerva, varefter de tränade modellerna utvärderades i Unity miljön. PPO tränades och utvärderades direkt i Unity med hjälp av ML-Agents ramverket. Resultatet från projektet visar att tabellbaserad algorithmer som SARSA och Ta bular Q-learning inte är tillräckliga för att lösa Sokoban då algoritmerna memorerar lösningarna för tränade kartor och saknar förmågan att generalisera till nya, osedda kartor. REINFORCE, som bygger på ett neuralt nätverk, visade däremot en viss förmåga att lösa problemet givet tillräcklig träning och presterade bättre än SARSA och Q-learning på nya, osedda testkartor. Däremot överträffade den inte en slump mässig agent på dessa kartor, vilket indikerar att modellen inte uppnådde tillräcklig generalisering.

Beskrivning

Ämne/nyckelord

Sokoban, AI-agent, Reinforcement learning, SARSA, REINFORCE, Q learning, PPO

Citation

Arkitekt (konstruktör)

Geografisk plats

Byggnad (typ)

Byggår

Modelltyp

Skala

Teknik / material

Index

Endorsement

Review

Supplemented By

Referenced By