Investigating storage solutions for large data - A comparison of well performing and scalable data storage solutions for real time extraction and batch insertion of data

dc.description.abstractThere are several systems developed today to handle the problem of storing large amounts of data. But for each type of data and set of operations different systems differ in suitability. Burt AB stores a large dataset, enlarged in batches in a regular and controlled way, but never updated. Query times are critical and must have real-time performance. This thesis describes a systematic exploration and testing of possible solutions, with the goal of recommending one of these for Burt AB. Inherent properties of the dataset itself are investigated and a set of very different database management systems are combined with a set of database schemas in order to form a total of eleven potential solutions of interest. We show that the relational model suits the data well and that the maturity of MySQL gives us confidence when recommending it compared to the more recently developed systems. Furthermore, indexing using an inverted index is found to yield the best results. Sammanfattning Det finns ett stort antal system som utvecklats för att lösa problemet med att hantera mycket data, men vilken lösning som är bäst beror på vilken typ av data man har. Burt AB hanterar en stor datamängd som fylls på med mycket ny data på ett regelbundet och kontrollerat sätt, men aldrig uppdateras. Läsning av datan måste dock kunna ske i realtid. Denna uppsats beskriver en systematisk utforskning och testning av möjliga lösningar, med målet att rekomendera en av dessa för Burt AB. Egenskaper hos datan själv undersöks, och en handfull väldigt olika databashanteringssystem är kombinerade med olika datasscheman för att skapa totalt elva olika potentiella lösningar. Vi visar att relationsmodeller passar datan väl, och att mognadsnivån hos MySQL ger den ett övertag gentemot andra mer nyligen utvecklade system. Utöver detta så visar det sig att inverterade index är den bäst lämpade lösningen för bra resultat.
dc.titleInvestigating storage solutions for large data - A comparison of well performing and scalable data storage solutions for real time extraction and batch insertion of data
