Investigating storage solutions for large data - A comparison of well performing and scalable data storage solutions for real time extraction and batch insertion of data

Examensarbete för masterexamen

Please use this identifier to cite or link to this item: https://hdl.handle.net/20.500.12380/123839
Download file(s):
File Description SizeFormat 
123839.pdfFulltext1.07 MBAdobe PDFView/Open
Type: Examensarbete för masterexamen
Master Thesis
Title: Investigating storage solutions for large data - A comparison of well performing and scalable data storage solutions for real time extraction and batch insertion of data
Authors: Lith, Adam
Mattsson, Jakob
Abstract: There are several systems developed today to handle the problem of storing large amounts of data. But for each type of data and set of operations different systems differ in suitability. Burt AB stores a large dataset, enlarged in batches in a regular and controlled way, but never updated. Query times are critical and must have real-time performance. This thesis describes a systematic exploration and testing of possible solutions, with the goal of recommending one of these for Burt AB. Inherent properties of the dataset itself are investigated and a set of very different database management systems are combined with a set of database schemas in order to form a total of eleven potential solutions of interest. We show that the relational model suits the data well and that the maturity of MySQL gives us confidence when recommending it compared to the more recently developed systems. Furthermore, indexing using an inverted index is found to yield the best results. Sammanfattning Det finns ett stort antal system som utvecklats för att lösa problemet med att hantera mycket data, men vilken lösning som är bäst beror på vilken typ av data man har. Burt AB hanterar en stor datamängd som fylls på med mycket ny data på ett regelbundet och kontrollerat sätt, men aldrig uppdateras. Läsning av datan måste dock kunna ske i realtid. Denna uppsats beskriver en systematisk utforskning och testning av möjliga lösningar, med målet att rekomendera en av dessa för Burt AB. Egenskaper hos datan själv undersöks, och en handfull väldigt olika databashanteringssystem är kombinerade med olika datasscheman för att skapa totalt elva olika potentiella lösningar. Vi visar att relationsmodeller passar datan väl, och att mognadsnivån hos MySQL ger den ett övertag gentemot andra mer nyligen utvecklade system. Utöver detta så visar det sig att inverterade index är den bäst lämpade lösningen för bra resultat.
Keywords: Datavetenskap (datalogi);Computer Science
Issue Date: 2010
Publisher: Chalmers tekniska högskola / Institutionen för data- och informationsteknik, Datavetenskap (Chalmers)
Chalmers University of Technology / Department of Computer Science and Engineering, Computing Science (Chalmers)
URI: https://hdl.handle.net/20.500.12380/123839
Collection:Examensarbeten för masterexamen // Master Theses



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.