Distributed Document Processing - Search index optimization by data preprocessing and workload distribution

dc.contributor.authorSjöberg, Johan P
dc.contributor.authorSvensson, Sture
dc.contributor.departmentChalmers tekniska högskola / Institutionen för data- och informationsteknik (Chalmers)sv
dc.contributor.departmentChalmers University of Technology / Department of Computer Science and Engineering (Chalmers)en
dc.date.accessioned2019-07-03T12:17:29Z
dc.date.available2019-07-03T12:17:29Z
dc.date.issued2009
dc.description.abstractThis thesis investigates the possible improvements to indexing files stored on servers in a local network; it is a known fact that the task of indexing is very time demanding and network consuming. At the same time the servers possess potentially unused processing capabilities. The proposed improvement given by this thesis is to distribute the tasks of text extraction and data processing to the idle processing capabilities of the servers. In addition to the theoretical basis of the improvement a working java prototype is also constructed. The prototype is designed to be capable of interoperability with virtually any existing indexing service via a unison adapter interface. It's also constructed to be able to handle any file type by an extractor interface. In addition the system also provides network synchronization and load distribution mechanisms. The result of the investigation indicates that the gains from the constructed system are substantial, especially regarding decreasing the magnitude of generated network traffic as well as reducing the overall time needed to perform the indexing operation. Relieving the index server of some work also implies that less powerful server configuration is necessary to effectively perform the indexing task. // Sammanfattning Denna uppsats undersöker möjlig förbättring av att samla in nätverkslagrade filer för indexering. Det är ett känt faktum att indexering är en mycket tidskrävande och nätverksbetungande uppgift, samtidigt som servrar som lagrar filer har potentiellt stora mängder outnyttjade resurser. De föreslagna förbättringarna i denna uppsats baseras på att fördela ut textutvinning och databehandling till ledig processeringskapacitet på servrarna. Utöver undersökningar av den teoretiska grunden för förbättringarna har även en applikation skrivits i java. Prototypen är utformad för att vara kapabel att samverka med i princip alla befintliga indexeringstjänster via ett adaptergränssnitt. Den är också byggd för att potentiellt kunna hantera samtliga filtyper via ett textextraheringsgränssnitt. Utöver distribuering så tillhandahåller systemet även nätverkssynkronisering och belastningsdelning. Resultatet av undersökningen visar att vinsten från distribuering är betydande, särskilt när det gäller att minska nätverkstrafiken men även på den totala tidsåtgången för indexeringen. Den minskade belastningen på indexservern leder även till att en mindre kraftfull server kan användas för att utföra indexeringen.
dc.identifier.urihttps://hdl.handle.net/20.500.12380/112070
dc.language.isoeng
dc.setspec.uppsokTechnology
dc.subjectDatorteknik
dc.subjectComputer Engineering
dc.titleDistributed Document Processing - Search index optimization by data preprocessing and workload distribution
dc.type.degreeExamensarbete för masterexamensv
dc.type.degreeMaster Thesisen
dc.type.uppsokH
Ladda ner
Original bundle
Visar 1 - 1 av 1
Hämtar...
Bild (thumbnail)
Namn:
112070.pdf
Storlek:
629.07 KB
Format:
Adobe Portable Document Format
Beskrivning:
Fulltext