Documentation : http://nsed.sourceforge.net/html/nsed.html


ABSTRACTS


Questa tesi nasce dall'esigenza, sempre maggiore, di reperire informazioni da sistemi informatici in maniera efficiente e precisa.

Il Sistema Distribuito che descriveremo, denominato Network Search Engine (NSE), aderisce al progetto dell'OpenSource, ed è stato interamente sviluppato in ambiente Linux.

L'NSE è costituito da 2 entità di base: il Broker, che ha il compito di gestire la topologia di rete e le richieste di query dai Client/Agent e l'Agent, che deve invece evadere la query e successivamente inviarla al Client/Agent che l'aveva richiesta. L'Agent lavora in due modalità: Concentratore, quando ha il compito di riunire la query distribuita, e Locale quando deve gestire solo una parte della query distribuita.

L'NSE è costituito da N partizioni, ognuna delle quali gestisce in maniera disgiunta una parte del Dbase FullText Distribuito. Ogni partizione può essere composta da K repliche, questo per ragioni di Efficienza e Affidabilità. Ogni replica è composta da un Broker il quale gestisce M Agent; il numero di Agent dipende dalla quantità di query che vogliamo evadere contemporaneamente. La richiesta di una query viene inviata dal Client ad un Broker, il quale sceglierà, con politica RR (Round Robin), l'Agent (che lavora in modalità Concentratore) libero. Tale Agent invierà agli altri N-1 Brokers la richiesta di query, aspettando i dati che gli verranno forniti dagli altri N-1 Agents (che lavorano in modalità Locale), quest'ultimi selezionati dai relativi N-1 Brokers.

Il Dbase FullText Distribuito usa "Inverted Files" come metodo di indicizzazione e "Document Partition" per suddividere gli indici nelle N Partizioni. Per quanto riguarda l'algoritmo di rilevanza, "Ranking", esso sfrutta l'unione di due noti algoritmi, "Extended Boolean Model" e "Vector Model", opportunamente modificati per lavorare in ambiente distribuito. Il tutto è stato ottimizzato per limitare I/O su disco e ridurre la dimensione degli indici, in modo da avere la massima velocità di risposta. (ErressE).


This thesis is born from the requirement, always greater, of reperire information from computer science systems in efficient way and specifies. Distributed Sistema that we will describe, called Network Search Engine (NSE), joins to the plan of the OpenSource, and has been entire developed in Linux atmosphere. The NSE is constituted from 2 entities of base: the Broker, that he has the task to manage the topology of network and the demands for query from the Client/Agent and the Agent, that must instead evade the query and subsequently inviarla to the Client/Agent that had demanded it. The Agent works in two modality: Concentratore, when it has the task to re-unite the query distributed, and Premises when it must only manage a distributed part of the query. The NSE is constituted from N partitions, ognuna di.le which manages in way disgiunta a part of the Dbase Distributed FullText. Every partition can be composed from K retorts, this for reasons of Efficiency and Reliability. Every retort is composed from a Broker which it manages M Agent; the number of Agent depends on the amount of query that we want to escape at the same time. The demand for a query comes sended from the Client to a Broker, which it will choose, with politics RR (Round Robin), the Agent (that it works in Concentratore modality) free. Such Agent will send other N-1 Brokers the demand for query, waiting for the data that will come to it supplied from other N-1 Agents (that they work in Local modality), this last selected from relative N-1 Brokers. The Dbase Distributed FullText uses " Inverted Files " like method of indexing and " Document Partition " in order to subdivide the indices in N Partitions. As far as the algorithm of importance, " Ranking ", it takes advantage of the two union notices algorithms, " Extended Boolean Model " and " Vector Model ", opportunely modified in order to work in distributed atmosphere. All it is optimized in order to limit I/O on disc and to reduce the dimension of the indices, so as to to have the maximum speed of answer.

(ErressE).

SourceForge.net Logo