Motore di ricerca intelligente
di MONYA BAKER
Risultati: Alcuni motori di ricerca, come Clusty e Teoma, suddividono i risultati in categorie che consentono agli utenti di restringere il campo di indagine. I ricercatori dell’Ibm hanno progettato un algoritmo per cui i programmi di ricerca riescono a mostrare una selezione più ampia di segnalazioni suddivise per macroaree ma analizzando il contenuto di un campione ristretto di risultati piuttosto che quello di ogni pagina. Il team ha passato in rassegna 1,8 milioni di pagine Web, esaminando sia la totalità dei siti richiamati che campioni specifici selezionati dall’algoritmo. E hanno scoperto che anche quando il campione era costituito dall’1 per cento appena dei risultati ottenuti, l’algoritmo riusciva ad evincerne la maggior parte delle macrocategorie derivabili dalla totalità dei siti segnalati.
Perché è importante: Cercare informazioni online può essere estremamente frustrante, specialmente quando i termini di ricerca hanno molteplici significati a seconda dei diversi contesti. Suddividere i risultati in “cluster” di argomenti correlati può aiutare ad abbattere i tempi, ma i motori di ricerca più popolari che utilizzano tale tecnica esaminano solo le poche centinaia di segnalazioni più rilevanti per estrarne dei macrotemi ricorrenti. Pertanto argomenti anche con moltissime pagine dedicate rischiano comunque di venire ignorati a vantaggio di soggetti più alla moda associati alle stesse parole chiave: una ricerca su “macintosh”, per esempio, individuerà come prevalenti milioni di siti di argomento informatico, ma probabilmente tralascerà del tutto le pagine dedicate a Charles Macintosh, il padre dell’impermeabile. La metodologia di campionamento ideata invece da Aris Anagnostopoulos, ora alla Brown University, e Andrei Broder e David Carmel dell’Ibm consente agli utenti di localizzare subito le pagine di cui hanno bisogno, anche se i termini di ricerca sono un po’ ambigui.
Metodo: In una ricerca ad ampio spettro, non è facile isolare un campione rappresentativo. La maggior parte dei motori di ricerca assembla i risultati non tutti in una volta, ma a scaglioni. Prima genera una lista di pagine per ogni termine inserito. Poi le mischia, a circa un centinaio di risultati alla volta, utilizzando gli operatori logici derivati dalla ricerca, per esempio i termini come “e” oppure “o”. L’algoritmo Ibm, invece, passa in rassegna simultaneamente i vari elenchi, selezionando pagine Web a caso e aggiungendole al campione qualora esse soddisfino i parametri di ricerca. L’algoritmo è progettato in modo che ogni sito di ogni lista abbia la stessa percentuale di possibilità di essere scelto. Successivamente, il campione viene utilizzato dal motore per individuare le macroaree.
La fase successiva: Ideare tecniche di campionamento in grado di gestire, personalizzandole, le più svariate tipologie di ricerca potrebbe portare a una classificazione più veloce dei risultati. Anagnostopoulos, inoltre, vuole capire se attribuendo un peso maggiore, nella determinazione delle categorie, alle pagine meno popolari si può ulteriormente ottimizzare il processo.
© Technology Review




Rispondi Citando