PageRank, questo sconosciuto?



Nel 1998 Larry Page e Sergey Brin, prendendo spunto dalle idee di base di Hypersearch (algoritmo per motore di ricerca ideato da Massimo Marchiori, ricercatore dell'Universita' di Venezia) introducono il PageRank come algoritmo per il calcolo dell'importanza di una pagina Web.

Google interpreta un link che collega una pagina a un'altra come un 'voto', misurando poi l'importanza di una pagina in base ai 'voti' che essa riceve.

Quindi, se un sito viene linkato da un'altro classificato come importante a sua volta acquistera' maggiore valore, perche' si presume che un sito con contenuti di buona qualita' (e quindi con alto pagerank) non ne linkera' un altro se sprovvisto di contenuti altrettanto buoni.

Da cio' ne consegue che i risultati di una ricerca classificati come piu' importanti e di maggior qualita' ricevono un PageRank piu' alto, e vengono quindi inseriti nella parte alta dell'elenco dei risultati.In questo modo il Pagerank arriva ad indicare l'importanza che Google attribuisce a una determinata pagina Web, a prescindere dalla chiave di ricerca che genera l'elenco.

In pratica: l'elenco dei risultati viene ottenuto incrociando la chiave di ricerca con i contenuti delle pagine, ma l'ordine nel quale vengono presentati i risultati dipende dal PageRank e quindi dalla qualita' della pagina indicizzata.

In termini matematici, il calcolo del PageRank viene effettuato con la seguente equazione:

(Da Wikipedia)

L'algoritmo completo per il calcolo del PageRank fa ricorso all'uso della teoria dei processi di Markov.

Dalla formula è possibile comprendere come il PageRank viene distribuito tra le pagine:

PR[A] = (1 - d) + d ( PR[T1]/C[T1] + ... + PR[Tn]/C[Tn])

Dove:

  • PR[A] è il valore di PageRank della pagina A che vogliamo calcolare
  • T1...Tn sono le pagine che contengono almeno un link verso A
  • PR[T1] ... PR[Tn] sono i valori di PageRank delle pagine T1 ... Tn
  • C[T1] ... C[Tn] sono il numero complessivo di link contenuti nella pagina che offre il link
  • d (damping factor) è un fattore deciso da Google e che nella documentazione originale assume valore 0,85. Può essere aggiustato da Google per decidere la percentuale di PageRank che deve transitare da una pagina all'altra e il valore di PageRank minimo attribuito ad ogni pagina in archivio.

Negli ultimi tempi l'algoritmo del PageRank ha pero mostrato alcune lacune: si e' assistito ad un lento ma progressivo degrado della qualita' dei risultati forniti da google.Il motivo principale era da imputare alla comunita' di WebSpammer, riuscita a trovare il modo di 'fregare' Google utilizzando un grosso numero di pagine fittizie contenenti solo ed esclusivamente link alle pagine di cui si volesse aumentare il PageRank.

Sono stati creati veri e propri web network per influenzare artificialmente il ranking dei siti partecipanti. Mettere in atto questa strategia non è cosa semplice, tantomeno economica (si pensi solo alle risorse da dedicare alla gestione di ciascun dominio ed al costo di acquisto di domini con alto page rank), ma, una volta creato un gruppo iniziale di domini sufficientemente forte, poi basta aggiungere i link ai siti da "ottimizzare" ed il gioco è fatto.

Google e' quindi corso ai ripari e con l'ultimo algoritmo questa tecnica non è diventata di colpo inefficace, ma gli sviluppatori del motore californiano sono riusciti a identificare alcune delle caratteristiche di questi network "artificiali", penalizzando parte dei siti che li compongono.

Dal febbraio 2005 truccare quindi i risultati con il link spamming è diventato più difficile (malgrado lo stesso motore abbia poi fatto alcuni passi indietro dopo aver pienamente valutato gli effetti indesiderati del piccolo terremoto creato nei listing).


Published: December 30 2005

  • category: