Il semantic web e l’evoluzione dell’indicizzazione

I motori di ricerca possono essere considerati come la base fondamentale del web che conosciamo e utilizziamo oggi. Nonostante la loro utilità, sono però afflitti da alcuni problemi, in gran parte sono causati dal sovraccarico informazionale degli ultimi anni, che ne limitano le potenzilità:

  • Bassa precisione e grande numero di risultati proposti. Le pagine rilevanti vengono recuperate e mostrate ma sono accompagnate da molti altri risultati inutili, questo fatto può portare anche alla “perdita” dei risultati validi nell’insieme.
  • Mancanza di risultati. Può capitare – ormai raramente – che alcune pagine non vengano recuperate e mostrate tra i risultati anche se rilevanti.
  • Dipendenza dei risultati dalla terminologia usata nei documenti. Una query effettuata con certi termini può non dare risultati i che si otterrebbero invece usando dei sinonimi.
  • Risultati limitati ad una serie di documenti non interconnessi tra loro. Una visione d’insieme è ottenibile solo recuperando i vari documenti e raccogliendo le informazioni ma questa operazione è a carico dell’utente.

L’ostacolo principale verso un miglioramento di questa situazione è sicuramente l’incapacità delle macchine di interpretare e comprendere i contenuti – come abbiamo già detto in precedenza – ed il modo in cui si sta cercando di risolvere il problema è la creazione di contenuto in formato machine-understandable tramite la creazione del Semantic Web.

Quello dei motori di ricerca diventa quindi – data la sua rilevanza per il web – uno dei canali più importanti per la diffusione del Semantic Web ma anche per il suo sviluppo nel marketing; nuovi motori che riconoscono ed interpretano i dati semantici presenti nelle pagine che scansionano presentandoli nei risultati della ricerca come informazioni aggiuntive degli elementi cui si riferiscono rappresentano un grande passo avanti in questo senso.
In una fase “bleeding edge” come questa, risultati più dettagliati e precisi non fanno altro che aumentare notevolmente la rilevanza – per il momento solo in termini di presentazione – di quel determinato il risultato semantico fra i tanti rappresentati nel formato classico, dando anche un senso di completezza e affidabilità della sorgente all’utente. Da questo punto di vista un’evoluzione dell’indicizzazione spinge gli autori delle pagine web ad applicare il prima possibile le tecnologie semantiche, trasformando l’evoluzione in uno shift necessario e rendendo la ricerca semantica la “Killer-App” per il semantic web grazie al “circolo-virtuoso” che si può instaurare e alle possibilità di advertising che porta con sè. Lo sviluppo di una tecnologia non può che essere aiutato dall’aumentato interesse economico che può derivarne, per questo SEO e semantic web possono aiutarsi vicendevolmente.
Scott Brinker propone il termine SEO++  – facendo riferimento al cambio di paradigma della programmazione object-oriented – per identificare la nuova tipologia di SEO che dovrà essere applicata nel futuro semantico dell’indicizzazione. Il SEO++
si differenzia dal SEO perchè richiede la conoscenza delle tecnologie di integrazione dei metadati nelle pagine web, come RDFa ed i Microformats , per poter comprendere le migliori strategie per il posizionamento dell’azienda nel “data web”[Scott Brinker].
Stanno nascendo motori di ricerca “semantici”, mentre anche quelli già esistenti si evolvono in questa direzione. Per quanto riguarda Yahoo!, nel Maggio 2008 è stato lanciata ufficialmente la piattaforma SearchMonkey ed il supporto di Yahoo! Search per le tecnologie microformats ed RDFa.
Google non sembra muoversi – almeno in via ufficiale – verso il supporto delle tecnologie semantiche. Ciò che possiamo evidenziare è il sistema di “Direct Answer” di Google, che mostra il risultato di una domanda, posta come termine della ricerca, nella pagina dei risultati organici; questa funzionalità, già disponibile dal 2005, può far pensare ad un qualche metodo di recupero di informazioni semantiche anche da fonti che non utilizzano tecnologie di markup, il che sarebbe uno dei più importanti passi avanti nel’ambito del semantic web. Questa ipotesi può nascere dal fatto che alcune domande, ad esempio “who is tim berners-lee wife?”, ricevono risposte che citano sorgenti che non rappresentano i dati in modo semantico ma Google al momento fa uso solo di analisi statistiche e di una semantica minima nel sistema Pagerank. In che modo quindi Google recupera queste informazioni? Un progetto che applica un approccio top-down oppure algoritmi di analisi sulla struttura det dati (ad esempio i template di Wikipedia)?
Non c’è molta chiarezza a riguardo e quindi non è facile definire la posizione di Google in questo ambito, anche se ci si può immaginare che il supporto verso RDFa e microformats non potrà tardare più di tanto vista la loro futura diffusione che sarà coadiuvata dallo sviluppo di nuove applicazioni.

Esempio di “Direct Answer” di Google

Fonti:
– A Semantic Web Primer, 2nd Edition – Grigoris Antoniou e Frank van Harmelen – The MIT Press 2008]
http://www.chiefmartec.com/, Scott Brinker

Reblog this post [with Zemanta]
Annunci

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...

%d blogger hanno fatto clic su Mi Piace per questo: