Calais Marmoset

febbraio 3, 2009

Calais è un progetto promosso da Thomson Reuters e basato sulla tecnologia ClearForest per la creazione automatizzata di contenuto semantico. L’iniziativa è composta da un web service che permette di generare dati in formato RDF da blocchi di testo – per il momento solo in Inglese – utilizzando algoritmi di Natural Language Processing che evidenziano entità, risorse e fatti come persone, luoghi, associazioni, etc… Questo servizio è libero e accessibile a tutti – da qui OpenCalais – sia per sviluppi commerciali che non.

calais1

Rappresentazione del funzionamento del Web Service Calais – http://www.opencalais.com

Tra gli strumenti che accompagnano Calais e le applicazioni sviluppate su di esso, è presente il tool Calais Marmoset, che in sintesi può essere definito come un “microformats injector” che una volta installato inserisce nel sito web dati strutturati con i microformats, con lo scopo di rendere la pagina indicizzabile dai crawler di Yahoo! Search e raggiungibile dalle applicazioni sviluppate tramite SearchMonkey [vedi review]. Marmoset si basa sul Calais Web Service per ricavare dai contenuti delle pagine dati semantici senza che sia necessario una strutturazione delle informazioni da parte del proprietario del sito web. Per fare ciò, Marmoset individua le richieste effettuate dai search robot alle pagine web del sito su cui è installato, a quel punto richiama il web service Calais che ricava le informazioni e le struttura e le inserisce all’interno del codice della pagina formattate con il microformat adeguato. Se ad esempio nel contenuto della pagina analizzata Calais individua una persona, Marmoset inserisce i dati relativi codificati con hCard nella pagina, automaticamente. Questo strumento rappresenta una visione del Semantic Web come futuro standard dei motori di ricerca per il recupero delle informazioni ed è un valido aiuto nell’implementazione delle tecnologie semantiche nelle pagine web, bisognerà però verificare a che livelli il codice generato potrà contribuire in una buona strategia di SEO orientato al semantic web, poichè la creazione di dati strutturati “al volo” potrebbe non essere così valida come l’integrazione “statica” di questi all’interno delle pagine. Inoltre, la scelta dei microformats piuttosto che teniche più formali come RDFa – che è utilizzata da Dapper Semantify [del quale ho già parlato qui] – potrebbe essere discutibile a causa delle limitazioni che presentano e che si ripercuotono anche sulle loro possibilità di essere adeguatamente supportati dai motori di ricerca: se un nuovo microformat viene sviluppato per risolvere un determinato problema, il motore di ricerca deve essere aggiornato in maniera da poterlo indicizzare ma evidentemente anche Marmoset dovrà supportarlo per poterlo generare ed inserire nelle pagine; diventa così necessario un doppio livello di aggiornamento.

Queste conferme potranno essere date solo quando la “Semantic Web Optimization” diventerà un vero punto di riferimento per migliorare il posizionamento di un sito web tra le SERPs.

Enhanced by Zemanta
Annunci

Il semantic web e l’evoluzione dell’indicizzazione

gennaio 27, 2009

I motori di ricerca possono essere considerati come la base fondamentale del web che conosciamo e utilizziamo oggi. Nonostante la loro utilità, sono però afflitti da alcuni problemi, in gran parte sono causati dal sovraccarico informazionale degli ultimi anni, che ne limitano le potenzilità:

  • Bassa precisione e grande numero di risultati proposti. Le pagine rilevanti vengono recuperate e mostrate ma sono accompagnate da molti altri risultati inutili, questo fatto può portare anche alla “perdita” dei risultati validi nell’insieme.
  • Mancanza di risultati. Può capitare – ormai raramente – che alcune pagine non vengano recuperate e mostrate tra i risultati anche se rilevanti.
  • Dipendenza dei risultati dalla terminologia usata nei documenti. Una query effettuata con certi termini può non dare risultati i che si otterrebbero invece usando dei sinonimi.
  • Risultati limitati ad una serie di documenti non interconnessi tra loro. Una visione d’insieme è ottenibile solo recuperando i vari documenti e raccogliendo le informazioni ma questa operazione è a carico dell’utente.

L’ostacolo principale verso un miglioramento di questa situazione è sicuramente l’incapacità delle macchine di interpretare e comprendere i contenuti – come abbiamo già detto in precedenza – ed il modo in cui si sta cercando di risolvere il problema è la creazione di contenuto in formato machine-understandable tramite la creazione del Semantic Web.

Quello dei motori di ricerca diventa quindi – data la sua rilevanza per il web – uno dei canali più importanti per la diffusione del Semantic Web ma anche per il suo sviluppo nel marketing; nuovi motori che riconoscono ed interpretano i dati semantici presenti nelle pagine che scansionano presentandoli nei risultati della ricerca come informazioni aggiuntive degli elementi cui si riferiscono rappresentano un grande passo avanti in questo senso.
Leggi il seguito di questo post »