Powerset

gennaio 28, 2009
Image representing Powerset as depicted in Cru...
Image via CrunchBase

Powerset – acquistato da Microsoft nel Luglio del 2008 per una cifra dell’ordine di 100 milioni di dollari – è un esempio di motore di ricerca basato sul natural language processing che permette la ricerca di singole parole ma anche di frasi o semplici domande, le cui risposte vengono cercate – per il momento – solo tra gli articoli di Wikipedia e le risorse di Freebase.

Per l’analisi e l’elaborazione delle informazioni Powerset si basa su 30 anni di sviluppo della tecnologia Xerox PARC tramite la quale costruisce un “indice semantico” su cui basare le ricerche. I risultati comprendono l’articolo di Wikipedia più pertinente alla ricerca effettuata ed una serie di articoli alternativi; è presente anche un box che mostra, se disponibili, i risultati recuperati da Freebase; dall’elenco dei risultati è inoltre possibile visualizzare direttamente gli articoli di Wikipedia.

Leggi il seguito di questo post »


Il semantic web e l’evoluzione dell’indicizzazione

gennaio 27, 2009

I motori di ricerca possono essere considerati come la base fondamentale del web che conosciamo e utilizziamo oggi. Nonostante la loro utilità, sono però afflitti da alcuni problemi, in gran parte sono causati dal sovraccarico informazionale degli ultimi anni, che ne limitano le potenzilità:

  • Bassa precisione e grande numero di risultati proposti. Le pagine rilevanti vengono recuperate e mostrate ma sono accompagnate da molti altri risultati inutili, questo fatto può portare anche alla “perdita” dei risultati validi nell’insieme.
  • Mancanza di risultati. Può capitare – ormai raramente – che alcune pagine non vengano recuperate e mostrate tra i risultati anche se rilevanti.
  • Dipendenza dei risultati dalla terminologia usata nei documenti. Una query effettuata con certi termini può non dare risultati i che si otterrebbero invece usando dei sinonimi.
  • Risultati limitati ad una serie di documenti non interconnessi tra loro. Una visione d’insieme è ottenibile solo recuperando i vari documenti e raccogliendo le informazioni ma questa operazione è a carico dell’utente.

L’ostacolo principale verso un miglioramento di questa situazione è sicuramente l’incapacità delle macchine di interpretare e comprendere i contenuti – come abbiamo già detto in precedenza – ed il modo in cui si sta cercando di risolvere il problema è la creazione di contenuto in formato machine-understandable tramite la creazione del Semantic Web.

Quello dei motori di ricerca diventa quindi – data la sua rilevanza per il web – uno dei canali più importanti per la diffusione del Semantic Web ma anche per il suo sviluppo nel marketing; nuovi motori che riconoscono ed interpretano i dati semantici presenti nelle pagine che scansionano presentandoli nei risultati della ricerca come informazioni aggiuntive degli elementi cui si riferiscono rappresentano un grande passo avanti in questo senso.
Leggi il seguito di questo post »


Yahoo! SearchMonkey

gennaio 27, 2009

SearchMonkey è una piattaforma di sviluppo per permettere a sviluppatori e proprietari dei siti web di migliorare i risultati di Yahoo! Search utilizzando le nuove tecnologie semantiche. I risultati delle ricerche che rappresentano pagine con contenuti semantici verranno mostrati in modo differente dal classico blocco titolo-descrizione-URL, saranno infatti messi in evidenza immagini, un’elenco di link principali della pagina ed un insieme di informazioni rilevanti, tutto questo all’interno dello stesso elenco dei risultati organici della ricerca, generando un sicuro guadagno in termini di visualizzazione, qualità e numero dei click.
Il proprietario del sito dovrà inserire del contenuto semantico al’interno delle pagine web sfruttando i microformats, RDFa o le altre tecnologie semantiche, oppure utilizzando gli sterumenti di sviluppo forniti da Yahoo! per costruire data services che estraggono i dati d’interesse dal sito; una volta rese recuperabili le informazioni è possibile definire l’aspetto del blocco che apparirà nell’elenco dei risultati specificando quali informazioni dovranno essere visualizzate. Leggi il seguito di questo post »


Dapper Semantify

gennaio 26, 2009
Image representing Dapper as depicted in Crunc...
Image via CrunchBase

Questo servizio offerto da Dapper permette di creare versioni RDF delle pagine web, rendendone possibile l’indicizzazione da parte dei crawler che supportano questo formato, come ad esempio quello di Yahoo! Search. In questo modo si allegerisce il lavoro di ricostruzione delle pagine web per inserire i dati semantici facilitando quello spostamento verso il semantic web di cui si è parlato precedentemente e che deve avvenire in maniera decentralizzata, quasi user-driven; l’idea di SEO++[Scott Brinker] ha proprio alla base questo concetto e Semantify– ancora in beta e valido solo per siti in PHP – è quindi uno strumento che agevola l’entrata dei singoli publishers nell’era del semantic web ed al tempo stesso l’evoluzione di quest’ultimo, automatizzando lo operazioni di SEO.
Quando un crawler di un motore di ricerca raggiunge la pagina web, il sito richiama Dapper che genera la versione semantica della pagina stessa incorporando metadati con RDFa. Per utilizzare questo servizio, il proprietario del sito web deve per prima cosa generare un feed Dapper tramite la Feed Factor[Vedi post su Dapper MashupAds] selezionando campi rilevanti il cui contenuto si vuole rendere semantico ed annotandoli con gli opportuni nomi dai vocabolari supportati (FOAF, DC, CC, GeoRSS, MediaRSS); il risultato sarà un blocco di codice PHP, con il riferimento al namespace utilizzato, da inserire sul proprio sito e che verrà richiamato automaticamente trasformando i dati annotati. Al momento la scelta dei namespaces è un processo effettuato dall’utente ma Dapper prevede di automatizzarlo con algoritmi che propongono i namespaces più adatti al contenuo evidenziato.
Potremmo definire Semantify un sistema con un approccio misto tra bottom-up e top-down [concetti proposti da Alex Iskold, fondatore e CEO di AdaptiveBlue – vedi post su RWW]in quanto, almeno per il momento, i contenuti rilevanti della pagina devono essere selezionati e catalogati con gli opportuni vocabolari dall’utente ma è l’applicazione in sè che di fatto genera ed inserisce il codice RDFa nella pagina web.

Enhanced by Zemanta

FOAF

gennaio 25, 2009
Icon for the FOAF (Friend of a Friend) project...
Image via Wikipedia

FOAF – Friend Of A Friend – è un progetto che fornisce dei meccanismi per la creazione decentralizzata di una rete di individui in formato machine-readable, che esprima le relazioni che esistono tra le persone e le loro informazioni personali. Per fare ciò, FOAF si appoggia sul modello RDF ed introduce un vocabolario che definisce le proprietà RDF per esprimere le entità e le loro relazioni in FOAF; FOAF può essere vista come una ontologia per il Semantic Web. Il vocabolario FOAF è una fusione di un vocabolario ad-hoc creato appositamente per il progetto e di altri vocabolari già esistenti, come Dublin Core; questa caratteristica è possibile grazie al modello RDF. FOAF utilizza RDF perchè ne acquisisce l’estendibilità e dà la possibilità di combinare le relazioni definite con FOAF con altre definite utilizzando un qualsiasi vocabolario RDF, permettendo al vocabolario FOAF di base di non dover trattare al suo interno ogni possibile aspetto riguardo le persone, che come possiamo immaginare sono molteplici e appartenenti a dominii differenti, sfruttando invece la riusabilità.RDF fornisce anche un insieme di proprietà (oggetti e relativi attributi) che FOAF può sfruttare Leggi il seguito di questo post »


Linking Open Data e DBpedia

gennaio 25, 2009

W3C SWEO

Il Linking Open Data è un progetto del W3C SWEO che ha lo scopo di estendere il Web creando una rete di dati aperti e disponibili a tutti – offerti dall’ Open Data Movement – pubblicando in formato RDF insiemi di dati provenienti da diverse sorgenti e connettendone gli elementi definendo le relazioni che esistono tra questi, in modo da poter passare da un informazione ad un’altra a questa legata anche se appartengono a due sorgenti diverse; questa possibilità vale anche per i crawler dei motori di ricerca, facilitando il recupero delle informazioni. Questo progetto copre diversi dominii di riferimento delle risorse ed è un esempio di evoluzione verso il data-web globale, che può essere sfruttato dalle applicazioni semantiche.

Insiemi di dati del LOD

Insiemi di dati del LOD

Come possiamo vedere dal grafico sono diversi i progetti che supportano il LOD. Tra questi uno dei più rilevanti è DBpedia.

DBpedia è un progetto che recupera i dati presenti negli articoli di Wikipedia e li raccoglie strutturandoli e rendendoli disponibili sul web in formato RDF. La knowledge base di DBpedia attualmente comprende circa 274 milioni di triple RDF (fonte DBpedia.org, Novembre 2008) riferite ad elementi appartenenti a diversi dominii – persone, film, musica, luoghi, organizzazioni – e raccolte da 14 versioni localizzate di Wikipedia, che lo rendendono uno dei mattoni principali del “Web of Data”.
Gli elementi in DBpedia vengono definiti tramite gli URI nella forma

http://dbpedia.org/resource/Elemento_esempio

dove Elemento_esempio è il nome della risorsa recuperata dall’URL relativo a questa su en.wikipedia.org:

http://en.wikipedia.org/wiki/Elemento_esempio

In questo modo DBpedia può essere anche vista come un’ontologia multi-dominio (caratteristica che la differenzia notevolmente dalla maggior parte delle ontologie che trattano un dominio singolo) che definisce univocamente – tramite gli URI, appunto – diverse entità che possono essere riusate, ad esempio, in un profilo FOAF personale per descrivere un certo interesse che altrimenti non sarebbe identificabile, oppure per definire tag in maniera strutturata con Faviki.
Le risorse catalogate in DBpedia possiedono inoltre delle proprietà che le definiscono, come un abstract (nelle lingue per cui è disponibile) che le descrive, la categoria di appartenenza, le informazioni della relativa Infobox, collegamenti a pagine HTML con dbpedia:resource o foaf:homepage o a documenti RDF con owl:sameAs, coordinate geografiche.
Al di là dell’enorme quantità di dati che rende disponibile sul web, il progetto DBpedia è di grande importanza poichè permette il collegamento di queste risorse con altre provenienti da sorgenti diverse, come ad esempio gli 85000 link con il database geografico Geonames , e la pubblicazione dei dati in formato RDF ne rende possibile il riuso e fa sì che possano essere effettuate delle query SPARQL complesse sugli articoli di Wikipedia, che invece supporta solo la ricerca basata sulle keyword, utilizzando tools come SNORQL Query Explorer.

Reblog this post [with Zemanta]

AdaptiveBlue BlueOrganizer e SmartLinks

gennaio 22, 2009
Image representing AdaptiveBlue as depicted in...
Image via CrunchBase

BlueOrganizer è un add-on per Firefox che introduce un nuovo sistema di navigazione e consultazione delle pagine web e che sebbene non sia un motore di ricerca, influenza in un certo senso anche un ambito come questo poichè molte delle ricerche che oggi sono necessarie per recuperare le informazioni che ci interessano, potranno essere by-passate.
La toolbar che viene aggiunta con l’installazione dell’add-on,oltre che ad un sistema di bookmarking/pubblicazione di contenuti sulle rispettive piattaforme di bookmarking come delicious o social networks come Facebook, è che uno strumento di browsing facilitato che presenta all’utente delle “scorciatoie” ad altri siti in base al contesto della pagina che stiamo visitando. Le funzionalità più interessanti di questa applicazione sono infatti riferite alla navigazione: se ad esempio siamo su un sito che ospita recensioni di libri e ne stiamo consultando una, BlueOrganizer ci fornirà, tramite la toolbar, un collegamento diretto a quel libro su amazon.com ed un link per trovare quell’autore su Barnes & Noble. Allo stesso modo per prodotti come album musicali, ristoranti, ricette o elementi come persone, per le quali vengono resi disponibili link ai relativi profili di Facebook, Flickr, Twitter.

La toolbar di BlueOrganizer

La toolbar di BlueOrganizer


Il metodo con cui BlueOrganizer propone i siti riferiti alla pagina corrente non è standard, ma si basa sulle attività online dell’utente; al momento della configurazione del servizio, un wizard creerà una lista di servizi che potrebbero interessare in base alla storia di navigazione dell’utente.
Per riconoscere le informazioni contenute nelle pagine web, l’applicazione di AdaptiveBlue – fondata da Alex Iskold – si basa sull’utilizzo di microformats nelle pagine web, su algoritmi di riconoscimento e metodi di catalogazione delle risorse, come libri, film o ristoranti, in formati XML. Per quanto riguarda il supporto dei microformats, è una scelta ragionevole quanto lungimirante e realmente orientata al Semantic Web. I microformats supportati sono hCard, hCalendar ed addr. Anche in caso di mancanza di dati semantici incorporati nelle pagine XHTML tramite i microformats, il riconoscimento del contesto ed il recupero delle risorse sono comunque possibili. Le risorse vengono rappresentate in file XML definendo gli attributi e le keyword più usate per riferirvici e tramite queste BlueOrganizer riconosce il contenuto delle pagine visualizzate.
La catalogazione delle risorse in un formato XML interno, sembra però una scelta che rema contro all’orientamento “Semantic Web”, quello scritto con le lettere maiuscole e proposto da Tim Berners-Lee. Creando un sistema personale di catalogazione invece che sfruttare le ontologie già disponibili o crearne di nuove seguendo i linguaggi standard disponibili come OWL, AdaptiveBlue non segue l’idea di riusabilità ed estendibilità che sono alla base del Semantic Web, trascinando con sè la chiusura ed i costi che ne derivano. L’approccio di BlueOrganizer verso il semantic web è di tipo top-down e si basa sulla capacità delle macchine di riconoscere gli elementi come libri, film e musica all’interno delle pagine web, senza che debba essere presente quella fase di incorporazione di metadati propria dell’approccio bottom-up.
Lo scopo di AdaptiveBlue è fornire all’utente un nuovo metodo di browsing intelligente ed un nuovo tipo di esperienza online. Per completare questa idea, AdaptiveBlue ha sviluppato anche SmartLinks, ovvero uno strumento per la pubblicazione – ad esempio tramite il proprio blog – di link “evoluti”, nel senso che a fianco del link sarà presente un’icona blu che una volta aperta mostrerà una serie di altri collegamenti relativi all’elemento di partenza. Con BlueOrganizer, gli SmartLinks appariranno direttamente per link riferiti agli elementi di alcuni siti, come ad esempio per libri o film su amazon.com, album e canzoni su last.fm, dati finanzari su Yahoo! Finance, persone su LinkedIn.

Esempio di SmartLinks - 1

Esempio di SmartLinks - 1

Esempio di SmartLinks - 2

Esempio di SmartLinks - 2

Il metodo con cui BlueOrganizer presenta le “scorciatoie”, come abbiamo detto, si basa sulla storia di navigazione dell’utente ed è quindi personalizzata. Il grado di personalizzazione possibile sembra però limitato dall’elenco di siti che, per ogni categoria, possono essere mostrati tra le “scorciatoie” e che sono definiti come quelli “raccomandati da AdaptiveBlue” che vengono scelti in base ai livelli di traffico da Alexa. Presentare il proprio sito web tra le scorciatoie di BlueOrganizer porta sicuramente un certo vantaggio all’azienda che tratta i prodotti relativi al contesto della pagina visitata, grazie al fatto che con BlueOrganizer l’utente viene indirizzato verso una serie di alternative limitate e viene eliminato il problema della dispersione dell’utenza che è alla base di molte scelte di marketing. Inserire il proprio sito in BlueOrganizer o tra i suggerimenti di SmartLinks ipotrebbe diventare – ipotizzando un’apertura dell’applicazione in questi termini – una nuova strategia di marketing, poichè aggirando i motori di ricerca si perde una grande, potenziale sorgente di traffico rendendo quasi vane le campagne di advertising e le strategie di SEO.
Poter inserire il proprio sito nelle liste di BlueOrganizer è solo un’ipotesi, è invece certo che applicazioni come quelle di AdaptiveBlue non possono far altro che spingere verso l’inserimento di informazioni semantiche nelle pagine web, in modo da facilitare il riconoscimento delle risorse che se effettuato basandosi solo su algoritmi e confronti statistici, non darà risultati validi come quelli ottenuti da un recupero delle informazioni realizzato partendo da dati strutturati in maniera formale e precisa come con RDFa o Microformats.

Reblog this post [with Zemanta]