Google, Microformats, RDFa e l’evoluzione del commercio elettronico

agosto 2, 2009

Con il supporto per Microformats e RDFa anche da parte di Google, l’evoluzione che il semantic web porterà al commercio elettronico sembra sempre più vicina e  incisiva.

Come detto per SearchMonkey di Yahoo!, per i venditori online, incorporare informazioni semantiche nei propri siti web porterà a vantaggi sicuri sia in termini di visibilità che in termini di qualità degli annunci. Allo stesso modo questo si otterrà anche con Google, che sembra pronto a supportare anche il formato hProduct.

Fonte: Articolo di Alan Rimm-Kaufman

Annunci

Anche Google verso il Semantic Web: Rich Snippets

agosto 2, 2009

Google annuncia il supporto per dati strutturati con Microformats e RDFa per evolvere gli “snippets”, ovvero i brevi riassunti che descrivono i siti che vengono visualizzati nelle SERPs.

Link all’articolo dell’annuncio sul Google Webmaster Central blog. (Maggio 2009)

Come ci si poteva immaginare, Google non ha tardato molto nel seguire la via “semantic-oriented” già intrapresa da Yahoo! con SearchMonkey.


Calais Marmoset

febbraio 3, 2009

Calais è un progetto promosso da Thomson Reuters e basato sulla tecnologia ClearForest per la creazione automatizzata di contenuto semantico. L’iniziativa è composta da un web service che permette di generare dati in formato RDF da blocchi di testo – per il momento solo in Inglese – utilizzando algoritmi di Natural Language Processing che evidenziano entità, risorse e fatti come persone, luoghi, associazioni, etc… Questo servizio è libero e accessibile a tutti – da qui OpenCalais – sia per sviluppi commerciali che non.

calais1

Rappresentazione del funzionamento del Web Service Calais – http://www.opencalais.com

Tra gli strumenti che accompagnano Calais e le applicazioni sviluppate su di esso, è presente il tool Calais Marmoset, che in sintesi può essere definito come un “microformats injector” che una volta installato inserisce nel sito web dati strutturati con i microformats, con lo scopo di rendere la pagina indicizzabile dai crawler di Yahoo! Search e raggiungibile dalle applicazioni sviluppate tramite SearchMonkey [vedi review]. Marmoset si basa sul Calais Web Service per ricavare dai contenuti delle pagine dati semantici senza che sia necessario una strutturazione delle informazioni da parte del proprietario del sito web. Per fare ciò, Marmoset individua le richieste effettuate dai search robot alle pagine web del sito su cui è installato, a quel punto richiama il web service Calais che ricava le informazioni e le struttura e le inserisce all’interno del codice della pagina formattate con il microformat adeguato. Se ad esempio nel contenuto della pagina analizzata Calais individua una persona, Marmoset inserisce i dati relativi codificati con hCard nella pagina, automaticamente. Questo strumento rappresenta una visione del Semantic Web come futuro standard dei motori di ricerca per il recupero delle informazioni ed è un valido aiuto nell’implementazione delle tecnologie semantiche nelle pagine web, bisognerà però verificare a che livelli il codice generato potrà contribuire in una buona strategia di SEO orientato al semantic web, poichè la creazione di dati strutturati “al volo” potrebbe non essere così valida come l’integrazione “statica” di questi all’interno delle pagine. Inoltre, la scelta dei microformats piuttosto che teniche più formali come RDFa – che è utilizzata da Dapper Semantify [del quale ho già parlato qui] – potrebbe essere discutibile a causa delle limitazioni che presentano e che si ripercuotono anche sulle loro possibilità di essere adeguatamente supportati dai motori di ricerca: se un nuovo microformat viene sviluppato per risolvere un determinato problema, il motore di ricerca deve essere aggiornato in maniera da poterlo indicizzare ma evidentemente anche Marmoset dovrà supportarlo per poterlo generare ed inserire nelle pagine; diventa così necessario un doppio livello di aggiornamento.

Queste conferme potranno essere date solo quando la “Semantic Web Optimization” diventerà un vero punto di riferimento per migliorare il posizionamento di un sito web tra le SERPs.

Enhanced by Zemanta

Microformats

ottobre 20, 2008

Dalla pagina “What are microformats?” del wiki di microformats.org, si trovano molte possibili definizioni di microformats.
Per citarne alcune:

“Designed for humans first and machines second, microformats are a set of simple, open data formats built upon existing and widely adopted standards.”

Definizione corrente di microformats, Dan Cederholm

“Microformats are simple codes that you can use to identify specific kinds of data, like people or events, in your webpages.”

Chris Messina

“Microformats are a way of adding simple markup to human-readable data items such as events, contact details or locations, on web pages, so that the information in them can be extracted by software and indexed, searched for, saved, cross-referenced or combined.

Andy Mabbett

“Microformats are the way to publish and share information on the web with higher fidelity.”

“[…]microformats are carefully designed (X)HTML class names that extend the semantics of (X)HTML and enable authors to publish higher semantic fidelity content such as people, events, reviews, etc.”

“A microformat is way of adding more meaning to web pages beyond normal HTML headings and paragraphs, so you can indicate mentions of people, companies, events, reviews, tags, etc.

Tantek Çelik

Microformats are a way of attaching extra meaning to the information published on a web page. This extra semantic richness works alongside the information already presented, and can be used for the benefit of people and computers. This is mostly done through adding special pre-defined names to the class attribute of existing XHTML markup.

Drew McLellan

Prendendo spunto da queste definizioni, possiamo quindi dire che i microformats sono dei particolari formati che vengono utilizzati per dare un significato (semantico) ai dati “human-oriented” che si trovano sulle pagine web (eventi, persone, links, etc…), in modo tale da renderli “machine-readable“, riusabili e facilmente condivisibili. Questo processo è ottenuto tramite l’uso di specifici class names XHTML.
Esempi di microformats sono hCard, hCalendar, hResume, XFN.
Il microformat hCard, ad esempio, è un formato standard per rappresentare informazioni riguardanti persone, organizzazioni o aziende, che sfrutta elementi del semantic HTML in modo da poter incorporare i dati delle vCard nelle pagine web. hCard parte proprio dagli elementi dello standard vCard e li utilizza come class names per inserire in pagine (X)HTML i valori degli oggetti vCard. Le proprietà di una hCard sono rappresentate dagli elementi identificati con certi class names, che sono quelli definiti dallo standard, ovvero:

  • vcard (identifica l’inizio di una hCard, è l’elemento root)
  • fn (formatted name)
  • n
  • nickname, sort-string
  • url, email, tel
  • adr, label
  • geo (latitude, longitude), tz
  • photo, logo, sound, bday
  • title, role, org
  • category, note
  • class, key, mailer, uid, rev

La mia hCard (creata in questo caso con hCard Creator) con alcune delle mie informazioni personali (Nome, Cognome, Città, Stato, Telefono, email, foto, url) potrebbe essere:

1. <div id="hcard-Simone-Dezaiacomo" class="vcard">
2.   <img style="float:left; margin-right:4px"
        src="http://www.esempio.com/miafoto.jpg" alt="photo of "
        class="photo"/>
3.   <a class="url fn" href="https://semanticweb30.wordpress.com">
                       Simone Dezaiacomo</a>
4.   <a class="email" href="mailto:indirizzoemail@gmail.com">
                       indirizzoemail@gmail.com</a>
5.   <div class="adr">
6.    <span class="locality">Bologna</span>
      ,
7.    <span class="region">Italy</span>
8.   </div>
9.   <div class="tel">+39 0512020202020</div>
10. </div>
(in rosso sono evidenziati i class names)

Questo codice, inserito nella propria pagina web, fa sì che le informazioni personali siano “semantiche” e formattate con il microformat hCard, rendendo i dati “machine-readable”, riusabili e facilmente condivisibili poichè sono identificati da class names standardizzati.

I Design Principles del semantic XHTML sono:

  • riutilizzare le strutture (nomi, oggetti, proprietà, valori, tipi, ecc…) già standardizzate nelle RFC (nel caso delle hCard, viene riutilizzato lo standard delle vCard)
  • usare class names basati sui nomi delle strutture originali dello standard (ad esempio quello che nelle vCard è BEGIN:VCARD, nelle hCard è class=”vcard”, così come FN diventa class=”fn”, ecc…)
  • Alcuni elementi possiedono sotto-proprietà (locality è una sotto-proprietà di adr). Queste sotto-proprietà devono essere annidate rispetto agli principali cui sono riferiti (vedi righe 5-8 dell’esempio sopra)
  • Se il formato dell’elemento corrispondente alla struttura standard originale è troppo lungo o scomodo, è possibile usare <abbr> e inserire il contenuto dell’elemento come valore dell’attributo title invece che come contenuto dell’elemento. (Per rappresentare la sotto-proprietà region – riga 7 – in formato abbreviato, avremmo potuto usare <abbr class=”region” title=”Italy”>IT</abbr>)

Per quanto riguarda il microformat hCalendar, il concetto e i design principles sono gli stessi di hCard, ma permette, seguendo la struttura definita dallo standard iCalendar, di rappresentare eventi e calendari incorporabili in pagine web e presentanti contenuto semantico riusabile e “machine-readable”.

Fonti:
http://microformats.org/
http://microformats.org/wiki/what-are-microformats
http://microformats.org/wiki/hcard
http://microformats.org/wiki/hcalendar
http://microformats.org/wiki/hresume
http://www.gmpg.org/xfn/


poshformats e microformats

ottobre 19, 2008

POSH è l’acronimo per Plain Old Semantic HTML.
Il semantic HTML è un sottoinsieme di elementi ed attributi XHTML che vengono utilizzati per scopi semantici piuttosto che per scopi presentazionali; il concetto di POSH comprende l’utilizzo del semantic HTML nella creazione di pagine web, cioè un documento (es: pagina web) è POSH se è sviluppato utilizzando certi criteri e processi che si basano sull’applicazione del semantic HTML.

I poshformats sono dei formati sviluppati in modo informale dall’autore di un documento POSH, che decide di creare un proprio vocabolario personale per i class names utilizzati. I microformats, invece, possono essere visti come un sottoinsieme dei poshformat, e sono dei formati che vengono generati seguendo “processi” e “principi” specifici. In linea di massima il concetto che sta alla base di entrambi è lo stesso, ed è quello di utilizzare un vocabolario per i class names utilizzati nelle pagine, la differenza sostanziale è che nei poshformat questo vocabolario è ad-hoc e personale, nei microformats invece il vocabolario è riusabile e formale, da questo si può comprendere l’importanza dei microformat per il semantic web.

Fonti:
http://microformats.org/wiki/posh