Cos’è l’annotazione semantica

Premesse

Protected by Copyscape
Ad una settimana dal precedente articolo sul BIM mi sono preso il tempo di approfondire il tema dell’annotazione semantica.

La ricchezza di informazioni che usano ormai i software e le applicazioni web stanno portando ad avere bisogno di modelli sempre più sofisticati di analisi automatica elaborabili con la Linguistica computazionale. Già nell’articolo abbiamo abbozzato al tema e in questo blog l’obiettivo è capire quali di queste metodologie e tecnologie sono utili alle tematiche del BIM, del Facility ed Energy Management.

Questo articolo, senza velleità di essere esaustivo, si rifà ad un ottimo documento dal titolo What are Semantic Annotations? redatto nel 2006 da Eyal Oren, Knud Hinnerk Moller, Simon Scerri, Siegfried Handschuh e Michael Sintek.

Definizione

L’annotazione semantica è il processo di tagging dei documenti con concetti rilevanti. I documenti vengono arricchiti di metadati: riferimenti che collegano il contenuto ai concetti, descritti in un grafo della conoscenza. In questo modo i contenuti non strutturati sono più facili da trovare, interpretare e riutilizzare.

Si possono distinguere tre tipologie di annotazioni: informali, formali e ontologiche. Le annotazioni informali non producono una leggibilità da parte di algoritmi e software perché non usano un linguaggio “formale”. Le annotazioni formali sono invece interpretabili ma non è detto che contengano già una terminologia ontologica. Nelle annotazioni ontologiche la terminologia ha un significato comprensibile e che fa riferimento a concetti condivisi detta ontologia.

Uso

Si procede all’annotazione con diversi strumenti e paradigmi sia manualmente che in modo semi-automatico o completamente automatico.

Non è qui chiave entrare nel tecnicismo delle modalità, tuttavia è chiaro che più si fa affidamento a metodi semi-automatici o completamente automatici maggiore è la possibilità di trattare velocemente grandi quantità di dati.

Vantaggi

L’obiettivo chiave è quello di rendere evidenti i concetti derivabili dal contenuto del documento. Questo ha per il nostro settore un importanza chiave. Cioè disporre di una espansione della qualità dell’informazione basata sul significato rende ancor più ricca la comprensione non solo del testo ma delle implicazione dei contenuti del documento.

L’annotazione semantica aiuta infatti a creare contenuti arricchiti di significato e consente alle macchine di accedere e comprendere quei significati (intuitivi per gli umani ma non altrettanto ricostruibili dalle macchine). L’annotazione è semantica in quanto collega le informazioni con i concetti che sottendono a quelle informazioni. È un primo passaggio per arrivare a costruire un grafo della conoscenza.

C’è da dire che questa branca della linguistica computazionale ha trovato maggior uso e utilità nell’ambito di quei settori che generano grandi quantità di dati e di documenti: legale, amministrativo, assicurativo, sanitario, etc. Tuttavia con l’esplosione delle informazioni semi strutturate anche per costruzioni, progettazione e gestione si sta intravvedendo un miglioramento e  primi tentativi di adozione.

L’applicazione dell’annotazione semantica consente la scoperta di relazioni, l’aggregazione e la raccomandazione di contenuti e il rilevamento della conformità a certe regole (ad esempio alla normativa). E’ altresì necessaria quando si setacciano enormi quantità di fonti testuali come ricerche scientifiche, documenti medici e documenti amministrativi.

Criticità

E’ chiaro che la criticità è data dall’effort necessario a completare la fase di annotazione sia in termini di tempo che di attendibilità dell’attività stessa. La validità dei metodi di annotazione semantica si confronta innanzitutto con due parametri: velocità e accuratezza. Ove infatti non si è proceduto per via manuale bisogna verificare se il risultato dei metodi semi automatici e automatici ha generato un risultato accettabile e valido.

Conclusioni

I primi passi per estrarre e consolidare informazioni di qualità dalla base dati è costituita dal ricostruire tramite annotazione le informazioni più ampie associate ai dati. Puoi contattarmi qui per un approfondimento.