Visualizza articoli per tag: GEO GEOSS
Big data e informazione geografica su web creata da applicazioni smart e sociali
Comunemente con Big Data si intendono informazioni eterogenee multi sorgente non strutturate disponibili su Web caratterizzate da grandi volumi, grande velocità di cambiamento e grande varietà semantica.
Lo studio della relazione tra Big data e geografia è un argomento di interesse emergente.
La capacità di individuare, interpretare e analizzare big data, creati mediante l'uso di dispositivi mobili smart per segnalare, commentare o documentare con fotografie, video, ecc., eventi critici ambientali di cui gli autori sono stati testimoni, può rivelarsi di grande aiuto in varie situazioni: per prevenire eventi catastrofici, per monitorare il territorio, per pianificare opere di mitigazione e l'allocazione di risorse durante le emergenze e per salvaguardare la sicurezza della popolazione.
Tali informazioni contengono spesso contenuto geografico esplicito, codificato da coordinate GPS, o implicito, espresso da nomi di entità geografiche nel testo, e sono spesso create e condivise su Web mediante applicazioni sociali quali Tweeter, Facebook o mediante applicazioni specifiche per la creazione di informazione geografica quali Foursquare, Ushaiidi, ecc.
La loro gestione richiede l'applicazione di tecniche proprie di varie discipline quali l'Information Retrieval di documenti testuali per la ricerca, l'analisi lessicale e la rappresentazione del contenuto delle informazioni relative ad argomenti di interesse; tecniche di gestione e condivisione interoperabile delle informazioni geografiche per la mappatura dei riferimenti spaziali; tecniche di data mining spazio-temporale per l'analisi contestualizzata dei contenuti; e infine tecniche di validazione della qualità dell'informazione eterogenea multimediale.
Invariabilmente tali informazioni sono caratterizzate da incertezza e imprecisione e dunque la loro gestione richiede l'impiego di metodi appropriati quali la statistica e il soft computing.
Infrastrutture interoperabili per i geodati
L'ambito di studio delle Infrastrutture interoperabili per i geodati è di grande attualità tanto che alcuni testi di letteratura contemporanea - citiamo ad esempio Il Sentiero Luminoso, Wu Ming 2, Ediciclo Editore (2016) - ne prendono in prestito acronimi e glossario per arricchire le proprie pagine, renderle attuali e curiose.
L'attività di IREA in questo settore nasce dall'esigenza di usare Internet per diffondere ed elaborare i prodotti geospaziali delle proprie ricerche, si tratti di mappe digitali che derivano dall'osservazione satellitare della terra o di osservazioni raccolte da sensori sul campo.
I ricercatori IREA di questo gruppo, lavorano in stretto contatto con i loro colleghi esperti di dominio, quali geologi, ecologie e limnologi, nel tentativo di coniugare il più possibile tecnologie e strumenti IT di avanguardia con requisiti e pratiche di chi crea e usa dati e informazioni in settori specifici della ricerca, quali il telerilevamento satellitare, l'ecologia, la biologia, la geologia, ecc.
Tale attività di ricerca si svolge nell'ambito di diverse iniziative internazionali. Tra le varie ricordiamo: la direttiva europea INSPIRE, il Programma Copernicus/GMES della Commissione Europea, GEO-GEOSS e l'Open Geospatial Consortium (OGC).
Linked Data e ontologie
Linked Data (dati connessi) rappresenta un paradigma di accesso ai dati che si è diffuso negli ultimi anni e che ha lo scopo di facilitare l'accesso all'informazione da parte di agenti automatizzati (software). Linked Data (spesso abbreviato in LD) ha un potenziale di diffusione del tutto analogo a quello del World Wide Web in quanto sfrutta il medesimo principio, l'interconnessione attraverso indirizzi accessibili attraverso il protocollo HTTP (HyperText Transfer Protocol, protocollo di trasferimento di ipertesti).
Il principio è molto semplice: così come i contenuti web possono essere connessi tra loro attraverso l'identificatore che troviamo nella barra degli indirizzi di un browser (e che troviamo visualizzato come "link" all'interno della pagina), allo stesso modo blocchi di dati possono riferire l'un l'altro associando ad essi indirizzi univoci. Prerequisito per l'accesso ad un dato in modalità LD è quindi l'associare ad esso un identificatore, un URI (Uniform Resource Identifier, identificatore uniforme di risorsa) e consentire il suo scaricamento attraverso il protocollo HTTP. Il termine Linked Open Data (LOD) aggiunge ai LD la connotazione di dati aperti, liberamente accessibili.
Al fine di rendere il dato non solo accessibile, ma anche comprensibile ad un agente automatizzato (associare, cioè, una "semantica" al dato) è tuttavia necessario disporre di un modello generale per la rappresentazione dei dati, costituito dal Resource Description Framework (RDF). Ulteriori linguaggi, sempre espressi secondo il modello definito da RDF, consentono poi di definire schemi di dati con elevata espressività: RDF Schema (RDFS) e Web Ontology Language (OWL).
Gli schemi definiti secondo questi ultimi formalismi, tipicamente identificati col termine "ontologie", consentono di modellare strutture dati con un livello di dettaglio più fine rispetto al modello relazionale (comunemente applicato nei comuni RDBMS) e al modello XML. Inoltre, le ontologie consentono di superare l'interpretazione "a mondo chiuso" dei modelli precedenti e di realizzare strutture dati che possano essere interpretati secondo la logica "a mondo aperto" che contraddistingue il Web Semantico.
Linked Data e ontologie rappresentano quindi gli strumenti per accedere e strutturare, rispettivamente, dati connessi tra loro e caratterizzati da una semantica specifica. Ad esempio, accedendo via HTTP all'indirizzo http://sp7.irea.cnr.it/rdfdata/project/IREA, si ottiene il blocco di dati RDF funzionali a descrivere IREA all'interno del progetto RITMARE, che è trascritto nella seguente figura:
Nella figura precedente, le righe 1-6 definiscono alcune abbreviazioni per i "namespaces" (prefissi di URI) utilizzati in seguito, in modo da semplificare la notazione. La riga 8 descrive quale tipo di entità è rappresentata nei dati, ovvero un "agente" (in questo caso una istituzione) scondo il vocabolario Friend Of A Friend (FOAF). La linea 9 definisce una etichetta intelligibile per le persone. Infine, la riga 10 identifica il dato che rappresenta la chiave pubblica che è stata associata ad IREA in RITMARE. Le righe 12-23 specificano i dati associati alla chiave pubblica, mentre la riga 25 e seguenti riportano gli identificatori (gli URI) associati alle persone di IREA che fanno parte del progetto RITMARE.
Queste informazioni vengono utilizzate per l'autenticazione di IREA presso l'infrastruttura che si sta creando. Ulteriori informazioni nel formato RDF vengono utilizzate per altri scopi, quali la metadatazione assistita di risorse, per la ricerca delle risorse fornite dai diversi partner e, piu' in generale, per la gestione dell'infrastruttura nel suo complesso, come mostrato nella seguente figura:
IREA utilizza le tecnologie del Web Semantico nell'ambito del progetto RITMARE, nello specifico nel Sottoprogetto 7, per la realizzazione della infrastrutture di dati spaziali.
Geoservizi per il Sensor Web
Nel dominio degli standard per il web, l'Open Geospatial Consortium (OGC) è l'organizzazione che fornisce la normalizzazione principale dei servizi per i dati geospaziali (video). Si tratta di un'organizzazione no-profit fondata nel 1994; si compone di 440 aziende, enti governativi e Università e sviluppa standard per permettere l'interoperabilità tra i sistemi che elaborano dati georeferenziati.
Diversi servizi web geografici sono stati sviluppati dall'OGC per lo scambio di diversi tipi di dati geografici, tra i quali i più popolari sono: Web Map Service (WMS), Web Feature Service (WFS) e Web Coverage Service (WCS), per lo scambio di mappe, feature e coverage, rispettivamente; Catalog Service of Metadata (CSW) è pensato per la gestione di cataloghi di metadati (approfondisci qui gli usi di questi servizi in IREA).
Per la finalità di gestione delle osservazioni raccolte da sensori, OGC ha sostenuto e proposto un quadro di norme sotto l'ombrello comune di Sensor Web Enablement (SWE) che comprende: SWE Common Data specification, Sensor Model Language (SensorML), Sensor Planning Service (SPS), Sensor Observation Service (SOS).
In particolare, il servizio SOS viene utilizzato e proposto nei diversi ambiti di ricerca di IREA con lo scopo di specificare le interfacce di interoperabilità e le codifiche di metadati che consentono l'integrazione di sensori eterogenei sul web. Infatti SOS è stato sviluppato per la ricerca, la connessione e l'interrogazione di sensori singoli o piattaforme di sensori in Real Time (RT), Near Real Time (NRT) o in Delay Mode (DM). SOS specifica un'interfaccia standard di servizio web per la richiesta, la selezione, e il recupero delle osservazioni e delle informazioni di un sensore, di una piattaforma o di un sistema di sensori. Altre due specifiche lavorano insieme a SOS: SensorML per descrivere le caratteristiche e le capacità dei sensori e Observation&Measurement (O&M) per la codifica di osservazioni e misure.
Nell'ambito delle attività di IREA i servizi di gestione delle osservazioni e delle misure riguardano per la maggior parte i dati relativi a parametri ambientali di tipo chimico/fisico. Queste servizi sono vitali per permettere la pubblicazione e il recupero delle osservazioni attraverso interfacce web standard. Le osservazioni possono essere accedute e visualizzate in modo autonomo oppure integrate con altri dati e informazioni in catene di servizi che possono includere anche servizi di processing (approfondisci qui questi aspetti in IREA).
IREA ha utilizzato e utilizza i servizi SOS in progetti appena conclusi e in corso (EnvEurope, RITMARE, NextData, LifeWatch e Space4Agri), nell'ambito della realizzazione di infrastrutture di dati spaziali e di uso di verità a terra per la calibrazione di sensori remoti.
Workflow e processi web per l'analisi dei dati ecologici
Le attività di Information Communication Technology (ICT) ricoprono un ruolo sempre più predominante anche nelle discipline come l'ecologia e la biologia, così come in un meno recente passato è avvenuto in modo consistente in campi come la medicina, l’astronomia o la genetica. In queste l’organizzazione dei dati in maniera standardizzata, la produzione di servizi di accesso, download e discovery dei dati attraverso il web risultano primari nella realizzazione e mantenimento a lungo termine di una rete scientifica moderna.
Proposte per organizzare infrastrutture tecnologiche adatte a supportare e migliorare le attività quotidiane di ricerca sono state fatte in passato, numerosi progetti nazionali e internazionali di ricerca sono stati realizzati e molti passi avanti sono stati fatti nella creazione di strumenti informatici adatti alle esigenze di comunità molto specifiche.
La legislazione Europea e i recepimenti nazionali hanno introdotto, rendendole obbligatorie, regole per catalogare e condividere i dati ambientali al fine di evitare duplicazioni e poter usare dei sistemi di ricerca delle informazioni semplici ed efficienti.
La prospettiva attuale è quella in cui una prima base per una Scienza Orientata ai Servizi (Service Oriented Science, cf. [1]) appare matura tanto da consentire un approccio architetturale distribuito nel web. Là dove servizi web per l’accesso alle informazioni stanno trovando linguaggi comuni (standard internazionali, e.g. OGC, ISO, W3C) e, anche in campo ecologico, si affacciano servizi web per il processamento dell’informazione, il passo possibile è quello di utilizzare tali risorse per realizzare elaborazioni di dati ecologici e ambientali.
I workflow scientifici, ossia i flussi impliciti di lavorazione seguiti nella produzione di elaborazioni scientifiche, che dal dato e dalle competenze degli attori coinvolti portano a nuova conoscenza, possono essere formalizzati (per esempio mediante il formalismo delle reti di Petri ) e, tramite software appositi, possono essere eseguiti da macchine, quando i singoli passi dell’elaborazione siano codificati e resi disponibili. Nella prospettiva delle nascenti infrastrutture per la ricerca ecologica (e.g. iniziative a cui partecipa IREA quali LifeWatch, LTER Europa), questi passaggi possono essere svolti da risorse distribuite in rete e i workflow essere implementati come orchestrazioni dei servizi esistenti.
La ricerca svolta da IREA in questo ambito si propone l’integrazione degli standard interoperabili con i framework per la composizione di workflow scientifici esistenti (e.g. orchestrazioni implemementate con l'ambiente software Taverna, sviluppo di servizi di processo con interfacce standard OGC WPS) e lo studio di nuovi paradigmi di interazione con l’utente nelle fasi di composizione e di esecuzione dei workflow (sviluppo di applicazioni web da integrare nel flusso di lavoro, con interazioni avanzate per azioni run-time eseguite dall’utente). Le competenze trasversali rappresentate in IREA (ecologiche, informatiche, modellistiche e di formalizzazione matematica) concorrono a questa attività che ha portato a proposte sullo sviluppo di ambienti di ricerca virtuali e laboratori virtuali nell’ambito della nascente infrastruttura di ricerca LifeWatch.
- [1] I. Foster, “Service-oriented science” Science, vol. 308, pp. 814–817, 2005
Infrastrutture di dati spaziali e geoservizi Web per la Direttiva INSPIRE
IREA ha una pluriennale esperienza nell'implementazione e utilizzo di geo-servizi sul Web per le infrastrutture di dati spaziali (SDI) nell'ambito della Direttiva Europea INSPIRE (2007), esperienza maturata in passato nel corso di progetti internazionali come AWARE e IDE-Univers.
In questo contesto IREA ha sviluppato geoservizi autonomi che permettono di ospitare e distribuire i geodati prodotti dalla ricerca di Istituto. L'articolo "OGC Web Services in the workflow of a research Institute dealing with Remote Sensing data", presentato alla Int. Conf. on Data flow: from Space to Earth, Venezia (Italy), 21-23 March 2011, descrive la metodologia adottata per creare l'infrastruttura di Istituto.
I servizi sviluppati in IREA seguono gli standard OGC e sono: servizi di catalogo o CSW (Catalogue Service on the Web) che permettono di cercare i dati distribuiti attaverso i loro metadati; servizi di accesso di tipo WMS (Web Map Service), WFS (Web Feature Service) e WCS (Web Coverage Service). Sono stati inoltre sviluppati servizi di elaborazione o WPS (Web Processing Service) e sperimentate catene di servizi di tipologie diverse per permettere l'utilizzo online di modelli idrologici di previsione delle portate di bacini Alpini (progetto AWARE). Per tutti questi servizi sono stati sviluppati clienti che permettono agli utenti di usufruirne le potenzialità sul Web.
* Nel contesto WMS una "mappa" è una immagine raster del dato piuttosto che il dato stesso, nel senso che il dato associa valori ai pixel mentre la "mappa" WMS si limita a visualizzare un colore o tono di grigio
Data-LTER-Mountain (NextData) "Armonizzazione e standard per dati esistenti e di nuova raccolta e metadati su siti LTER in ecosistemi montani italiani"
Il progetto Data-LTER-Mountain svilupperà un sistema distribuito di archivi e di servizi di accesso ai dati e ai metadati raccolti nei siti montani della rete LTER-Italia. L’IREA è chiamata a definire gli standard per descrivere adeguatamente e armonizzare i dati ecologici e relativi metadati, sviluppando sia il sistema di archiviazione per i dati raccolti nei siti LTER di montagna sia i servizi di accesso a questi stessi, mettendoli in collegamento con gli archivi di NextData.
Prime contractor: CNR - Istituto di Biologia Agroambientale e Forestale (IBAF)
Periodo di attività: 2014-2015
Finanziamento IREA: € 108,325
Responsabile IREA: Paola Carrara, Alessandro Oggioni
Riferimenti: "Data-LTER-Mountain: Harmonisation and standards for existing and newly collected Data and MetaData on LTER sites in Italian Mountain ecosystems"del Progetto di interesse NextData del MIUR
Project description
The project Data-LTER-Mountain will develop a distributed systems of archives and access services to data and metadata collected in Italian Long Term Ecological Research (LTER) sites located in mountain ecosystems. Archives and services will be developed starting from the experience of EnvEurope project and will be harmonised to national and international approaches, in connection to NextData tools.
Sites are from high elevation grasslands and nival ecosystems, mountain forests, mountain lakes, from Apennines and Alps. All sites are included in the LTER-Italy network.
The project will: i) contribute to the definitions of standards and models for biological and ecological data and metadata in mountain sites; ii) provide mountain LTER sites of their own data and metadata systems, according to defined standards and models; iii) entry metadata and data in the system, using already available data and data collected in new campaigns; iv) act to make available services for the larger LTER communities at national and international level.
Main goals of the project
- Evaluation of the existing data standards to publish and make available data and metadata, integration with existing systems adopted and shared by other national/international communities
- Contribution to the definitions of standards and models for biological and ecological data and metadata collected in mountain sites
- Provide mountain LTER sites of their own data and metadata systems, according to defined standards and models, in connection to NextData tools, so that each site can contribute to a wider archive of metadata useful to browse ecological and biological data.
- Entry of metadata and data in the system, using already available data and with data collected during new measurements campaigns with particular attention to ecosystem processes and functional properties.
- Outreach actions of data and metadata standards and models for the bio-ecological realm to be made available for the larger LTER communities, beyond mountain sites, at national and international level
Units and tasks in the project:
Unit 1 – CNR - IBAF
Contact to LTER–Italia; Coordinator of LTER Site "Forests of the Apennines"; Link to Corpo Forestale dello Stato; grant holder contract for organisation, provision and collection of data on terrestrial sites (in cooperation with the other two grant-holders at CNR-ISE and CNR-IREA) and providing support to all Units.
Unit 2 – CNR - IREA
Defining standards/models to suitably describe and harmonize bio-ecological data and metadata; developing the system of mountain LTER sites' archives and access services to the results of research in mountainous ecosystems, in connection with the archives of NextData; grant holder contract for data standards and information management tools (in cooperation with the other two grant-holders at CNR-IBAF and CNR-ISE) and providing support to all Units.
Unit 3 – CNR - ISE
Coordinator of two research sites within the parent site IT09 "Mountain lakes"; grant holder contract for organisation, provision and collection of data on high mountain freshwater sites (in cooperation with the other two grant-holders at CNR-IBAF and CNR-IREA) and providing support to all Units.
Unit 4 – UniTO
Coordinator of LTER Site "North-Western Italian Alps"; organization, provision and collection of data on high mountain sites, in collaboration with the Regional Environmental Agency of the Aosta Valley (supported from and in cooperation with grant-holders at CNR-ISE and CNR-IREA), specific expertise on soil and snow data.
Unit 5 – UniMol
Coordinator of LTER Site "High-Elevation Apennines"; organisation, provision and collection of data on high elevation sites in the Apennines, (supported from and in cooperation with grant-holders at CNR-IBAF and CNR-IREA), specific expertise on plant diversity data, dendroecological analysis, wood anatomy and land-cover changes
Unit 6 - UniPar
Coordinator of LTER Site "Mountain lakes"; organisation, provision and collection of data on high elevation sites in the Apennines, (supported from and in cooperation with the grant-holders at CNR-ISE and CNR-IBAF), specific expertise on lake diversity data
Componenti SDI per i dati ecologici
Long-term ecological research (LTER) studies aim at detecting environmental changes and analysing related drivers. In Europe this research is performed in about 450 sites and platforms joined in the network LTER-Europe. Within the network, sharing data on various types of ecosystems and at a broad geographical scale is still an issue; managing data resulting from long-term observations is an important task not only for LTER sites but also at network level. Due to the fragmented nature of LTER Europe - and also on the global scale - information management practices have to face several challenges, e.g. distributed data sources; heterogeneous data models; particular data management routines as well as the complex domain of ecosystem monitoring with regard to the resulting data.
The Life+ EnvEurope project (2010-2013) faced this challenge and improved the situation described above using the data from the distributed network of LTER-Europe sites. A project product, i.e. the EnvEurope Drupal Ecological Information Management System (DEIMS) for metadata management and data sharing within the Long-Term Ecological Research (LTER) domain, allows discovery, evaluation and access to data of LTER sites. The development was based on the works carried on by US LTER.
As an output from the EnvEurope Action 1 working group, DEIMS provides the following main components:
1) Metadata editor: web accessible forms to enter and manage metadata of three information resource types - datasets, persons and research sites (see figure 1)
2) Discovery client: provides several ways to search for datasets, persons and research sites based on patterns ranging from simple full text search, glossary browsing to guided faceted search (see figure 2)
3) Geo-Viewer: a map client, which can be used to display boundaries and centroids of the LTER sites; each site layer is linked to both Metadata editor and Discovery client (see figure 3); moreover a graphical representation of the data collected in the site and published through an SOS service is visible in Geo-Viewer (see figure 4)
Metadata collected by LTER-Europe researchers using the DEIMS can be shared in the following ways:
- Metadata records encoded in the Ecological Metadata Language (EML) are periodically collected and produce a data catalogue, which can be used by international or European initiatives (e.g. DataOne network, GBIF) and projects (e.g. LifeWatch)
- Metadata are harvested into a GeoNetwork catalogue, providing a catalogue service for web (OGC-CSW) to be used by remote SDI catalogues, e.g. INSPIRE Geoportal
The final version of DEIMS is a pilot implementation for the information system of LTER-Europe, which should establish a common information management framework within the European ecosystem research domain and provide valuable environmental information to other European initiatives such as SEIS, Copernicus and the INSPIRE Directive.
Tools and approaches developed and tested in this application are going to be reused in new projects such as Data-LTER-Mountain (NextData), RITMARE SP7 and LifeWatch.
Figure 1: DEIMS metadata editor for dataset web interface
Figure 2: Full-text searching interface for datasets
Figure 3: LTER site location in Geo-Viewer and connections to metadata
Figure 4: graphical representation of the data collected in the site in Geo-Viewer