Open Data: Datos al alcance de todos

t.lod-cloud

Iniciativas como la aceleradora ODINE (Open Data Incubator for Europe), cuyo objetivo es apoyar a pymes y startups en el desarrollo de negocios basados en los datos abiertos, son un claro ejemplo de la apuesta actual por el Open Data. ¿Pero qué es exactamente el Open Data? Empecemos analizando las dos palabras que componen este concepto.

Open (abierto), término muy popular hace ya varios años, lo podemos encontrar en Open Source, Open Knowledge, MOOC (Massive Open Online Course) y otras muchas disciplinas. En todos ellos, la palabra Open ofrece la posibilidad a cualquier persona de acceder a “algo” para usarlo, modificarlo y compartirlo sin prácticamente ninguna restricción, lo único que se suele pedir es preservar su autoría y mantener su cualidad de abierto.

Data (datos), proviene del latín “Datum”, que significa “lo que se da”. Se trata de una representación simbólica que puede ser cualitativa o cuantitativa. Los datos por sí mismos carecen de valor. Es mediante su procesamiento adecuado dentro de un contexto cuando pueden convertirse en información útil. En informática los datos son fundamentales y muy valorados, ya que son la materia prima para el desarrollo de cualquier algoritmo.

Open Data (Datos Abiertos), son aquellos datos que pueden ser utilizados, reutilizados y redistribuidos libremente por cualquier persona sin ningún tipo de restricción ni copyright facilitando en la medida de lo posible la interoperabilidad con otros conjuntos de datos.

Ya somos muchos los que consideramos a los datos el oro negro de nuestro tiempo. Gigantes como Google o Facebook, los grandes recolectores masivos de cualquier tipo de dato, han demostrado, a través de herramientas y técnicas de procesamiento de Big Data, cómo consiguen transformar sus ingentes cantidades de datos en información muy valiosa y enormes beneficios. Y es que sus servicios gratuitos, gratis nunca fueron.

Según la consultora IDC, el 90% de los datos a nivel mundial han sido creados tan solo en los últimos dos años. Para el año 2020 podríamos superar la mareante cifra de 40 ZB (zettabytes) de información, que es 50 veces mayor que la que existía en 2010. Esto es unos 5.247 GB por persona.

¿Y si cualquier persona o empresa pudiera tener acceso a esta enorme cantidad de datos que genera nuestra sociedad? Pues esto es exactamente lo que persigue la filosofía del movimiento Open Data.

¿Qué datos deberían ser abiertos?

Cada vez son más las voces que abogan por la adopción de políticas de datos abiertos por parte de las administraciones públicas con el objetivo de fomentar la transparencia y participación en el desarrollo económico.

Los datos generados y obtenidos por las instituciones estatales y organizaciones privadas financiadas con dinero público, no deben ser considerados de propiedad exclusiva de estos, sino que deben ser compartidos a la ciudadanía y empresas, para que puedan ser usados para consulta, para analizarlos o para cruzarlos con otros datos, posibilitando la generación de nuevos servicios, productos y negocios al alcance de todos.

Los datos abiertos por entidades gubernamentales se conoce como Open Government Data. España, según el último informe anual del Portal Europeo de Datos Públicos, es el país europeo líder en su desarrollo por el número y calidad de fuentes abiertas. En datos.gob.es podemos encontrar los diferentes conjuntos de datos publicados por el gobierno español.

En el sector privado la situación es distinta. Impedimentos como la competencia, la privacidad de los datos o la legislación, complican la publicación de datos abiertos por las empresas, aunque se empiezan a encontrar ejemplos de apertura de datos corporativos, con el objetivo de facilitar la creación de nuevas soluciones basadas en sus datos.

La apertura de datos proporcionadas por organizaciones públicas o privadas en cualquier formato es bienvenida. Actualmente los datos abiertos los podemos encontrar en multitud de formatos, no estructurados, semi-estructurados o estructurados. Algunos de los más comunes son PDF, TXT, CSV, XLS, XML, JSON, RSS, KML, WMS, WFS, GPX, RDF…

Midiendo la calidad de los datos

Tim Berners-Lee, padre de la web y actual director del W3C (World Wide Web Consortium), recientemente premiado con el ACM Turing Award 2016, el “Premio Novel de la Informática”, propuso una clasificación de cinco estrellas para medir la calidad de datos abiertos. El esquema debe ser entendido como un sistema acumulativo, donde los niveles superiores incluyen a los inferiores.

Open Data 5 estrellas
imagen de 5stardata.info con licencia CC0 Public Domain Dedication
  • En el primer nivel los datos están disponibles en Internet en cualquier formato, pero siempre con una licencia abierta. Es la forma más sencilla de publicar datos, sin embargo, la extracción de datos por una máquina es complicada y propensa a errores.

  • Una estrella más significa que además los datos deben estar publicados de manera estructurada, facilitando así el procesamiento para máquinas. Su extracción automática puede seguir siendo un problema si no se cuenta con el software propietario adecuado.

  • En este nivel, los datos estructurados deben usar formatos no propietarios, por ejemplo, CSV en vez de Excel. Los datos pueden ser explotados sin ningún tipo de software propietario.

  • Cuatro estrellas implica que se emplean los estándares del W3C, como RDF (Resource Description Framework) y SPARQL (Protocol and RDF Query Language) y usan una URI (Uniform Resource Identifier) para identificar los datos, pudiendo así ser compartidos e integrados en la Web.

  • A demás de todo lo anterior, significa que los datos están vinculados a otros datos, creando una red de datos que crean un contexto. Permiten en el propio procesado de la información incluir otros datos relacionados por descubrimiento. En este último nivel, en el que se unen datos abiertos y datos enlazados, es donde aparece el término LOD (Linked Open Data). En lod-cloud.net se pueden consultar conjuntos de datos que cumplen este nivel, así como la relación entre ellos.

¿Dónde estamos ahora?

Qué maravilloso sería una Red cinco estrellas, datos abiertos enlazados, permitiendo a personas y máquinas explorar la red de datos de manera sencilla y acercándonos un poco más a la realidad de una Web Semántica gracias a unos datos mejor definidos y a la relación entre ellos, dotando a la Web actual de mayor significado.

Mientras tanto, los esfuerzos deberían estar en alcanzar como mínimo el tercer nivel. En el momento actual de adolescencia en que se encuentra el Open Data, se empieza a considerar que por debajo de este nivel no se cumplen los mínimos para ser considerados aceptables. Quizás para la mayoría de edad deberán cumplir al menos el cuarto nivel y en la madurez que estén enlazados a otros datos, de manera que se referencien de la misma manera que hacemos ahora con los enlaces de las páginas web.

Publicando datos abiertos

Como editores será necesario seleccionar y preparar los datos a publicar, así como definir los formatos en los que se desea publicitar, intentando en la medida de lo posible, que sea interoperable con datos de otras fuentes.

En el caso de usar datos de carácter personal, los datos deberán ser anonimizados, eliminando cualquier rastro de información sensible de personas u organizaciones.

Para facilitar la apertura de datos existen plataformas que ayudan a publicar los datos en la Web de forma sencilla y rápida, sin tener que desembolsar una gran cantidad económica y de recursos. CKAN es la solución de software de datos abiertos más demandada actualmente. Cuenta con herramientas para publicar, administrar, compartir, encontrar y usar los datos, incluyendo el almacenamiento. Los portales como data.gov.uk o publicdata.eu están desarrollados bajo esta plataforma de código abierto.

Una oportunidad de negocio

La publicación de datos abiertos seguirá creciendo de forma imparable en el futuro. Las empresas tienen una oportunidad de generar nuevos negocios basados en datos abiertos. Por ejemplo, los datos publicados por el Instituto Geográfico Nacional son utilizados por CartoDB o Google Maps para sus negocios.

El Open Data genera hoy en día 13.000 empleos y un volumen de negocio de unos 1.700 millones en España

Víctor Calvo-Sotelo (secretario de Estado de Telecomunicaciones y para la Sociedad de la Información)

Imagen de la entrada de lod-cloud.net con licencia CC-BY-SA 3.0

Mario Olivar

Ingeniero en Informática por la Universidad Politécnica de Madrid. Amante de la informática desde mi primer Spectrum, sigo sorprendiéndome con los avances tecnológicos. Analizar y entender los datos, procesarlos, almacenarlos y visualizarlos desde distintas perspectivas, con una búsqueda continua de nuevas soluciones, forman parte de mi día a día como Responsable de Proyectos en el área de Text Analytics de Future Space.