Entrevista

La cultura colaborativa y los proyectos ciudadanos de datos abiertos son clave para el acceso democrático a la información. Esto contribuye a un conocimiento libre que permite impulsar la innovación y empoderar a la ciudadanía.

En este nuevo episodio del pódcast de datos.gob.es, nos acompañan dos profesionales ligados a proyectos ciudadanos que han revolucionado la forma en que accedemos, creamos y reutilizamos el conocimiento. Damos la bienvenida a:

  • Florencia Claes, profesora titular y coordinadora de Cultura Libre en la Universidad Rey Juan Carlos, y ex presidenta de Wikimedia España.
  • Miguel Sevilla-Callejo, investigador del CSIC (Consejo Superior de Investigaciones Científicas) y Vicepresidente de la asociación OpenStreetMap España.

Escuchar el pódcast completo

Resumen de la entrevista

  1. ¿Cómo definiríais la cultura libre?

Florencia Claes: Es cualquier expresión cultural, científica, intelectual, etc. que como autoras o autores permitimos que cualquier otra persona las utilice, las aproveche, las reaproveche, las intervenga y las vuelva a lanzar a la sociedad, para que otra persona haga lo mismo con ese material.

En la cultura libre entran en juego las licencias, esos permisos de uso que nos indican qué es lo que podemos hacer con esos materiales o con esas expresiones de la cultura libre.

  1. ¿Qué papel tienen los proyectos colaborativos dentro de la cultura libre?

Miguel Sevilla-Callejo: Tener unos proyectos que sean capaces de aglutinar estas iniciativas de cultura libre es muy importante. Los proyectos colaborativos son iniciativas horizontales en las que puede aportar cualquier persona. En torno a ellos se estructura un consenso para hacer crecer ese proyecto, esa cultura.

  1. Los dos estáis ligados a proyectos colaborativos como son Wikimedia y OpenStreetMap. ¿Cómo impactan estos proyectos en la sociedad?

Florencia Claes: Claramente el mundo no sería el mismo sin Wikipedia. No concebimos un mundo sin Wikipedia, sin acceso libre a la información. Creo que Wikipedia está asociado a la sociedad en la que estamos actualmente. Ha construido lo que somos hoy, también como sociedad. El hecho de que sea un espacio colaborativo, abierto, libre, hace que cualquiera pueda sumarse e intervenirlo y que tenga un rigor alto.

Entonces, ¿cómo impacta? Impacta en que (va a sonar un poco cursi, pero…) podemos ser mejores personas, podemos conocer más, podemos tener más información. Impacta en que cualquier persona con acceso a internet, claro está, puede beneficiarse de sus contenidos y aprender sin tener que pasar necesariamente por un muro de pago o estar registrado en una plataforma y cambiar datos para poder apropiarse o acercarse a la información.

Miguel Sevilla-Callejo: A OpenStreetMap le llamamos la Wikipedia de los mapas, porque en muy buena parte de su filosofía está copiado o clonado de la filosofía de Wikipedia. Si os imagináis Wikipedia, lo que hace la gente es que mete artículos enciclopédicos. Lo que hacemos en OpenStreetMap es meter datos espaciales. Construimos un mapa de manera colaborativa y esto supone que la página openstreetmap.org, que es donde podrías ir a mirar los mapas, es solo la punta del iceberg. Es ahí donde OpenStreetMap está un poco más difuso y oculto, pero la mayor parte de las páginas web, mapas e información espacial que estáis viendo en Internet, muy probablemente en su gran mayoría, procede de los datos de la gran base de datos libre, abierta y colaborativa que es OpenStreetMap.

Muchas veces estáis leyendo un periódico y veis un mapa y esos datos espaciales están sacados de OpenStreetMap. Incluso se utilizan en agencias: en la Unión Europea, por ejemplo, se está utilizando OpenStreetMap. Se usa en información de empresas privadas, de administraciones públicas, particulares, etc. Y, además, al ser libre se reaprovecha constantemente.

A mí me gusta traer siempre a colación proyectos que hemos hecho aquí, en la ciudad de Zaragoza. Hemos generado toda la red peatonal urbana, o sea, todas las aceras, los pasos de cebra, las zonas por las que se puede circular... y con esto se hace un cálculo de cómo te puedes mover por la ciudad andando. Esta información de las aceras, los pasos de peatones y demás no lo encuentras en un sitio web porque no es muy lucrativo, como podría ser por ejemplo moverse en coche, y se puede aprovechar, por ejemplo -que es lo que hicimos en algunos trabajos que dirigí yo en la universidad- para poder saber cómo de diferente es la movilidad con personas invidentes, en silla de ruedas o con un carrito de un bebé.

  1. Nos estáis contando que estos proyectos son abiertos. Si un ciudadano nos está escuchando ahora mismo y quiere participar en ellos, ¿qué debe hacer para participar? ¿Cómo puede formar parte de estas comunidades?

Florencia Claes: Lo interesante de estas comunidades es que no necesitas asociarte o ligarte formalmente a ellas para poder contribuir. En Wikipedia simplemente entras a la página de Wikipedia y te haces un usuario, o no, y ya puedes editar. ¿Qué diferencia hay entre hacer tu usuario o no? En que vas a poder tener mejor acceso a las contribuciones que has hecho, pero no necesitamos estar asociados o registrados en ningún sitio para poder editar Wikipedia.

Si hay a nivel local o regional grupos relacionados con la Fundación Wikimedia que reciben ayudas y subvenciones para hacer encuentros o actividades. Ahí está bueno, porque se conoce gente con las mismas inquietudes y que suelen ser muy entusiastas con respecto al conocimiento libre. Como dicen mis amigos, somos una panda de frikis que nos hemos encontrado y sentimos que tenemos un grupo de pertenencia en el que compartimos y planificamos cómo cambiar el mundo.

Miguel Sevilla-Callejo: En OpenStreetMap sucede prácticamente igual, o sea, lo puedes hacer en solitario. Es verdad que hay un poco de diferencia con respecto a Wikipedia. Si vas a la página de openstreetmap.org, en la que tenemos toda la documentación -que es wiki.OpenStreetMap.org- tú puedes entrar ahí y tienes toda la documentación.

Sí que es verdad que para editar en OpenStreetMap sí que se necesita un usuario para hacer un mejor seguimiento de los cambios que hace la gente en el mapa. Si fuera anónimo podría llegar a haber más problema, porque no es como los textos en Wikipedia. Pero como ha dicho Florencia, es mucho mejor si te asocias a una comunidad.

Tenemos grupos locales en diferentes sitios. Una de las iniciativas que hemos reactivado últimamente es la asociación OpenStreetMap España, en la que, como decía Florencia, estamos un grupo a los que nos gustan los datos y las herramientas libres, y ahí compartimos todo el conocimiento. Se acerca mucha gente y nos dicen "oye, acabo de entrar en OpenStreetMap, este proyecto me gusta, ¿cómo puedo hacer esto? ¿cómo puedo hacer lo otro?" Y bueno, siempre es mucho mejor hacerlo con otros colegas que hacerlo tú solo. Pero lo puede hacer cualquiera.

  1. ¿Qué desafíos os habéis encontrado a la hora de implementar estos proyectos colaborativos y garantizar su sostenibilidad en el tiempo? ¿Cuáles son los principales retos, tanto técnicos como sociales, a los que hacéis frente?

Miguel Sevilla-Callejo: Uno de los problemas que encontramos en todos estos movimientos que son tan horizontales y en los que hay que buscar consensos para saber hacia dónde avanzar, es que al final es relativamente problemático lidiar con una comunidad muy diversa. Siempre surgen roces, diferentes puntos de vista... Esto yo creo que es lo más problemático. Lo que sucede es que, en el fondo, como nos mueve a todos el entusiasmo por el proyecto, terminamos llegando a acuerdos que hacen crecer el proyecto, como se puede ver en los propios Wikimedia y OpenStreetMap, que siguen creciendo y creciendo.

Desde el punto de vista técnico, para algunas cosas en concreto, tienes que tener una cierta destreza informática, pero vamos muy, muy básica. Por ejemplo, hemos hecho mapatones, que consisten en que nos reunimos en un área con ordenadores y empezamos a poner información espacial en zonas, por ejemplo, donde ha habido una catástrofe natural o algo así. La gente básicamente, sobre una imagen de satélite, va colocando casitas donde va viendo - casitas ahí en mitad del Sahel, por ejemplo, para ayuda a ONG como Médicos Sin Fronteras-. Eso es muy fácil: lo abres en el navegador, abres OpenStreetMap y enseguida, con cuatro indicaciones, eres capaz de editar y contribuir.

Sí que es verdad que, si quieres hacer cosas un poco más complejas, tienes que tener más destreza informática. Entonces sí que es verdad que siempre nos adaptamos. Hay gente que está metiendo datos en plan muy pro, incluyendo edificios, importando datos del catastro… y hay gente como hace poco una chica aquí en Zaragoza, que descubrió el proyecto y está metiendo los datos que va encontrando con una aplicación en el móvil.

Sí que de verdad encuentro un cierto sesgo de género en el proyecto. A mí eso dentro de OpenStreetMap me preocupa un poco, porque es verdad que una gran mayoría de las personas que estamos editando, incluidos a la comunidad, somos hombres y eso al final sí que se traduce en que algunos datos tienen cierto sesgo. Pero bueno, estamos trabajando en ello.

Florencia Claes: En ese sentido, en el entorno Wikimedia, también nos pasa eso. Tenemos, más o menos a nivel mundial, un 20% de mujeres participantes en el proyecto contra 80% de varones y eso hace que, por ejemplo, en el caso de Wikipedia, haya preferencia por artículos sobre futbolistas a veces. No es preferencia, sino simplemente que las personas que editan tienen esos intereses y como son más hombres, pues tenemos más futbolistas, y echamos en falta artículos relacionados, por ejemplo, con la salud de la Mujer.

Entonces sí nos enfrentamos a sesgos y nos enfrentamos a esa coordinación de la comunidad. A veces participa gente con muchos años, gente nueva… y lograr un equilibrio es importantísimo y muy difícil. Pero lo interesante es cuando logramos tener presente o recordar que el proyecto está por encima de nosotros, que estamos construyendo algo, que estamos regalando algo, que estamos participando en algo muy grande. Cuando volvemos a tomar conciencia de eso, las diferencias se tranquilizan y volvemos a centrarnos en el bien común que, al fin y al cabo, creo que es el objetivo de estos dos proyectos, tanto del entorno Wikimedia como de OpenStreetMap.

  1. Como comentabais, tanto Wikimedia como OpenStreetMap son proyectos construidos por voluntarios. ¿Cómo se garantiza la calidad y precisión de los datos?

Miguel Sevilla-Callejo: Lo interesante de todo esto es que la comunidad es muy amplia y hay muchos ojos observando. Cuando hay una falta de rigurosidad en la información, tanto en Wikipedia -que lo conoce la gente más- pero también en OpenStreetMap, saltan las alarmas. Tenemos sistemas de seguimiento y es relativamente sencillo ver disfunciones en los datos. Entonces podemos actuar rápidamente. Esto da una capacidad, en OpenStreetMap en concreto, de reacción y actualización de los datos prácticamente inmediata y de resolución de aquellas problemáticas que puedan surgir también bastante rápida. Sí que es verdad que tiene que haber una persona atenta de ese lugar o de esa zona.

A mí siempre me ha gustado hablar de los datos de OpenStreetMap como una especie de - refiriendo como se hace en el software- mapa beta, que tiene lo ultimísimo, pero puede haber algunos errores mínimos. Entonces, como un mapa fuertemente actualizado y de gran calidad, se puede utilizar para muchas cosas, pero para otras por supuesto que no, porque tenemos otra cartografía de referencia que se está construyendo por la administración pública.

Florencia Claes: En el entorno Wikimedia también funcionamos así, por la masa, por la cantidad de ojos que están mirando lo que hacemos y lo que hacen otros. Cada uno, dentro de esta comunidad, va asumiendo roles. Hay roles que están pautados, como los de administradores o bibliotecarios o bibliotecarias, pero hay otros que simplemente son: a mí me gusta patrullar, entonces lo que hago es estar pendiente de los artículos nuevos y podría estar mirando los artículos que se publican a diario para ver si necesitan algún apoyo, alguna mejora o si, por el contrario, están tan mal que necesitan ser retirados de la parte principal o borrados.

La clave de estos proyectos es la cantidad de gente que participa y todo es de forma voluntaria, altruista. La pasión es muy es muy alta, el nivel de compromiso es muy alto. Entonces la gente cuida mucho esas cosas. Tanto cuando se curan datos para subir a Wikidata o se escribe un artículo en Wikipedia, cada persona que lo hace, lo hace con mucho cariño, con mucho celo. Después pasa el tiempo y está pendiente de ese material que subió, a ver cómo siguió creciendo, si se utilizó, si se enriqueció más o si por el contrario se le borró algo.

Miguel Sevilla-Callejo: Respecto a la calidad de los datos, me parece interesante, por ejemplo, una iniciativa que ha tenido ahora el Sistema de Información Territorial de Navarra. Han migrado todos sus datos para la planificación y la guía de las rutas de emergencias a OpenStreetMap, tomando sus datos. Ellos se han implicado en el proyecto, han mejorado la información, pero tomando lo que ya había [en OpenStreetMap], considerando que tenían una gran calidad y que les resultaba mucho más útil que utilizar otras alternativas, lo cual pone de manifiesto la calidad y la importancia que puede llegar a tener este proyecto.

  1. Estos datos también pueden servir para generar recursos educativos abiertos, junto con otras fuentes de conocimiento. ¿En qué consisten estos recursos y qué papel juegan en la democratización del conocimiento?

Florencia Claes: Los REA, los recursos educativos abiertos, deberían ser la norma. Cada docente que genera contenidos debería ponerlos a disposición de la ciudadanía y deberían estar construidos por módulos a partir de recursos libres. Sería lo ideal.

¿Qué papel tiene el entorno Wikimedia en esto? Desde albergar información que puede ser utilizada a la hora de construir los recursos, como proporcionar espacios para realizar ejercicios o para tomar, por ejemplo, datos y hacer un trabajo con SPARQL. O sea, hay diferentes formas de abordar los proyectos Wikimedia en relación a los recursos educativos abiertos. Se puede desde intervenir y enseñarle al alumnado cómo identificar datos, cómo verificar las fuentes, hasta simplemente hacer una lectura crítica de cómo está presentada la información, cómo está curada, y hacer, por ejemplo, una valoración entre idiomas.

Miguel Sevilla-Callejo: En OpenStreetMap es muy similar. Lo interesante y único es cuál es la naturaleza de los datos. No es exactamente información en diferentes formatos como en Wikimedia. Aquí la información es esa base de datos espaciales libre que es OpenStreetMap. Entonces los límites son la imaginación.

Me acuerdo que había un compañero que iba a unas conferencias y hacía una tarta con el mapa de OpenStreetMap. Se la daba a comer a la gente y les decía: "¿Veis? Estos son mapas que hemos podido comer porque son libres". Para hacer cartografía más seria o más informal o lúdica, el límite es solo tu imaginación. Sucede exactamente igual que con Wikipedia.

  1. Para acabar, ¿cómo se puede motivar a los ciudadanos y organizaciones para que participen en la creación y mantenimiento de proyectos colaborativos ligados a la cultura libre y datos abiertos?

Florencia Claes: Yo creo que hay que hacer claramente lo que decía Miguel de la tarta. Hay que hacer una tarta e invitar a la gente a comer tarta. Hablando en serio sobre qué podemos hacer para motivar a la ciudadanía a reutilizar estos datos, yo creo, sobre todo por experiencia personal y por los grupos con los que yo he trabajado en estas plataformas, que la interfaz sea amigable es un paso importantísimo.

En Wikipedia en 2015 se activó el editor visual. El editor visual hizo que nos incorporamos muchísimas más mujeres a editar Wikipedia. Antes se editaba solo en código y el código, pues a primera vista puede parecer hostil o distante o “eso no va conmigo”. Entonces, tener interfaces donde la gente no necesite tener demasiados conocimientos para saber que este es un paquete que tiene tal tipo de datos y lo voy a poder leer con tal programa o lo voy a poder volcar en tal cosa y que sea sencillo, que sea amigable, que sea atractivo… Eso creo que nos va a quitar muchísimas barreras y que va a dejar de lado esa idea de que el dato es para los informáticos. Y creo que los datos van más allá, que realmente podemos aprovecharlos todas y todos de muy diferentes formas. Entonces creo que es una de las barreras que deberíamos vencer.

Miguel Sevilla-Callejo: A nosotros no sucedió que hasta más o menos 2015 (perdóname si no es exactamente la fecha), teníamos un interfaz que era bastante horrible, casi como la edición de código que tenéis en Wikipedia, o peor, porque había que meter los datos sabiendo el etiquetado, etc. Era muy complejo. Y ahora tenemos un editor que básicamente tú estás en OpenStreetMap, le das a editar y sale un interfaz súper sencillo. Ya ni siquiera hay que poner etiquetado en inglés, está todo traducido. Hay muchas cosas preconfiguradas y la gente puede meter los datos inmediatamente y de una manera muy sencilla. Entonces eso lo que ha permitido es que se acerque mucha más gente al proyecto.

Otra cosa muy interesante, que también pasa en Wikipedia, aunque es verdad que está mucho más centrado en la interfaz web, es que en torno a OpenStreetMap se ha generado un ecosistema de aplicaciones y servicios que ha posibilitado que, por ejemplo, aparezcan aplicaciones móviles que, de una manera muy rápida, muy sencilla, permiten meter los datos directamente a pie sobre el terreno. Y esto posibilita que la gente pueda meter los datos de una manera sencilla.

Quería de todas maneras incidir otra vez, aunque ya sé que estamos reiterando todo el rato en la misma circunstancia, pero creo que es importante comentarlo, porque creo que eso se nos olvida dentro de los proyectos: necesitamos que la gente sea consciente otra vez de que los datos son libres, que pertenecen a la comunidad, que no está en manos de una empresa privada, que se puede modificar, que se pueden transformar, que detrás lo que hay es una comunidad de gente voluntaria, libre, pero que eso no quita calidad a los datos, y que llega a todos lados. Para que la gente se acerque y no nos vean como un bicho raro. Yo creo que Wikipedia está mucho más integrado dentro del conocimiento de la sociedad y ahora con la inteligencia artificial mucho más, pero nos pasa en OpenStreetMap, que te miran así como diciendo “pero, ¿qué me estás contando si yo utilizo otra aplicación en el móvil?” o está utilizando la nuestra, está utilizando datos de OpenStreetMap sin saberlo. Entonces nos falta acercarnos más a la sociedad, que nos conozcan más.

Volviendo al tema de la asociación, ese es uno de nuestros objetivos, que la gente nos conozca, que sepa que esos datos son abiertos, que se pueden transformar, los pueden utilizar y que son libres de tenerlos para construir, como decía antes, lo que quieran y el límite es su imaginación.

Florencia Claes: Creo que deberíamos integrar de alguna forma mediante gamificación, mediante juegos en el aula, la incorporación de mapas, de datos dentro del aula, dentro del día a día en la escolarización. Creo que ahí tendríamos un punto a favor. Dado que estamos dentro de un ecosistema libre, podemos integrar en las mismas páginas de los repositorios de datos herramientas de visualización o de reaprovechamiento que creo que harían todo bastante más amable y daría cierto poder a la ciudadanía, los empoderaría de tal forma que se animaría a utilizarlos.

Miguel Sevilla-Callejo: Es interesante que tenemos cosas que conectan ambos proyectos (también se nos olvida a veces a la gente de OpenStreetMap y de Wikipedia), que hay datos que podemos intercambiar, coordinar y sumar. Y eso también se sumaría a lo que acabas de decir.

Suscríbete a nuestro perfil de Spotify para estar al día de nuestros pódcasts

calendar icon
Entrevista

El conocimiento abierto es aquel que puede ser reutilizado, compartido y mejorado por otros usuarios e investigadores sin restricciones notables. Esto incluye datos, publicaciones académicas, software y otros recursos disponibles. Para profundizar en esta temática contamos con representantes de dos instituciones cuyo objetivo es impulsar la producción científica y que esta sea dispuesta en abierto para su reutilización:

  • Mireia Alcalá Ponce de León, Técnica de recursos de información del área de aprendizaje, investigación y ciencia abierta del Consorcio de Servicios Universitarios de Cataluña (CSUC).
  • Juan Corrales Corrillero, Gestor del repositorio de datos del Consorcio Madroño.

Escuchar el pódcast completo

Resumen de la entrevista

1.¿Podéis explicar brevemente a qué se dedican las instituciones para las que trabajáis?

Mireia Alcalá: El CSUC es el Consorcio de Servicios Universitarios de Cataluña y es una organización que tiene como objetivo ayudar a universidades y centros de investigación que están en Cataluña a mejorar su eficiencia a través de proyectos colaborativos. Estamos hablando de unas 12 universidades y casi unos 50 centros de investigación.
Ofrecemos servicios en muchas áreas: cálculo científico, administración electrónica, repositorios, administración en la nube, etc. y también ofrecemos servicios bibliotecarios y de ciencia abierta, que es lo que nos toca más de cerca. En el área de aprendizaje, investigación y ciencia abierta, que es donde estoy trabajando, lo que hacemos es intentar facilitar la adopción de nuevas metodologías por parte del sistema universitario y de investigación, sobre todo, en la ciencia abierta, y damos apoyo a la gestión de datos de investigación.

Juan Corrales: El Consorcio Madroño es un consorcio de bibliotecas universitarias de la Comunidad de Madrid y de la de la UNED (Universidad Nacional de Educación a Distancia) para la cooperación bibliotecaria. Buscamos incrementar la producción científica de las universidades que forman parte del consorcio y también incrementar la colaboración entre las bibliotecas en otros ámbitos. Estamos también, al igual que el CSUC, muy involucrados con la ciencia abierta: en promocionar la ciencia abierta, en proporcionar infraestructuras que la faciliten, no solamente para los miembros del Consorcio Madroño, sino también de forma global. Aparte, también damos otros servicios bibliotecarios y creamos estructuras para ellos.

2. ¿Qué requisitos debe de cumplir una investigación para qué se considere abierta?

Juan Corrales: Para que una investigación se considere abierta hay muchas definiciones, pero quizás una de las más importantes es la que da la Estrategia Nacional de Ciencia Abierta que tiene seis pilares.

Uno de ellos es que hay que poner en acceso abierto tanto los datos de investigación como las publicaciones, los protocolos, las metodologías... Es decir, todo tiene que estar accesible y, en principio, sin barreras para todo el mundo, no solamente para los científicos, no solamente para las universidades que pueden pagar el acceso a estos datos de investigación o a estas publicaciones.

También es importante utilizar plataformas de código abierto que podamos personalizar. El código abierto es software que cualquiera, en principio con conocimientos, puede modificar, personalizar y redistribuir, como contrapunto al software privado de muchas empresas, que no permite hacer todas estas gestiones.
Otro punto importante, aunque este estemos todavía lejos de llegar en la mayoría de las instituciones, es permitir la revisión por pares abiertas, porque permite saber quién ha hecho una revisión, con qué comentarios, etc. Se puede decir que permite volver a hacer el ciclo de revisión por pares y mejorarlo.

Un último punto es la ciencia ciudadana: permitir a los ciudadanos de a pie formar parte de la ciencia, que no solamente se haga dentro de las universidades o institutos de investigación.
Y otro punto importante es añadir nuevas formas de medir la calidad de la ciencia.

Mireia Alcalá: Estoy de acuerdo con lo que dice Juan. A mí también me gustaría añadir que, para que un proceso de investigación se considere abierto, lo tenemos que mirar globalmente. Es decir, que incluya todo el ciclo de vida de los datos. No podemos hablar de que una ciencia es abierta si solo nos fijamos en que los datos al final estén en abierto. Ya desde el principio de todo el ciclo de vida del dato, es importante que se usen plataformas y se trabaje de una manera más abierta y colaborativa.

3. ¿Por qué es importante que universidades y centros de investigación pongan sus estudios y datos a disposición de la ciudadanía?

Mireia Alcalá: Yo creo que es clave que las universidades y los centros compartan sus estudios, porque gran parte de la investigación, tanto aquí en España como a nivel europeo o mundial, se financia con dinero público. Por lo tanto, si la sociedad es quien está pagando la investigación, lo lógico es que también se beneficie de sus resultados. Además, abrir el proceso de investigación puede ayudar a que sea más transparente, más responsable, etc.

Se ha visto que gran parte de la investigación hecha hasta hoy en día no es reutilizable, ni reproducible. ¿Esto qué quiere decir? Que los estudios que se han hecho, casi en el 80% de los casos otra persona no puede cogerlo y volver a utilizar esos datos. ¿Por qué? Porque no siguen los mismos estándares, las mismas maneras, etc. Por lo tanto, yo creo que tenemos que hacer que sea extensivo a todos los sitios y un ejemplo claro está en época de pandemia. Con la COVID-19, investigadores de todo el mundo trabajaron juntos, compartiendo datos y hallazgos en tiempo real, trabajando de la misma manera, y se vio que la ciencia fue mucho más rápida y eficiente.

Juan Corrales: Los puntos claves ya los ha tocado todos Mireia. Aparte, se podría añadir que acercar la ciencia a la sociedad puede hacer que todos los ciudadanos sintamos que la ciencia es algo nuestro, no solamente de científicos o universitarios. Es algo en lo que podemos participar y esto puede ayudar también a frenar quizás los bulos, las fake news, a tener una visión más exhaustiva de las noticias que nos llegan a través de redes sociales y a poder filtrar qué puede ser real y qué puede ser falso.

4.¿Qué investigaciones deben publicarse en abierto?

Juan Corrales: Ahora mismo, según la ley que tenemos en España, la última Ley de ciencia, deben publicarse en abierto todas las publicaciones que están financiadas principalmente por fondos públicos o en las que participan instituciones públicas. Esto realmente no ha tenido mucha repercusión hasta el año pasado, porque, aunque la ley salió hace dos años, en la anterior también se decía, también hay una ley de la Comunidad de Madrid que dice lo mismo… pero desde el año pasado se está teniendo en cuenta en la evaluación que hace la ANECA (la Agencia de Evaluación de la Calidad) a los investigadores. Desde entonces casi todos los investigadores han tenido como algo prioritario publicar sus datos e investigaciones en abierto. Sobre todo, con los datos era algo que no se estaba haciendo prácticamente hasta ahora.

Mireia Alcalá: A nivel estatal es como dice Juan. Nosotros a nivel autonómico también tenemos una ley del 2022, la Ley de la ciencia, que básicamente dice exactamente lo mismo que la ley española. Pero a mí también me gusta que la gente conozca que no solo tenemos que tener en cuenta la legislación estatal, sino las convocatorias de donde se consigue el dinero para financiar los proyectos. Básicamente en Europa, en los programas marco como el Horizon Europe, se dice claramente que, si tú recibes una financiación de la Comisión Europea, tendrás que hacer un plan de gestión de datos al inicio de tu investigación y publicar los datos siguiendo los principios FAIR.
 

5.Entre otras cuestiones, tanto el CSUC como el Consorcio Madroño se encargan de dar soporte a entidades e investigadores que quieren poner sus datos a disposición de la ciudadanía, ¿cómo debe ser un proceso de apertura de datos de datos de investigación? ¿Qué retos son los más habituales y cómo los solucionan?

Mireia Alcalá: En nuestro repositorio que se llama RDR (de Repositori de Dades de Recerca), son básicamente las instituciones participantes las que se encargan de dar apoyo al personal investigador. El investigador llega al repositorio cuando ya está en la fase final de la investigación y necesita publicar para ayer los datos y entonces todo es mucho más complejo y lento. Se tarda más en verificar estos datos y hacer que sean encontrables, accesibles, interoperables y reutilizables.
En nuestro caso particular, tenemos una checklist que pedimos que todo dataset cumpla para garantizar este mínimo de calidad en los datos, para que se puedan reutilizar. Estamos hablando de que tenga identificadores persistentes como ORCID para el investigador o ROR para identificar las instituciones, que tenga documentación que explique cómo reutilizar esos datos, que tenga una licencia, etc. Como tenemos este checklist, los investigadores, a medida que van depositando, van mejorando sus procesos y empiezan a trabajar y a mejorar la calidad de los datos desde el principio. Es un proceso lento.

El principal reto, yo creo que es que el investigador asuma que eso que él tiene son datos, porque la mayoría lo desconoce. La mayoría de los investigadores creen que los datos son unos números que ha sacado una máquina que mide la calidad del aire, y desconoce que un dato puede ser una fotografía, una lámina de una excavación arqueológica, un sonido captado en una determinada atmósfera, etc. Por lo tanto, el principal reto es que todo el mundo entienda qué es un dato y que su dato puede ser valioso para otros.
¿Y cómo lo solucionamos? Intentando hacer mucha formación, mucha sensibilización. En los últimos años, desde el Consorcio, hemos trabajado para formar al personal de curación de datos, el que se dedica a ayudar a los investigadores directamente a fairificar estos datos. También estamos empezando a hacer sensibilización directamente con los investigadores para que usen las herramientas y entiendan un poco todo este nuevo paradigma que es la gestión de datos.

Juan Corrales: En el Consorcio Madroño, hasta noviembre, la única forma de abrir datos era que los investigadores pasaran un formulario con los datos y sus metadatos a los bibliotecarios, y eran los bibliotecarios los que los subían para asegurar que eran FAIR. Desde noviembre, también permitimos a los investigadores que suban los datos directamente al repositorio, pero no se publican hasta que han sido revisados por bibliotecarios expertos, que verifican que los datos y metadatos tienen calidad. Es muy importante que los datos estén bien descritos para que puedan ser fácilmente encontrables, reutilizables e identificables.

En cuanto a los retos, están todos los que ha dicho Mireia - que los investigadores muchas veces no saben que tienen datos- y también, aunque la ANECA ha ayudado mucho con las nuevas obligaciones a que se publiquen datos de investigación, muchos investigadores quieren poner sus datos corriendo en los repositorios, sin tener en cuenta que tienen que ser datos de calidad, que no basta con ponerlos, sino que es importante que esos datos después se puedan reutilizar.

6.¿Qué actividades y herramientas proporcionáis desde vuestras instituciones u otras similares para ayudar a las organizaciones a alcanzar el éxito en esta tarea?

Juan Corrales: Desde Consorcio Madroño, el propio repositorio que utilizamos, la herramienta donde se suben los datos de investigación, facilita que los datos sean FAIR, porque ya proporciona identificadores únicos, plantillas para los metadatos bastante completas que se pueden personalizar, etc. También tenemos otra herramienta que ayuda a crear los planes de gestión de datos para que los investigadores, para que antes de crear sus datos de investigación, empiecen a planificar cómo van a trabajar con ellos. Eso es algo muy importante y que desde las instituciones europeas se está impulsando desde hace ya mucho, y también desde la Ley de la ciencia y la Estrategia Nacional de Ciencia Abierta.
Después, más que las herramientas, es muy importante también la revisión por parte de bibliotecarios expertos.

Hay otras herramientas que ayudan a evaluar la calidad de un dataset, de los datos de investigación, como son Fair EVA o de F-Uji, pero lo que hemos comprobado es que esas herramientas al final lo que están evaluando más es la calidad del repositorio, del software que se está utilizando, y de los requisitos que estás pidiendo a los investigadores para subir estos metadatos, porque todos nuestros datasets tienen una evaluación bastante alta y bastante similar. Entonces, para lo que sí nos sirven esas herramientas es para mejorar tanto los requisitos que estamos poniendo a nuestros datasets, a nuestros conjuntos de datos, como para poder mejorar las herramientas que tenemos, en este caso el software de Dataverse, que es el que estamos utilizando.

Mireia Alcalá: A nivel de herramientas y actividades vamos a la par, porque con el Consorcio Madroño tenemos relación desde hace años, e igual que ellos tenemos todas estas herramientas que ayudan y facilitan el poner los datos de la mejor manera posible ya desde el principio, por ejemplo, con la herramienta para hacer planes de gestión de datos.

Aquí en el CSUC se ha trabajado también en los últimos años de una manera muy intensa en poder cerrar este gap en el ciclo de vida de los datos, abarcando temas de infraestructuras, almacenaje, cloud, etc. para que, en el momento que se analicen y se gestionen los datos, los investigadores tengan también un sitio donde poder ir. Después del repositorio, ya pasamos a todos los canales y portales que permiten difundir y visibilizar toda esta ciencia, porque no tiene sentido que hagamos repositorios y estén allí a modo de silo, sino que tienen que estar interconectados. Desde hace ya muchos años se ha trabajado muy bien en hacer protocolos de interoperabilidad y en seguir los mismos estándares. Por lo tanto, los datos tienen que estar disponibles en otros sitios, y tanto el Consorcio Madroño como nosotros estamos en todos los sitios posibles y más.
 

7. ¿Nos podéis contar un poco más sobre estos repositorios que ofrecéis? Además de ayudar a los investigadores a poner sus datos a disposición de la ciudadanía, también ofrecéis un espacio, unos repositorios digitales donde albergar estos datos, para que puedan ser localizados por los usuarios.
 

Mireia Alcalá: Si hablamos específicamente de datos de investigación, como tenemos un mismo repositorio tanto el Consorcio Madroño como nosotros, vamos a dejar que Juan nos explique el software y las especificaciones, y yo me voy a centrar en otros repositorios de producción científica que también ofrece el CSUC. Aquí lo que hacemos es coordinar diferentes repositorios cooperativos según la tipología del recurso que contiene. Por lo tanto, tenemos TDX para tesis, RECERCAT para documentos de investigación, RACO para revista científicas o MACO, para monografías en acceso abierto. En función de tipo de producto, disponemos de un repositorio concreto, porque no todo puede estar en un mismo sitio ya que cada output de la investigación tiene unas particularidades diferentes. Aparte de los repositorios, que son cooperativos, también tenemos otros espacios que hacemos para instituciones concretas, ya sea con una solución más estándar o algunas funcionalidades más personalizadas. Pero básicamente es esto: tenemos para cada tipo de output que hay en la investigación, un repositorio específico que se adapta a cada una de las particularidades de estos formatos.

Juan Corrales: En el caso de Consorcio Madroño, nuestro repositorio se llama e-cienciaDatos, pero está basado en el mismo software que el repositorio del CSUC, que es el Dataverse. Es un software de código abierto, con lo cual puede ser mejorado y personalizado. Aunque en principio el desarrollo está gestionado desde la Universidad de Harvard, en Estados Unidos, estamos participando en su desarrollo instituciones de todo el mundo -no sé si treinta y tantos países hemos participado ya en su desarrollo-.
Entre otras cosas, por ejemplo, las traducciones al catalán la han hecho desde el CSUC, la traducción al español la hemos hecho desde el Consorcio Madroño y también hemos participado en otros pequeños desarrollos. La ventaja que tiene este software es que facilita mucho que los datos sean FAIR y compatible con otros puntos que tienen mucha más visibilidad, porque, por ejemplo, el CSUC es mucho más grande, pero en el Consorcio Madroño estamos seis universidades, y es raro que alguien vaya a buscar un dataset en el Consorcio Madroño, en e-cienciaDatos, directamente. Lo normal es que lo busquen desde Google o un portal europeo o internacional. Con estas facilidades que tiene Dataverse, lo pueden buscar desde cualquier sitio y pueden terminar encontrando los datos que tenemos en el Consorcio Madroño o en el CSUC.

8. ¿Qué otras plataformas con datos en abierto de investigaciones, a nivel español o europeo, recomiendan?

Juan Corrales:  Por ejemplo, a nivel español está la FECYT, la Fundación Española de Ciencia y Tecnología, que tiene un recolector que recoge los datos de investigación de todas las instituciones españolas prácticamente. Ahí aparecen todas las publicaciones de todas las instituciones: de Consorcio Madroño, de CSUC y muchísimas más.
Luego, en concreto para datos de investigación, hay muchas investigaciones que conviene ponerlas en un repositorio temático, porque es donde van a buscar los investigadores de esa rama de la ciencia. Tenemos alguna herramienta que ayuda a elegir el repositorio temático. A nivel europeo está Zenodo, que tiene mucha visibilidad, pero no tiene el apoyo de calidad de los datos del CSUC o el Consorcio Madroño. Y eso es algo que se nota muchísimo a nivel de reutilización después.

Mireia Alcalá: A nivel nacional, fuera de las iniciativas de Consorcio Madroño y la nuestra, los repositorios de datos aún no están muy extendidos. Conocemos algunas iniciativas en desarrollo, pero todavía es pronto para ver sus resultados. Sin embargo, sí que conozco algunas universidades que han adaptado sus repositorios institucionales para poder también añadir datos. Y aunque esto es una solución válida para aquellas que no tengan más opción, se ha visto que los softwares utilizados en repositorios que no están diseñados para gestionar las particularidades de los datos - que puede ser la heterogeneidad, el formato, la diversidad, el gran tamaño, etc.-. quedan un poco cojos. Después, como decía Juan, a nivel europeo, sí que está establecido que Zenodo es el repositorio multidisciplinario y multiformato, que nace a raíz de un proyecto europeo de la Comisión. Coincido con él que, como es un repositorio de autoarchivo y autopublicación - es decir, yo Mireia Alcalá puedo ir en cinco minutos, poner cualquier documento que tengo allí, nadie se lo ha mirado, pongo los mínimos metadatos que me piden y lo publico-, está claro que la calidad es muy variable. Hay cosas que realmente son utilizables y están perfectas, pero hay otras que necesitan un poco más de cariño.

Como decía Juan, también a nivel disciplinar es importante destacar que, en todas esas áreas que tengan un repositorio disciplinar, los investigadores tienen que ir allí, porque es donde van a poder usar sus metadatos más adecuados, donde todo el mundo trabajará de la misma manera, donde todo el mundo sabrá dónde buscar esos datos… Para quien tenga interés existe un directorio que se llama re3data, que es básicamente un directorio de todos estos repositorios multidisciplinares y disciplinares. Por lo tanto, es un buen sitio para quien tenga interés y no conozca qué hay en su disciplina. Que vaya allí, que es un buen recurso.

9. ¿Qué acciones consideráis como prioritarias a realizar desde las instituciones públicas de cara a promover el conocimiento abierto?

Mireia Alcalá: Yo básicamente lo que diría es que las instituciones públicas deben centrarse en hacer y establecer políticas claras sobre ciencia abierta, porque es verdad que hemos avanzado mucho en los últimos años, pero hay veces que los investigadores están un poco desconcertados. Y aparte de las políticas, sobre todo es ofrecer incentivos a toda la comunidad investigadora, porque hay mucha gente que está haciendo el esfuerzo de cambiar su manera de trabajar para impregnarse de la ciencia abierta y a veces no ve cómo revierte todo ese esfuerzo de más que está haciendo en cambiar su manera de trabajar para hacerlo de esta manera. O sea que yo diría esto: políticas e incentivos.

Juan Corrales: Desde mi punto de vista, las políticas teóricas que tenemos ya a nivel nacional, a nivel autonómico, suelen ser bastante correctas, bastante buenas. El problema es que muchas veces no se ha intentado hacerlas cumplir. Hasta ahora, por lo que hemos visto por ejemplo con la ANECA -que ha promocionado el uso de los repositorios de datos o de artículos de investigación-, no se han empezado a utilizar de forma masiva realmente. O sea, que los incentivos son necesarios, que no sea solamente por obligación. Hay que convencer, como ha dicho también Mireia, a los investigadores, que vean como algo suyo el publicar en abierto, que es algo que les beneficia tanto a ellos como a toda la sociedad. Lo que creo que eso más importante es eso: la concienciación a los investigadores.

Suscríbete a nuestro perfil de Spotify para estar al día de nuestros pódcasts

calendar icon
Entrevista

¿Sabías que las habilidades de ciencia de datos están entre las más demandadas por las empresas? En este pódcast, te vamos a contar cómo puedes formarte en este campo, de manera autodidacta. Para ello, contaremos con dos expertos en ciencia de datos:

  • Juan Benavente, ingeniero industrial e informático con más de 12 años de experiencia en innovación tecnológica y transformación digital. Además, lleva años formando a nuevos profesionales en escuelas tecnológicas, escuelas de negocio y universidades.
  • Alejandro Alija, doctor en física, científico de datos y experto en transformación digital. Además de su amplia experiencia profesional enfocada en el Internet of Things (internet de las cosas), Alejandro también trabaja como profesor en diferentes escuelas de negocio y universidades.

 

Escuchar el pódcast completo

Resumen de la entrevista

  1. ¿Qué es la ciencia de datos? ¿Por qué es importante y para qué nos puede servir? 

Alejandro Alija: La ciencia de datos podría definirse como una disciplina cuyo principal objetivo es entender el mundo, los procesos propios de un negocio y de la vida, analizando y observando los datos. En los últimos 20 años ha cobrado una relevancia excepcional debido a la explosión en la generación de datos, principalmente por la irrupción de internet y del mundo conectado.

Juan Benavente:  El término ciencia de datos ha ido evolucionando desde su creación. Hoy, un científico de datos es la persona que está trabajando en el nivel más alto en análisis de datos, frecuentemente asociado con la construcción de algoritmos de machine learning o inteligencia artificial para empresas o sectores específicos, como predecir u optimizar la fabricación en una planta.

La profesión está evolucionando rápidamente, y probablemente en los próximos años se vaya fragmentando. Hemos visto aparecer nuevos roles como ingenieros de datos o especialistas en MLOps. Lo importante es que hoy cualquier profesional, independientemente de su área, necesita trabajar con datos. No cabe duda de que cualquier posición o empresa requiere análisis de datos, cada vez más avanzados. Da igual si estás en marketing, ventas, operaciones o en la universidad. Cualquiera hoy en día está trabajando con datos, manipulándolos y analizándolos. Si además aspiramos a la ciencia de datos, que sería el mayor nivel de expertise, estaremos en una posición muy beneficiosa. Pero, sin duda, recomendaría a cualquier profesional que tenga esto en radar.

  1. ¿Cómo os iniciasteis en la ciencia de datos y qué hacéis para manteneros actualizados? ¿Qué estrategias recomendaríais tanto para principiantes como para perfiles más experimentados?

Alejandro Alija: Mi formación básica es en física, e hice mi doctorado en ciencia básica. En realidad, podría decirse que cualquier científico, por definición, es un científico de datos, porque la ciencia se basa en formular hipótesis y demostrarlas con experimentos y teorías. Mi relación con los datos comenzó temprano en la academia. Un punto de inflexión en mi carrera fue cuando empecé a trabajar en el sector privado, específicamente en una compañía de gestión medioambiental que se dedica a medir y observar la contaminación atmosférica. El medio ambiente es un campo que tradicionalmente es gran generador de datos, especialmente por ser un sector regulado donde las administraciones y empresas privadas están obligadas, por ejemplo, a registrar los niveles de contaminación atmosférica en determinadas condiciones. Encontré series históricas de hasta 20 años de antigüedad que estaban a mi disposición para analizar. A partir de ahí empezó mi curiosidad y me especialicé en herramientas concretas para analizar y entender lo que está ocurriendo en el mundo.

Juan Benavente: Yo me identifico con lo que ha comentado Alejandro porque tampoco soy informático. Me formé en ingeniería industrial y aunque la informática es uno de mis intereses, no fue mi base. A diferencia, hoy en día,  sí veo que se están formando más especialistas desde la universidad. Actualmente, un científico de datos tiene muchas skills a la espalda como cuestiones de estadística, matemáticas y la capacidad de entender todo lo que pasa en el sector. Yo he ido adquiriendo estos conocimientos en base a la práctica. Sobre cómo mantenerse actualizado, yo creo que, en muchos casos, puedes estar en contacto con empresas que están innovando en este campo. También en eventos sectoriales o tecnológicos se puede aprender mucho. Yo empecé en las smart cities y he ido pasando por el mundo industrial hasta aprender poco a poco.

Alejandro Alija: Por añadir otra fuente en la que mantenerse actualizado. A parte de las que ha comentado Juan, creo que es importante identificar lo que llamamos outsiders, los fabricantes de tecnologías, los actores del mercado. Son una fuente de información muy útil para estar actualizado: identificar sus estrategias de futuros y por qué apuestan.

  1. Pongámonos en el caso hipotético de que alguien con pocos o nulos conocimientos técnicos, quiera aprender ciencia de datos, ¿por dónde empieza?

Juan Benavente: En formación, me he encontrado perfiles muy diferentes: desde gente que acabe de salir de la carrera hasta perfiles que se han formado en ámbitos muy diferentes y encuentran en la ciencia de datos una oportunidad para transformarse y dedicarse a esto. Pensando en alguien que está empezando, creo que lo mejor es poner en práctica tus conocimientos. En proyectos en los que he trabajado definíamos la metodología en tres fases: una primera fase más de aspectos teóricos teniendo en cuenta matemáticas, programación y todo lo que necesita saber un científico de datos; una vez tengas esas bases, cuanto antes empieces a trabajar y practicar esos conocimientos, mejor. Creo que la habilidad agudiza el ingenio y, tanto para estar actualizado, como para formarte e ir adquiriendo conocimiento útil, cuanto antes entres en proyecto, mejor. Y más, hablando de un mundo que se actualiza tan recurrentemente. Estos últimos años, la aparición de la IA generativa ha supuesto otras oportunidades. En estas herramientas también hay oportunidades para nuevos perfiles que quieran formarse. Aunque no seas experto en programación tienes herramientas que te puedan ayudar a programar, y lo mismo te puede suceder en matemáticas o estadística.

Alejandro Alija: Por complementar un poco lo que dice Juan desde una perspectiva diferente. Creo que vale la pena destacar la evolución de la profesión de ciencia de datos. Recuerdo cuando se hizo famoso aquel paper en el que se hablaba de "la profesión más sexy del mundo", que se volvió muy viral, aunque luego las cosas se fueron ajustando. Los primeros pobladores del mundo de la ciencia de datos no venían tanto de ciencias de la computación o informática. Eran más los outsiders: físicos, matemáticos, con bases robustas en matemáticas y física, e incluso algunos ingenieros que por su trabajo y desarrollo profesional terminaban utilizando muchas herramientas del ámbito informático. Poco a poco se ha ido balanceando. Ahora es una disciplina que sigue teniendo esas dos vertientes: personas que vienen del mundo de la física y matemáticas hacia los datos más básicos, y personas que vienen con conocimientos de programación. Cada uno sabe lo que tiene que balancear de su caja de herramientas. Pensando en un perfil junior que esté empezando, creo que una cosa muy importante - y así lo vemos cuando damos clase - es la capacidad de programación. Diría que tener skills de programación no es solo un plus, sino un requisito básico para avanzar en esta profesión. Es verdad que algunas personas pueden desempeñarse bien sin muchas habilidades de programación, pero yo diría que un principiante necesita tener esas primeras skills de programación con un toolset básico. Estamos hablando de lenguajes como Python y R, que son los lenguajes de cabecera. No se trata de ser un gran codificador, pero sí de tener conocimientos básicos para poder arrancar. Luego, evidentemente, la formación específica sobre fundamentos matemáticos de la ciencia de datos es crucial. La estadística fundamental y la estadística más avanzada son complementos que, si se tienen, harán que la persona avance mucho más rápido en la curva de aprendizaje de la ciencia de datos. En tercer lugar, diría que la especialización en herramientas particulares es importante. Hay gente que se orienta más hacia la ingeniería de datos, otros hacia el mundo de los modelos. Lo ideal es especializarse en algunos frameworks y utilizarlos de manera conjunta, de la forma más óptima posible.

  1. Además de como profesores, ambos trabajáis en empresas tecnológicas, ¿qué certificaciones técnicas son más valoradas en el sector empresarial y qué fuentes abiertas de conocimiento recomendáis para prepararse para ellas?

Juan Benavente: Personalmente, no es lo que más miro, pero creo que puede ser relevante, sobre todo para personas que están comenzando y que necesitan ayuda para estructurar su forma de aproximarse al problema y entenderlo. Recomiendo certificaciones de tecnologías que están en uso en cualquier empresa donde quieras acabar trabajando. Especialmente de proveedores de cloud computing y herramientas ampliamente extendidas de análisis de datos. Son certificaciones que recomendaría para alguien que quiere aproximarse a este mundo y necesita una estructura que le ayude. Cuando no tienes una base de conocimiento, puede ser un poco confuso entender por dónde empezar. Quizás deberías reforzar primero la programación o los conocimientos matemáticos, pero todo puede parecer un poco lioso. Donde sin duda te ayudan estas certificaciones es, además de reforzar conceptos, para garantizar que te mueves bien y conoces el ecosistema de herramientas típico con el que vas a trabajar mañana. No se trata solo de conceptos teóricos, sino de conocer los ecosistemas que te encontrarás cuando empieces a trabajar, ya sea fundando tu propia empresa o trabajando en una empresa establecida. Te facilita mucho conocer el ecosistema típico de herramientas. Llámalo Microsoft Computing, Amazon u otros proveedores de este tipo de soluciones. Así podrás centrarte más rápidamente en el trabajo en sí, y no tanto en todas las herramientas que lo rodean. Creo que este tipo de certificaciones son útiles, sobre todo para perfiles que se están acercando a este mundo con ilusión. Les ayudará tanto a estructurarse como a aterrizar bien en su destino profesional. Probablemente también se valoren en los procesos de selección.

Alejandro Alija: Si alguien nos escucha y quiere directrices más específicas, se podría estructurar en bloques. Hay una serie de cursos masivos en línea que, para mí, fueron un punto de inflexión. En mis comienzos, traté de inscribirme en varios de estos cursos en plataformas como Coursera, edX, donde incluso los propios fabricantes de tecnología son los que diseñan estos cursos. Creo que este tipo de cursos online masivos, que se pueden hacer de manera autoservicio, proporcionan una buena base inicial. Un segundo bloque serían los cursos y las certificaciones de los grandes proveedores de tecnología, como Microsoft, Amazon Web Services, Google y otras plataformas que son referentes en el mundo de los datos. Estas compañías tienen la ventaja de que sus rutas de aprendizaje están muy bien estructuradas, lo que facilita el crecimiento profesional dentro de sus propios ecosistemas. Se pueden ir combinando certificaciones de diferentes proveedores. Para una persona que quiera dedicarse a este campo, el camino va desde las certificaciones más sencillas hasta las más avanzadas, como ser un arquitecto de soluciones en el área de datos o un especialista en un servicio o producto específico de análisis de datos. Estos dos bloques de aprendizaje están disponibles en internet, la mayoría son abiertos y gratuitos o cercanos a la gratuidad. Más allá del conocimiento, lo que se valora es la certificación, especialmente en las compañías que buscan estos perfiles profesionales.

  1. Además de la formación teórica, la práctica es clave, uno de los métodos más interesantes para aprender es replicar ejercicios paso a paso. En este sentido, desde datos.gob.es ofrecemos recursos didácticos, muchos de ellos desarrollados por vosotros como expertos en el proyecto, ¿nos podéis contar en qué consisten estos ejercicios? ¿Cómo se plantean?

Alejandro Alija: El planteamiento que siempre hicimos fue pensado para un público amplio, sin requisitos previos complejos. Queríamos que cualquier usuario del portal pudiera replicar los ejercicios, aunque es evidente que cuanto más conocimiento se tiene, más se puede aprovechar. Los ejercicios tienen una estructura bien definida: un apartado documental, generalmente un post de contenido o un informe que describe en qué consiste el ejercicio, qué materiales se necesitan, cuáles son los objetivos y qué se pretende conseguir. Además, acompañamos cada ejercicio con dos recursos adicionales. El primer recurso es un repositorio de código donde subimos los materiales necesarios, con una descripción breve y el código del ejercicio. Puede ser un notebook de Python, un Jupyter Notebook o un script simple, donde está el contenido técnico. Y luego otro elemento fundamental que creemos importante y que va dirigido a facilitar la ejecución de los ejercicios. En ciencia de datos y programación, los usuarios no especialistas suelen tener dificultades para configurar un entorno de trabajo. Un ejercicio en Python, por ejemplo, requiere tener instalado un entorno de programación, conocer las librerías necesarias y realizar configuraciones que para profesionales son triviales, pero para principiantes pueden ser muy complejas. Para mitigar esta barrera, publicamos la mayoría de nuestros ejercicios en Google Colab, una herramienta maravillosa y abierta. Google Colab es un entorno de programación web donde el usuario solo necesita un navegador para acceder. Básicamente, Google nos proporciona un ordenador virtual donde podemos ejecutar nuestros programas y ejercicios sin necesidad de configuraciones especiales. Lo importante es que el ejercicio esté listo para usarse y siempre lo verificamos en este entorno, lo que facilita enormemente el aprendizaje para usuarios principiantes o con menos experiencia técnica.

Juan Benavente: Sí, siempre planteamos un enfoque orientado para cualquier usuario, paso a paso, intentando que sea abierto y accesible. Se busca que cualquiera pueda ejecutar un ejercicio sin necesidad de configuraciones complejas, centrándose en temáticas lo más cercanas a la realidad que sea posible. Aprovechamos, muchas veces, datos abiertos publicados por entidades como la DGT u otros organismos para hacer análisis realistas. Hemos desarrollado ejercicios muy interesantes, como predicciones del mercado energético, análisis de materiales críticos para baterías y electrónica, que permiten aprender no solo tecnología, sino también sobre la temática específica. En seguida puedes ponerte manos a la obra, no solo aprender, sino además averiguar sobre la temática.

  1. Para cerrar, nos gustaría que pudierais ofrecer un consejo más orientado a actitud que a conocimientos técnicos, ¿qué le diríais a alguien que esté empezando en ciencia de datos?

Alejandro Alija:  En cuanto a un consejo de actitud para alguien que está empezando en ciencia de datos, sugiero ser valiente. No hay que preocuparse por no estar preparado, porque en este campo todo está por hacer y cualquier persona puede aportar valor. La ciencia de datos tiene múltiples vertientes: hay profesionales más cercanos al mundo de negocio que pueden aportar conocimientos valiosos, y otros más técnicos que necesitan comprender el contexto de cada área. Mi consejo es formarse con los recursos disponibles sin asustarse, porque, aunque el camino parezca complejo, las oportunidades son muy altas. Como consejo técnico, es importante tener sensibilidad hacia el desarrollo y uso de datos. Cuanta más comprensión se tenga de este mundo, más fluida será la aproximación a los proyectos.

Juan Benavente: Suscribo el consejo de ser valiente y añado una reflexión sobre la programación: mucha gente encuentra atractivo el concepto teórico, pero cuando llegan a la práctica y ven la complejidad de programar, algunos se desaniman por falta de conocimientos previos o expectativas diferentes. Es importante añadir los conceptos de paciencia y constancia. Al comenzar en este campo, te enfrentas a múltiples áreas que necesitas dominar: programación, estadística, matemáticas, y conocimiento específico del sector en el que trabajarás, ya sea marketing, logística u otro ámbito. La expectativa de convertirse en un experto rápidamente no es realista. Es una profesión que, aunque se puede comenzar sin miedo y colaborando con profesionales, requiere un recorrido y un proceso de aprendizaje. Hay que ser constante y paciente, gestionando las expectativas adecuadamente. La mayoría de las personas que llevan tiempo en este mundo coinciden en que no se arrepienten de dedicarse a la ciencia de datos. Es una profesión muy atractiva donde puedes aportar valor significativo, con un componente tecnológico importante. Sin embargo, el camino no siempre es directo. Habrá proyectos complejos, momentos de frustración cuando los análisis no arrojan los resultados esperados o cuando trabajar con datos resulta más desafiante de lo previsto. Pero mirando hacia atrás, son pocos los profesionales que se arrepienten de haber invertido tiempo y esfuerzo en formarse y desarrollarse en este campo. En resumen, los consejos fundamentales son: valentía para empezar, constancia en el aprendizaje y desarrollo de habilidades de programación.

Suscríbete a nuestro perfil de Spotify para estar al día de nuestros pódcasts

calendar icon
Entrevista

HelpVoice! es un servicio diseñado para ayudar a las personas mayoresque hayan podido sufrir algún percance,utilizando técnicas de reconocimiento de voz basadas en aprendizaje automático. Este prototipo se hizo con el primer premio del IV Desafío Aporta, centrado en el valor del dato para la salud y el bienestar de los ciudadanos.Hemos hablado con sus creadores, Sandra García, Antonio Ríos y Alberto Berenguer, integrantes del equipo Data Express para que nos cuenten cómo fue su experiencia.

 

Entrevista completa

1. ¿Cómo funciona HelpVoice!?

HelpVoice! es una aplicación multisistema. Por lo general, todo gira alrededor de una emergencia (referida como alerta dentro de la terminología de nuestra aplicación). Según el rol que tenga un usuario dentro de una alerta, utilizará un sistema en concreto. En primer lugar, los pacientes dispondrán de una aplicación instalada en un dispositivo con recogida de voz, por ejemplo, un dispositivo móvil, uno de domótica o incluso uno IoT.Cuando el usuario graba una alerta, esta se envía a nuestros servidores que transcribirán el mensaje a texto y detectarán las palabras clave que contiene el mensaje para determinar tanto qué padece como qué grado de emergencia requiere la urgencia. Una vez obtenida esta información, el servidor busca a los hospitales más cercanos que estén capacitados para atender dicha alerta. Los hospitales, a su vez, dispondrán de una aplicación de escritorio que les permitirá gestionar las alertas, mediante una interfaz que les muestra toda la información recabada del mensaje enviado por el paciente.Los hospitales, mediante este programa, responderán a las alertas y determinarán el procedimiento de acción que se debe tomar. Todas las respuestas de los hospitales se notificarán tanto al paciente como a sus familiares, quienes también estarán registrados en la aplicación. Finalmente, los familiares disponen de una aplicación móvil que les permite realizar un seguimiento en tiempo real tanto de la alerta enviada por el paciente como de la respuesta que ha dado el hospital.

2. ¿Qué mejoras aporta su proyecto, basado en datos abiertos, al sector de la salud y el bienestar?

Una de las razones por las que surgió HelpVoice! fue el colapso telefónico que sufrió España durante la pandemia de la COVID-19, donde el contacto telefónico con los centros de salud era prácticamente imposible. Por otro lado, tuvimos tambiénen cuentalas denuncias del colectivo de personas mayores acerca de la brecha digital que hay hoy en día.Por lo tanto, HelpVoice! trata de ser una herramienta que mejora un servicio elemental, la atención de primer triaje hospitalario,y esto lo consiguemediante tecnologías potentes basadas en datos e inteligencia artificial la cual, a su vez, resulta accesible tanto para los usuarios como a los hospitales, los cuales necesitan tomar decisiones rápidas y precisas a la hora de atender emergencias.

3. ¿Cómo fue el proceso de desarrollo del prototipo? ¿Qué retos se encontraron y cómo los solucionaron?

El desarrollo de HelpVoice ha sido todo un desafío.En primer lugar, tuvimos dificultades para desarrollarnuestros sistemas de detección de palabras clave y predicción de enfermedades, ya que actualmente no existen bases de datos públicas en español que contemplen este tipo de problemas (finalmente, recurrimos a recursos en inglés).Por otro lado, la programación de la aplicación fue en sí un proceso complicado, ya que realizamos muchas iteraciones y tuvimos que aprender nuevas tecnologías que nos permitiesen llegar a ese prototipo que presentamos. Por ejemplo, realizamos tres versiones de la arquitectura de comunicación de las alertas y fue la primera vez que creamos softwareorientado a escritorio.A todo esto, se suma que uno de nuestros compañeros, Antonio, estaba viviendo en Canadá durante el desarrollo del prototipo, por lo que la diferencia horaria entre países supuso un obstáculo importante a la hora de establecer reuniones para coordinarse y evaluar los avances desarrollados.Sin embargo, aunque el camino fuese complicado, también ha sido una oportunidad única para aprender en todos los sentidos.

4. ¿Cómo ha sido su experiencia en el Desafío Aporta?¿Qué recomendaría a aquellas personas que estén pensando en participar en la próxima edición?

En general ha sido una experiencia muy enriquecedora; desde el principio, donde nos reunimos para idear una solución que se ajustase a los requisitos del desafío y aportase valor, hasta el final, donde tuvimos que desarrollar las ideas que habíamos planteado en la primera fase, haciendo frente a la cantidad de problemas que nos surgieron.A las personas que estén pensando en apuntarse, les recomendaríamos que no duden en apuntarse, porque es una oportunidad única para aprender.Dentro de los aspectos más técnicos del desafío recomendamos que el equipo sea lo más variado posible, con personal que aporte conocimiento experto, lo cual suma mucho valor a la propuesta.Finalmente, recomendamos también reflexionar y explorar sobre el tema propuesto para el desafío. Son propuestas muy abiertas donde muchas soluciones de gran utilidad pueden aparecer si se itera sobre ellas. No quedaros nunca con la primera idea que surja.

5. ¿Cuáles son sus próximos pasos? ¿Tienen pensado continuar trabajando en HelpVoice! u otros proyectos relacionados con los datos abiertos?

En primer lugar, estamos centrados en acabar nuestras tesis doctorales. Al fin y al cabo, HelpVoice! es una propuesta que hemos planteado como trabajo para explorar, aprender y salirnos de nuestra rutina académica. Hemos de admitir que este premio ha sido toda una sorpresa para nosotros. No nos habíamos planteado mucho el futuro del trabajo más allá de participar en el concurso. Sin embargo, con la aceptación que ha tenido, estamos planteándonos concretar el desarrollo del prototipo presentado y proponer una aplicación final que pueda brindar los servicios de HelpVoice! a la sociedad, al igual que también trataremos de buscar vías de financiación para que el desarrollo de ésta sea viable. Lo que sí tenemos claro, es que HelpVoice! no acaba aquí. ¡Veremos qué nos depara el futuro!

calendar icon
Entrevista

La Encuesta de Morbilidad Hospitalaria fue el proyecto ganador del segundo premio del IV Desafío Aporta, centrado en el valor del dato para la salud y el bienestar de los ciudadanos. Se trata de un entorno web para el análisis y la visualización interactiva de los microdatos de la Encuesta de Morbilidad Hospitalaria. Su creador es Mar Coca nos ha contado cómo desarrolló su proyecto.  

Entrevista completa

1. ¿Cómo funciona la Encuesta de Morbilidad Hospitalaria?

La Encuesta de Morbilidad Hospitalaria es una base de datos del INE y el Ministerio de Sanidad, donde se recogen casi todas las altas que se producen en los hospitales de España (un 99% del total de altas). Cada Comunidad Autónoma dispone de una base de datos propia para las altas hospitalarias: el CMBD. El INE se encarga de fusionar esta información y de aquí surge la EMH. Esta base de datos se ofrece de forma pública en su versión de microdatos en la web del INE, previa aceptación de condiciones. Es uno de los conjuntos de datos abiertos más voluminosos y de mayor alcance territorial. La EMH constituye una de las bases de datos de referencia para conocer la actividad hospitalaria y la morbilidad poblacional.

2. ¿Qué mejoras aporta su proyecto, basado en datos abiertos, al sector de la salud y el bienestar?

Como se ha dicho, la EMH contiene una ingente cantidad de datos y esto supone que su análisis puede ser costoso en tiempo y recursos. EMHProject ofrece en forma de web un entorno automatizado para el análisis de estos datos de forma rápida y con la posibilidad que el usuario escoja de forma interactiva el territorio que desea. Es, en definitiva, una herramienta de BI (Business Intelligence) que ofrece una respuesta rápida a aquellos análisis clásicos de morbilidad: recuento crudo de actividad, benchmarking estandarizado de indicadores hospitalarios y flujos territoriales entre lugar de residencia del paciente y lugar de atención.

3. ¿Cómo fue el proceso de desarrollo del prototipo? ¿Qué retos se encontraron y cómo los solucionaron?

El desarrollo del prototipo fue todo un reto: por un lado, quería obtenerse un entorno modular, personalizable y configurable al 100% tanto en lo que respecta el aspecto visual como las capacidades analíticas; por el otro, se ha querido realizar todo esto con herramientas Open Source y gratuitas. La solución ha pasado por la creación de un entorno híbrido que combina JavaScript, para el entorno visual y web, y Python para la parte analítica.

Escoger las herramientas fue fácil: son tecnologías líderes en su sector y totalmente consolidadas y de probada calidad. El reto principal han sido los recursos: para desplegar e implementar la solución se ha requerido de servicios cloud que, por un lado, permitiesen la creación de un entorno servidor capaz de soportar la fusión entre los dos lenguajes de programación; por el otro, no se disponían de recursos económicos y, por lo tanto, base de datos y servidor tenían que ser también gratuitas –ni que fuera temporalmente.

Existen muchas soluciones cloud de almacenamiento y servidor que ofrecen periodos de pruebas, pero en este caso se daba además la dificultad añadida del volumen de datos: unos 22 millones de registros. Todo ello se consiguió “solucionar” mediante una distribución estratégica de las cargas de trabajo de la aplicación para conseguir desplegar el producto mínimo viable con los recursos existentes. Esto implica ciertas estrategias en la programación y en el código que quizás no sean las más apropiadas, pero que se adaptan a los recursos existentes. En definitiva, hay mucho margen de mejora en el código, nuevos entornos que explorar y mucha optimización que hacer y se anima a quién esté interesado a participar: el código y el proyecto pueden encontrarse en GitHub.

4. ¿Cómo ha sido su experiencia en el Desafío Aporta? ¿Qué recomendaría a aquellas personas que estén pensando en participar en la próxima edición?

Ha sido una experiencia tremendamente interesante y singular: en ningún momento pensaba que podría haber llegado a la final y menos aún llegar al podio. También, ha sido muy enriquecedora la experiencia de haber desarrollado un proyecto web de principio a fin.

5. ¿Cuáles son sus próximos pasos? ¿Tienen pensado continuar trabajando en este u otros proyectos relacionados con los datos abiertos?

Me gustaría que el proyecto continuase e, incluso, que la estrategia utilizada sirviese para otros proyectos basados en datos distintos. Tengo distintos proyectos en mente que me gustaría desarrollar con esta metodología y con la idea de hacer herramientas de BI más abiertas, configurables y que incorpore la posibilidad de análisis más avanzados basados en Machine Learning.

Me gustaría continuar EMHProject, pero ahora mismo tiene fecha de caducidad: una de las condiciones de utilizar los micradatos de EMH es borrarlos en un período determinado de tiempo. Por ese motivo, el escenario ideal sería que los propietarios de los datos “acogieran” el proyecto.

 

calendar icon
Entrevista

Linknovate, empresa ganadora de la I edición de los Premios Aporta, es un proveedor de software que rastrea toda la producción científica publicada en internet, jerarquizando los contenidos de acuerdo a su propio algoritmo. Su buscador permite optimizar el tiempo que se dedica a la búsqueda de información, facilitando el contacto entre el mundo académico y el empresarial.

Hemos entrevistado a Manuel Noya y José López Veiga, dos de los socios de Linknovate, para que nos cuenten cómo ha sido su experiencia y cómo ven el sector reutilizador en España.

Linknovate es una de las mayores base de datos de ciencia y tecnología, con más de 20 millones de referencias a documentos abiertos, ¿qué potencial encierran los datos que ponen a disposición de ciudadanos y empresas?

En Linknovate no nos centramos tanto en la cantidad de documentos, aunque tenemos una muy buena cobertura desde 2010 hasta 2018, sino en su calidad y su utilidad. Se trata de entender perfectamente qué organizaciones están detrás de esos documentos, quiénes son sus autores,  sus keywords, etc. Hay muchas bases de datos científicas pero ninguna pone el foco en limpiar y proporcionar insights sobre esos datos, y ampliar la perspectiva a lo que interesa a las empresas: aplicaciones, productos relacionados… Es importante saber qué hace una empresa concretamente, ya que puede ser un potencial partner o competidor.

¿Qué fuentes de información pública utilizan para enriquecer su base datos?

Digamos que se pueden dividir en fuentes académicas e industriales. En la parte académica, tenemos publicaciones científicas y conference proceedings con una cobertura similar a Scopus de Elsevier, una de las bases de datos académicas más completas (y caras). Por otro lado, en la parte industrial,  obtenemos información de registros de patentes y marcas de USA y Europa, noticias, webs corporativas de empresa, etc. Podríamos incluir un tercer tipo de fuentes, las mixtas académico-industrial, donde entrarían las becas y los proyectos europeos (FP7, H2020) y estadounidenses (NSF, SBIR/STTR, DOE).

¿Cuáles son, según su opinión, los principales sectores de actividad que se benefician del potencial de los datos abiertos de Linknovate? ¿Quiénes reutilizan los datos y con qué objetivo?

Profesionales en el mundo de la estrategia, la tecnología y la innovación, para la toma de decisiones basadas en datos (inteligencia de negocio), el desarrollo de nuevos productos y la búsqueda de mejoras (en productos y procesos). Nos dirigimos tanto a profesionales de la industria como a investigadores en centros e institutos tecnológicos.

¿Cómo se podría impulsar la apertura de datos científicos en España?
 
Promocionando y premiando a quien habilite datos abiertos, y sobre todo asegurando que la calidad de esos datos es la adecuada. Por ejemplo, es importante que los datos sean “machine-readable”, es decir, leíbles por una máquina sin que haya que invertir recursos en limpiarla y estructurarla. Muchos datos de innovación en España, por ejemplo, los relativos a qué empresas reciben financiación pública, son públicos (precisamente se ve la redundancia si uno lo intenta explicar), pero una gran mayoría son PDFs non leibles, procesables sin intervención humana.
 
Si una institución está motivada para compartir sus datos, y con calidad, porque hay un sistema de incentivos, a la larga esa y otras instituciones de su sector verían que, al igual que ocurre con el open access software, eso les puede reportar beneficios y alcanzar cotas que por sí solas, sin una comunidad, no consiguen. Sin unos incentivos esa barrera es difícil de superar, aunque la tendencia es claramente positiva: cada vez hay más casos de éxito.
 

¿Qué medidas consideran que son necesarias para fomentar que las empresas del sector privado nacional abran, reutilicen y creen servicios innovadores basados en datos abiertos?

En determinados sectores “estructurales” para la población debería ser obligatorio que las empresas compartieran sus datos como parte de los servicios que dan (por ejemplo, empresas concesionarias o ganadores de licitaciones). Esto sería de especial interés en sectores como salud, energía, financiación pública, etc. Siempre manteniendo la privacidad de los usuarios, claro.
En otros casos, aumentar las ayudas públicas y los incentivos (fiscales, bonos de innovación, etc.) puede suponer el empujón necesario para que una empresa pruebe y testee lo que puede hacer con su Open Data. Promover startups y PYMEs que den valor a esos datos hace que el ecosistema crezca y sea sostenible: que una empresa tenga cada vez más “respuestas” a los desafíos que esconden sus datos.
 
¿Cuáles son los siguientes pasos que va a seguir Linknovate en materia de datos abiertos?
 
Ahora nos estamos centrando en una nueva funcionalidad: la capacidad de “seguir” un tópico (gracias a nuestra capacidad para seguir empresas y/o grupos de investigación, y de traer tanto noticias, patentes, publicaciones como casi cualquier documento relacionado con innovación). Una segunda parte de este “sistema de alertas” es la capacidad de hacer un pequeño resumen y visualizar “insights”, como qué nuevas empresas han entrado en el tópico o de qué aplicaciones nuevas se habla, entre otras.
 
¿Creen que iniciativas como los Premios Aporta 2017 pueden ayudar a impulsar la reutilización de datos abiertos? ¿Qué otras iniciativas de este tipo creen que deberían ponerse en práctica?
 
Por supuesto. Premios como Aporta ayudan a dar visibilidad a las pequeñas empresas que formamos este ecosistema.
Facilitar concursos y competiciones con origen privado creemos que es la clave (donde tanto los datos como la necesidad/desafío a resolver provengan de la empresa privada / industria). El sector público puede y debe ser quien abra camino, pero solo es sostenible cuando la industria acompaña.El sector público debería dar ejemplo de cómo compartir datos abiertos, con calidad, trazabilidad y facilidad. El European Data Portal y CORDIS son dos ejemplos a seguir.
calendar icon
Entrevista

Entrevista a Antonio F. Rodríguez Pascual, Subdirector Adjunto del CNIG.

1. ¿Qué lugar ocupa la información geoespacial dentro del panorama general de datos abiertos?

Por mencionar algunas cifras, la información geográfica está presente de manera inevitable en siete (election results, national map, weather forecats, pollutant emissions, location dataset, water quality, land ownership) de los trece conjuntos de datos esenciales incluidos en el Global Open Data Index de la Open Knowledge Foundation. Es, además, uno de los tipos de información reconocido “de alta importancia” en la Open Data Charter del G8. Y constituye, según el Informe 2016 del Sector Infomediario de ASEDIE, el tercer sector del mercado de la reutilización en cuanto a volumen de facturación anual, con un 19 %, lo que supone algo más de 254 millones de euros, detrás del sector Económico y financiero (20 %) y del de Estudios de mercado (27 %). Todo esto sin tener en cuenta que la componente geoespacial está presente también en otros dos de los sectores más relevantes, Estudios de mercado e Información meteorológica.

Es un tipo de información considerado como uno de los más importantes. Hay que pensar que, junto con los datos estadísticos, constituyen el mejor modelo del mundo real del que disponemos para tomar decisiones, estudiar problemas, analizar fenómenos, gestionar nuestros recursos, hacer planes y, en general conocer el mundo.

Se trata de una herramienta epistemológica fundamental. Siempre se dice que todo ocurre en algún lugar y es cierto que, si tenemos en cuenta que las referencias indirectas, como las definidas mediante direcciones, también son geográficas, más del 80 % de los datos que manejan las organizaciones son datos geográficos. Su importancia ha aumentado enormemente con la localización casi permanente de las personas mediante teléfonos inteligentes, la proliferación de sensores y cámaras georreferenciadas y el desarrollo del Internet de las cosas (IoC), que está ya generando una suerte de infosfera, un espacio virtual lleno de recursos con coordenadas que reflejan y describen la realidad.

«Más del 80 % de los datos que manejan las organizaciones son datos geográficos».

2. ¿Cómo ha ayudado la directiva europea INSPIRE a la apertura de los datos geoespaciales en España? ¿En qué punto se encuentra este sector en la actualidad?

La implementación de la Directiva INSPIRE en Europa y en España en particular, ha contribuido significativamente a la apertura de datos geoespaciales. Hace tiempo que la Comisión Europea ha reconocido la sinergia existente entre ambas actividades. Lo cierto es que en los países en los que la Directiva Inspire está más implantada (Países nórdicos, Países Bajos, Reino Unido, España…) hay más datos abiertos y viceversa. Esto es debido probablemente a que la Directiva Inspire ha difundido y promovido la idea de que es muy positivo compartir recursos geográficos, ya sean datos o servicios, y esa idea se ha propagado a otros sectores.

En especial en España, al calor del desarrollo de la Infraestructura de Datos Espaciales de España (IDEE), cuyo lema es «Si compartes, siempre ganas más» (cita procedente de «La buena suerte» de Álex Rovira y Trías de Bes (editorial Urano, 2004), ha aumentado notablemente en los últimos años el volumen de datos abiertos.

En un análisis que realizamos en el CNIG en el año 2016, de los más de 100 páginas de información geográfica identificadas en las que se pueden descargar datos geoespaciales oficiales, un 20 % ofrece datos parcialmente abiertos (para usos no comerciales), un 20 % datos cerrados, el 32 % ofrece datos completamente abiertos y un 36 % no especifica las condiciones de uso permitidas, por lo que sospechamos que en un buen número de casos la intención es también publicar datos abiertos y quizás se pueda hablar de al menos un 50 % de la oferta de datos geográficos oficiales.

Es decir, se ha avanzado mucho en la apertura de datos geoespaciales en España, pero no estamos completamente satisfechos, hay que progresar todavía más. Antonio Gramsci decía que «las crisis son esos momentos en los que muere lo viejo sin que pueda nacer lo nuevo» y creo que ésa es la situación actual en el campo de la Geomática. Hay un orden caduco basado en las aplicaciones de sobremesa, la acumulación de datos en silos como un capital que rentabilizar y núcleos de poder monolíticos que no acaba de desaparecer y un orden nuevo que utiliza los recursos en la nube, la arquitectura orientada a servicios, la organizaciones abiertas y en red y nuevos modelos de negocio que no acaba de extenderse completamente.

Es el compartir con beneficios indirectos frente al acumular. Un cambio necesario que apunta hacia la sociedad de la información, lo que la UE llama el Mercado Digital Único y los técnicos tenemos la responsabilidad de que las revoluciones tecnológicas se produzcan al ritmo deseado y se minimicen los efectos colaterales.

Según el citado informe de ASEDIE, el sector geoespacial ocupa el segundo lugar del sector infomediario en cuanto a empleos generados, con unos 2.976 empleados, el 19 % del sector, solo por detrás del de estudios de mercado, con un 33%, con una estructura financiera ligera, ya que tiene solo un 6 % (casi 18 millones de euros) del capital suscrito por el sector y un riesgo de default de los más bajos.

Y en el «Estudio de caracterización del sector infomediario de España» 2014, elaborado por el ONTSI, se establece que el sector de la información geográfica es el más importante dentro de la reutilización de la información del sector público, con el 35 % de las empresas, debido a que se incluyen la información urbanística y la información sobre previsiones meteorológicas.

3.  De acuerdo a su experiencia, ¿qué barreras dificultan la apertura, y consiguiente reutilización, de la información geoespacial en el sector público? ¿qué soluciones propone para eliminar dichos obstáculos?

Es una pregunta difícil de responder, hay una amplia variedad de barreras y dificultades. En primer lugar creo que está la resistencia natural al cambio, por decirlo metafóricamente nuestro entorno está lleno de barqueros que quieren cobrar peaje a quienes cruzan los puentes. Pero hay que reconocer que los cambios de mentalidad no son fáciles de realizar y que la administración está pasando en poco tiempo de ser considerada parte del gobierno que dirige la vida de la sociedad a un actor que administra recursos de todos los ciudadanos y está a su servicio; los organismos productores de datos están evolucionando para constituirse en proveedores de servicios web, se abren para colaborar con otras organizaciones públicas y privadas… son muchos cambios que describen muy bien, por ejemplo, Enrique Dans en «Todo va a cambiar» y Pekka Himanen en su libro publicado en el 2002, «La ética del hacker y el espíritu de la era de la información».

En segundo lugar, también hay un déficit de formación en las tecnologías de la Web 2.0, las normas ISO 19100, los estándares OGC y las aplicaciones que los implementan, que no es fácil superar en poco tiempo. Son tecnologías novedosas que implican formatos y lenguajes complejos (UML, XML, GML…), modelos muy especializados y una nueva manera de trabajar.

«Los organismos productores de datos están evolucionando para constituirse en proveedores de servicios web, se abren para colaborar con otras organizaciones públicas y privadas…»

En tercer lugar habría que mencionar que la administración pública es una maquinaria con una inercia considerable, procedimientos burocráticos a veces muy pesados y personales que cuesta reciclar. Por último, hay que mencionar que siempre sería deseable mayor apoyo político y compromiso al más alto nivel.

En cuanto a las soluciones para superar esas barreras, aparte de las obvias, como cursos de formación, eventos de concienciación, implantación de procedimientos electrónicos, etcétera, aspectos todos ellos en los que se está realizando un gran esfuerzo y en los que España está muy bien situado (nuestro país encabeza las clasificaciones europeas de datos abiertos y administración electrónica después del brexit), queremos mencionar dos líneas de actuación que nos parecen especialmente convenientes:

Apertura a la red. Creo que es muy positivo para una administración tener presencia en la red e interactuar con sus usuarios mediante blogs, listas de correo, redes sociales y encuestas. Eso permite conocer de cerca sus preocupaciones y necesidades, empatizar con ellos y estar en disposición de satisfacer mejor sus necesidades.

- Planificación estratégica. La experiencia que hemos tenido al implantar el Plan Estratégico de IGN y CNIG ha sido excelente. Orienta todos los recursos, humanos y físicos, en la misma dirección, establece de manera clara y participativa la visión, misión y objetivos de la organización, integra y motiva al personal y define un conjunto de indicadores con los que medir el mayor o menor éxito de la institución de manera objetiva, teniendo en cuenta que maximizar el beneficio económico no es el fin de la administración, sino más bien tener la mejor tasa posible inversión/impacto social y esas variables se evalúan mejor si existe un Plan Estratégico.

En resumen un Plan Estratégico da sentido a todas las actividades de una organización, las orienta en la misma dirección e integra al personal. Es una herramienta muy recomendable siempre, pero más aún en procesos de cambio de paradigma.

4.  En la actualidad, el IGN apuesta por publicar sus datos bajo la licencia CC BY 4.0. ¿En qué medida considera que es clave el uso de este tipo de licencias en el fomento de la reutilización de los datos?

El uso de licencias implícitas, cuyo uso implica tácitamente su aceptación, y estándar (las llamadas licencias tipo) es esencial porque permite la interoperabilidad de licencias. Efectivamente, la alternativa de tener una licencia propia definida en un texto, que ha de estar escrito en uno de los idiomas oficiales en España, presenta el grave inconveniente de que obliga a los usuarios de países cuya lengua oficial es diferente (como Alemania, Francia, Reino Unido, China, Japón, Corea y los países árabes, por ejemplo) a abordar una serie de tareas de gran dificultad si quieren utilizar nuestros datos para georreferenciar otra información bajo otra licencia, y crear una obra de valor añadido con todas las garantías legales: contratar una traducción jurada a su idioma del texto de la licencia, contratar un dictamen que determine cómo se mezclan los términos de la otra licencia… Mientras que las licencias Creative Commons 4.0 son licencias estándar conocidas y definidas internacionalmente, que se sabe cómo se mezclan e hibridan con otras licencias tipo.

En cuanto a que sea una licencia que solo incluye el reconocimiento, creemos que es la licencia más libre y la menos restrictiva, ya que se centra en la parte irrenunciable de los derechos de autor, los derechos morales, y no se preocupa de lo que puedan hacer los usuarios con los datos. En ese sentido, hay organizaciones que se preguntan qué es lo que van a hacer las empresas privadas con sus datos y si se van a aprovechar de lo que cuesta generarlos.  La respuesta a esa inquietud sería que todo lo que van a hacer es positivo para la sociedad: generar empleo, riqueza y beneficio, pagar impuestos, difundir los datos, darles utilidad y sentido, difundirlos, crear actividad económica, etcétera.

5.  ¿Cómo ha evolucionado en los últimos años la política de descargas de los datos en el Centro Nacional de Información Geográfica (CNIG), y qué ha  supuesto el cambio para el Centro?

En una primera etapa, que duró casi 20 años, de 1989 a 2008, el CNIG comercializaba los datos geográficos del IGN de acuerdo a una orden de precios, con descuentos para la investigación de hasta el 90 % y en consonancia con las políticas de datos imperantes en toda Europa.

En una segunda etapa, que se inició con la Orden Ministerial FOM/956/2008 y ha durado siete años, hasta finales del 2015, se definieron como Equipamiento Geográfico de Referencia Nacional (EGRN) los productos de datos más esenciales del IGN (Vértices Geodésicos, Líneas Límite, Nomenclátores y Bases de Datos de Poblaciones) y se estableció que fueran datos abiertos. El resto se definió como datos libre para usos no comerciales. De esa manera, el IGN se convirtió en el primer productor de cartografía oficial en Europa que abría parcialmente sus datos. Sin embargo esa política ha ido generando un overhead creciente muy considerables, ya que se han ido presentando casos de uso más y más complicados en los que no era trivial dilucidar si había o no uso comercial.

Por último, en diciembre de 2015 se aprobó la Orden Ministerial FOM/2807/2015 que define todos los productos de datos y servicios geográficos del IGN como abiertos con la única condición del reconocimiento, lo que nos ha situado junto a los países más avanzados del mundo en el campo de la reutilización y publicación de recursos abiertos. Previsiblemente, el mencionado Global Open Data Index 2016, que se publicará próximamente, situará a España en el primer lugar de la clasificación internacional de datos geográficos abiertos junto con otros 11 países.

«En 2015 se aprueba una Orden Ministerial que define todos los productos de datos y servicios geográficos del IGN como abiertos»

6. ¿En qué punto se encuentra el CNIG en su camino hacia la apertura de la información que custodia? ¿Qué siguientes pasos va a seguir la institución en materia de datos abiertos?

En un principio creíamos que el tener datos abiertos era una cuestión de gratuidad de la información, luego nos dimos cuenta de que eran más importante las condiciones de uso, es decir la licencia y ahora somos conscientes de que en realidad publicar datos abiertos significa desplegar un esfuerzo continuo y constante para minimizar las barreras que dificultan su uso, algo que incluye por supuesto el que sean gratuitos y están bajo una licencia abierta y permisiva, pero que también incluye un buen número de detalles, tal y como refleja la definición de conocimiento abierto de la Open Knowledge Foundation. Como ejemplo, podemos citar que ha tenido más impacto en el número y volumen de descargas que hemos tenido en el CNIG el que se habilitase la descarga de productos de una sola vez, no hoja a hoja, que la nueva licencia de uso. Lo más importante es minimizar barreras de todo tipo y a progresar en esa línea es a lo que nos dedicaremos a partir de ahora.

«Publicar datos abiertos significa desplegar un esfuerzo continuo y constante para minimizar las barreras que dificultan su uso»

También debemos, como National Contact Point de la implementación de la Directiva INSPIRE en España, profundizar en la puesta en práctica de esa directiva y, por supuesto continuar colaborando con red.es en la integración de los datos geográficos abiertos nacionales en el portal de Datos abiertos de nuestro país.

En ese sentido, muy probablemente nuestros próximos pasos serán:

Utilizar una licencia CC BY 4.0, una vez que se completen todos los procesos burocráticos y administrativos para ello.

Progresar en la publicación de información en formatos abiertos, aspecto este en el que todavía hay que avanzar bastante en el campo de la información geográfica donde todavía, a menudo, los formatos más eficaces, cómodos y extendidos, como shapefile y ECW, por ejemplo, no son formatos abiertos.

Definir formalmente un Plan RISP para los datos geográficos digitales del IGN.

- Difundir y promover la publicación de datos y servicios abiertos.

7.  Desde su punto de vista, ¿cuáles son los motivos principales que deben impulsar a las administraciones públicas en España a abrir sus datos?

Nosotros hemos identificados hasta diez buenas razones para abrir los datos que generan las AA.PP.:

1) Se puede plantear que una vez que un organismo público genera unos datos con recursos públicos, procedentes de los impuestos de los ciudadanos, y en el ejercicio de sus funciones, orientadas a la postre a dar un servicio a las necesidades de la sociedad ¿hasta qué punto tiene derecho a limitar el acceso a los datos producidos a esos mismos ciudadanos invocando los derechos de autor?

2) El tener datos abiertos es beneficioso para la economía de un país, tal y como han demostrado sucesivos estudios y análisis. Ya en el año 2000, el conocido  informe PIRA, encargado por la Comisión Europea para realizar un extenso análisis económico de la explotación del sector de la Información del Sector Público (ISP) en Europa, realizó una extensa comparación entre EE. UU. y Europa, dos economías muy similares por aquel entonces en tamaño. Llegó a la conclusión de que euro invertido en producción de datos geográficos públicos en EE. UU. se traducía en un aumento del sector ISP de aproximadamente 44 €, mientras que en Europa ese incremento era tan solo de unos 8 €. Una de las causas de esa diferencia se concluía que era el hecho de que a la sazón los datos geográficos federales en EE. UU. eran abiertos, mientras que en Europa eran completamente cerrados. Todos los estudios que conocemos realizados después sobre el mismo tema han confirmado esas conclusiones.

3) Varias iniciativas internacionales directamente relacionadas con el desarrollo económico  promueven la adopción de políticas de datos abiertos como un factor claro de crecimiento y beneficio social y subrayan la importancia de los datos geográficos como una de los tipos de información prioritarios en ese sentido. Por citar solo tres, la Open Data Charter impulsada por el G8 en el 2013, la International Open Data Charter, apoyada por el G20 y Naciones Unidas en el 2015, y la Agenda 2030 para el desarrollo sostenible, recomiendan los datos abiertos, especialmente los geográficos.

4) Según la experiencia del CNIG durante los últimos años, podemos decir que debido a la globalización, la democratización de la cartografía, la economía de la gratuidad y la eclosión de los servicios web, los ingresos por concesión de licencias de uso comercial son cada vez menos relevantes. En el año 2015, los beneficios totales por ese concepto supusieron tan solo un 8 % del presupuesto del CNIG. Se puede concluir en líneas generales que la comercialización de datos geográficos hace tiempo que dejó de ser un buen negocio.

5) Tener una política de datos abierta permite a un productor de datos geográficos oficiales aprovechar las posibilidades de la Neocartografía o Información Geográfica Voluntaria (IGV), porque efectivamente ¿cómo se puede motivar a los ciudadanos voluntarios a colaborar en la captura y producción de datos geográficos si en el proceso deben renunciar a la propiedad de unos datos que luego pretendemos venderles?

6)  Por otro lado, permite a los GeoInstitutos competir, digamos, en igualdad o similitud de condiciones en cuanto a usos permitidos y licencias, con otros actores ciertamente populares que ofrecen datos y servicios geográficos abiertos o en condiciones bastante abiertas, como pueden ser por ejemplo OpenStreetMap, que tiene una licencia ODbL similar a una CC BY-SA, Geonames con su licencia CC BY o la API de Google Maps y los servicios de Carto con sus modelos de negocio freemium, que ofrecen servicios gratuitos hasta cierto número de consultas y si se cumplen ciertas condiciones.

7) Si los organismos oficiales que producen datos geográficos ofrecen datos de referencia, es decir, datos geográficos cuyo objetivo es servir para georreferenciar datos de otros temas, es lógico que promuevan su utilización en todo tipo de aplicaciones y por todo tipo de usuarios, para lo cual parece evidente que la mejor situación es que se difundan como datos abiertos.

8) La experiencia del IGN durante los años en los que comercializaba datos geográficos fue que esa política de datos suponía un freno muy importante a la investigación, aun cuando se establecieron descuentos hasta del 90 % para usos de I+D, dada la permanente escasez de recursos dedicados a tal fin. Muchos trabajos de investigación resultaban inviables, por lo que disponer de datos abiertos constituye realmente un estímulo a la investigación y se puede decir que la fomenta.

9) Es una demanda social real que desde hace años aparece dentro del sector de la IG en algunos medios de comunicación y redes sociales. Baste mencionar la campaña para la liberación de los datos geográficos mantenida por «The Guardian» en Reino Unido y la aparición en Londres en el año 2004 del fenómeno OpenStreetMap, entre otras razones, como reacción a la política de datos cerrados mantenida por entonces por el Ordnance Survey. Curiosamente, esta es una de las pocas demandas en las que coinciden tanto la derecha y los neoliberales, que piden un sector público ligero y al servicio del sector privado, que le ceda sus datos, y la izquierda, que concibe una administración al servicio del ciudadano que le facilite todos los datos que gestiona.

10) Por último, hay que hacer notar que abrir los datos siempre genera retornos intangibles muy relevantes, utilización de los datos en proyectos de investigación e iniciativas internacionales de prestigio, mejora de la imagen corporativa, mayor presencia en la red y en redes sociales, sinergias con otros sectores de aplicación, etcétera. Y en ocasiones, los beneficios indirectos no son tan intangibles, como cuando el abrir los datos fomenta que se desarrollen aplicaciones sobre ellos que luego resultan útiles para el productor de datos en sus procesos de producción.

Todo ello, junto con otras razones, hace en general aconsejable el que un productor de datos geográficos oficiales adopte una política de datos abiertos, si bien también entendemos que en algunos casos hay organismos públicos que no pueden hacerlo así porque se lo impide el marco legal vigente o su situación política y administrativa, que les obliga a  autofinanciarse total o parcialmente, lo que hace inevitable el que traten de obtener un retorno económico por la utilización de sus datos. En esos casos hay que recordar que dado el alto coste que supone generar datos geográficos, el retorno que se obtiene con su comercialización, teniendo en cuenta los precios que admite el mercado, cubre solo una pequeña parte.

En resumen y como ya he mencionado, creo que los técnicos y responsables públicos debemos estar comprometidos con el progreso y tenemos la obligación moral de impulsar las revoluciones tecnológicas para rentabilizarlas, tratando de minimizar los efectos secundarios adversos que puedan producirse.

 

 

 

 

calendar icon
Entrevista

Enrique Diego Bernardo es Ingeniero de Telecomunicación. Durante 14 años ha desarrollado su actividad profesional en diferentes cargos dentro del Área Tecnológica de la Empresa Municipal de Transportes de Madrid. Ha participado de forma activa en el desarrollo y la implantación de múltiples proyectos tecnológicos, como el Sistema de Gestión de la Flota, el Billete Inteligente sin Contacto, los Paneles de Mensajería Variable, la Video vigilancia Embarcada en los Autobuses, o los Sistemas de Información al Cliente y aplicaciones móviles, entre otros proyectos de Tecnología aplicada a la Gestión Empresarial y al Transporte. En la actualidad es Subdirector de Tecnología y Sistemas de Información, estando a cargo de los Proyectos Tecnológicos y Sistemas de Información de la Empresa Municipal de Transportes de Madrid.

 

EMT dispone de su propio portal de datos abiertos, ofreciendo su información al resto de la comunidad para su reutilización. ¿Qué datos pertenecientes a EMT cree que tienen un mayor potencial reutilizador y, por ende, son de mayor utilidad?

En el portal opendata.emtmadrid.es se encuentran un conjunto de datos que ofrecen información de transporte tanto en modelo estático, especialmente orientado a ofrecer información sobre la oferta planificada de EMT como dinámico, que proporcionan datos de llegada de autobuses en Tiempo Real y de Incidencias. El mayor potencial se encuentra en la API de conexión a través de Servicios Web que ofrece a integradores la posibilidad de generar sus propios recursos y aplicaciones.

 

¿Qué obstáculos se han encontrado a la hora de implantar la estrategia de datos abiertos y cómo se han superado?

Dos han sido los principales obstáculos:

- Contar con los recursos humanos, técnicos y presupuestarios para generar la primera versión de la plataforma.

- Vencer las resistencias internas que siempre existen al plantear un modelo abierto de datos al público.

 

¿Qué medidas se han tomado para que la publicación de datos abiertos sea sostenible a medio y largo plazo?

Principalmente, dotar de una infraestructura de recursos y servidores estable y escalable, así como definir roles y funciones humanas asignadas a tiempo parcial, tanto a administradores de sistemas como a administradores de sistemas como a desarrolladores dentro de la propia plantilla de IT de la EMT.

 

¿Qué beneficios ha supuesto para EMT la apertura de su información?

Los beneficios netos se pueden medir en dos líneas: la primera y más importante es la aportación de un mayor conocimiento público del servicio que la EMT ofrece a sus viajeros, especialmente en cuanto a los tiempos de llegada de los autobuses a paradas, ofreciéndolo a través de cualquier canal corporativo o de terceros, lo que permite al usuario usar el que más cómodo y útil le resulte. Lo segundo es que ha permitido a la EMT ser un referente en cuanto a las políticas de compartir información y le ha dado una cierta reputación que le ha ofrecido la posibilidad de ser escuchada en múltiples foros públicos, dándole la oportunidad de ser un referente a la hora de que otras empresas similares tomen la decisión de optar por políticas aperturistas de datos.

 

 (...) Ha permitido a la EMT ser un referente en cuanto a las políticas de compartir información y le ha dado una cierta reputación (...)

 

¿Qué oportunidades de negocio brinda al sector privado la información pública de su organismo?

Hasta donde conocemos, los modelos de negocio casi siempre han estado orientados a la monetización por inclusión de publicidad en la información de servicios, aunque hemos visto aparecer algunas pequeñas empresas que ofrecen servicios de apps y que se han dado a conocer a través de las ingeniosas soluciones que ellos mismos han desplegado con la información que ofrece la EMT.

 

EMT ofrece una extensa lista de aplicaciones móviles, tanto propias como de terceros, que sirven de ayuda en el día a día de los ciudadanos. ¿Qué papel cree que puede desempeñar una colaboración público-privada para fomentar la reutilización de datos de su organismo?

Sin duda, esta es una de las claves esenciales para desplegar un ecosistema de aplicaciones y servicios que proporcionen una gran parte de la información que las Ciudades Inteligentes que están apareciendo  sean una realidad tangible y coherente.

 

¿Cuáles son los objetivos de EMT en materia de datos abiertos para el 2015?

En la parte de infraestructura de servicios, se están remodelando los sistemas orientados a servicios para conseguir mayores niveles de respuesta, ello debido a la enorme afluencia de solicitudes de información a la que se accede en tiempo real. Por otro lado, EMT está trabajando en nuevos modelos de arquitecturas asimétricas cliente-servidor para intercambiar información de sensores, todo ello bajo un modelo Bigdata en el que se permitirá la integración de sensores y datos de los propios ciudadanos dentro del sistema de EMT.

 

¿Cómo ve el panorama de datos abiertos en España? ¿Qué puntos débiles cree que se deberían solucionar?

En nuestra opinión, existen tres retos que la sociedad española de la información debe afrontar y superar:

- La falta de presupuesto a asignar a proyectos de esta naturaleza, principalmente en el sector público. A veces por una falta de recursos y otras veces por ser considerado una tarea no crítica.

- La ausencia de estrategias o la no consideración del valor añadido que puede derivar de una política de reutilización a  la hora de crear mayor conocimiento y la generación de nuevos modelos económicos, especialmente en pequeñas empresas.

- El miedo y la resistencia al cambio por parte de directivos, responsables de informática y ejecutivos de empresas que siguen todavía considerando que la información pertenece a la empresa y no al ciudadano, especialmente en el sector público.

calendar icon
Entrevista

Carlos Matallín Civera, Gonzalo Izquierdo Gracia, Luís Bosque y Sergio Rubio Gracia formaron el equipo HURACÁN, ganador de premio “Idea de Negocio” del Jacathon 2014.

Su proyecto Aragón Open Trails es una aplicación que brinda los senderos de Aragón más cercanos según la localización del usuario. Carlos Matallín, como representante del grupo, ha participado en nuestra entrevista y nos ha acercado a su visión del sector open data desde el punto de vista del reutilizador de la información pública.

 

Como miembros de los equipos ganadores del evento Jacathon, conocéis de cerca el mundo de los datos abiertos y su reutilización. ¿Qué oportunidades ofrece el open data para el desarrollo empresarial en España y qué aspectos son necesarios mejorar para seguir avanzando en la apertura de la información?

Más que una oportunidad creo que los datos abiertos deberían ser un compromiso de la administración hacia los ciudadanos. No debe haber excusas para hacer accesible estos datos, ya no sólo técnicamente si no de una manera entendible para todos.

Las oportunidades de negocio deben venir de saber aprovechar los recursos y hacerlos más eficientes.

 

Como usuarios y reutilizadores de los datos abiertos ¿Qué barreras os habéis encontrado a la hora de reutilizar la información pública y qué medidas creéis que deben adoptarse a medio plazo para impulsar la reutilización en España?

Los datos existen, pero no siempre están disponibles para ser consumidos y remezclados o cruzados con otros datos para obtener un mayor valor de ellos.

Sería necesario contar con una legislación que incluya la obligación de las administraciones (ayuntamientos,…) de liberar los datos en formatos accesibles,  campañas de digitalización y formación para los trabajadores de la administración.

 

Los hackathones se han convertido en la ocasión perfecta para que desarrolladores, emprendedores e infomediarios puedan conocer a representantes de entidades privadas y organismos públicos que apoyen sus proyectos. ¿Qué oportunidades os ofrece haber sido uno de los ganadores de Jacathon y cuáles serán vuestros siguientes pasos?

Nos ofrece la oportunidad de validar una idea de negocio y poner en un lugar común a los agentes que pueden hacer posible esa idea (programadores, negocio, diseñadores,…).

En el caso concreto de Aragón Open Trails desarrollaremos la aplicación con una visión global, continuando con el trabajo hecho para los senderos de la comunidad de Aragón, poniendo a disponibilidad la infraestructura para mayores regiones administrativas. Idealmente, nos gustaría que se convirtiera en una aplicación de referencia para consultar datos validados por organismos competentes (por ejemplo, federaciones o guías titulados).

 

“Validar una idea de negocio y poner en un lugar común a los agentes que pueden hacer posible esa idea (programadores, negocio, diseñadores,…).”

 

calendar icon
Entrevista

CRAs Aragón permite conocer la distribución y evolución de los Colegios Rurales Agrupados de Aragón. Esta iniciativa recibió el premio “Idea más novedosa” y “Votación de los Participantes” durante el Jacathon 2014.

Javier Rubio, en representación de su equipo (formado por Dani Latorre, Jesús Varón y Rafael Ramos) ha compartido su visión personal sobre las oportunidades y desafíos de sector open data en España. 

Como miembros de los equipos ganadores del evento Jacathon, conocéis de cerca el mundo de los datos abiertos y su reutilización. ¿Qué oportunidades ofrece el open data para el desarrollo empresarial en España y qué aspectos son necesarios mejorar para seguir avanzando en la apertura de la información?

Desde mi punto de vista, para avanzar es necesario un cambio de mentalidad a varios niveles. Para poder crear un impacto real que abra la puerta al desarrollo de nuevas oportunidades empresariales (actualmente difícil, debido en parte a la mala calidad, en forma y fondo, de los datos publicados), no es necesario que las entidades involucradas reinventen la rueda, basta con aprender de las lecciones de otros países:

-   Cambiar de mentalidad sobre la granularidad (por la privacidad). Hay una obsesión generalizada con no publicar ciertos datos llegando a un nivel de granularidad útil. Por ejemplo, es imposible encontrar datos sobre educación que sirvan para algo, con el pretexto de proteger la privacidad de los menores o no crear escuelas malas. Si observáramos más las experiencias en otros países, aprenderíamos que es factible publicar datos útiles granulares totalmente anónimos, sin invadir la privacidad, y lo que es más, podríamos analizar el impacto positivo que causa en las escuelas la necesidad de mejorar. Pero no conozco entidades involucradas en open data que se atrevan si quiera a plantear un estudio profundo de ciertas experiencias de otros países.

Ejemplos de datos que ahora mismo nadie se atreve a publicar y sí se está haciendo en otros países serían delitos geolocalizados a diario, resultados de notas granularizados por escuela, registros de visitas de edificios públicos (como ciudadano me interesa saber si un dirigente político se reunió con un empresario y al mes legislaron cambiando las normas del sector al que pertenecía el empresario, por ejemplo), registro de la propiedad, registro mercantil (ambos sin tasas)... Algún link a proyectos.

- Ejemplo de proyecto de estudio de publicación de resultados escolares en Londres berglondon.comprojectsschooloscope

- Ejemplo de granularidad de crímenes en USA, que permitió un desarrollo empresarial aquí impensable por la falta de granularidad y periodicidad de publicación de datos similares trulia.comrealestateNeorkNeorkcrime.

-    Cambiar de mentalidad sobre las dimensiones de los datos a publicar. Los logros en open data a nivel local suelen situarse dentro de la dimensión de servicios al ciudadano y, en concreto, de transporte público (publicación de horarios en tiempo real de autobuses y otros medios de transporte, por ejemplo). Sin embargo los avances en las  otras dimensiones del open data, como la publicación de contratas públicas o la transparencia en general, son irrisorios. La variedad de formatos de publicación debido a la fragmentación es tal, que supone un esfuerzo titánico el plantear que alguien intente procesar tales datos y, por tanto, frena cualquier posible innovación empresarial alrededor.

-    Cambiar de mentalidad sobre cumplir la ley (y punto). Lo que he observado, y esto sí es más una percepción personal, es que ahora mismo todo el open data en España depende del esfuerzo de  funcionarios entregados, que entienden el impacto brutal que puede llegar a lograrse. Es decir, sin esas personas, no hay open data a ese nivel local (y la Ley de Transparencia no soluciona esto). Lo que es  todavía peor, cuando se realizan estos proyectos, otras personas involucradas de la administración, que llevan el tema de informática, sólo se preocupan de cumplir la ley (y punto), es decir, si la ley no les obliga a publicar la información de una manera estructurada y fácil de consumir, entonces qué más da. Parece que lo importante sea publicar  sets de datos, sin importar su calidad de contenido (y entre miles de sets inútiles, encontrar los interesantes es buscar una aguja en un pajar) ni su calidad de forma (como un pdf que es un escaneo en imagen y no texto), para así autocolgarse medallas vacías y salir en la foto. Así, es imposible un desarrollo empresarial sobre el mundo del open data.

 

Como usuarios y reutilizadores de los datos abiertos ¿Qué barreras os habéis encontrado a la hora de reutilizar la información pública y qué medidas creéis que deben adoptarse a medio plazo para impulsar la reutilización en España?

La barrera fundamental es, como ya he introducido en parte en la pregunta anterior, la mala calidad de los datos publicados, su poca utilidad en muchos casos (cantidad sobre calidad es la realidad actual), su fragmentación en docenas de microportales y APIs, y la desidia por cumplir los estándares existentes de estructuración y publicación de datos que facilitan su uso y consumo.

En cuanto a las medidas de impulso, creo que se ha desperdiciado una oportunidad de oro con la Ley de Transparencia (si bien aún se puede mejorar con las leyes autonómicas que están en proceso de publicación). La Ley de Transparencia no sólo no obliga a publicar los datos de forma adecuada, (que habría eliminado ese problema de raíz), sino que tampoco soluciona la fragmentación, permite excepciones para no publicar datos que resultan increíbles, obliga a un proceso farragoso para pedir nuevos datos al gobierno (DNI electrónico, más cantidad de formularios…).

Una buena medida sería prohibir la venta de datos públicos, obligando a que dichos datos que actualmente son de pago, se publiquen gratuitamente y con libre licencia de redistribución y uso. En concreto, hablo del Registro de la Propiedad, o el Registro Mercantil, o el Cendoj, controlados actualmente por lobbies de registradores que se lucran vendiendo datos que son libres a todos los niveles en otros países. Estos datos incluyen cosas como la información sobre las empresas públicas y privadas, o en el caso del Cendoj, todas las sentencias del Supremo (actualmente consultables con un buscador propio, pero de pago para su reutilización). Esto claramente frena la innovación y el desarrollo de iniciativas empresariales (por no hablar del derecho del ciudadano a conocer libremente dichos datos).

“La mala calidad de los datos publicados, su poca utilidad en muchos casos (…) y su fragmentación en docenas de microportales y APIs”.

 

Los hackathones se han convertido en la ocasión perfecta para que desarrolladores, emprendedores e infomediarios puedan conocer a representantes de entidades privadas y organismos públicos que apoyen sus proyectos. ¿Qué oportunidades os ofrece haber sido uno de los ganadores de Jacathon y cuáles serán vuestros siguientes pasos?

Lo bueno de los hackatones es que generan prototipos funcionales en muy breve tiempo, así que son una semilla de innovación, y por otro lado, obligan a una serie de profesionales de múltiples disciplinas a indagar y aprender sobre el open data español. Personalmente, el ganar el Jacathon me ha hecho abrir los ojos y me ha ofrecido por ejemplo la oportunidad de hablar con entidades relacionadas (como es el caso de esta entrevista), que tienen en su mano el mejorar la situación actual. Por desgracia un hackathon rara vez da lugar a continuar la idea, si no se teje una red alrededor de organizadores y participantes, que intente crear continuidad o generar proyectos paralelos posteriores.

No tengo claros los siguientes pasos porque realizar aplicaciones sobre el open data actual es francamente difícil y arriesgado si se trata de un proyecto empresarial, sin embargo sé que seguiré estudiando las fuentes de datos, proponiendo mejoras, siendo crítico (y ser crítico no significa no apreciar el esfuerzo que se ha hecho a múltiples niveles) y colaborando en la medida de mis posibilidades con el mundo del open data, que tanto impacto social puede llegar a causar si se potencia adecuadamente.

calendar icon