Google es una compañía con una fuerte apuesta por los datos abiertos. Ha lanzado el buscador Google Dataset Search, para localizar datos abiertos en repositorios existentes de todo el mundo, y también ofrece conjuntos de datos propios en formato abierto como parte de su iniciativa Google Research. Además, es reutilizador de datos abiertos en soluciones como Google Earth.
Entre sus áreas de trabajo está Google for Education, con soluciones diseñadas para profesores y alumnos. En datos.gob.es hemos entrevistado a Gonzalo Romero, director de Google for Education en España y miembro del jurado encargado de evaluar las propuestas recibidas en la III edición del Desafío Aporta. Gonzalo nos ha hablado sobre su experiencia, la influencia de los datos abiertos en el sector educativo y la importancia de la apertura de datos.
Entrevista completa:
1. ¿A qué retos se enfrenta el sector educativo en España y cómo pueden ayudar los datos abiertos y las tecnologías basadas en ellos a superarlos?
El año pasado debido a la pandemia, el sector de la educación se vio obligado a acelerar su proceso de digitalización para que la actividad se pudiese desarrollar con la máxima normalidad posible.
Los principales retos a los que se enfrenta el sector educativo en España son la tecnología y la digitalización puesto que este sector está menos digitalizado que la media. Se necesitan herramientas digitales seguras, sencillas y sostenibles para que el sistema educativo, desde profesores y alumnos hasta administrativos puedan operar fácilmente y sin problema alguno.
Los datos abiertos permiten localizar en cualquier momento determinada información de calidad entre miles de fuentes de manera rápida y sencilla. Estos repositorios crean un ecosistema de intercambio de datos fiable que impulsa a los editores a publicar datos para impulsar el aprendizaje de los alumnos y el desarrollo de soluciones tecnológicas.
2. ¿Qué datasets son los más demandados para poner en marcha soluciones educativas?
Cada región suele generar los suyos propios. El principal reto es cómo pueden crearse nuevos datasets en colaboración con las variables que les permitan crear modelos predictivos para anticiparse a los principales retos que enfrentan, tales como el abandono escolar, la personalización del aprendizaje o la orientación académica y profesional, entre otros.
3. ¿Cómo pueden iniciativas como los hackathons, desafíos o retos ayudar a impulsar la innovación basada en datos? ¿Cómo ha sido su experiencia en el III Desafío Aporta?
Es fundamental apostar por proyectos e iniciativas que desarrollen soluciones innovadoras para fomentar el uso de datos.
La tecnología ofrece herramientas que ayudan a buscar sinergias entre datos públicos y privados para desarrollar soluciones tecnológicas e impulsar diferentes habilidades entre los alumnos.
4. Además de como base para soluciones tecnológicas, los datos abiertos también tienen un rol importante como recurso educativo en sí, ya que pueden proporcionar conocimiento sobre múltiples áreas. ¿En qué medida este tipo de recursos favorece el pensamiento crítico de los estudiantes?
El uso de los datos abiertos en las aulas es una forma de impulsar y fomentar las capacidades educativas de los estudiantes. Para un buen uso de estos recursos es importante buscar y filtrar la información de acuerdo a las necesidades, así como mejorar la capacidad de analizar datos y argumentación de una manera razonada. Además, permite al estudiante desenvolverse en programas y herramientas tecnológicas.
Estas habilidades son útiles para el futuro no sólo académico sino laboral de los alumnos puesto que cada vez se demandan más profesionales que cuenten con habilidades relacionadas con capacidad analítica y de gestión de datos.
5. A través de su iniciativa de Google Research se llevan a cabo múltiples proyectos, algunos de ellos ligados a la apertura y reutilización de datos abiertos. ¿Por qué es importante que las compañías privadas también abran datos?
Entendemos las dificultades que pueden tener las compañías privadas si comparten datos puesto que compartir su información puede ser una ventaja para los competidores. Sin embargo, es esencial combinar datos del sector público y privado para impulsar el crecimiento del mercado de datos abiertos y que puedan dar lugar a nuevos análisis y estudios y el desarrollo de nuevos productos y servicios.
También es importante plantear la reutilización de datos teniendo en cuenta los nuevos retos que van surgiendo en la sociedad y facilitar el desarrollo de soluciones sin tener que partir desde cero.
6. ¿Cuáles son los planes de futuro de Google en relación con los datos abiertos?
Los datos confidenciales de las empresas tienen unos altos requisitos de supervivencia, en caso de que un proveedor tenga que cancelar los servicios en la nube debido a cambios en las políticas de un país o región, y creemos que no es posible asegurar los datos con una solución patentada. Sin embargo, sí contamos con herramientas de código y estándares abiertos que dan respuesta a las múltiples preocupaciones de los clientes.
Herramientas para analizar datos como son BigQuery o BigQuery Omni, permiten a los clientes hacer que sus propios datos sean más abiertos, tanto dentro como fuera de su organización. Así se puede aprovechar el potencial de esos datos de forma segura y eficiente en costes. Ya contamos con claros casos de uso de valor creados con nuestra tecnología de data e inteligencia artificial, y avalados por el CDTI, como es el caso del modelo de prevención de abandono escolar Student Success data . Instituciones educativas referentes ya lo utilizan a día y está en fase pilotaje en algunas consejerías de educación.
El objetivo de la compañía es seguir trabajando para construir una nube abierta de la mano de nuestros socios locales y las instituciones públicas en España y en toda Europa, creando un ecosistema europeo de datos digitales seguro de la mano de la mejor tecnología.
Los datos abiertos no son solo cosa de las Administraciones públicas, cada vez más empresas también apuestan por ellos. Es el caso de Microsoft, quien ha proporcionado acceso a datos abiertos seleccionados en Azure pensados para el entrenamiento de modelos de Machine Learning. También colabora en el desarrollo de múltiples proyectos con el fin de impulsar el open data. En España, ha colaborado en el desarrollo de la plataforma HealthData 29, destinada a la publicación de datos en abierto para impulsar la investigación médica.
Hemos entrevistado a Belén Gancedo, Directora de Educación en Microsoft Ibérica y miembro del jurado en la III edición del Desafío Aporta, centrado en el valor de los datos para el sector educativo. Nos hemos reunido con ella para que nos hable de la importancia de la educación digital y de las soluciones innovadoras basadas en datos, así como de la importancia de los datos abiertos en el sector empresarial.
Entrevista completa:
1. ¿Qué retos del sector educativo, a los que urge dar respuesta, ha puesto de manifiesto la pandemia en España?
La tecnología se ha convertido en elemento imprescindible en la nueva forma de aprender y enseñar. Durante los últimos meses, marcados por la pandemia, hemos visto cómo se ha pasado en muy poco tiempo a un modelo de educación híbrido -presencial y en remoto-. Hemos visto ejemplos de centros que, en tiempo récord, en menos de 2 semanas, han tenido que acelerar los planes de digitalización que ya tenían en mente.
La tecnología ha pasado de ser un salvavidas temporal, que permitió dar clases en la peor etapa de la pandemia, a convertirse en una parte totalmente integrada de la metodología de enseñanza de muchos centros educativos. Según una encuesta reciente de YouGov encargada por Microsoft, el 71% de los educadores de Primaria y Secundaria señala que la tecnología les ha ayudado a mejorar su metodología y ha mejorado su capacidad de enseñar. Asimismo, el 82% del profesorado señala que, este último año, se ha acelerado el ritmo al que la tecnología ha impulsado la innovación en la enseñanza y el aprendizaje.
Antes de esta pandemia, de alguna forma, quienes veníamos dedicándonos a la educación, éramos quienes defendíamos la necesidad de transformar digitalmente el sector y los beneficios que la tecnología introducía en él. Sin embargo, lo vivido ha servido para que todo mundo sea consciente de los beneficios de la aplicación de la tecnología en el entorno educativo. En ese sentido ha habido un enorme avance. Nosotros hemos observado un gran incremento en el uso de nuestra herramienta Teams, que ya usan más de 200 millones de estudiantes, profesores y personal del sector educativo en todo el mundo.
Los mayores retos, pues, actualmente, son conseguir no sólo aprovechar los datos y la Inteligencia Artificial para proporcionar experiencias más personalizadas y operar con mayor agilidad sino también la integración de la tecnología con la pedagogía, lo que permitirá experiencias de aprendizaje más flexibles, atractivas e inclusivas. Los estudiantes son cada vez más diversos, y también lo son sus expectativas sobre el papel de la educación universitaria en su camino hacia el empleo.
Los mayores retos, pues, actualmente, son conseguir no sólo aprovechar los datos y la Inteligencia Artificial para proporcionar experiencias más personalizadas y operar con mayor agilidad sino también la integración de la tecnología con la pedagogía, lo que permitirá experiencias de aprendizaje más flexibles, atractivas e inclusivas
2. Cada vez hay más demanda de capacidades y competencias digitales relacionadas con los datos. En este sentido, se ha lanzado el Plan Nacional de Competencias Digitales, donde se incluye la digitalización de la educación y el desarrollo de las competencias digitales para el aprendizaje. ¿Qué cambios habría que hacer en los programas educativos de cara a impulsar la adquisición de conocimientos digitales por parte de los alumnos?
Sin duda, uno de los mayores retos a los que nos enfrentamos en la actualidad es la falta de capacitación y habilidades digitales. Según un estudio llevado a cabo por Microsoft y EY, el 57% de las compañías encuestadas esperan que la IA tenga un alto o muy alto impacto en las áreas de negocios que son “totalmente desconocidas para las compañías en la actualidad”.
Hay una clara oportunidad para que España lidere en Europa en talento digital, consolidándose como uno de los países más atractivos para atraer y retener este talento. Un reciente estudio de LinkedIn anticipa que en los próximos cinco años se crearán en España dos millones de puestos de trabajo relacionados con la tecnología, no sólo en la industria tecnológica, sino también, y sobre todo, en empresas de otros sectores de actividad que buscan incorporar el talento necesario para llevar a cabo su transformación. Sin embargo, hay un déficit de profesionales con habilidades y formación en competencias digitales. De acuerdo con los datos del Digital Economy and Society Index Report que publica anualmente la Comisión Europea, España se encuentra por debajo de la media europea en la mayoría de los indicadores que hacen referencia a las competencias digitales de los profesionales españoles.
Existe, por tanto, una demanda urgente de formar talento cualificado con capacidades digitales, gestión del dato, IA, machine learning… Los perfiles relacionados con la tecnología se encuentran entre los más difíciles de encontrar y, en un futuro próximo, los relacionados con la analítica de datos, la computación en la nube y el desarrollo de aplicaciones.
Para ello, es necesaria una adecuada formación, ya no solo en la forma de enseñar, sino también en el contenido curricular. Cualquier carrera, ya no solo las del ámbito STEM, necesitaría incluir materias relacionadas con la tecnología y la IA, que será la que defina el futuro. El uso de la IA llega a cualquier ámbito, no solo al tecnológico, por lo tanto, el alumnado de cualquier tipo de carrera -Derecho, Periodismo…- por poner algunos ejemplos de carreras no STEM, necesita formación cualificada en tecnología como la IA o la ciencia de datos, puesto que lo van a tener que aplicar en su futuro profesional.
Debemos apostar por las colaboraciones público-privadas e involucrar a la industria tecnológica, las administraciones públicas, la comunidad educativa, adecuando los contenidos curriculares de la Universidad a la realidad laboral- y las entidades del tercer sector, con el objetivo de impulsar la empleabilidad y el reciclaje profesional. De esta forma, se impulsará la capacitación de los profesionales en áreas como computación cuántica, Inteligencia Artificial, o analítica de datos y podremos aspirar al liderazgo digital.
En los próximos cinco años se crearán en España dos millones de puestos de trabajo relacionados con la tecnología, no sólo en la industria tecnológica, sino también, y sobre todo, en empresas de otros sectores de actividad que buscan incorporar el talento necesario para llevar a cabo su transformación.
3. Todavía hoy encontramos disparidad entre el número de hombre y mujeres que eligen ramas profesionales relacionadas con la tecnología. ¿Qué se necesita para impulsar el papel de la mujer en el ámbito tecnológico?
Según el Observatorio Nacional de Telecomunicaciones y Sociedad de la Información -ONTSI- (julio 2020), la brecha digital de género se ha reducido progresivamente en España, pasando de 8,1 a 1 punto, aunque las mujeres mantienen una posición desfavorable en competencias digitales y usos de Internet. En competencias avanzadas, como programación, la brecha en España es de 6,8 puntos, siendo la media de la UE de 8 puntos. El porcentaje de investigadoras en el sector de servicios TIC se reduce al 23,4%. Y en cuanto al porcentaje de graduados/as en STEM, España se sitúa en la posición 12 dentro de la UE, con una diferencia entre sexos de 17 puntos.
Sin duda, queda mucho camino por recorrer. Una de las principales barreras con las que se encuentran las mujeres en el sector de la tecnología y a la hora de emprender son los estereotipos y la tradición cultural. El entorno masculinizado de las carreras técnicas y los estereotipos sobre quienes se dedican a la tecnología las convierte en carreras poco atractivas para las mujeres.
La digitalización está dinamizando la economía y favoreciendo la competitividad empresarial, así como generando un incremento en la creación de empleo especializado. Quizá lo más interesante del impacto de la digitalización en el mercado laboral es que estos nuevos puestos de trabajo no se están creando sólo en la industria tecnológica, sino también en empresas de todos los sectores, que necesitan incorporar talento especializado y con habilidades digitales.
Por lo tanto, existe una demanda urgente de formar talento cualificado con capacidades digitales y este talento debe ser diverso. La mujer no puede quedar atrás. Es el momento de atajar la desigualdad de género, y alertar de esta enorme oportunidad a todos, con independencia de su género. Las carreras STEM son una opción ideal de futuro para cualquier persona, independientemente de su género.
Para favorecer la presencia femenina en el sector tecnológico, en pro de una era digital sin exclusión, en Microsoft hemos puesto en marcha diferentes iniciativas que buscan desterrar estereotipos y animar a las niñas y jóvenes a interesarse por la ciencia y la tecnología y hacerlas ver que ellas también pueden ser las protagonistas de la sociedad digital. Además de los Premios WONNOW que convocamos con CaixaBank, también participamos y colaboramos en muchas iniciativas, como los Premios Ada Byron junto a Universidad de Deusto, para ayudar a dar visibilidad al trabajo de mujeres en el ámbito STEM, para que sean referentes de las que están por venir.
La brecha digital de género se ha reducido progresivamente en España, pasando de 8,1 a 1 punto, aunque las mujeres mantienen una posición desfavorable en competencias digitales y usos de Internet. En competencias avanzadas, como programación, la brecha en España es de 6,8 puntos, siendo la media de la UE de 8 puntos
4. ¿Cómo pueden iniciativas como los hackathons, desafío o retos ayudar a impulsar la innovación basada en datos? ¿Cómo ha sido su experiencia en el III Desafío Aporta?
Este tipo de iniciativas son clave para ese cambio tan necesario. En Microsoft estamos constantemente organizando hackathons tanto a escala global, como regional y local, para innovar en distintas áreas prioritarias para la compañía como, por ejemplo, la educación.
Pero vamos más allá. También usamos estas herramientas en clase. Una de las apuestas de Microsoft son los proyectos Hacking STEM. Se trata de proyectos en los que se mezcla el concepto “maker” de aprender haciendo con la programación y la robótica, mediante el uso de materiales cotidianos. Además, están integrados por actividades que permiten a los docentes guiar a sus alumnos para construir y crear instrumentos científicos y herramientas basadas en proyectos para visualizar datos a través de la ciencia, la tecnología, la ingeniería y las matemáticas. Nuestros proyectos -tanto de Hacking STEM como de codificación y lenguaje computacional mediante el uso de herramientas gratuitas como Make Code- pretenden llevar la programación y la robótica a cualquier asignatura de forma transversal, y por qué no, aprender programación en una clase de latín o en una de biología.
Mi experiencia en el III Desafío Aporta ha sido fantástica porque me ha permitido conocer ideas y proyectos increíbles donde se hace realidad la utilidad de la cantidad de datos disponibles y se ponen al servicio de la mejora de la educación de todos. Ha habido muchísima participación y, además, con presentaciones muy cuidadas y trabajadas. La verdad es que me gustaría aprovechar esta oportunidad para dar las gracias a todos los que han participado y también dar la enhorabuena a los ganadores.
5. Hace un año Microsoft lanzó una campaña para impulsar la apertura de datos de cara a cerrar la brecha entre los países y empresas que tienen los datos necesarios para innovar y aquellos que no. ¿En qué ha consistido el proyecto? ¿Qué avances se han logrado?
La iniciativa global de Microsoft Open Data Campaign busca contribuir a cerrar la creciente “brecha de datos” entre el pequeño número de empresas tecnológicas que más se benefician de la economía de los datos en la actualidad y otras organizaciones que se ven obstaculizadas por la falta de acceso a ellos o por no tener capacidades para utilizar los que ya tienen.
Microsoft cree que se debe hacer más para ayudar a las organizaciones a compartir y colaborar en torno a los datos, de modo que las empresas y los gobiernos puedan utilizarlos para afrontar los retos que se les presentan, pues la capacidad de compartir datos conlleva enormes beneficios. Y no solo para el entorno empresarial, sino que también juegan un rol crítico a la hora de ayudarnos a entender y abordar grandes desafíos, como el cambio climático, o crisis sanitarias, como la pandemia COVID-19. Para aprovecharlos al máximo, es necesario desarrollar la capacidad de compartirlos de una forma segura y confiable, y permitir que puedan ser utilizados de manera efectiva.
Dentro de la iniciativa Open Data Campaign, Microsoft ha anunciado 5 grandes principios que guiarán cómo la propia compañía aborda la forma de compartir sus datos con otros:
- Abiertos – Trabajará para hacer que los datos relevantes sobre problemas sociales de gran envergadura se encuentren tan abiertos como sea posible.
- Utilizables– Invertirá en crear nuevas tecnologías y herramientas, mecanismos de gobernanza y políticas para que los datos puedan ser usados por todos.
- Impulsores – Microsoft ayudará a las organizaciones a generar valor a partir de sus datos y a desarrollar talento en IA para utilizarlos de manera efectiva.
- Seguros– Microsoft va a emplear controles de seguridad para garantizar que la colaboración en torno a datos sea segura a nivel operacional.
- Privados – Microsoft ayudará a las organizaciones a proteger la privacidad de los individuos en colaboraciones donde se compartan datos y que involucren información de identificación personal.
Seguimos avanzado en este sentido. El año pasado, Microsoft España, junto a Fundación 29, la Cátedra sobre la Privacidad y Transformación Digital Microsoft-Universitat de València y con el asesoramiento legal del despacho de abogados J&A Garrigues han creado la Guía “Health Data” que describe el marco técnico y legal para llevar a cabo la creación de un repositorio público de datos de los sistemas de Salud, y que estos puedan compartirse y utilizarse en entornos de investigación. Y LaLiga es una de las entidades que ha compartido, en junio de este año, sus datos anonimizados.
El Dato es el principio de todo. Y una de nuestras mayores responsabilidades como empresa de tecnología es ayudar a la conservación del ecosistema a gran escala, a nivel planetario. Para ello el mayor reto es consolidar no solo todos los datos disponibles, sino los algoritmos de inteligencia artificial que permitan acceder a ello y permitan tomar decisiones, crear modelos predictivos, escenarios con información actualizada desde múltiples fuentes. Por eso, Microsoft lanzó el concepto de Planetary Computer, basado en Open Data, para poner a disposición de científicos, biólogos, startups y empresas, de forma gratuita, más de 10 Petabytes de datos -y creciendo- de múltiples fuentes (biodiversidad, electrificación, forestación, biomasa, satélite), APIs, Entornos de Desarrollo y aplicaciones (modelo predictivo, etc.) para crear un mayor impacto para el planeta.
La iniciativa global de Microsoft Open Data Campaign busca contribuir a cerrar la creciente “brecha de datos” entre el pequeño número de empresas tecnológicas que más se benefician de la economía de los datos en la actualidad y otras organizaciones que se ven obstaculizadas por la falta de acceso a ellos o por no tener capacidades para utilizar los que ya tienen.
6. También ofrecen algunos conjuntos de datos en abierto a través de su iniciativa Azure Open Datasets. ¿Qué tipo de datos ofrecen? ¿Cómo los pueden utilizar los usuarios?
Esta iniciativa busca que las empresas mejoren la precisión de las predicciones de sus modelos de Machine Learning y reduzcan el tiempo de preparación de los datos, gracias a conjuntos de datos seleccionados de acceso público, listos para usar y a los que se puede acceder fácilmente desde los servicios de Azure.
Hay datos de todo tipo: salud y genómica, transporte, mano de obra y economía, población y seguridad, datos comunes… que se pueden utilizar de múltiples maneras. Y también es posible aportar datasets a la comunidad.
7. ¿Cuáles son los planes de futuro de Microsoft en relación con los datos abiertos?
Tras un año con la Opendata campaign, hemos tenido muchos aprendizajes y, en colaboración con nuestros partners, vamos a enfocarnos el próximo año a aspectos prácticos que hagan el proceso de la compartición de datos más sencilla. Acabamos de empezar a publicar materiales para que las organizaciones vean los aspectos prácticos de cómo empezar a compartir datos. Continuaremos identificando posibles colaboraciones para solventar retos sociales en temas de sostenibilidad, salud, equidad e inclusión. También queremos conectar a aquellos que están trabajando con datos o quieren explorar ese ámbito con las oportunidades que ofrecen las Certificaciones de Microsoft en Data e Inteligencia Artificial. Y, sobre todo, este tema requiere de un buen marco regulatorio y, para ello, es necesario que quienes definen las políticas se reúnan con la industria, la academia y la sociedad civil para desarrollar incentivos, infraestructuras y mecanismos que permitan compartir datos del sector público y privado -dentro y a través de fronteras organizacionales y nacionales,- siempre salvaguardando los derechos humanos, con el fin de hacer un uso efectivo de dichos datos en pro de la innovación.
La inteligencia artificial está cada vez más presente en nuestras vidas. Sin embargo, su presencia es cada vez más sutil e inadvertida. A medida que una tecnología madura y permea más en la sociedad, ésta se vuelve cada vez más transparente, hasta que se naturaliza por completo. La inteligencia artificial está recorriendo este camino rápidamente, y hoy, os lo contamos con un nuevo ejemplo.
Introducción
En este espacio de comunicación y divulgación hemos hablado muchas veces de inteligencia artificial (IA) y sus aplicaciones prácticas. En otras ocasiones, hemos comunicado informes monográficos y artículos sobre aplicaciones concretas de la IA en la vida real. Es evidente que este es un tema de máxima actualidad y repercusión en el sector de la tecnología, y es por esto que continuamos incidiendo en nuestra labor divulgativa sobre este campo.
En esta ocasión, os hablamos sobre los últimos avances en inteligencia artificial aplicada al campo del procesamiento de lenguaje natural. A principios del año 2020 publicamos un informe en el que citamos los trabajos de Paul Daugherty y James Wilson - Human + Machine - para explicar los tres estados en los que la IA colabora con las capacidades humanas. Daugherty y Wilson explican estos tres estados de colaboración entre máquinas (IA) y humanos de la siguiente forma (ver figura 1). En el primer estado, la IA se entrena con características genuinamente humanas como el liderazgo, la creatividad y los juicios de valor. El estado opuesto, es aquel en el que se destacan características donde las máquinas demuestran un mejor desempeño que los humanos. Hablamos de actividades repetitivas, precisas y continuas. Sin embargo, el estado más interesante es el intermedio. En este estado, los autores identifican actividades o características en las que los humanos y las máquinas realizan actividades híbridas, en las que se complementan mutuamente. En este estado intermedio, se distinguen, a su vez, dos etapas de madurez.
- En la primera etapa -la más inmadura- los humanos complementan a las máquinas. Disponemos de numerosos ejemplos de esta etapa en la actualidad. Los humanos enseñamos a las máquinas a conducir (coches autónomos) o a entender nuestro lenguaje (procesado del lenguaje natural).
- La segunda etapa de madurez se produce cuando la IA potencia o amplifica nuestras capacidades humanas. En palabras de Daugherty y Wilson, la IA nos da superpoderes a los humanos.

Figura 1: Estados de colaboración entre humanos y máquinas. Fuente original
En este post, te mostramos un ejemplo de este superpoder que nos devuelve la IA. El superpoder de resumir libros de decenas de miles de palabras a tan solo unos cientos. Los resúmenes resultantes son similares a cómo los haría un humano con la diferencia de que la IA lo hace en unos pocos segundos. Hablamos, en concreto, de los últimos avances que ha publicado la compañía OpenAI dedicada a la investigación en sistemas de inteligencia artificial.
Resumiendo libros como un humano
OpenAI define de forma similar el razonamiento de Daugherty y Wilson sobre los modelos de colaboración de la IA con los humanos. Los autores del último trabajo de OpenAI explican que, para implementar modelos de inteligencia artificial tan potentes que resuelvan problemas globales y genuinamente humanos, debemos asegurarnos de que los modelos de IA actúen alineados con las intenciones humanas. De hecho, este reto se conoce como el problema de alineamiento.
Los autores explican que: "Para probar técnicas de alineación escalables, entrenamos un modelo para resumir libros completos [...] Nuestro modelo funciona primero resumiendo pequeñas secciones de un libro, luego resumiendo esos resúmenes en un resumen de nivel superior, y así sucesivamente".
Veamos un ejemplo
Los autores han refinado el algoritmo GPT-3 para resumir libros completos basándose en una aproximación conocida como: descomposición recursiva de tareas acompañada con un refuerzo a partir de comentarios humanos. La técnica se denomina descomposición recursiva porque se fundamenta en realizar múltiples resúmenes de la obra completa (por ejemplo, un resumen por cada capítulo o sección) y, en iteraciones posteriores, ir realizando, a su vez, resúmenes de los resúmenes previos, cada vez con menor número de palabras. En la siguiente figura se explica el proceso de forma más visual.

Fuente original: https://openai.com/blog/summarizing-books/
Resultado final:

Fuente original: https://openai.com/blog/summarizing-books/
Como hemos citado en anteriores ocasiones, el algoritmo GPT-3 ha sido entrenado gracias al conjunto de libros digitalizados bajo el amparo del proyecto Gutenberg. El vasto repositorio del proyecto Gutenberg incluye hasta 60.000 libros en formato digital que, actualmente, son de dominio público en Estados Unidos. De la misma forma que se ha usado el proyecto Gutenberg para entrenar GPT-3 en inglés, se podrían haber usado otros repositorios de datos abiertos para entrenar el algoritmo en otros idiomas. En nuestro país, la Biblioteca Nacional cuenta con un portal de datos abiertos para explotar el catálogo disponible de obras bajo dominio público en español.
Los autores del trabajo afirman que la descomposición recursiva plantea ciertas ventajas con respecto a las aproximaciones más integrales que tratan de resumir el libro de una sola vez.
- La evaluación de la calidad de los resúmenes por humanos es más sencilla cuándo se trata de evaluar resúmenes de partes concretas de un libro que si se trata de la obra entera.
- Un resumen, trata siempre de identificar las partes clave de un libro o un capítulo de un libro, manteniendo los datos fundamentales y descartando aquellos que no aporten a la hora de entender el contenido. Evaluar este proceso para entender si realmente se han capturado esos detalles fundamentales es mucho más sencillo con esta aproximación basada en la descomposición del texto en unidades más pequeñas.
- Esta aproximación descompositiva mitiga las limitaciones que pueden existir cuándo las obras a resumir son muy grandes.
Además del ejemplo principal que hemos expuesto en este post sobre la obra de Shakespeare, Romeo y Julieta, los lectores pueden experimentar por ellos mismos cómo funciona esta IA en el explorador de resúmenes de openAI. Esta web, pone a disposición dos repositorios de libros (obras clásicas) abiertos sobre los que se puede experimentar la capacidad de resumir de esta IA navegando desde el resumen final del libro hacia los resúmenes anteriores en el proceso de descomposición recursiva.
Concluyendo, el procesamiento del lenguaje natural es una capacidad humana clave que está siendo reforzada por el desarrollo de la IA de forma espectacular en los últimos años. No solo OpenAI realiza contribuciones de calado en este campo. Otros gigantes tecnológicos, como Microsoft y NVIDIA, también están realizando grandes avances como se constata con el último anuncio de estas dos compañías y su nuevo modelo Megatron-Turing NLG. Este nuevo modelo muestra grandes avances en tareas como por ejemplo: la generación de texto predictivo o el entendimiento del lenguaje humano para interpretación de comandos de voz en asistentes personales. Con todo ello, no cabe duda que veremos a las máquinas hacer cosas increíbles en los próximos años.
Contenido elaborado por Alejandro Alija,experto en Transformación Digital e Innovación.
Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.
La España Despoblada es un proyecto de Business Intelligence desarrollado por Ander Fernández Jauregui cuya finalidad consiste en integrar datos de distintas instituciones públicas -Instituto Nacional de Estadística, delimitadores geográficos, etc.- para analizar cómo se ha producido la despoblación en España desde 1996 hasta hoy en día.
El usuario podrá comprobar qué CC. AA. se han visto más afectadas, cómo se ha producido el cambio a lo largo del tiempo, dónde afecta más que los pueblos se vacíen o os datos de los diferentes municipios.
Un dato espacial o dato geográfico es aquel dato que tiene asociada una referencia geográfica, bien de manera directa, a través de unas coordenadas, o indirecta, como un código postal. Gracias a estas referencias geográficas se puede localizar su ubicación exacta dentro de un mapa. La Unión Europea incluye los datos espaciales entre los conjuntos de datos que se pueden considerar de alto valor, debido a sus “considerables beneficios para la sociedad, el medio ambiente y la economía, en particular debido a su idoneidad para la creación de servicios de valor añadido, aplicaciones y nuevos puestos de trabajo”. Son muchos los ejemplos del potencial reutilizador de este tipo de datos. Por ejemplo, los datos que proporciona el sistema de Observación de la Tierra Copernicus, han servido para crear desde herramientas para vigilar las zonas susceptibles de sufrir incendios o ayudar a frenar el tráfico de estupefacientes. Por ello es importante que los datos espaciales sean creados de manera que se facilite su disponibilidad, acceso, interoperabilidad y aplicación.
Una gran cantidad de los datos abiertos que gestionan las administraciones públicas se pueden georeferenciar, maximizando así su valor. Para ayudar a las administraciones públicas a la hora de publicar en abierto este tipo de información, en el marco de la Iniciativa Aporta se elaboró una primera versión en 2020 por parte del equipo de datos.gob.es en colaboración con el O. A. Centro Nacional de Información Geográfica (Instituto Geográfico Nacional). Esta guía ha sido actualizada en 2025.
¿Cuáles son las principales novedades de la actualización realizada en 2025?
La guía ha sido revisada en el 2025 para actualizar el contenido con las novedades más recientes e incorporar nuevas secciones sobre HVD, OGC API, gráficos e infografías explicativas, además de otros ajustes editoriales, de actualización de enlaces y corrección de errores tipográficos.
¿A quién va dirigida la guía?
La guía está dirigida, principalmente, a promotores de Datos Abiertos cuyo objetivo es publicar conjuntos de datos espaciales. Es preferible que el lector esté familiarizado con conocimientos básicos sobre los elementos fundamentales que integran la información geoespacial, metadatos del contexto espacial y servicios web geográficos.
¿Qué puedo encontrar en la guía?
La guía comienza con un apartado donde se abordan los conceptos esenciales necesarios para entender la naturaleza de los datos espaciales. En este apartado se incluyen explicaciones sobre la representación visual de la información geográfica, así como detalles sobre las herramientas necesarias para el análisis y transformación de datos espaciales, y los formatos y metadatos recomendados. En este sentido existen apartados específicos sobre los Sistemas de Información Geográfica (SIG) y se aborda el papel de los servicios web geográficos y de las Infraestructuras de Datos Espaciales (IDE) a la hora de facilitar el acceso y la gestión de conjuntos de datos y servicios geográficos.
A continuación, se compila una serie de pautas para facilitar la publicación de los datos espaciales de manera eficiente en internet, teniendo en cuenta las normas internacionales de la Organización Internacional de Normalización (ISO). Las pautas detalladas en esta guía son:

Por último, se incluyen una serie de referencias, especificaciones, formatos, normas y herramientas de aplicación directa para la publicación de Datos Espaciales.
Durante toda la guía se incluyen referencias a la Directiva europea INSPIRE como elemento catalizador para compartir recursos geográficos en Europa y las directrices para describir información espacial derivadas de los estándares de metadatos de Datos Abiertos, DCAT y GeoDCAT-AP.
Otros materiales de interés
Aunque el ámbito primordial de este documento se orienta a la publicación de datos espaciales, no se debe obviar que para su reutilización eficaz es fundamental la aplicación de todas las buenas prácticas vinculadas a la calidad de datos en general. En este sentido es recomendable complementar esta guía con la lectura y aplicación de otras guías que orienten sobre la aplicación de pautas para asegurar la publicación de datos estructurados de calidad, como la Guía práctica para la publicación de datos tabulares en archivos CSV y usando APIs.
Puedes descargar la Guía práctica para la publicación de Datos Espaciales en los siguientes enlaces:
Una interfaz de programación de aplicaciones o API es un mecanismo que permite la comunicación e intercambio de información entre sistemas. Las plataformas de datos abiertos, como datos.gob.es, cuentan con este tipo de herramientas para interactuar con el sistema de información y consultar los datos sin necesidad de un conocimiento de la estructura interna o de la tecnología utilizada en su desarrollo. Gracias a las APIs, los reutilizadores pueden acceder más fácilmente la información que necesitan de forma automática, siendo posible ajustar la descarga exclusivamente a los datos requeridos.
Cada vez son más los organismos que apuesta por este tipo de mecanismos, sobre todo para publicar datos con alta frecuencia de actualización como los datos en tiempo real. La propia directiva europea de sobre datos abiertos y reutilización de la información del sector público refiere la necesidad de contar con este tipo de mecanismos para la publicación de datos dinámicos y de alto valor. Es habitual usar APIs para acceder a datos meteorológicos, de transporte público o los producidos por sensores de monitorización urbanos, aunque cabe destacar que las APIs son adecuadas para consumir todo tipo de datos.
Con el objetivo de ayudar a aquellos portales de datos abiertos que todavía no cuenten con una API, desde datos.gob.es hemos preparado un guía con las principales pautas a seguir a la hora de definir y poner en marcha este mecanismo de acceso a los datos.
¿Qué puede encontrar el lector en esta guía?
La guía comienza con un primer apartado dedicado a entender qué son las APIS y cuál es su valor. En él se explica cómo funcionan y se implementan. Para aquellos que quieran ampliar la información, se recomienda realizar la unidad formativa ”Buenas prácticas en el diseño de APIs y Linked Data”.
A continuación, la guía se centra en las pautas de diseño e implementación de APIs. Entre otros aspectos, se aborda cómo usar URIs para identificar recursos o cómo evitar rupturas de servicio.
La guía acaba con una serie de apartados más específicos centrados en la implementación de APIs en catálogos de Datos Abiertos, para el acceso a datos enlazados y a servicios web geográficos.
¿Cuáles son las principales novedades de la actualización realizada en 2025?
La guía ha sido revisada en el 2025 para actualizar el contenido con nuevos enlaces y ejemplos, además de ampliar el contenido sobre FIWARE con un enfoque práctico así como en profundizar más detalle para la sección OpenAPI.
Un nuevo volumen en la colección
Esta guía forma parte a una colección de documentos elaborados desde la Iniciativa Aporta para ayudar a los publicadores de datos a la hora de facilitar el acceso e impulsar el uso de la información publicada. En concreto, la colección busca dar a conocer cuáles son los mejores formatos para la reutilización, y facilitar una serie de pautas claras y sencillas que los organismos puedan seguir a la hora de abrir sus dataset, garantizando así la calidad de los mismos.
La “Guía práctica para la publicación de Datos Abiertos usando APIs” es el segundo número de la serie, que comenzó en el mes de marzo con la publicación de un primer volumen dedicado a la publicación de datos tabulares en archivos CSV. En los próximos meses continuaremos publicando contenidos en nuestro afán por facilitar la apertura de datos y su reutilización.
Hoy en día disponemos cada vez de más fuentes de datos a nuestro alcance. Según Portal Europeo de Datos, el impacto del mercado de los datos abiertos podría alcanzar hasta los 334.000 millones de euros y generar en torno a 2 millones de empleos en 2025 ('The Economic Impact of Open Data: Opportunities for value creation in Europe. (2020)).
Sin embargo, paradójicamente, aun cuando los datos son más asequibles que nunca, las posibilidades de reutilizarlos todavía son bastante limitadas. Los potenciales usuarios de esos datos tienen que hacer frente muchas veces a múltiples barreras que dificultan su acceso y su uso. Las facetas en las que pueden existir problemas de calidad que dificulten la reutilización de los datos son múltiples: metadatos escasamente descriptivos y estandarizados, elección de licencia, la elección del formato, el uso inadecuado de los formatos o deficiencias en los propios datos. Son muchas las iniciativas que intentan medir la calidad de los conjuntos de datos en base a sus metadatos: fecha y frecuencia de actualización, licencia, formatos empleados,… como ocurre, por ejemplo, en el cuadro de mando de calidad de los metadatos presente en el Portal Europeo de datos o en la dimensión calidad del Open Data Maturity Index.
Pero estos análisis resultan insuficientes dado que la mayoría de las veces las deficiencias de calidad solo pueden ser identificadas después de comenzar el proceso de reutilización. El trabajo que precian los procesos de depuración y preparación se convierten así en una carga importante que en muchos casos es inasumible para el usuario de datos abiertos. Este hecho produce frustración y perdida de interés por parte del sector reutilizador en los datos ofrecidos por los organismos públicos, afectando a la credibilidad de las instituciones publicadoras y rebajando considerablemente las expectativas de retorno y generación de valor a partir de la reutilización de datos abiertos.
Estos problemas potenciales pueden ser atajados dado que, en buena medida, se ha observado que son debidos a que el publicador desconoce cómo expresar los datos de forma correcta en el formato elegido.
Por todo ello, y con el objetivo de contribuir a la mejora de la calidad de los datos abiertos, en datos.gob.es hemos decidido crear una colección de guías dirigidas a orientar a los publicadores en el uso adecuado de los formatos y los medios de acceso a datos abiertos más utilizados en el ámbito de los datos abiertos.
La colección de guías se inicia aquí poniendo el foco en el formato CSV. La elección de este formato se basa en su popularidad en el ámbito de los datos abiertos, en su sencillez y en lo ligero que resulta a la hora de expresar datos en forma de tabla. Es el formato más común en los catálogos de datos abiertos; concretamente, en datos.gob.es representa el 20% de las distribuciones conviviendo con otros formatos como XLS o XLSX que podrían expresarse también como CSV. Además, es un formato que podemos denominar híbrido porque combina la facilidad de su procesamiento automatizado con la posibilidad de ser explorado directamente por personas con un simple editor de texto.
Esta guía comprende las características básicas de este tipo de formato y un compendio de pautas para publicar correctamente en datos tabulares, especialmente en CSV. Las pautas van acompañadas de sugerencias de herramientas gratuitas que destacan por su facilidad para trabajar con archivos CSV y las funcionalidades extras que aportan. Además, está también disponible un resumen de las pautas presente en la guía en forma de Cheet Sheet (chuleta u hoja de trucos) para facilitar su uso y consulta.
¿Cuáles son las principales novedades de la actualización realizada en 2025?
La guía ha sido revisada en el 2025 para incorporar nuevas secciones sobre errores comunes y soluciones, validación de tipos de datos con ejemplos prácticos de código, manejo avanzado de campos de fecha, y ampliar el toolbox con herramientas como Rainbow CSV y OpenRefine, además de mejorar las pautas para optimizar la importación/exportación de datos y el tratamiento de grandes volúmenes de información.
Con toda la probabilidad la mayoría de nosotros conoceremos, o habremos al menos oído hablar de la tecnología blockchain, por su relación con la criptomoneda más popular del momento – Bitcoin. Sin embargo, blockchain no es una tecnología nacida únicamente para sostener esta nueva economía digital, sino que como otras muchas tecnologías de cadenas de bloques su principal finalidad es almacenar y gestionar cadenas de datos de forma descentralizada y distribuida.
Blockchain cuenta con una serie de características que serán en definitiva las que nos proporcionen las ventajas la convertirán en una tecnología de utilidad en varios campos de aplicación: privacidad, (cuasi) anonimato, integridad, distribución de la confianza, transparencia, seguridad, sostenibilidad y código abierto. Si bien está claro que su aplicación más extendida hasta el momento está en el campo de las finanzas, y más concretamente las criptomonedas, también puede resultar de gran utilidad para muchos otros campos fuera y dentro de los gobiernos, particularmente todo aquello relacionado con la identificación personal o la protección de los datos personales mediante la descentralización de la privacidad.
Con respecto a la mejora de los gobiernos blockchain puede contribuir en muy diversas áreas tales como la prestación de servicios públicos, la autenticidad de los registros públicos, la gestión de los datos del sector público, la lucha contra la corrupción o las garantías en los procesos electorales entre otros. Son también ya decenas los ejemplos de emprendedores aplicando la tecnología para innovar en campos tan importantes como la sanidad o la agricultura.

En definitiva, blockchain es una tecnología con el potencial de transformar nuestros sistemas políticos y al mismo tiempo habilitar cambios sociales relevantes. Pero, como pasa también con cualquier otra tecnología disruptiva y todavía en fase de maduración, no todo son ventajas y nos encontraremos también algunos inconvenientes y limitaciones que también habrá que superar, como por ejemplo los problemas de escalabilidad, el alto coste computacional y de interconexión que soportan las operaciones, el impacto medioambiental asociado a ese coste, la excesiva centralización de cada cadena o la alta complejidad de los procesos criptográficos.
Por otro lado, aun cuando blockchain se ha convertido rápidamente en la tecnología de moda y a pesar de la aparente simplicidad del concepto subyacente, sigue siendo al mismo tiempo una de las tecnologías más crípticas e incomprendidas por parte de sus potenciales beneficiarios en la actualidad. Por tanto, para que estas tecnologías de gestión de datos descentralizadas se puedan popularizar en un futuro próximo será también necesario afrontar otro tipo de barreras de entrada de tipo más estructural relacionadas con la necesidad de más formación, una mejora en la usabilidad, mayor capacidad de adaptación institucional o el desarrollo de los cambios regulatorios necesarios para darle soporte.
Si quieres saber más de blockchain, puedes leer nuestro informe Descubriendo las claves de blockchain.
Vivimos en un mundo conectado, donde todos llevamos encima un dispositivo móvil que nos permite capturar nuestro entorno y compartirlo con quien deseemos a través de redes sociales o distintas herramientas. Esto nos permite mantener el contacto con nuestros seres queridos aunque estemos a miles de kilómetros de distancia, pero… ¿Y si aprovecháramos también esta circunstancia para enriquecer las investigaciones científicas? Estaríamos hablando de lo que se conoce como ciencia ciudadana.
La ciencia ciudadana busca “involucrar al público general en actividades científicas y fomentar la contribución activa de los ciudadanos a la investigación a través de su esfuerzo intelectual, su conocimiento general, o sus herramientas y recursos”. Esta definición está extraída del Libro verde de la ciencia ciudadana, elaborado en el marco del proyecto europeo Socientize (7PM), y nos muestra algunas de las claves de la ciencia ciudadana. En concreto, la ciencia ciudadana es:
-
Participativa: Ciudadanos de todo tipo pueden colaborar de distintas maneras, a través de la recogida de información, o poniendo a disposición de la investigación su experiencia y conocimiento. Esta mezcla de perfiles genera una atmosfera perfecta para la innovación y los nuevos descubrimientos.
-
Voluntaria: Dado que la participación suele ser altruista, los proyectos de ciencia ciudadana necesitan estar alineados con las demandas e intereses de la sociedad. Por ello son habituales los proyectos que despierten la conciencia social de los ciudadanos (por ejemplo, aquellos relacionados con el ecologismo).
-
Eficiente: Gracias a los avances tecnológicos que mencionábamos al principio, se pueden capturar muestras del entorno con mayor ubicuidad e inmediatez. Además, se facilita la interconexión, y con ello la cooperación, de empresas, investigadores y sociedad civil. Todo ello repercute en una reducción de costes y unos resultados más ágiles.
-
Abierta: Los datos, metadatos y publicaciones que se generan durante la investigación se publican en formatos abiertos y accesibles. Este hecho hace que sea más sencillo reutilizar la información y repetir investigaciones para garantizar su veracidad y solidez.
En definitiva, con este tipo de iniciativas se busca generar una ciencia más democrática, que responda a los intereses de todos los implicados, pero sobre todo de los ciudadanos. Y que genere información que se pueda reutilizar en pro de la sociedad. Veámoslo con algunos ejemplos:
-
Mosquito Alert: Este proyecto busca luchar contra el mosquito tigre y el mosquito de la fiebre amarilla, especies transmisoras de enfermedades como el Zika, el Dengue o el Chikungunya. En este caso, la participación ciudadana consiste en enviar fotografías de insectos observados en el entorno y que son susceptibles de pertenecer a estas especies. Un equipo de profesionales analiza las imágenes para validar los hallazgos. Los datos generados permiten monitorizar y realizar predicciones sobre su comportamiento, lo cual ayuda a controlar su expansión. Toda esta información se comparten de manera abierta a través de GBIF España.
-
Apadrina una roca: Con el objetivo de favorecer la conservación del patrimonio geológico español, los participantes en este proyecto se comprometen a visitar, al menos una vez al año, el lugar de interés geológico que han apadrinado. Tendrán que avisar de cualquier actuación o amenaza que observe (anomalías, agresiones, expolio de minerales o fósiles…). La información ayudará a enriquecer el Inventario Español de Lugares de Interés Geológico.
-
RitmeNatura.cat: El proyecto consiste en seguir los cambios estacionales en las plantas y los animales: cuándo se produce la floración, si aparecen nuevos insectos, si hay cambios en la migración de las aves... El objetivo es controlar los efectos del cambio climático. Los resultados se pueden descargar en este enlace.
-
Identificación de asteroides cercanos a la tierra: Los participantes en el proyecto ayudaran a identificar asteroides utilizando imágenes astronómicas. El Minor Planet Center (organismo de la Unión Astronómica Internacional encargada de los cuerpos menores del Sistema Solar) evaluará los datos para mejorar las órbitas de dichos objetos y estimar de manera más precisa la probabilidad de un posible impacto con la Tierra. Puedes ver algunos de los resultados aquí.
-
Arturo: Un área donde la ciencia ciudadana puede aportar grandes ventajas es en el entrenamiento de inteligencias artificiales. Es el caso de Arturo, un algoritmo de aprendizaje automatico diseñado para determinar cuáles son las condiciones urbanísticas más óptimas. Para ello, los colaboradores deberán contestar a un cuestionario donde escogerán las imágenes que mejor se ajusta a su concepto de un entorno habitable. El objetivo es ayudar a técnicos y administraciones a generar entornos alineados con las necesidades de los ciudadanos. Los datos generados y el modelo utilizado se pueden descargar en el siguiente enlace.
Si estás interesado en conocer más proyectos de este tipo puedes visitar la web Ciencia Ciudadana en España cuyo objetivo es aumentar el conocimiento y visión sobre la ciencia ciudadana. En ella participan el Ministerio de Ciencia, Innovación y Universidades, la Fundación Española para la ciencia y la Tecnología y la Fundación Ibercivis. Un vistazo rápido a la sección de proyectos te permitirá conocer qué tipo de actividades se están llevando a cabo. Quizás encuentres alguna de tu interés...
GNOSS construye y explota Grafos de Conocimiento utilizando tecnologías semánticas. Dispone de un gestor de contenidos semántico que permite generar de forma nativa datos representados semánticamente en RDF/OWL al publicar información. Ofrece mejores sistemas de recuperación de la información mediante búsquedas facetadas que emulan el razonamiento humano; generación de contextos pertinentes, avanzados sistemas de recomendación, análisis y visualización de la información.