Entrevista al equipo responsable del Datalab de la Fundación Juan March
Fecha: 13-12-2018
Nombre: Paz Fernández
Sector: Cultura y ocio
Organismo, Institución o Empresa: Biblioteca Fundación Juan March
País: España

En 2013, la Fundación Juan March decidió crear un laboratorio de conocimiento digital que centralizara los proyectos de curación y analítica de datos llevados a cabo por la organización. Así surgió el Datalab de la Fundación Juan March, un espacio dinámico e integrador que pone de manifiesto el poder de la ciencia de datos aplicada a la cultura, favoreciendo a su difusión.
Desde datos.gob.es hemos hablado con Paz Fernández, directora de la Biblioteca de la Fundación, para que nos cuente cómo fue su experiencia a la hora de poner en marcha una iniciativa de este tipo.
El Datalab de la Fundación Juan March ha sido un proyecto pionero en nuestro país. ¿Cómo fue el proceso de creación? ¿Qué pasos siguieron para desarrollar su Datalab?
Las bibliotecas son órganos vivos y como tales, sin perder su identidad, deben adecuarse a los tiempos y a la comunidad para la que trabajan. En ocasiones los cambios no se eligen, sino que responden a situaciones sobrevenidas para las que la dirección siempre tiene que estar preparada.
El proceso de creación del DataLab, que se inició en otoño de 2013, tiene su origen en la transformación del Centro de Estudios Avanzados en Ciencias Sociales (CEACS 1987-2013) del Instituto Juan March, en el Instituto Carlos III – Juan March de Ciencias Sociales, y la donación de la excelente biblioteca del CEACS a la Universidad Carlos III de Madrid.
Este paso supuso la reestructuración de la misión de la Biblioteca de la Fundación Juan March la cual, continuando su alta especialización humanística, incorporó todo el conocimiento en el uso de los datos brutos que había sido aplicado durante años por el personal bibliotecario del antiguo CEACS. Ese capital humano e intelectual - entre el que quisiera destacar la visión de haber contado con el único bibliotecario de datos (data librarian) trabajando en una biblioteca española en esos años-, se recondujo primero tímidamente, proponiendo a la Dirección de la Fundación la creación de un eje estratégico de organización del conocimiento digital de toda la institución liderado por la Biblioteca, de forma que ésta sumó a sus funciones el convertirse en un centro de apoyo a la investigación que fue madurando en una potente sección de la Biblioteca, hoy plenamente asentada en la organización como es el DataLab. En definitiva, y parafraseando a Ortega y Gasset, “hincamos los talones en el pasado para despegar, y un pie tras otro adelante, ponernos en marcha, caminar y avanzar”.
¿Se basaron en algún otro tipo de iniciativa? ¿Cuáles fueron sus fuentes de inspiración?
En primer lugar, nos basamos en el convencimiento de la necesidad de incorporar la metodología cuantitativa, es decir mensurable, a las ciencias humanas y a los productos derivados del mundo de la cultura, de la misma manera que los métodos estadísticos se utilizaban entre los científicos sociales. A ello se unió que a partir de 2010 aproximadamente, se comienzan a publicar los primeros artículos sobre humanidades digitales y aparecen proyectos digitales pioneros en los que se visualiza su utilidad en la educación (Digital scholarship), realizados en entornos de experimentación interdisciplinar construidos en laboratorios digitales como por ejemplo el Digital Library Lab de la Universidad de Harvard o el British Library Labs, superando la etapa anterior caracterizada por la explosión de las colecciones digitales (repositorios digitales), de mayor o menor calidad.
En 2013, además, es cuando empieza a hablarse no solo de Big data en las organizaciones sino también de Maching learning como proceso apropiado para la curación digital, y se incorpora el concepto Data Science, o Ciencia de los datos, para la gestión de los datos en estudios fundamentales publicados en 2013 como fueron Bad data handbook, editado por Q. Ethan McCallum y el libro de Cathy O’Neil y Rachel Schutt, Doing data science.
Desde el DataLab detectamos la necesidad de buscar alianzas para fortalecer nuestro conocimiento en computación estadística y modelos matemáticos propios del aprendizaje de máquinas. Una de las posibles alianzas, sin duda de éxito, fue la colaboración con la Facultad de Matemáticas de la Universidad Complutense codirigiendo trabajos de fin del Máster de Estadística Computacional de la Información.
Tras casi 60 años de actividad, la Fundación contaba con una gran cantidad de datos, no solo en la Biblioteca, sino también en distintas áreas de la organización. ¿Cómo hicieron frente a este reto? ¿Qué otras barreras se encontraron y cómo las fueron superando?
La actividad de la Fundación Juan March llevada a cabo a lo largo de más de 60 años ha dado lugar a un corpus único de conocimiento, en su mayoría convertido ya a digital, de un inmenso valor cultural, artístico y social. Esta colección de materiales heterogéneos contiene publicaciones, conciertos, conferencias, exposiciones, el archivo fotográfico además de los legados y los fondos bibliográficos o sonoros de su biblioteca que han ido quedado registrados para diversos usos en múltiples bases de datos referenciales.
La propuesta presentada por la Biblioteca a la Dirección en 2013 consistió en la creación de un eje estratégico que enriqueciera e integrara los datos en colaboración con el resto de los departamentos para abordar la gestión de la información digital y sus objetos de una forma coordinada y uniforme. El reto mayor fue abrir las puertas de la Biblioteca para convertirla en un servicio transversal, horizontal e interdepartamental, convenciendo tanto al resto de los departamentos como al equipo de la Biblioteca de sus ventajas mutuas.
Ya han pasado cinco años. Las barreras se han ido superando con esfuerzo, estudio, compromiso, generosidad, ¡mucha pedagogía!, y resultados eficaces que han demostrado las ventajas de introducir la cultura del uso y reutilización de los datos en una organización operativa y dinámica.
Aplicáis nuevas tecnologías y metodologías propias de la ciencia de datos a los datos culturales. ¿Cuáles son las ventajas que pueden aportar estas tecnologías al sector cultural?
Creemos que sin ser expertos en muchas de las cosas que hacemos, es importante que una organización como la nuestra tenga espacios en los que innovar. La tecnología y los datos nos presentan una oportunidad única de hacer cosas desde otro punto de vista que puedan añadir valor. DataLab, como cualquier otro laboratorio, es un espacio de experimentación y como tal es imprescindible asumir que para innovar hay que previamente ensayar, con lo que ello implica de asumir que se puede fallar y de que no por ello es un tiempo perdido, porque sin duda, aprendemos mucho analizando y resolviendo errores.
Estamos convencidos de que todo son ventajas y que son procesos que han venido para quedarse, por lo que, más pronto que tarde, todas las organizaciones que se preocupen por la excelencia en su misión tendrán que ponerse a trabajar con sus datos. Medir, implica diseñar un entorno de conocimiento y una infraestructura tecnológica para la captura de datos, limpiarlos, almacenarlos, relacionarlos y analizarlos con el fin de extraer conclusiones y recomendaciones con las que conocer la organización en su conjunto y tomar decisiones para seguir mejorando.
Creemos que en esto las bibliotecas tenemos un liderazgo que protagonizar. Los datos son información y somos expertos en conservar, describir, organizar, analizar, reutilizar, difundir y preservar información, bien la que nos llega o bien la que producimos.
¿Puede contarnos algunos de los proyectos en los que estáis inmersos actualmente?
Intentamos cubrir las cuatro grandes secciones que componen nuestro DataLab y que se retroalimentan entre sí: curación, analítica, infraestructura e innovación.
En estos momentos en curación, estamos trabajando en el proyecto de preservación de todo lo digital producido por la Fundación y por la Biblioteca. Es un proyecto enorme, en el que hay que trabajar con objetos digitales dispersos y de difícil identificación a la vez que con objetos digitales que se realizan cada día, en especial en formato audiovisual, requiriendo de procesos coordinados con otros departamentos (Multimedia y Sistemas) y de una infraestructura tecnológica sofisticada para la descripción y recuperación (metadatos) como para el almacenamiento, seguridad, auditoría y monitorización.
También se trabaja en enriquecer la infraestructura tecnológica que reúne, explora y extrae datos de forma integrada desde múltiples contenedores (data layer), posibilitando, entre otros, paneles de visualización dinámicos (dashboards) e inteligibles, o modelos de análisis predictivos en los que se está investigando aplicados a inteligencia de negocio (business inteligence).
En innovación se está trabajando en temas relacionados con inteligencia artificial y en modelos de estadísticos complejos. La idea aquí es probar tecnologías y metodologías que nos permitan hacer cosas distintas con los datos que ya tenemos. Probamos tanto herramientas de almacenamiento y gestión como aquellas de análisis y visualización. Las metodologías de trabajo son iterativas y ágiles permitiéndonos prototipar rápidamente.
Además de difundir los fondos culturales de la Biblioteca, en el Datalab también analizáis y reutilizáis estos datos, enriquecidos con información interna. ¿Qué beneficios obtenéis de este proceso?
En general desde las bibliotecas, desgraciadamente y a pesar del buen desempeño que se pudiera realizar, parecía que trabajábamos en paralelo a la institución. Y esa percepción se ha visto aumentada en tiempos recientes por la invisibilidad del enorme trabajo que realiza el gestor de la información para que los contenidos de calidad sean accesibles en abierto en la web, el descenso de usuarios presenciales, etc.
La visión que propusimos para dar el salto competencial se resume en una línea: los datos de la organización son información de valor que la biblioteca debe cuidar y preservar. Sin duda nos complicamos nuestro día a día pero las ventajas son evidentes. La Biblioteca ha aumentado su relevancia en la organización, aprende con ella, y la organización aprende del DataLab.
Uno de los factores que consideráis clave en el éxito de la iniciativa es el contar con un equipo multidisciplinar, ¿qué perfiles no deben faltar a la hora de poner en marcha un datalab con datos culturales?
DataLab está dirigido por la Biblioteca de la Fundación. El responsable de la sección DataLab es Luis Martínez-Uribe, matemático y científico de datos, que ha incorporado los conocimientos y metodologías propias de las ciencias de datos al DataLab. Junto a él trabaja Fernando Martínez Guzmán, ingeniero de datos, que propicia la inteligencia y la relación entre las decenas de bases de datos generadas por la organización. También colaboran los propios bibliotecarios facilitando en gran medida la preparación de las colecciones emanadas de recursos bibliográficos.
Además, DataLab trabaja iterativamente con todos los investigadores y gestores culturales que trabajan en los departamentos de la Fundación (Arte, Conferencias, Música, y en especial con Comunicación y Experiencia) dando respuesta a preguntas concretas que se presentan y debaten, y en las que se detectan otras necesidades.
A todo ello, es imprescindible añadir la relación con la investigación y con el mundo exterior; es decir, es fundamental seguir innovando para lo que la cooperación con la universidad y la participación en los foros especializados, la lectura de la bibliografía científica y la publicación de los avances, resultan cruciales.
¿Cuáles son los próximos pasos que vais a seguir? ¿Tenéis planificada algún tipo de acción que favorezca la reutilización de vuestros datos por parte de terceros?
Estamos considerando seriamente el compartir algunas de las bases de datos en bruto para su reutilización en datos.gob.es. Ya participamos en el repositorio de datos abiertos en ciencias sociales del MIT (Harvard Dataverse) y creemos que ha llegado el momento de facilitar y cooperar con otras instituciones aportando nuestros datos culturales o comunicando la posibilidad de solicitarlos con fines de investigación y estudio.