Entrevista a Emilio López Cano, R Hispano

Fecha: 28-04-2021

Nombre: Emilio López Cano

Sector: Ciencia y tecnología

Organismo, Institución o Empresa: R Hispano

Entrevista R Hispano

R Hispano es una comunidad de usuarios y desarrolladores que nació en 2011, en el seno de las III Jornadas de Usuarios de R, con el objetivo de fomentar el avance del conocimiento y el uso del lenguaje de programación en R. Desde datos.gob.es hemos hablado con Emilio López Cano, presidente de R Hispano, para que nos cuente más sobre las actividades que realizan y el papel de los datos abiertos en ellas. 

Entrevista completa

1. ¿Puede explicarnos de forma breve qué es la Comunidad R-Hispano? 

Se trata de una asociación creada en España cuyo objetivo es el de promover el uso de R entre un público hispano. Hay muchos usuarios de R a nivel mundial e intentamos servir como punto de encuentro entre todos aquellos cuyo idioma principal es el español. Al tener como referencia un grupo más pequeño dentro de una comunidad tan grande, es más fácil entablar relaciones y conocer a personas a las que acudir cuando se quiere aprender más o compartir lo aprendido. 

2. R nace como lenguaje ligado a la explotación estadística de los datos, sin embargo, se ha ido convirtiendo en una herramienta esencial de la Ciencia de Datos, ¿por qué tanta aceptación de este lenguaje por la comunidad? 

Es verdad que muchos profesionales de la ciencia e ingeniería de datos tienden a utilizar lenguajes más genéricos como Python. Sin embargo, hay varios motivos por los que R se hace imprescindible en el “Stack” de los equipos que trabajan con datos. En primer lugar, R tiene su origen en el lenguaje S, que se diseñó en los años 70 específicamente para el análisis de datos, en el seno de los laboratorios Bell. Esto permite que personas con diferente formación informática pueda participar en proyectos complejos, centrándose en los métodos de análisis. En segundo lugar, R ha envejecido muy bien, y una amplia comunidad de usuarios, desarrolladores y empresas contribuyen al proyecto con paquetes y herramientas que extienden la funcionalidad de forma rápida hacia los métodos más innovadores con (relativa) sencillez y todo el rigor.

3. R Hispano funciona a través de numerosas iniciativas locales, ¿qué ventajas conlleva esta forma de organización?  

En las actividades del día a día, sobre todo cuando teníamos encuentros presenciales, hace más de un año, es más cómodo coordinar a las personas de la manera más cercana posible. No tiene sentido que una persona en Madrid organice reuniones mensuales en Málaga, Sevilla o Canarias. Lo interesante de estos eventos es asistir regularmente, ir conociendo a los asistentes, entender lo que demanda el público y lo que se puede ofrecer. Eso, aparte de mimo y dedicación, requiere estar cerca porque, si no, no hay forma de establecer ese vínculo. Por eso nos ha parecido que es desde las propias ciudades como se tiene que mantener esa relación de día a día. Por otra parte, es la forma en la que la Comunidad de R se ha organizado en todo el mundo, con el éxito que todos conocemos. 

4. ¿Consideráis las iniciativas de datos abiertos una valiosa fuente de información para el desarrollo de vuestros proyectos? ¿Algún ejemplo de reutilización destacable? ¿Qué aspectos consideráis mejorables de las iniciativas actuales? 

Lo primero decir que R Hispano como tal no tiene proyectos. Sin embargo, muchos socios de R Hispano trabajan con datos abiertos en su ámbito profesional, ya sea académico o empresarial. Desde luego, es una fuente de información muy valiosa, con muchísimos ejemplos, como el análisis de los datos de la pandemia que todavía sufrimos, los datos de competiciones deportivas y rendimiento de deportistas, datos medioambientales, socioeconómicos, … No podemos destacar ninguno porque hay muchos muy interesantes que lo merecerían igualmente. En cuanto a las mejoras, todavía hay muchos repositorios de datos públicos que no los publican en formato “tratable” por los analistas. Un informe en PDF puede ser datos abiertos, pero desde luego no contribuyen a su difusión, análisis, y explotación por el bien de la sociedad. Todos los datos abiertos deberían estar tabulados en formatos que permitan la rápida importación a software, como por ejemplo R. 

5. ¿Puede contarnos algunas de las actividades que llevan a cabo esas Iniciativas locales? 

Varios grupos locales de R, tanto en España como Latam, colaboraron recientemente con la empresa de formación en tecnologías, UTad, en el evento Encuentros en la fase R. Celebrado en formato online con dos días de duración. Las jornadas de usuarios de R que celebramos cada año, normalmente las organiza alguno de los grupos locales de la sede. El grupo de Córdoba está organizando las próximas, aplazadas con motivo de la pandemia y de las que esperamos poder anunciar fechas pronto.  

El Grupo de Usuarios de R de Madrid comenzó a funcionar como grupo local vinculado a la Comunidad R hispano hace más de quince años. Desde su origen mantiene una periodicidad mensual de reuniones anunciadas en la red social Meetup (patrocinado por parte de RConsortium, entidad, fundada y subvencionada por grandes compañías para favorecer el uso de R). La actividad se ha visto interrumpida por las limitaciones del Covid-19, pero todo el historial de las presentaciones se ha ido recopilando en este portal. 

Desde el Grupo de R Canarias se han involucrado en la conferencia TabularConf, que tuvo lugar el 30 de enero, en formato online, con una agenda de una decena de ponencias sobre data science e inteligencia artificial. En el pasado el grupo canario realizó un encuentro de usuarios de R con comunicaciones sobre varios tópicos, incluidos modelización, tratamiento de datos geográficos, así como consultas a APIs de datos públicos, como datos.gob.es, con la librería opendataes. Otras librerías presentadas en un meetup que realizaron en 2020 son istacr o inebaseR, siempre apostando por el acceso a datos públicos. 

En el Grupo Local de Sevilla, durante los hackatones celebrados en los últimos años, ha comenzado a desarrollar varios paquetes totalmente vinculados a datos abiertos. 

  • Aire: Para obtener datos de calidad del aire en Andalucía (funciona, pero necesita algunos ajustes)  

  • Aemet: Paquete de R para interaccionar con la API de AEMET (datos climáticos). Dimos los primeros pasos en un hackaton, luego Manuel Pizarro hizo un paquete totalmente funcional.  

  • Andaclima: Paquete para obtener datos climáticos de estaciones agroclimáticas de la Junta de Andalucía 

  • Datos.gob.es.r: Embrión de paquete para interaccionar con http://datos.gob.es. Realmente solo una exploración de ideas, nada funcional por ahora.  

Sobre COVID-19 merece la pena destacar el desarrollo por parte de la UCLM, con la colaboración en un exmiembro de la Junta Directiva de la Comunidad R Hispano, de un panel de análisis de la COVID-19, con los casos que la Junta de Comunidades de Castilla-La Mancha presenta por municipio. Consiste en una herramienta interactiva para consultar la información sobre la incidencia y tasas por 100.000 habitantes. 

6. Además, también colaboran con otros grupos e iniciativas. 

Sí, colaboramos con otros grupos e iniciativas centradas en datos, como la UNED (Facultad de Ciencias), que durante un largo periodo de tiempo nos acogió como sede permanente. También destacaría nuestras actuaciones con: 

  • Grupo de Periodismo de Datos. Presentaciones conjuntas con el grupo de Periodismo de Datos, compartiendo las bondades de R para sus análisis. 

  • Una colaboración con el Grupo Machine Learning Spain que se tradujo en una presentación común en el Google Campus de Madrid. 

  • Con grupos de otros lenguajes de datos, como Python. 

  • Colaboraciones con empresas. En este punto destacamos el haber participado en dos eventos de Analítica Avanzada organizadas por Microsoft, así como el haber recibido pequeñas ayudas económicas de empresas como Kabel o Kernel Analytics (recientemente adquirida por Boston Consulting Group). 

Estos son algunos ejemplos de presentaciones en el grupo de Madrid basadas en datos abiertos 

Además, diferentes socios de R-Hispano, también colaboran con instituciones académicas, en las que imparten diferentes cursos relacionados al análisis de Datos, fomentando especialmente el uso y análisis de datos abiertos, como por ejemplo la Facultad de Economía de la UNED, la Facultades de Estadística y de Turismo y Comercio de la UCM, la Universidad de Castilla-La Mancha, la EOI (asignatura específica sobre datos abiertos), la Universidad Francisco de Vitoria, la Escuela Superior de Ingeniería de Telecomunicaciones, el ESIC y la escuela K-School. 

Por último, nos gustaría destacar el vínculo constante que se mantiene con diferentes entidades de relevancia del ecosistema R: con R-Consortium (https://www.r-consortium.org/) y RStudio (https://rstudio.com/). Es a través del R-Consortium donde hemos conseguido el reconocimiento del Grupo de Madrid como grupo estable y del que conseguimos el patrocinio para el pago de Meetup Dentro de RStudio mantenemos diferentes contactos que nos han permitido igualmente conseguir patrocinios que han ayudado en las Jornadas de R, así como ponentes de la talla de Javier Luraschi (autor del paquete y libro sobre “sparklyr”) o Max Kuhn ( autor de paquetes como “caret” y de su evolución “tidymodels”). 

7. A través de ROpenSpain algunos socios de RHispano han colaborado en la creación de paquetes en R que facilitan el uso de datos abiertos. 

ROpenSpain es una comunidad de entusiastas de R, de los datos abiertos y la reproducibilidad que se reúne y organiza para crear paquetes de R de la máxima calidad para la explotación de datos españoles de interés general. Nace, con la inspiración de ROpenSci, en febrero de 2018 como organización de GitHub y dispone de un canal de colaboración en Slack. A enero de 2021, ROpenSpain agrupa los siguientes paquetes de R: 

  • opendataes: Interactúa fácilmente con la API de datos.gob.es, que proporciona datos de las administraciones públicas de toda España. 

  • MicroDatosEs: Permite importar a R varios tipos de ficheros de microdatos del INE: EPA, Censo, etc. 

  • caRtociudad: Consulta la API de Cartociudad, que proporciona servicios de geolocalización, rutas, mapas, etc. 

  • Siane: Para representar información estadística sobre los mapas del Instituto Geográfico Nacional. 

  • airqualityES: Datos de calidad del aire en España de 2011 a 2018. 

  • mapSpain: Para cargar mapas de municipios, provincias y CCAA. Incluye un plugin para leaflet. 

  • MorbiditySpainR: Lee y manipula datos de la Encuesta de Morbilidad Hospitalaria 

  • Spanish: Para el procesamiento de cierto tipo de información española: números, geocodificación catastral, etc. 

  • BOE: Para el procesamiento del Boletín Oficial del Estado y del Boletín Oficial del Registro Mercantil. 

  • istacbaser: Para consultar la API del Instituto Canario de Estadística. 

  • CatastRo: Consulta la API del Catastro. 

Algunos de estos paquetes se han presentado en eventos organizados por la Comunidad R Hispano.

8. Para terminar, ¿cómo pueden las personas interesadas seguir a R-Hispano y colaborar con vosotros? 

Un elemento importante como nexo de unión en toda la comunidad de usuarios de R en español es la lista de ayuda R-Help-es: 

Es una de las pocas listas de ayuda sobre R, activas e independiente de la principal en inglés R-Help que ha generado más de 12.800 entradas en sus más de 12 años de historia. 

Además, se mantiene un gran nivel de actividad en las redes sociales que sirven como altavoz, palanca a través de las cuales se dan a conocer futuros eventos o diferentes noticias relacionadas con datos de interés para la comunidad.  Podemos destacar las siguientes iniciativas en cada una de las plataformas: 

  • Twitter: Presencia de la propia asociación R-Hispano; https://twitter.com/R_Hisp y participación en el hastag #rstatsES (R en Español) de diferentes colaboradores de R del ámbito nacional. 

  • LinkedIn: En esta red profesional, “R” tiene presencia a través de la página de empresa https://www.linkedin.com/company/comunidad-r-hispano/. Además, multitud de socios de R-Hispano tanto de España como de Latam forman parte de esta red compartiendo recursos en abierto. 

  • Canal de Telegram: Existe un canal de telegram dónde se difunden con cierta periodicidad noticias de interés para la comunidad https://t.me/rhispano 

Por último, en la página web de la asociación, http://r-es.org, se puede encontrar información sobre la asociación, así como la forma de hacerse socio/a (la cuota es, como R, gratuita).