Argitalpen data 11/03/2026
Persona utilizando un ordenador portátil con una interfaz basada en inteligencia artificial en la pantalla.
Azalpena

Voy a subirte un fichero CSV. Quiero que lo analices y me resumas las conclusiones más relevantes que puedas extraer de los datos”. Hace unos años, el análisis de datos era territorio de quien sabía escribir código y utilizar entornos técnicos complejos, y una petición así habría requerido programación o habilidades avanzadas de Excel. Hoy, poder analizar en poco tiempo ficheros de datos con herramientas de IA nos aporta una gran autonomía profesional. Formular preguntas, contrastar ideas preliminares y explorar de primera mano la información cambia nuestra relación con el conocimiento, sobre todo, porque dejamos de depender de intermediarios para obtener respuestas. Ganar la capacidad de analizar datos con IA de manera independiente acelera los procesos, pero también puede provocarnos un exceso de confianza en las conclusiones.

A partir del ejemplo de un fichero de datos en bruto, vamos a revisar posibilidades, precauciones y pautas básicas para explorar la información sin asumir conclusiones demasiado rápido.

El fichero:

Para mostrar un ejemplo de análisis de datos con IA utilizaremos un fichero del Instituto Nacional de Estadística (INE) que recoge información sobre flujos turísticos en Europa, en concreto sobre ocupación en alojamientos de turismo rural. El fichero de datos contiene información desde enero de 2001 hasta diciembre de 2025. Contiene desagregaciones por sexo, edad y comunidad o ciudad autónoma, lo que permite realizar análisis comparativos a lo largo del tiempo. En el momento de escribir este artículo, la última actualización de este conjunto de datos fue el 28 de enero de 2026.

Captura de pantalla de la página del Instituto Nacional de Estadística (INE) correspondiente a un dataset.  En la parte superior aparece el título del conjunto de datos:  “Encuesta de ocupación en alojamientos de turismo rural”  Debajo se muestra una línea con un icono y la opción de acceso mediante API junto al nombre del dataset:  “Viajeros y pernoctaciones por comunidades y ciudades autónomas”  Sobre esta línea aparece un cuadro emergente informativo (tooltip) con el siguiente texto:  “Última modificación: 28/01/2026 Dimensiones: Comunidades y Ciudades Autónomas, Viajeros y pernoctaciones, Residencia Periodo: 2001ene. - 2025dic.”  A la izquierda de las filas aparecen varios iconos circulares y etiquetas “API” que indican opciones de acceso a los datos. En el fondo se distingue parte del texto de la página relacionado con la encuesta y sus dimensiones, aunque parcialmente cubierto por el cuadro emergente.

Figura 1. Información del dataset. Fuente: Instituto Nacional de Estadística (INE).

1. Exploración inicial

Para esta primera exploración vamos a utilizar una versión gratuita de Claude, el chat multitarea basado en IA desarrollado por Anthropic. Es uno de los modelos de lenguaje más avanzados en benchmarks de razonamiento y análisis, lo que lo hace especialmente adecuado para este ejercicio, y es la opción más utilizada actualmente por la comunidad para realizar tareas que requieren código.

Pensemos que nos enfrentamos al fichero de datos por primera vez. Sabemos a grandes rasgos qué contiene, pero desconocemos la estructura de la información. Nuestro primer prompt, por tanto, debería centrarse en describirla:

PROMPT: Quiero trabajar con un fichero de datos sobre ocupación en alojamientos de turismo rural. Explícame qué estructura tiene el fichero: qué variables contiene, qué mide cada una y qué posibles relaciones existen entre ellas. Señala también posibles valores ausentes o elementos que requieran aclaración.

Captura de pantalla de  la exploración inicial del fichero de datos realizada por Claude. Incluye el apartado “Descripción general”, donde se indica que el fichero contiene 36.000 filas (más la cabecera) con datos mensuales sobre viajeros y pernoctaciones en alojamientos de turismo rural en España, procedentes presumiblemente del INE (Instituto Nacional de Estadística). Cubre desde enero de 2001 hasta diciembre de 2025, con desagregación territorial y por origen de los visitantes. Debajo aparece la sección “Variables (columnas)”, que explica varias columnas del dataset: Totales territoriales, Comunidades y Ciudades Autónomas, Viajeros y pernoctaciones, Residencia: Nivel 1 y Residencia: Nivel 2, con descripciones de qué mide cada variable y los valores posibles (por ejemplo, viajeros, pernoctaciones, residentes en España o residentes en el extranjero). A continuación se recogen los detalles de cada apartado. Totales Territoriales — Solo tiene un valor en todo el fichero: "Total Nacional". Esta columna identifica el ámbito máximo de agregación, pero en la práctica no aporta variación. Probablemente existe porque la fuente original permite otros ámbitos (provincias, municipios) que aquí no están incluidos.  Comunidades y Ciudades Autónomas — Identifica el territorio concreto: las 17 comunidades autónomas más Ceuta y Melilla (19 territorios en total). Cuando esta columna está vacía (NaN), la fila corresponde al agregado del conjunto de España, es decir, al "Total Nacional" sin desglose territorial. Hay 1.800 filas en esta situación.  Viajeros y pernoctaciones — Indica qué magnitud se mide. Solo tiene dos valores: Viajeros (número de personas que se alojan) y Pernoctaciones (número de noches que pasan esos viajeros). Cada fila recoge una de las dos métricas, por lo que ambas coexisten en filas separadas para los mismos territorios y periodos.  Residencia: Nivel 1 — Solo contiene el valor "Total" en todas las filas. Es un nivel de agregación superior que indica que los datos no están desglosados por tipo de residencia a este nivel. No aporta variación útil tal como viene en el fichero. Residencia: Nivel 2 — Desglosa la procedencia del viajero en tres posibilidades: el agregado (NaN, equivalente a

Figura 2. Exploración inicial del fichero de datos con Claude. Fuente: Claude.

Una vez que Claude nos ha dado la idea general y la explicación de las variables, es buena práctica abrir el fichero y hacer una comprobación rápida. El objetivo es evaluar que, como mínimo, el número de filas, el número de columnas, los nombres de las variables, el período temporal y el tipo de datos coinciden con lo que nos ha dicho el modelo.

Si detectamos algún error en este punto, el LLM puede no estar leyendo correctamente los datos. Si después de intentarlo en otra conversación el error persiste, es señal de que hay algo en el fichero que dificulta su lectura automática. En este caso, lo más recomendable es no proseguir con el análisis, ya que las conclusiones serán muy aparentes, pero estarán basadas en datos mal interpretados.

2. Gestión de anomalías

En segundo lugar, si hemos descubierto anomalías, lo habitual es documentarlas y decidir cómo manejarlas antes de seguir con el análisis. Podemos pedir al modelo que nos sugiera qué hacer, pero las decisiones finales serán nuestras. Por ejemplo:

  • Valores faltantes: si hay celdas vacías, tenemos que decidir si rellenarlas con un valor “promedio” de la columna o simplemente eliminar esas filas.
  • Duplicados: tenemos que eliminar filas repetidas o que no aportan información nueva.
  • Errores de formato o inconsistencias: debemos corregirlos para que las variables sean coherentes y comparables. Por ejemplo, fechas representadas en distintos formatos.
  • Outliers: si aparece un número que no tiene sentido o es exageradamente distinto del resto, tenemos que decidir si corregirlo, ignorarlo o tratarlo tal y como está.

Ejemplo de análisis de valores faltantes con Claude. Se le pregunta a Claude “Enséñame un ejemplo de los valores ausentes en Total para Ceuta y Melilla” y su respuesta es: Aquí lo tienes. Las filas nulas de Ceuta y Melilla tienen exactamente la misma estructura: la columna Total está vacía en todos los periodos y para todas las combinaciones de métrica y origen, sin excepción. Son 1.800 filas nulas por cada ciudad (300 meses × 2 métricas × 3 niveles de residencia = 1.800), y ese patrón es perfectamente uniforme: no hay ni un solo mes con dato registrado para ninguna de las dos ciudades. Esto confirma que no se trata de datos perdidos puntualmente, sino de una ausencia total y sistemática. El INE simplemente no recoge turismo rural en Ceuta y Melilla, y las filas existen en el fichero porque la estructura de la tabla las genera por construcción al cruzar todos los territorios con todos los periodos.

 Figura 3. Ejemplo de análisis de valores faltantes con Claude. Fuente: Claude.

En el caso de nuestro fichero, por ejemplo, hemos detectado que en Ceuta y Melilla los valores ausentes en la variable Total son estructurales, no hay turismo rural registrado en esas ciudades, por lo que podríamos excluirlas del análisis.

Antes de tomar la decisión, una buena práctica en este punto es pedir al LLM los pros y contras de la modificación en los datos. Su respuesta puede darnos alguna pista de cuál es la mejor opción, o indicarnos algún inconveniente que no habíamos tenido en cuenta.

Ejemplo de análisis de Claude sobre la posibilidad de eliminar o no valores. Se le pregunta a Claude “¿Tiene sentido eliminar Ceuta y Melilla del análisis?” y responde: Depende del objetivo del análisis, pero en la mayoría de los casos sí tiene sentido eliminarlas, por varias razones. La más obvia es la que ya vimos: no aportan ningún dato útil. Con 3.600 filas completamente vacías, su presencia solo añade ruido y puede complicar cálculos agregados o visualizaciones sin ningún beneficio informativo. Además, su exclusión está conceptualmente justificada. Ceuta y Melilla son ciudades autónomas de carácter urbano y portuario, sin el tipo de entorno rural que caracteriza a este tipo de alojamiento. No es que les falten datos: es que el fenómeno que mide la estadística sencillamente no existe ahí de forma apreciable. Incluirlas distorsionaría cualquier comparación entre territorios, especialmente si calculas medias, rankings o representaciones en mapa. Dicho esto, hay situaciones en las que podría tener sentido mantenerlas. Si el análisis es puramente descriptivo del fichero original (por ejemplo, un informe de calidad de datos), eliminarlas ocultaría información relevante sobre la cobertura territorial. Y si en algún momento el INE empezara a registrar datos para esas ciudades, tenerlas en la estructura facilitaría la incorporación futura.

Figura 4. Análisis de Claude sobre la posibilidad de eliminar o no valores. Fuente: Claude.

Si decidimos seguir adelante y excluir las ciudades de Ceuta y Melilla del análisis, Claude puede ayudarnos a efectuar esta modificación directamente sobre el fichero. El prompt sería el siguiente:

PROMPT: Elimina del fichero todas las filas correspondientes a Ceuta y Melilla, de manera que el resto de los datos se mantenga intacto. Explica también los pasos que estás siguiendo para que pueda revisarlos.

Captura de la respuesta de Cloud ante el promt anterior.:“Ejecutó 2 comandos, leyó un archivo > Estos son los pasos que he seguido: 1. Carga del fichero original sin modificarlo, manteniendo el separador de tabulación y la codificación UTF-8 con BOM que usa el fichero del INE. 2. Filtrado usando la condición inversa: se conservan todas las filas cuyo valor en Comunidades y Ciudades Autónomas no sea '18 Ceuta' ni '19 Melilla'. El resto de filas, incluidas las del Total Nacional (donde esa columna está vacía), se mantienen intactas. 3. Verificación antes de guardar, comprobando tres cosas: que la diferencia de filas es exactamente 3.600 (las esperadas: 1.800 de Ceuta + 1.800 de Melilla), que los 17 territorios restantes son los correctos, y que los nulos en Total han desaparecido por completo, lo que confirma que todos los nulos del fichero procedían exclusivamente de esas dos ciudades. 4. Guardado en un fichero nuevo, manteniendo el mismo formato (TSV, UTF-8 con BOM) para que sea compatible con las mismas herramientas que el original. El resultado es un fichero de 32.400 filas, sin ningún valor ausente en Total. Viajeros y pernoctaciones sin ceuta melilla Tabla · CSV Descargar

Figura 5. Paso a paso en la modificación de datos en Claude. Fuente: Claude.

En este punto, Claude nos ofrece descargar de nuevo el fichero modificado, así que una buena práctica de comprobación sería validar de forma manual que la operación se hizo bien. Por ejemplo, revisar el número de filas en un fichero y otro o cotejar algunas filas al azar con el primer fichero para asegurarnos de que los datos no se han corrompido.

3. Primeras preguntas y visualizaciones

Si el resultado hasta aquí es satisfactorio, ya podemos empezar a explorar los datos para hacernos preguntas iniciales y buscar patrones interesantes. Lo ideal al empezar la exploración es hacer preguntas grandes, claras y fáciles de responder con los datos, porque nos dan una primera visión.

PROMPT: Trabaja con el fichero sin Ceuta y Melilla a partir de ahora. ¿Cuáles han sido las cinco comunidades con más turismo rural en el período total?

Captura de pantalla de una respuesta generada por Cloud. En la parte superior aparece la indicación:  “Ejecutó 2 comandos >”  Debajo se lee el siguiente texto:  “Tomando como referencia el total acumulado de viajeros a lo largo de todo el período (enero 2001 – diciembre 2025) y usando el agregado sin distinción de origen (residentes en España + extranjeros), el ranking es el siguiente:”  A continuación aparece una tabla con tres columnas: #, Comunidad, Viajeros totales.  Filas de la tabla:  1 — Castilla y León — 14.745.928 2 — Cataluña — 8.568.320 3 — Andalucía — 5.682.985 4 — Castilla-La Mancha — 5.256.132 5 — Illes Balears — 4.953.850  Debajo de la tabla aparece el siguiente párrafo explicativo:  “Castilla y León destaca de forma muy clara, casi duplicando a Cataluña, la segunda. Su posición de liderazgo tiene sentido dado que es la comunidad con mayor superficie rural de España y cuenta con una oferta consolidada de casas rurales desde hace décadas. Llama la atención la presencia de Illes Balears en el top 5, ya que habitualmente se asocia más al turismo de sol y playa, lo que sugiere que también tiene un segmento rural relevante.”

Figura 6. Respuesta de Claude a las cinco comunidades con más turismo rural en el período. Fuente: Claude.

Por último, podemos pedirle a Claude que nos ayude a visualizar los datos. En lugar de hacer el esfuerzo de indicarle un tipo de gráfico concreto, le damos libertad para elegir el formato que mejor muestre la información.

PROMPT: ¿Puedes visualizar esta información en un gráfico? Elige el formato más adecuado para representar los datos.

Captura de pantalla de una interfaz dividida en dos paneles que muestra la respuesta de Cloud a la petición de visualizar datos en un gráfico.  Panel izquierdo (conversación / explicación)  En la parte superior aparece una etiqueta:  “Estructura de datos de ocupación en turismo rural”  Debajo aparece el mensaje del usuario:  “¿Puedes visualizar esta información en un gráfico? Elige el formato más adecuado para representar los datos.”  A continuación, el asistente responde:  “Visualizo un gráfico de barras horizontales, que es el formato más adecuado para comparar magnitudes entre categorías nominales como las comunidades autónomas. Las barras horizontales permiten leer los nombres completos y facilitan comparar visualmente las distancias entre valores, algo que un gráfico de tarta o líneas haría tan bien aquí.  Cada barra se escala proporcionalmente respecto al máximo (Castilla y León) y se animan al cargar para que la comparación resulte más intuitiva.”  Debajo aparece un bloque descargable con un icono de archivo y el texto:  “Top5 turismo rural” Código · HTML  A la derecha del bloque hay un botón:  “Descargar”  En la parte inferior izquierda del panel aparece un pequeño icono de carga (spinner).  Panel derecho (vista previa del gráfico)  En la parte superior derecha hay una barra con el nombre del archivo:  “Top5 turismo rural · HTML”  A la derecha aparece un botón:  “Copiar”  Debajo se muestra la visualización:  Texto pequeño en la parte superior:  “ENCUESTA DE OCUPACIÓN EN ALOJAMIENTOS DE TURISMO RURAL · INE”  Título grande:  “Top 5 comunidades en turismo rural”  Subtítulo:  “Total acumulado de viajeros · 2001–2025”  Debajo aparece un gráfico de barras horizontales con cinco comunidades y sus valores aproximados:  Castilla y León — barra larga de color rojo oscuro — 14,7M  Cataluña — barra verde — 8,6M  Andalucía — barra marrón — 5,7M  Castilla-La Mancha — barra verde claro — 5,3M  Illes Balears — barra naranja claro — 4,9M  En la parte inferior aparece un pequeño texto de nota:  “Datos agregados de viajeros en alojamientos de turismo rural (residentes en España + extranjeros). Fuente: Encuesta de Ocupación en Alojamientos de Turismo Rural, INE.”  En la esquina inferior derecha se lee:  “España · 2001–2025”.

Figura 7. Gráfico elaborado por Cloude para representar la información. Fuente: Claude.

Aquí, la pantalla se desdobla: a la izquierda, podemos continuar con la conversación o descargar el fichero, mientras que a la derecha podemos visualizar el gráfico directamente. Claude ha generado una gráfica de barras horizontales muy visual y lista para usar. Los colores diferencian las comunidades y se indica correctamente el período y el tipo de datos.

¿Qué ocurre si le pedimos cambiar la paleta de color del gráfico por una inadecuada? En este caso, por ejemplo, vamos a pedirle una serie de tonos pastel que apenas se diferencian.

PROMPT: ¿Puedes cambiar la paleta de colores del gráfico por esta otra? #E8D1C5, #EDDCD2, #FFF1E6, #F0EFEB, #EEDDD3

Captura de pantalla de una interfaz dividida en dos paneles que muestra la respuesta de Cloud a la solicitud de cambiar la paleta de colores de un gráfico.  Panel izquierdo (conversación)  En la parte superior aparece una etiqueta:  “Estructura de datos de ocupación en turismo rural”  Debajo aparece el mensaje del usuario dentro de un globo de conversación:  “¿Puedes cambiar la paleta de colores del gráfico por esta otra? #E8D1C5, #EDDCD2, #FFF1E6, #F0EFEB, #EEDDD3”  A continuación aparece la respuesta del asistente:  “Usaré los colores de la nueva paleta en suave y claros, lo que puede hacer que las barras sean difíciles de distinguir del fondo. Para mantener la legibilidad, voy a oscurecer ligeramente el fondo y ajustar el color del texto de las etiquetas de valor para que contrasten bien.  Hecho. He aplicado los cinco colores que indicaste a las barras. Como la paleta es muy clara y pálida, he cambiado también el fondo a un tono oscuro para que las barras resalten y el gráfico sea legible, manteniendo el resto del diseño intacto.”  Debajo aparece un bloque descargable con un icono de archivo y el texto:  “Top5 turismo rural” Código · HTML  A la derecha del bloque hay un botón:  “Descargar”  En la parte inferior izquierda del panel aparecen varios puntos indicadores de estado y un pequeño icono de carga (spinner).  Panel derecho (vista previa del gráfico)  En la parte superior hay una barra con el nombre del archivo:  “Top5 turismo rural · HTML”  A la derecha aparecen botones de acción, incluido:  “Copiar”  Debajo se muestra la visualización con fondo oscuro.  Texto pequeño en la parte superior del gráfico:  “ENCUESTA DE OCUPACIÓN EN ALOJAMIENTOS DE TURISMO RURAL · INE”  Título principal:  “Top 5 comunidades en turismo rural”  Subtítulo:  “Total acumulado de viajeros · 2001–2025”  Debajo aparece un gráfico de barras horizontales con cinco comunidades y valores a la derecha de cada barra. Las barras utilizan tonos claros de la paleta solicitada.  Elementos del gráfico:  Castilla y León — barra larga de tono claro — 14,7M  Cataluña — barra clara — 8,6M  Andalucía — barra clara — 5,7M  Castilla-La Mancha — barra clara — 5,3M  Illes Balears — barra clara — 5,0M  En la parte inferior aparece un texto explicativo pequeño:  “Datos agregados de viajeros en alojamientos de turismo rural (residentes en España + extranjeros). Fuente: Encuesta de Ocupación en Alojamientos de Turismo Rural, INE.”  En la esquina inferior derecha del gráfico se lee:  “España · 2001–2025”.

Figura 8. Ajustes realizados en el gráfico por Claude para representar la información. Fuente: Claude.

Ante el reto, Claude ajusta por sí mismo el gráfico de manera inteligente, oscurece el fondo y cambia el texto de las etiquetas para mantener legibilidad y contraste.

 

Todo el ejercicio anterior se ha realizado con Claude Sonnet 4.6, que no es el modelo de mayor calidad de Anthropic. Sus versiones superiores, como Claude Opus 4.6, tienen mayor capacidad de razonamiento, comprensión profunda y resultados más finos. Además, existen muchas otras herramientas para trabajar con datos y visualizaciones basadas en IA, como JuliusQuadratic. Aunque en ellas las posibilidades son casi infinitas, cuando trabajamos con datos sigue siendo fundamental mantener una metodología y un criterio propios.

Contextualizar en la vida real los datos que estamos analizando y conectarlos con otros conocimientos no es una tarea que se pueda delegar; necesitamos tener una mínima idea previa de qué queremos conseguir con el análisis para poder transmitirla al sistema. Esto nos permitirá hacer mejores preguntas, interpretar adecuadamente los resultados y por tanto hacer un prompting más eficaz. 

Contenido elaborado por Carmen Torrijos, experta en IA aplicada al lenguaje y la comunicación. Los contenidos y los puntos de vista reflejados en esta publicación son responsabilidad exclusiva de su autor.