Los corpus de datos de la RAE para entrenar modelos de inteligencia artificial
Fecha de la noticia: 14-04-2025

Un corpus, en términos lingüísticos, es un conjunto estructurado de textos o datos lingüísticos utilizados para analizar y estudiar el uso del lenguaje. Estos textos pueden ser tanto escritos como orales. Los corpus son fundamentales para comprender patrones lingüísticos, estudiar variaciones idiomáticas y, en el caso de la inteligencia artificial, entrenar modelos de procesamiento de lenguaje natural (NLP, por sus siglas en inglés). Estos modelos necesitan grandes volúmenes de datos para aprender a entender, generar y analizar el lenguaje humano. Gracias a los corpus, los sistemas de inteligencia artificial pueden identificar estructuras gramaticales, analizar el contexto de las palabras y mejorar su capacidad de interacción con los usuarios.
La Real Academia Española (RAE) ha desarrollado varios corpus lingüísticos de gran valor para investigadores, lingüistas y ahora también para desarrolladores de inteligencia artificial. Destacan el CREA (Corpus de Referencia del Español Actual), el CORPES XXI, el CDH (Corpus del Diccionario Histórico de la lengua española) y el CORDE (Corpus Diacrónico del Español). En este post, analizaremos el contenido de cada uno de ellos que más allá de su valor lingüístico y cultural son contenidos de libre acceso.
CREA: Corpus de Referencia del Español Actual
El CREA es un conjunto de textos de diversa procedencia que permite estudiar las palabras, sus significados y sus contextos. Cuenta con más de 160 millones de formas (elementos), incluyendo textos producidos entre 1975 y 2004 en todos los países de habla hispana.
El corpus CREA está organizado siguiendo cuatro criterios fundamentales:
- Medio: el 49% procede de libros, otro 49% de prensa y un 2% corresponde a material misceláneo.
- Cronológico: textos clasificados en períodos de cinco años (1975-1979, 1980-1984, etc.), con mayor peso en los tramos más recientes.
- Geográfico: 50% de España y 50% de América, distribuido en zonas lingüísticas tradicionales (andina, caribeña, México y Centroamérica, etc.).
- Temático: organizados en seis grandes áreas temáticas subdivididas en temas más específicos.
Más allá de su uso para entrenamiento de modelos de IA, CREA también se emplea para elaborar diccionarios, realizar investigaciones y desarrollar herramientas tecnológicas como correctores ortográficos, sistemas de traducción automática o tesauros y otras herramientas de asistencia a la redacción.
Este corpus tiene sus versiones de CREA oral y CREA escrito, por un lado. Y, por otro, en diciembre de 2023 se publicó la versión 1.0 del CREA anotado que permite la búsqueda por formas, lemas y categorías gramaticales. Esta versión contiene más de 111.000 documentos que suman más de 122.5 millones de formas.
CORPES XXI: Corpus del Español del Siglo XXI
Como CREA, el CORPES XXI es un corpus de referencia que sirve para conocer el significado y características de palabras, expresiones y construcciones a partir de los usos reales registrados. La versión actual (1.2), publicada en noviembre de 2024, contiene:
- Más de 390.000 textos escritos.
- Casi 1.000 textos procedentes de transcripciones orales.
- Un total de casi 425 millones de formas.
Además, CORPES XXI incluye un completo sistema de consulta que permite buscar palabras, expresiones o categorías gramaticales específicas. En abril de 2024 se incorporó un diccionario de frecuencias léxicas, herramienta de gran valor para investigadores y desarrolladores de IA.
CDH: Corpus del Diccionario histórico de la lengua española
El CDH es un recurso fundamental para estudios diacrónicos (sucesivos a lo largo del tiempo), con 355 millones registros distribuidos en tres capas de consulta:
- CDH nuclear: contiene más de 53 millones de elementos (32 millones de textos españoles y más de 20 millones de obras americanas). Los textos han sido sometidos a un proceso semiautomático de anotación lingüística y lematización.
- S. XII-1975: recopila textos entre el siglo XII y 1975, formado por una selección de obras del CORDE con 199 millones formas. Estos textos cuentan con una preanotación morfosintáctica realizada con herramientas de software libre.
- 1975-2000: incluye obras datadas entre 1975 y 2000, con títulos procedentes del CREA, anotados lingüísticamente por el Departamento de Tecnología de la RAE (103 millones registros).
CORDE: Corpus Diacrónico del Español
El CORDE es un corpus textual que abarca todas las épocas y lugares en que se habló español, desde los inicios del idioma hasta 1974. Diseñado para extraer información para estudiar palabras, significados y gramática a lo largo del tiempo, cuenta con 250 millones de registros correspondientes a textos escritos de diversos géneros.
Los textos se distribuyen en prosa y verso, incluyendo textos narrativos, líricos, dramáticos, científico-técnicos, históricos, jurídicos, religiosos y periodísticos. El CORDE recoge todas las variedades geográficas, históricas y genéricas para ser suficientemente representativo, convirtiéndolo en fuente obligada para cualquier estudio diacrónico del español.
Aplicaciones y ventajas de los corpus lingüísticos de la RAE
Estos corpus representan recursos de gran valor para el entrenamiento de modelos de inteligencia artificial por varias razones:
- Representatividad lingüística: abarcan todas las variedades del español, permitiendo desarrollar sistemas que entiendan las particularidades regionales e históricas del idioma.
- Anotación morfosintáctica: las versiones anotadas permiten entrenar modelos con mayor precisión gramatical, al identificar no solo palabras sino también sus categorías gramaticales.
- Análisis diacrónico: la combinación de corpus contemporáneos (CREA, CORPES XXI) con históricos (CORDE, CDH) permite estudiar la evolución del lenguaje, aspecto fundamental para modelos que deben procesar textos de diferentes épocas.
- Riqueza léxica: la inclusión del Fichero General proporciona un tesoro de información léxica y lexicográfica difícil de encontrar en otros recursos.
Además, este conjunto de corpus de la RAE ofrece ventajas significativas para el desarrollo de modelos de lenguaje en español, como son:
- Cobertura temporal completa: desde los orígenes del idioma hasta la actualidad, permitiendo entrenar modelos con sensibilidad histórica.
- Diversidad geográfica: representación de todas las variantes del español, fundamental para crear sistemas que funcionen bien en cualquier país hispanohablante.
- Calidad filológica: los textos han sido seleccionados y procesados con rigor académico, garantizando la calidad de los datos de entrenamiento.
- Anotación lingüística: el etiquetado morfosintáctico facilita el entrenamiento de modelos que comprendan la estructura gramatical del español.
Gracias a corpus como los de la RAE, los modelos de inteligencia artificial pueden mejorar su comprensión del español, adaptarse a las diferencias regionales y brindar respuestas más precisas y naturales. Así, el lenguaje humano y la tecnología se conectan, ampliando las posibilidades de interacción y aprendizaje mutuo.
Para más información o para acceder a estos recursos, los interesados pueden consultar la web de la RAE o contactar directamente a través de corpus@rae.es.