Standard Dataset

Corpus para la identificación de palabras complejas en textos médicos en español (CWI-Med-Sp)

Descripción

[Descripción de los métodos utilizados para la recopilación/generación de datos] Las estadísticas y los métodos del corpus se explican en el siguiente artículo: Federico Ortega-Riba, Leonardo Campillos-Llanos, Doaa Samy (2025) «Lexical Simplification in Spanish Texts For Patients: The Complex Word Identification Task» (Simplificación léxica en textos en español para pacientes: la tarea de identificación de palabras complejas). (En proceso de revisión). [Métodos de procesamiento de los datos] Anotación manual de palabras complejas (CW) según los criterios definidos en la guía explicada en el artículo complementario. Agradecemos enormemente a los siguientes colegas que revisaron dos veces un subconjunto de textos con el fin de calcular la concordancia entre anotadores: Ana R. Terroba-Reinares (Fundación Rioja Salud) [ORCID: 0000-0003-1582-6481]; Ana Valverde-Mateos (Unidad de Terminología Médica, Real Academia Nacional de Medicina de España) [ORCID: 0000-0003-1610-0770]. El corpus está compuesto por 225 textos en español anotados con palabras complejas (CW). Contiene tres tipos de textos: formularios de consentimiento (75 textos), anuncios de ensayos clínicos (75 textos) y documentos de información para pacientes (75 textos). Este recurso está destinado a entrenar modelos, evaluar y realizar experimentos sobre la identificación de palabras complejas en textos médicos en español. El corpus contiene tres tipos de textos: 1. Formularios de consentimiento (75 textos), 2. Anuncios de ensayos clínicos (75 textos) y 3. Folletos informativos para pacientes (75 textos).