Corpus of Clinical Trials for Evidence-Based-Medicine in Spanish version 3 (CT-EBM-SP v3)
Corpus of Clinical Trials for Evidence-Based-Medicine in Spanish version 3 (CT-EBM-SP v3)
Esta es la versión 3 del corpus CT-EBM-SP de 1200 ensayos clínicos (292 173 tokens), anotado con 23 tipos de entidades y 18 tipos de relaciones, que abarca grupos semánticos del Sistema Unificado de Lenguaje Médico (UMLS), información relacionada con medicamentos, datos temporales y negación/especulación. Incluye 11 atributos codificados (por ejemplo, temporalidad del evento y estado del experimentador) y entidades normalizadas a los identificadores únicos de conceptos del UMLS. El corpus contiene 87 037 entidades, incluidas entidades anidadas y discontinuas, 16 597 atributos y 68 206 relaciones. La concordancia entre anotadores (IAA) alcanzó valores F1 medios de 0,861 (entidades), 0,810 (atributos) y 0,791 (relaciones). El 81,75 % de las entidades se normalizaron (IAA: F1 = 0,966). El repositorio incluye el código para comparar este conjunto de datos mediante el ajuste de los modelos Transformer para la extracción de relaciones y la normalización de conceptos médicos. En la tarea de extracción de relaciones, el F1 medio osciló entre 0,858 y 0,879. En la tarea de normalización de conceptos médicos, la precisión en el rango 1 fue de 0,896.
This is the version 3 of the CT-EBM-SP corpus of 1200 clinical trials (292173 tokens), annotated with 23 entity types and 18 relation types, covering Unified Medical Language System (UMLS) semantic groups, drug-related information, temporal data, and negation/speculation. It includes 11 encoded attributes (e.g., event temporality and experiencer status) and normalized entities to UMLS Concept Unique Identifiers. The corpus contains 87037 entities, including nested and discontinuous entities, 16597 attributes and 68206 relationships. Inter-annotator agreement (IAA) achieved average F1 values of 0.861 (entities), 0.810 (attributes), and 0.791 (relations). 81.75% of entities were normalized (IAA: F1 = 0.966). The repository includes the code to benchmark this dataset by fine-tuning Transformer models for relation extraction and medical concept normalization. In the relation extraction task, the average F1 ranged from 0.858 to 0.879. In the medical concept normalization task, the accuracy at rank 1 was 0.896.
Clinical trials
Evidence-Based Medicine
Inter-Annotator Agreement
Natural Language Processing
Semantic Annotation
Clinical trials
Evidence-Based Medicine
Inter-Annotator Agreement
Natural Language Processing
Semantic Annotation
http://hdl.handle.net/10261/416915
2026-02-03T00:00:00+01:00
2026-02-04T08:44:42+01:00
2026-02-07T23:43:37.807041+01:00
2026-02-07T23:43:37.807037+01:00
plain
text/plain
README.txt
README.txt
ZIP
application/x-zip-compressed
CT-EBM-SP-v3.zip
CT-EBM-SP-v3.zip
Agencia Estatal Consejo Superior de Investigaciones Científicas
EA0020951