Esta es la versión 3 del corpus CT-EBM-SP de 1200 ensayos clínicos (292 173 tokens), anotado con 23 tipos de entidades y 18 tipos de relaciones, que abarca grupos semánticos del Sistema Unificado de Lenguaje Médico (UMLS), información relacionada con medicamentos, datos temporales y negación/especulación. Incluye 11 atributos codificados (por ejemplo, temporalidad del evento y estado del experimentador) y entidades normalizadas a los identificadores únicos de conceptos del UMLS. El corpus contiene 87 037 entidades, incluidas entidades anidadas y discontinuas, 16 597 atributos y 68 206 relaciones. La concordancia entre anotadores (IAA) alcanzó valores F1 medios de 0,861 (entidades), 0,810 (atributos) y 0,791 (relaciones). El 81,75 % de las entidades se normalizaron (IAA: F1 = 0,966). El repositorio incluye el código para comparar este conjunto de datos mediante el ajuste de los modelos Transformer para la extracción de relaciones y la normalización de conceptos médicos. En la tarea de extracción de relaciones, el F1 medio osciló entre 0,858 y 0,879. En la tarea de normalización de conceptos médicos, la precisión en el rango 1 fue de 0,896.