Archivo de la Web Española: Recolección Temática: Fondo Antiguo

Descripción

La recolección de páginas web es la principal forma de llevar a cabo el depósito legal de las publicaciones en línea. Se lleva a cabo con robots rastreadores que van recorriendo las URL seleccionadas previamente y guardando todo lo que tienen enlazado con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web.

A día de hoy es imposible aspirar a la exhaustividad en el archivado web, por lo que en la Biblioteca Nacional de España se ha optado por un modelo mixto que combina recolecciones masivas y selectivas:

  1. Las recolecciones masivas recogen el mayor número de dominios posible con una profundidad pequeña en los niveles de navegación y están vinculadas al dominio .es. Se hacen una vez al año.
  2. Las recolecciones selectivas se hacen para completar las recolecciones masivas, ya que recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web seleccionados por su relevancia para la historia, la sociedad y la cultura. Se realizan varias veces al año en colaboración con los centros de conservación de las comunidades autónomas y de otras instituciones especializadas. Estas recolecciones selectivas pueden ser de tres tipos:
    2.1. Temáticas: Cada Departamento de la Biblioteca Nacional y cada comunidad autónoma mantiene sus colecciones temáticas con los recursos en línea que consideren necesario conservar como parte del depósito legal. Por ejemplo: Música y Audiovisuales, Revistas electrónicas andaluzas, Instituciones de la Comunidad Valenciana, etc.
    2.2. De evento: sobre acontecimientos de especial relevancia.
    2.3. De emergencia, en el caso de sitios web en peligro de extinción.

Campos de los archivos descargables:

  • Título del sitio web

  • Semilla: es la URL que proporcionamos como punto de partida para la recolección. Puede representar la página principal de un sitio (home), una sección de un sitio o un documento con otros formatos contenido en una página web.

  • URL adicionales: podemos añadir URL adicionales para mejorar la cobertura o calidad del rastreo (por ejemplo el mapa del sitio web, una sección importante, etc.).

  • Estado: pondremos “Activo” si queremos recolectar el sitio web o “Inactivo” si queremos dejar de recolectarlo, por ejemplo en el caso de que el sitio web haya dejado de existir.

  • Frecuencia: es la periodicidad con la que queremos recolectar el sitio web. Las frecuencias pueden ser Diaria, Mensual, Quincenal y Única (si sólo se quiere recolectar una vez).

  • Profundidad: es el nivel de profundidad con el que queremos recolectar el sitio web, es decir cuánto va a descender el robot siguiendo los enlaces que contiene la URL que le damos como semilla. La profundidad puede ser:
    Inicio: Recolecta sólo la URL que se da como semilla.
    Inicio y 1 nivel: Recolecta la URL que se da como semilla más un nivel de profundidad.
    Inicio y 2 niveles: Recolecta la URL que se da como semilla más dos niveles de profundidad.
    Dominio: Recolecta todas las URL que contienen el dominio propuesto. Por ejemplo, desde la semilla www.bne.es, recolecta todas las URL que contengan “bne.es”.
    Host: Recolecta todas las URL que contienen el host propuesto. Por ejemplo, desde la semilla www.bne.es, recolecta todas las URL que tengan www.bne.es.
    Ruta: recolecta sólo las URL a partir de la ruta que le damos, no retrocede a URL en directorios anteriores.

  • Tamaño:
    Pequeño: para recolectar sitios web de hasta 10.000 URL.
    Mediano: para recolectar sitios web de hasta 50.000 URL.
    Grande: para recolectar sitios web de hasta 100.000 URL.

  • Palabras clave: describen con mayor precisión el contenido del recurso a recolectar y permiten la creación de subcolecciones dentro de una colección. Se asignan entre 1 y 5 palabras por registro, separadas por /

  • Materia: Las materias de cada colección nos permiten distinguir las distintas subcolecciones que tengan las CCAA. Se asigna una CDU abreviada y su literal.

Distribuciones

  • AWE: Fondo antiguo (CSV) text/csv
    CSV
  • AWE: Fondo antiguo (JSON) application/json
    JSON
  • AWE: Fondo antiguo (ODS) application/vnd.oasis.opendocument.spreadsheet
    ODS
  • AWE: Fondo antiguo (TXT) text/plain
    plain
  • AWE: Fondo antiguo (XLS) application/vnd.ms-excel
    XLS
  • AWE: Fondo antiguo (XML) text/xml
    XML

Información Adicional

Frecuencia de actualización

Trimestral

Cobertura geográfica España
Idiomas Español
Otros recursos
Tarifa Gratuita
Información de la tarifa

Los conjuntos de datos generados por la BNE se encuentran bajo la licencia CC0, por lo que su uso es gratuito y no requiere autorización previa.

En cualquier caso, la Biblioteca agradecerá la mención del origen de los registros, así como tener conocimiento de los usos derivados.