La recolección de páginas web es la principal forma de llevar a cabo el depósito legal de las publicaciones en línea. Se lleva a cabo con robots rastreadores que van recorriendo las URL seleccionadas previamente y guardando todo lo que tienen enlazado con la frecuencia, profundidad y tamaño que se determine. El resultado de estas recolecciones web son los archivos web.
A día de hoy es imposible aspirar a la exhaustividad en el archivado web, por lo que en la Biblioteca Nacional de España se ha optado por un modelo mixto que combina recolecciones masivas y selectivas:
- Las recolecciones masivas recogen el mayor número de dominios posible con una profundidad pequeña en los niveles de navegación y están vinculadas al dominio .es. Se hacen una vez al año.
- Las recolecciones selectivas se hacen para completar las recolecciones masivas, ya que recogen con mayor profundidad y frecuencia una muestra más pequeña de sitios web seleccionados por su relevancia para la historia, la sociedad y la cultura. Se realizan varias veces al año en colaboración con los centros de conservación de las comunidades autónomas y de otras instituciones especializadas. Estas recolecciones selectivas pueden ser de tres tipos:
2.1. Temáticas: Cada Departamento de la Biblioteca Nacional y cada comunidad autónoma mantiene sus colecciones temáticas con los recursos en línea que consideren necesario conservar como parte del depósito legal. Por ejemplo: Música y Audiovisuales, Revistas electrónicas andaluzas, Instituciones de la Comunidad Valenciana, etc.
2.2. De evento: sobre acontecimientos de especial relevancia.
2.3. De emergencia, en el caso de sitios web en peligro de extinción.
Campos de los archivos descargables:
-
Título del sitio web
-
Semilla: es la URL que proporcionamos como punto de partida para la recolección. Puede representar la página principal de un sitio (home), una sección de un sitio o un documento con otros formatos contenido en una página web.
-
URL adicionales: podemos añadir URL adicionales para mejorar la cobertura o calidad del rastreo (por ejemplo el mapa del sitio web, una sección importante, etc.).
-
Estado: pondremos “Activo” si queremos recolectar el sitio web o “Inactivo” si queremos dejar de recolectarlo, por ejemplo en el caso de que el sitio web haya dejado de existir.
-
Frecuencia: es la periodicidad con la que queremos recolectar el sitio web. Las frecuencias pueden ser Diaria, Mensual, Quincenal y Única (si sólo se quiere recolectar una vez).
-
Profundidad: es el nivel de profundidad con el que queremos recolectar el sitio web, es decir cuánto va a descender el robot siguiendo los enlaces que contiene la URL que le damos como semilla. La profundidad puede ser:
Inicio: Recolecta sólo la URL que se da como semilla.
Inicio y 1 nivel: Recolecta la URL que se da como semilla más un nivel de profundidad.
Inicio y 2 niveles: Recolecta la URL que se da como semilla más dos niveles de profundidad.
Dominio: Recolecta todas las URL que contienen el dominio propuesto. Por ejemplo, desde la semilla www.bne.es, recolecta todas las URL que contengan “bne.es”.
Host: Recolecta todas las URL que contienen el host propuesto. Por ejemplo, desde la semilla www.bne.es, recolecta todas las URL que tengan www.bne.es.
Ruta: recolecta sólo las URL a partir de la ruta que le damos, no retrocede a URL en directorios anteriores.
-
Tamaño:
Pequeño: para recolectar sitios web de hasta 10.000 URL.
Mediano: para recolectar sitios web de hasta 50.000 URL.
Grande: para recolectar sitios web de hasta 100.000 URL.
-
Palabras clave: describen con mayor precisión el contenido del recurso a recolectar y permiten la creación de subcolecciones dentro de una colección. Se asignan entre 1 y 5 palabras por registro, separadas por /
-
Materia: Las materias de cada colección nos permiten distinguir las distintas subcolecciones que tengan las CCAA. Se asigna una CDU abreviada y su literal.
Contacto: bnelab@bne.es
Cómo citar el conjunto: Título del set de datos. [Conjunto de datos]. Versión de DDMMAAAA. Datos.gob.es. URL del dataset
Ej. Archivo de la Web Española: Comunidad Autónoma de Aragón. [Conjunto de datos]. Versión de enero de 2019. Datos.gob.es. https://datos.gob.es/es/catalogo/ea0019768-archivo-de-la-web-espanola-comunidad-autonoma-de-aragon