Archivo Rebelde

¿Qué es Archivo Rebelde?

Archivo Rebelde es un proyecto sin fines de lucro que busca cumplir dos objetivos: ser un plataforma de divulgación de documentos históricos de “izquierda” y brindar una herramienta de búsqueda a investigadores.

El archivo digital contiende documentos de muy distintas corrientes de pensamiento, además de contener documentos que no pertenecen a ninguna agrupación en específico. El término “izquierda”, en ese sentido, es muy amplio, dado que el archivo no pretende ser la apología de una tendencia específica de izquierda, a pesar de que la única persona a cargo del proyecto –por el momento- tiene una posición política bien definida. Por eso, por ejemplo, el archivo contiene documentos de grupos stalinistas, trotksistas, de la izquierda comunista, y anarquistas, por citar algunos ejemplos.

Algunos documentos no se podrían clasificar estrictamente como documentos políticos, no obstante, sí fueron producidos en épocas que podrían interesar al historiador de procesos políticos, o sociales.

El fin de tener esta variedad de documentos históricos de tendencias de izquierda y documentos más generales, es poder realizar estudios críticos sobre problemas que podrían interesar al historiador y al público en general mediante búsquedas por contenido, en el futuro por tendencias, etiquetas, y otras formas de agrupamiento.

¿Cómo funcionan las búsquedas por contenido?

La efectividad de las búsquedas por contenido depende de la calidad de las imágenes y el estado mismo de los documentos físicos. Una buena cantidad de los documentos existentes han sido tomados de sitios externos, por lo que su mejoramiento depende de terceros. Los únicos documentos que fueron digitalizados directamente por Archivo Rebelde son: “El Trabajador” y “Posición Revolucionaria”, esto mediante la implementación de un digitalizador de periódicos “casero”, puesto que era necesario para una investigación histórica en curso. Algunas imágenes de este digitalizador se encuentran al final de esta sección.

Las condiciones óptimas para una adecuada búsqueda es una apropiada digitalización (de buena resolución) y un estado aceptable de los documentos. Una vez cumplido estos dos objetivos, el buscador puede obtener resultados satisfactorios.

El proceso general se divide en tres:

Digitalización
Aplicación de filtros automáticos para mejorar la imagen
Aplicación automática de software de detección de texto (OCR)

Una vez cumplido estos tres pasos, se indexa el texto y se asocia las búsquedas a páginas específicas de los documentos. Todo el software utilizado por el proyecto es de código abierto, por lo que, los costos de funcionamiento se concentran en la infraestructura de almacenaje de imágenes y la puesta en marcha del servidor web.

Es necesario aclarar que no todos los documentos tiene buen contenido para indexar, debido a los factores antes mencionados (mala calidad de la digitalización o mal estado de los documentos). Con el fin de remediar estas deficiencias están en desarrollo dos módulos: (1) un módulo de transcripción, para que usuarios externos puedan contribuir a transcribir textos de los documentos vía web, y (2) un módulo de etiquetado, para que usuarios puedan incorporar etiquetas a los documentos específicos con el fin de mejorar los resultados a otros usuarios del sistema.

El principal problema para la implementación de estos módulos es la falta de recursos de tipo económico y humano, por lo que se podrán tener en marcha en un mediano o largo plazo.

A continuación, algunas imágenes del digitalizador: