Archivo rebelde a77147acab591156d77483d401256a43f39bc4562524f7686386d66724792d1e

¿Qué es Archivo Rebelde?

Archivo Rebelde es un proyecto sin fines de lucro que busca cumplir dos objetivos: ser un plataforma de divulgación de documentos históricos de “izquierda” y brindar una herramienta de búsqueda a investigadores.

El archivo digital contiende documentos de muy distintas corrientes de pensamiento, además de contener documentos que no pertenecen a ninguna agrupación en específico. El término “izquierda”, en ese sentido, es muy amplio, dado que el archivo no pretende ser la apología de una tendencia específica de izquierda, a pesar de que la única persona a cargo del proyecto –por el momento- tiene una posición política bien definida. Por eso, por ejemplo, el archivo contiene documentos de grupos stalinistas, trotksistas, de la izquierda comunista, y anarquistas, por citar algunos ejemplos.

Algunos documentos no se podrían clasificar estrictamente como documentos políticos, no obstante, sí fueron producidos en épocas que podrían interesar al historiador de procesos políticos, o sociales.

El fin de tener esta variedad de documentos históricos de tendencias de izquierda y documentos más generales, es poder realizar estudios críticos sobre problemas que podrían interesar al historiador y al público en general mediante búsquedas por contenido, en el futuro por tendencias, etiquetas, y otras formas de agrupamiento.

¿Cómo funcionan las búsquedas por contenido?

La efectividad de las búsquedas por contenido depende de la calidad de las imágenes y el estado mismo de los documentos físicos. Una buena cantidad de los documentos existentes han sido tomados de sitios externos, por lo que su mejoramiento depende de terceros. Los únicos documentos que fueron digitalizados directamente por Archivo Rebelde son: “El Trabajador” y “Posición Revolucionaria”, esto mediante la implementación de un digitalizador de periódicos “casero”, puesto que era necesario para una investigación histórica en curso. Algunas imágenes de este digitalizador se encuentran al final de esta sección.

Las condiciones óptimas para una adecuada búsqueda es una apropiada digitalización (de buena resolución) y un estado aceptable de los documentos. Una vez cumplido estos dos objetivos, el buscador puede obtener resultados satisfactorios.

El proceso general se divide en tres:

  1. Digitalización
  2. Aplicación de filtros automáticos para mejorar la imagen
  3. Aplicación automática de software de detección de texto (OCR)

Una vez cumplido estos tres pasos, se indexa el texto y se asocia las búsquedas a páginas específicas de los documentos. Todo el software utilizado por el proyecto es de código abierto, por lo que, los costos de funcionamiento se concentran en la infraestructura de almacenaje de imágenes y la puesta en marcha del servidor web.

Es necesario aclarar que no todos los documentos tiene buen contenido para indexar, debido a los factores antes mencionados (mala calidad de la digitalización o mal estado de los documentos). Con el fin de remediar estas deficiencias están en desarrollo dos módulos: (1) un módulo de transcripción, para que usuarios externos puedan contribuir a transcribir textos de los documentos vía web, y (2) un módulo de etiquetado, para que usuarios puedan incorporar etiquetas a los documentos específicos con el fin de mejorar los resultados a otros usuarios del sistema.

El principal problema para la implementación de estos módulos es la falta de recursos de tipo económico y humano, por lo que se podrán tener en marcha en un mediano o largo plazo.

A continuación, algunas imágenes del digitalizador:

02 digitalizador 337f4bed65f0f2fbb32b8f4e29f66815834c4a866c3fcc1152668a66ae18a3e503 digitalizador 9945e03478d2e355cd30105f3212365062cfe08e5cb8712294396a9fd550cea704 digitalizador 3933f32ae9ad437830c31ce2431f0d7d25583acd733bde73912248880db5fb4605 digitalizador 9a58a7626cc41d53f9ba471c2175419bdcdc25f2c08112ed80cc4da20c585faa06 digitalizador 3e4a83ce4728f90190305d29b5f9f8e564fb7e824d491915adab4c4b2c82f92f