sábado, 16 de octubre de 2010

Cuando las máquinas no pueden leer bitácoras

Quien se haya adentrado en Google Books, especialmente en los libros del dominio público escaneados a partir de fondos de bibliotecas, habrá comprobado hasta qué punto el OCR sigue siendo un albur, aunque muchos estén dispuestos a correrlo. Las manchas de humedad, la oxidación irregular del papel, la tinta del sello del bibliotecario, que dejó su marca imprevista sobre la tipografía, las huellas dactilares de un lector que comía manzanas mientras leía, son datos con los que nosotros podemos reconstruir una historia que haga sentido, una historia marginal a la que cuenta el libro. De hecho, la disciplina de la Historia no es más que nuestra habilidad para desencriptar y dotar de sentido a las huellas dejadas por los hombres en la cultura material. Pero a las máquinas, todo esto las despista porque, como los niños pequeños, necesitan de la previsibilidad.

Una lectura de OCR puede arrojar un resultado 99 % fiable y puede, en otras circunstancias, regalarno un galimatías. Si esto es casi siempre así cuando los libros impresos que se le someten a la lectura son viejos, cuando se trata de digitalizar documentos manuscritos nos encontramos ante una verdadera imposibilidad.

En la Argentina estamos en las vísperas de un censo nacional de población y, por eso, me parece útil el siguiente ejemplo: un fragmento de una hoja del primer censo realizado en el país en 1869, cuando era presidente el escritor Domingo F. Sarmiento.






Estas columnas bien estructuradas, con el nombre de la familia en la primera, el nombre de pila en la segunda, las edades en la tercera, etc. tienen sentido para cualquier hombre, aunque le tome un poco de tiempo desentrañar las curvas de la caligrafía decimonónica. Un primer paso hacia la conservación de estos documentos de vital importancia es el escaneado. Pero el escáner solo nos devolverá una fotografía. Lo que interesa a las nuevas tecnologías de la memoria es transformar ésta y otras miles de hojas en datos que puedan ser sometidos a procesos que los combinen entre sí y arrojen, rápida y automáticamente, información que, a su vez, se transforme en la base de nuevos saberes, de nuevas hipótesis sobre nuestra historia. Un OCR, que es la herramienta automatizada con la que contamos para hacer esto, es incapaz 1) de ver estructura donde nosotros la vemos; 2) de leer todas las caligrafías singulares de los miles de censistas.

La simple conservación digital, la foto o el .pdf, no cumple ninguna función más que la de tranquilizar conciencias, pues no permite la transformación de un documento en datos. Es un primer paso que, de no darse los siguientes, será puro gasto sin reproducción.

De visita en el blog de Open Library, tropecé con una organización a la que no conocía: Zooniverse , cuyo objetivo es lo que hoy se da en llamar "la ciencia de los ciudadanos", que recurre a voluntarios o a redes de voluntarios para el procesamiento de datos en proyectos científicos concretos. Uno de ellos es la reconstrucción del tiempo meteorológico del planeta a partir de las bitácoras de los marinos de la Armada Real Británica que, como bien sabemos, surcó y dominó todos los mares. Las bitácoras se parecen a las hojas del censo en que están divididas en columnas, la última de las cuales es la más difícil de desentrañar para las máquinas: las observaciones del capitán. En Zooniverse han creado una app que facilita la colaboración ciudadana en la reconstrucción de este tesoro de información.

Aquí está el vídeo que muestra cómo funciona:




Old Weather - Weather and Events from The Zooniverse on Vimeo.

Y como soñar no cuesta nada, imagino el salto cuántico que significaría para los países de habla hispana --que tienen tantos hablantes como para enorgullecerse de ser la segunda lengua de Occidente y, al mismo tiempo, tan poca ciencia que les dé autonomía y peso económico-- que las bibliotecas nacionales abrazaran un proyecto semejante. No lo pienso solo desde la perspectiva de la conservación real de la memoria, ni desde la pura producción histórica, sino desde el efecto multiplicador de ciudadanía que tendrían estas redes de voluntarios detrás de un objetivo común.

6 comentarios:

Dubitador dijo...

Hola Julieta.

Has usado la expresion "salto cuantico"

¿Realmente el adjetivo añade algo a lo que merezca poner especifica atencion o bien es tan solo una figura que se invocada por su mera popularidad y sonoridad?

Para que no se malinterprete la intencion de la pregunta, aviso de que en un corto debate me vi en mala posicion por haber tratado de defender o explicar su posible y legitimo sentido.

Creo que no es en absoluto necesario poseer un conocimiento profundo y exacto de la mecanica cuantica, sus matematicas e implicaciones en fisica, para aludir con propiedad al hecho de que los ladrillos mas diminutos de que está hecha de la realidad, incluyendo el tiempo, son eso mismo, piezas discretas, de modo que entre el 0 y el uno no hay una infinidad de digitos decimales intermedios sino que se llegaria a un punto en el que no tiene sentido buscar la fraccion mas pequeña entre el cero y el uno. Diré mas, si para poder afirmar con propiedad lo que acabo de decir fuera imprescindible saber las matematicas y fisica suficiente para justificarlo, se estaria poniendo una barrera artificial a la permeabilidad de los conocimientos de la alta ciencia hacia la sabiduria popular, cuya necesaria imprecision permite la comunicabilidad gracias a un minimo consenso que no precisa su explicacion al detalle para que se acepte y funcione un significado.

El ejemplo mas polular de salto cuantico es el que tiene lugar en la capa electronica del atomo, cuyos electrones siguen orbitas precisas y aunque estas pueden ser alteradas, migrando un electron de una orbita a otra, la orbita a la que se salta no puede ser arbitraria, no puede ser cualquiera.

Creo que cuando utilizamos la expresion "salto cuantico" no pretendemos denotar nada diferente a lo que hubieramos podido tambien denominar como mero salto, nada mas que un salto, pero se nos antoja mas en onda, mas de nuestro tiempo, añadir el adjetivo de cuántico.

Sin embargo creo que tambien hay que poner tiento en el uso de la terminologia y metaforas con las que se han tratado de hacer entendibles algunos arcanos cientificos, para no caer en el ridiculo y la supercheria pseudofilosoica hacia la que derivó el llamado estructuralismo, aquél que fue atronadoramente denunciado por Alan Sokal y Jean Bricmont en sus famosas "Imposturas intelectuales", el cual ha dado municion de modernidad a las eternas supercherias pseudocientificas que ahora excusan, incluso agresivamente, su deber de justificacion cientifica impugnando a la propia ciencia.

Julieta Lionetti dijo...

Son las deformaciones a las que uno se expone de tanto leer el New York Times. Gracias por llamarme la atención y por la clase.
Me esforzaré para no usar en este blog la tan llevada y traída jerga periodística, que es de la que uno trata de escapar. Mis lectores no se lo merecen, como lo prueba este comentario.
¿Estarás quizás en algún proyecto de ciencia ciudadana del que nos interese participar?

Dubitador dijo...

Pues no Julieta, de ciencia entiendo lo justo, muy justito, mas justito cada dia que se aleja del momento en que finalice la instruccion secundaria.

El excurso me ha salido así porque debo ser una suerte de estructuralista espontaneo, aunque espero no llegan a soltar cosas del calibre de "la mente del neurótico es como un toro (geométrico)" o
animar al personal "Hacia una transformación hermenéutica de la gravedad cuántica", aunque me temo que me puedo acercar si me pongo a hacer aproximaciones de cariz cientifico, como esa sobre las trayectorias de los electrones en torno al atomo.

En realidad me fijé en lo de "salto cuantico" precisamente porque a mi parecer enturbiaba mi total acuerdo con el tenor el articulo. Precisamente habia imaginado un sistema colaborativo para revisar los OCR de los libros pirateados, pero se me antoja de mas profundo calado la puesta en valor de esa informacion que muy probablemente los programas nunca lograran capturar con el mas que razonable exito con el que lo hacen con la letra impresa.

Julieta Lionetti dijo...

Dubitador, cada uno hace los desarrollos que más le apetezcan, pero deberías cuidarte de la ley Sinde y de la ministra homónima si piensas internarte por esas sendas de la colaboración.
Internet Archive está considerando una empresa similar, pero sobre obras del dominio público. Y Open Library, en cuyo blog encontré la información, también piensa que es una excelente manera de darle valor a tanta información ilegible como estamos acumulando.

Eduardo. dijo...

Bueno Julieta Hernán Casciari está intentando llevar adelante una revista sin costos de distribución y sin publicidad.

No es "Ciencia Ciudadana" pero es un intento de algo colaborativo dentro del mundo de habla española.

Acá hay algo más sobre el proyecto.

Si te fijás verás que hay entusiasmo y aportes interesantes.

No se cómo saldrá la cosa, ojalá que bien.

Saludos.

Eduardo.

Julieta Lionetti dijo...

Hola, Eduardo:
Sé del proyecto de Hernán Casciari y lo he movido mucho en Twitter. Su post de despedida del "sistema" me pareció brillante y valiente y con un punto de humor de patíbulo que aprecio mucho.
Este post, sin embargo, tiene dos acentos: uno en la colaboración online y el otro en la producción de datos y metadatos que integren el idioma español en la economía de redes. De los dos acentos, el segundo es el tónico. En este contexto, la iniciativa de Casciari pertenece a otro ámbito.