Libros en la nube: La palabra desatada

viernes, 17 de diciembre de 2010

La palabra desatada

Desencuadernada, como una baraja de infinitas combinaciones.

Esto es lo que nos ha regalado Google Books desde Google Labs, en colaboración con científicos de la Universidad de Harvard, el Instituto Tecnológico de Massachusetts y la Encyclopedia Britannica. Books Ngram Viewer, que pone gratuitamente a disposición de estudiosos y curiosos un acervo de 2 mil millones de palabras del inglés, el francés, el chino, el ruso, el alemán y el español, ha convertido a esa "agencia de publicidad de Internet", a la que se le negó el acceso a ciertas bibliotecas nacionales, en el humanista digital más destacado del decenio. Más de dos siglos de palabras que ahora podremos interrogar con el método cuantitativo de las ciencias duras.

El conjunto de datos que componen Ngram Viewer es un subconjunto del corpus de todas las palabras escaneadas por Google en los 15 millones de libros que ha liberado de los estantes desde que comenzó la tarea en 2004. El proyecto de esta gigabiblioteca online se ha topado con innumerables obstáculos: demandas por parte de autores y editores, celosos incluso de copyrights que en muchos casos no les pertenecen; suspicacias acerca del monopolio informativo de Google; suspicacias alrededor de su posible comercialización de la palabra, como si los editores hubiésemos hecho otra cosa con ella desde Gutenberg en adelante; e incluso campañas de periodistas como Nicholas Carr, que apoyado por los grandes medios lanzó el meme de que Google nos vuelve estúpidos. El subconjunto del que desde ayer gozamos para su usufructo, que no su posesión, proviene de 5.2 millones de esos libros y cuenta con 500 mil millones de vocablos. Se los puede combinar en cadenas de hasta cinco, para encontrar la frecuencia de uso, y por tanto de su peso cultural, en el espacio y el tiempo.

Hasta sus críticos más filosos se han rendido a la evidencia. Robert Darnton, director de la biblioteca de la Universidad de Harvard, que no participó en el proyecto y hace pocas semanas apareció en todos los periódicos haciendo las alabanzas del olor a papel de los libros antiguos, en clara referencia a su posición contraria al esfuerzo digitalizador, concede que Ngram Viewer es "despampanante" y agrega, citado por el Wall Street Journal: "Han salido con algo que marcará una enorme diferencia en nuestra comprensión de la historia y la literatura".

Para evitar las tan temidas (y perseguidas) violaciones del copyright, los investigadores e ingenieros solo están haciendo visible el vasto catálogo de palabras y frases, pero los libros donde aparecen permanecen ocultos. Un gesto de caballeros que pone en evidencia los intereses más descarnados detrás de tanto discurso que usa la cultura heredada como coartada de políticas sectoriales.

He pasado buena parte de la tarde jugando con Books Ngram Viewer. Es la mejor manera de comprender su irrefrenable esplendor. El ejemplo que les dejo abajo es un capítulo más en una larga conversación que inicié con José Antonio Millán en 1989 y que dura hasta hoy. Caminábamos por Madrid a poco de mi llegada y yo no dejaba de repetir la palabra "lindo" para indicar la felicidad que me producían ciertos rincones de la ciudad, algunos de sus detalles. Entonces, José Antonio me dijo: "Deja de repetir esa palabra. Aquí debes decir bonito". Estoy en muy buena compañía, le respondí, porque la acuñó el gran Lope. "Sí, lo que quieras, pero las lenguas cambian", fue su respuesta pragmática. Y lo que me ha contado hoy esta herramienta extraordinaria de Google es que la frecuencia de "bonito" y "lindo" se cruzaron justamente en esos años 80, para seguir con una declinación de la segunda y un reinado casi absoluto de la primera.

Vayan y jueguen y descubran con Books Ngram Viewer. Y piensen que si para financiar cosas como esta, Google vende anuncios en Internet podemos ser generosos y no tenérselo en cuenta. Es mucho mejor que vender novelas de Dan Brown o pagarles miserias a los traductores.

En cuanto al "bonito", para mí sigue siendo un pescado.

2 comentarios:

Marcos Suárez dijo...: De hecho no sabes cuantos de esos bonitos son pescados.
Podemos ver que pasa si añadimos los atunes Que mi mala ortografía me recuerda que no siempre se usa la misma. Ver que al principio aparece sin tilde (¿ortografía, problemas tipográficos, problemas de OCR...?)
El aumento de la aparición de "atún" puede leerse de dos formas totalmente opuestas: aumento de la aparición del tema en la literatura, que propiciaría un aumento de la palabra bonito como pescado; transición de uso de una palabra a la otra, que tendería a una reducción del uso de bonito como pescado. Todo esto sin saber como van las proporciones de estas palabras cuando se refieren a pescado. Una búsqueda que deje claro que nos estamos refiriendo a pescado parece que da una idea de lo anterior. Pero hay que tener cuidado porque la forma usada pude depender mucho de la frase.
Teniendo en cuenta que la búsqueda es "case-sensitive" se obtiene otro resultado interesante, en el que la frecuencia de uso todavía no se ha cortado. ¿Es más común al principio de oración sustantivo o adjetivo? ¿Por que el uso de "Bonito" es más estable que el de "Lindo"? ¿Tiene algo que ver con la cantidad de libros publicados, o mejor dicho, escaneados a un lado y a otro del charco teniendo en cuenta que, al menos en la actualidad, la proporción de usos de lindo es muy inferior?

Se puede seguir jugando. Dos cosas solo para no enrollarme más.
Trabajando con máquinas hay que tener cuidado de que lo que hacen es lo que esperamos.
Hay un montón de cosas por hacer e infinidad por plantear que no se realizan simplemente por falta de permisos.

En estos tiempos de cambio en el libro es muy interesante leer a alguien que te cuenta cosas desde dentro. Muchas gracias.

Saludos de un físico.; 17 de diciembre de 2010 a las 18:19
Eduardo. dijo...: Es muy adictivo algunas comparaciones:

En inglés, terrorist, comunist

(les dirá quién es el enemigo!!)

En español:

bocadillo, sandwich
(que me dió sorpresas)

fósforo, sandwich

Y una de la escuela:

unitarios, federales...

Y me voy de Books Ngram Viewer porque es adictivo!!!

Saludos.
Eduardo.; 17 de diciembre de 2010 a las 20:33

Publicar un comentario