Cultural Analytics y producción algorítmica de metateoría (i)

canalyt1Se conceptualice como era del petabyte, era del Big Data, era de los algoritmos o como neocuantitativismo, lo cierto es que, desde que la evolución de la tecnología ha convertido en despreciable el coste de almacenamiento de la información y ha vuelto más barato guardar todos los datos que decidir cuáles se guardan y cuáles no, estamos asistiendo a una revolución, quizás aún subterránea para la mayoría, pero muy evidente para las empresas tecnológicas y para determinados paradigmas de explicación de la cultura que, como la analítica cultural, se plantean una revisión, o en todo caso una extensión de los modos en que puede ser generado el conocimiento que comúnmente llamamos científico.

Chris Anderson [i] declaró muerto el método científico tradicional, allá por 2008, a manos de los nuevos sistemas algorítmicos de obtención de patrones y modelos predictivos. Concordemos o disintamos, las humanidades digitales, la investigación semiótica, la historia de la literatura, la teoría de la comunicación, la geografía, las visualizaciones de datos, el diseño gráfico y un amplio abanico de disciplinas, tradicionales o embrionarias, se apropian a velocidad creciente de métodos de investigación cuantitativos, que recurren generalmente a visibilizar relaciones numéricas que permanecían ocultas en la producción gigantesca de raw data (datos brutos) en Internet.

Un repaso, siquiera somero, a los proyectos de Lev Manovich [ii], a las líneas de trabajo de Alejandro Piscitelli [iii] o Carlos Escolari [iv], a la reflexión crítico-filosófica de Pierre Lévy [v] o a los estudios numéricos “distantes” de Franco Moretti [vi] bastarán para darnos cuenta de que estamos ante algo más que una moda o un producto colateral de las tecnologías de tratamiento de datos. Posiblemente debamos reconsiderar el papel de los modelos positivistas en la formación de determinado tipo de conocimiento futuro (y, obviamente, su más que probable ligazón con la ideología), revisar nuestro concepto de determinismo y prepararnos para recibir, combatir, o ambas cosas, una epistemología imparable que, por cierto, procede en algún sentido de aunar lo consciente y lo inconsciente, lo verdadero y lo falso, y que aún está por ver a qué tipo de exigencia validatoria someterá sus hipótesis o qué tolerancia a errores considerará aceptable. A toda teoría de la verdad debe yuxtaponerse la correspondiente teoría del error.

Este artículo, sin embargo, no explorará el marco teórico que subyace a la generalización de los modelos algorítmicos, ni algún aspecto filosófico particularmente asociado a él. En cambio, mi objetivo es alcanzar ciertas reflexiones generales a partir del estudio de un instrumento de análisis de tendencias basadas en ingente información cuantitativa sobre libros digitalizados [vii]. Tal instrumento es el software de análisis de referencias bibliográficas de Google denominado Ngram Viewer [viii].

Galileo y el grama: visualizaciones cuantitativas basadas en ocurrencias bibliográficas

Google ha desarrollado, entre otras aplicaciones de laboratorio orientadas a la visualización de datos, Ngram Viewer. En breve, Ngram es un algoritmo que bucea en el conjunto de libros indexados por Google y, apoyándose en la potencia de los metadatos utilizados en esa indexación, realiza comparaciones de “apariciones” de términos, llamados gramas a lo largo del tiempo. Un grama es una cadena, no necesariamente una palabra en sentido convencional. Lo que hace Ngram es, pues, en primer lugar, contar. Ngram cuenta ocurrencias de gramas. Luego, aplica otro tipo de fórmulas estadísticas y funciones booleanas, de agrupación, etc. La base de datos de todos los libros indexados por Google se denomina “corpora” (plural del latinismo corpus). Google ha realizado dos corpora, es decir, dos compilaciones o preparaciones de su gigantesca base de datos bibliográfica: una en 2009 y la más reciente en julio de 2012. Estas organizaciones de datos “brutos” (técnicamente no se trata de datos brutos, pero son las mínimas cadenas sobre las cuales operará el algoritmo) difieren entre sí, siendo la última mucho más exacta, dice Google, con respecto a los resultados devueltos. Reparemos en que realizar estas agrupaciones supone que han debido tomarse determinadas decisiones iniciales sobre el modo de preparar los datos para que el algoritmo los inspeccione [ix]. Con Ngram es fácil realizar una comparación del mismo concepto en los dos corpora, 2009 y 2012, y por regla general se observa que el número de ocurrencias del grama buscado se afina en el corpora más reciente. Ello debe ser interpretado en términos de una mayor precisión de la búsqueda lo que a su vez confirmaría, en sentido contrario, la mayor fiabilidad y depuración del algoritmo.

El conjunto de los libros referenciados por Google presenta un primer nivel de organización: el idioma. En su uso básico, introducimos una o varios gramas en la caja de búsqueda y seleccionamos el idioma y los años de inicio y de final de la búsqueda. Ngram nos devuelve en un gráfico de línea la totalidad de “citas” del grama, para el idioma y el periodo de tiempo elegidos. En un uso avanzado se pueden refinar las búsquedas y su combinatoria hasta un nivel de complejidad considerable, que incluye sumas y diferencias de gramas, cadenas dentro de cadenas, etc.

Como ejemplo inicial de la potencia de Ngram, y apenas accedemos a su página principal, Google muestra la comparación de apariciones de los términos “Albert Einstein”,  “Sherlock Holmes” y “Frankenstein” para el corpora 2012 en lenguaje inglés y entre los años 1800 y 2000. Sin embargo, en este artículo voy a ocuparme de otro ejemplo que circula por la web [x] y en el que se han creído encontrar conclusiones confirmatorias con respecto a hechos históricos conocidos. Para ello, tomemos, como hace el ejemplo, los gramas “Galileo”, “Darwin”, “Freud” y “Einstein”. La imagen inferior muestra la comparativa de estos gramas para el lenguaje inglés entre los años 1500 y 2000.

Prescindiendo de cuestiones tales como la forma de las crestas y mesetas, que tiene su razón de ser, puede verse que la línea azul del gráfico, correspondiente a “Galileo”, presenta una elevación exagerada en el periodo que va de 1633 a 1638. Ante este resultado se ha echado mano de los libros de historia para ver qué pudo acontecer allí que justifique tal enervamiento de la curva asociada al científico de Pisa.

En los años finales de su vida Galileo publicó sus dos obras más importantes, por lo que hace a la sistematización de su pensamiento y a la trascendencia para el futuro de la ciencia del universo. En 1633 aparece el Dialogo sopra i due massimi sistemi del mondo tolemaico e copernicano, su obra fundamental. En ella Galileo presta claro apoyo al sistema heliocéntrico de Copérnico a la vez que ridiculiza al anticuado geocentrismo ptolemaico. En 1638, cuatro años antes de morir, ve la luz su crucial Discorsi e dimostrazioni matematiche, intorno a due nuove scienze attenenti alla meccanica & i movimenti locali. Obra que, al afirmar que la teoría copernicana era mecánica y no sólo geométricamente correcta, constituye el origen de la física experimental moderna.

El resultado arrojado por Ngram, y así se sugiere en la interpretación citada, confirmaría la tesis de que el pico del gráfico para los años mencionados, esto es, la “forma de la curva” es el espejo de un acontecimiento crucial para la historia del pensamiento científico. Si la hipótesis fuera correcta, pues, además del hallazgo que supone el refrendo empírico obtenido por vía algorítmica, también se estaría avalando —y he aquí lo realmente importante desde el punto de vista epistemológico— la idoneidad de esta herramienta y otras similares para confirmar o desmentir acontecimientos históricos. Sustancialmente, se plantearía la siguiente cuestión: ¿bajo qué condiciones, y hasta qué punto, las herramientas cuantitativas son capaces de “revelar” explicaciones de fenómenos sociales e históricos? Cuestion crucis sería también establecer las diferencias, para una revelación algorítmica dada, entre confirmación de hechos conocidos y descubrimiento (o “desvelación”) de nuevos hechos. Este extremo queda, de momento, solamente apuntado.

Una vez repuestos del efecto fascinante que supone la observación de las curvas algorítmicamente producidas, es momento de profundizar un poco más en los resultados que las avalan. Google es honesto en su advertencia de que Ngram puede arrojar resultados engañosos cuando se trabaja con pocas muestras. Antes de 1800, por ejemplo, apenas se había publicado medio millón de libros en inglés, por lo que, ante tal escasez, el hallazgo de un grama que satisface la condición impuesta en la búsqueda puede disparar su puntuación en la gráfica. En la visualización online, cuando pasamos el ratón por los picos de las líneas se muestra información porcentual de las ocurrencias del término representado. Por ejemplo, el valor de ocurrencias para “Galileo” en 1633 se sitúa en el 0,015%. Esto debe ser leído así: de todos los gramas existentes en el corpora 2012 de Google Books para el lenguaje inglés y el año 1633, el 0,015% corresponde al grama “Galileo”.

En este punto, se estaría tentado de considerar que disponemos de una evidencia empírica nítida. La evidencia de que disponemos, sin embargo, no sólo no es nítida, sino que es de todo punto insuficiente para fundamentar una explicación plausible de alguna cosa. Para empezar, la información relativa a la ocurrencia del grama “Galileo” entre 1633 y 1638 es engañosa y por sí misma poco significativa, por lo cual debe considerarse conjuntamente con otras evidencias. Pues, si observamos el valor porcentual correspondiente al año 2000, el resultado es que sólo un 0,00037% de los libros del mismo corpora contienen el grama buscado. Y, aunque este dato es compatible con el anterior —ya que hablamos de porcentajes en años diferentes—, sucede que las exageradas diferencias de proporciones relativas disparan la curva para el periodo 1633-1638, dando la impresión de que se prestó una atención casi revolucionaria a algún fenómeno durante esos años, cuando podría haber otras explicaciones, por ejemplo, suponer que se publicaron decenas de miles de libros más en el año 2000 que en 1633 (lo cual es más que una suposición, obviamente). Google advierte de que en estas circunstancias necesitamos considerar los datos normalizados para cada segmento temporal, para evitar el sesgo.

Así pues, para concluir si la visualización revela un efecto histórico causado por la fiabilidad del instrumento de análisis, no es suficiente con la comparación porcentual de ocurrencias. Aún debemos considerar otros datos a nuestra disposición. Particularmente, debemos atender a la composición real de la muestra de gramas. En este punto, Google arroja luz al respecto, pero sólo relativamente: otra de las decisiones en la organización de los datos consiste en agruparlos por segmentos temporales (por rangos de años). Tales rangos pueden ser consultados en la web de Ngram, debajo de cada gráfico generado. Lo que Google dice de ellos es que las ocurrencias se agrupan en series anuales por “interestingness” algo así como por alto interés o importancia, lo que no es muy clarificador. Dado que los rangos no son iguales para cada grama, probablemente se obtienen a través de una subrutina del algoritmo, ignorada por nosotros, que realiza nuevas suposiciones sobre la segmentación temporal. A veces, como en el caso de Galileo, en lugar de un rango de años puede aparecer un año solo (1635). Ello se debe, dice Google, a la frecuencia suficiente con que el grama buscado aparece en el corpora ese año. Nada más.

Procedamos, pues, a inspeccionar qué hay detrás de las series temporales. Si hacemos clic en el año 1635, Ngram conecta con Google Books y enseña, o eso debemos suponer, la muestra utilizada para construir el gráfico en ese año. Aunque el modo en que Ngram y Google Books construyen el conjunto de datos retornados es distinto, ello no afecta a los objetivos de este análisis. Google Books retorna tres libros fechados en 1635. A simple vista advertimos que ahí existe información inconsistente. De los tres resultados devueltos, uno corresponde a la traducción al latín que Matthias Bernegger hizo, a instancias del propio Galileo, del Dialogo, otro a una obra de 1921, que contiene el valor “1635” probablemente en un metadato, y en la que el grama “Galileo” aparece una sola vez, en la página 323. Y la tercera a un famoso libro de Mary Wollstonecraft hija (Mary Shelley), publicado en Londres en 1835, en la que la autora de Frankenstein escribe diversas biografías históricas (aunque precisamente la de Galileo no era obra suya). Hasta donde es posible descender en los resultados, la evidencia empírica devuelta por Google Books no presenta suficientes garantías en tanto soporte confirmatorio de la interpretación propuesta.

Límites en el algoritmo y límites en la interpretación: errar es humano (y también mecánico)

En una variación del experimento anterior, produzcamos una nueva visualización alterando algún constructor, por ejemplo, el idioma y veamos qué sucede. Manteniendo los mismos gramas, ahora elegiremos el español como lengua de publicación. El resultado puede verse en la figura siguiente:

En una observación superficial, este gráfico y el anterior presentan un rasgo semejante. Una elevación extrema, en forma de meseta, para uno de los gramas. Ahora es el grama “Einstein” el que muestra valores elevados entre los años 1694 y 1700.

Establecer cualquier inducción a partir de este único efecto es precipitado. Pero, nótese que un principio del método científico consiste en atribuir, para un mismo contexto experimental y en ausencia de otras consideraciones, a idénticos efectos idénticas causas. Esta puntualización no tiene tanto que ver con el proceder del instrumento (Ngram) cuanto con el proceder de las personas: dado que el primer resultado arrojado fue interpretado en términos de concordancia entre datos cuantitativos y procesos históricos, con la misma lógica en la mano se estaría tentado de ir a buscar también hechos históricos relevantes tras las crestas del gráfico. Sin embargo, de proceder así nos llevaríamos una tremenda decepción, pues al contrastar un hecho histórico destacable relativo a Albert Einstein nos encontraríamos con el vacío. En 1694 aún faltaban casi 200 años para que Einstein naciera. Precisamos, pues, igual que en el caso de Galileo, acudir a las muestras tras las series para aclarar la situación.

Pero las muestras devueltas por Google Books no resultan aclaratorias, al menos en un sentido positivo. Al contrario, sólo revelan la existencia de inexactitudes que ningún procedimiento metódico de investigación aceptaría. Después de revisar los rangos de datos e investigar las muestras individuales, podemos identificar la existencia de varios tipos de errores en el conjunto del proceso hermenéutico. Estos errores también se producían en el caso inicial en lengua inglesa. De todos modos, para ser rigurosos debemos hablar de supuestos errores, dado que no sabemos con total certeza cómo trata el algoritmo las cadenas de datos. Mantengamos el término “error” como un modo de llamar la atención sobre irregularidades cuya procedencia es heterogénea, cuando no desconocida. Detectamos errores de precisión en la identificación de muestras, de pertinencia en la selección de muestras y de perplejidad, o desconocimiento del modo en que una muestra confirma o desmiente una hipótesis supuesta correlación entre la evidencia algorítmica y los hechos históricos.

[Ir a Cultural Analytics y producción algorítmica de metateoría (y ii)]

 


[i] Chris Anderson. (2008). The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. http://www.wired.com/science/discoveries/magazine/16-07/pb_theory

[ii] Lev Manovich. (2012). The meaning of statistics and digital humanities. http://lab.softwarestudies.com/2012/11/the-meaning-of-statistics-and-digital.html Y, en general, sus proyectos y publicaciones: http://lab.softwarestudies.com/p/publications.html

[iii] Alejandro Piscitelli. (2013). Las humanidades digitales y la fusión entre arte y ciencia. http://conectarlab.com.ar/las-humanidades-digitales-y-la-fusion-entre-arte-y-ciencia/

[iv] Carlos A. Scolari. (2012). Occupy Semiotics (Hacia una semiótica del Big Data). http://hipermediaciones.com/2012/12/16/occupy-semiotics-big-data/

[v] Pierre Lévy. (2013). Le médium algorithmique. http://pierrelevyblog.com/2013/02/17/le-medium-algorithmique/

[vi] Franco Moretti. (2007). La literatura vista desde lejos. Editorial Marbot. Barcelona. http://www.marbotediciones.com/es/inicio/catalogo/la-literatura-vista-desde-lejos/item/la-literatura-vista-desde-lejos

[vii] Jean-Baptiste Michel*, Yuan Kui Shen, Aviva Presser Aiden, Adrian Veres, Matthew K. Gray, William Brockman, The Google Books Team, Joseph P. Pickett, Dale Hoiberg, Dan Clancy, Peter Norvig, Jon Orwant, Steven Pinker, Martin A. Nowak, and Erez Lieberman Aiden*. (2010). Quantitative Analysis of Culture Using Millions of Digitized Books. Science (Published online ahead of print: 12/16/2010)

[viii] http://books.google.com/ngrams/ O, para descarga de la aplicación, datos, y otras muy interesantes advertencias http://www.culturomics.org/home

[ix] Yuri Lin, Jean-Baptiste Michel, Erez Lieberman Aiden, Jon Orwant, William Brockman, Slav Petrov. (2012). Syntactic Annotations for the Google Books Ngram Corpus. Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics. Volume 2: Demo Papers (ACL ’12).

1 comment

  1. Pingback: Cultural Analytics y producción algor&ia...

Comments are closed.