ABSTRACT

If I have talked before (the post “The alchemy of massive data“) about the discrete aspect of the information related with the Big Data, now I am going to talk about something that follows, when we concibe how the Big Data logic works and where we could ubicate it. As a social science, that is, as a science which study the human behaviour and its tendencies, trying to extract information of them, the informational sciences linked with data analysis are daughters, in some sense, of the classical social science. However, in these classic science we work with samples and statistics, begining from general categories and later applying them over fields to study, extrapolating outcomes from the sample. But is not this what Big Data and new Data Sciences do.  

FULL TEXT (SPANISH)

Si bien hemos hablado del aspecto discreto de la información en relación con el Big Data en el post La alquimia de los datos masivos, vamos a hablar ahora de algo que le sigue, a la hora de concebir cómo opera la lógica del Big Data y dónde ubicarla. Como ciencia social, es decir, como ciencia que estudia el comportamiento humano y sus tendencias, tratando de extraer información de los mismos, las ciencias de la información vinculadas al análisis de datos son hijas de algún modo de las ciencias sociales clásicas. Sin embargo en ellas se opera básicamente mediante la muestra y la estadística, partiendo de unas categorías generales de estudio que posteriormente se aplican sobre los campos a estudiar, extrapolando el resultado de esa muestra, a modo de factor de cálculo.

Sin embargo, el paradigma de la estadística, está en parte obsoleto: puede ser útil en determinados casos, pero en lo esencial, está siendo substituido por los propio Big Data, o por lo que ya Gilles Deleuze denominó lógica de la repetición. En Repetición y diferencia, Deleuze, ya en 1969 expone la génesis de esta idea:

“La generalidad [en la que se basearía la estadística]presenta dos grandes órdenes, el orden cualitativo de las semejanzas y el orden cuantitativo de las equivalencias. Los ciclos y las igualdades son sus símbolos. La generalidad expresa un punto e vista según el cual un término puede ser intercambiado por otro, sustituido […]por el contrario la repetición [en la que se basan los Big Data] concierne a una singularidad incambiable e insustituible. No es añadir una segunda y tercera vez a la primera, sino llevar la primera vez a la enésima potencia“.

 

es decir, la repetición se opone a la generalidad. Y no se opone simplemente como mera alternativa, sino cuestionando la legitimidad misma de las operaciones de la generalidad. En qué sentido? La generalidad, nos dirá, no es tan inmediata como la repetición; la repetición es creadora, paradógicamente, de originalidad, porque los nuevos conceptos que produce, la nueva información generada en la lógica de la repetición, no está mediada por un concepto más amplio que la permita, no se subordina a la generalidad del concepto, sino que acontece, un nuevo item, un nuevo elemento, junto a su predecesor, mediando entre ellos no más que un parecido, una imitación, un robo, una donación: el nuevo elemento aparece en la serie en virtud solamente del anterior, sin necesidad de declararse previamente ante una posible categoría general a la que pertenece, para después descender a su puesto en la serie.

No estamos hablando de algo tan extraño. Es lo que sucede, también, en las cadenas de bloques de Blockchain por ejemplo. Cómo se calcula un nuevo bloque? Cómo surge el bloque mismo? Cada nuevo elemento de la cadena depende del anterior, no se deduce desde una generalidad previa, superior; sino que depende estrictamente de lo que le precede, pero en una misma serie, por iteración. La iteración será, precisamente, el concepto que de hecho emplea Jaques Derrida para explicar algo muy semejante a lo que nos explica Deleuze (J. Derrida, La Différance).

Además de la diferencia lógica, entre los dos tipos de proceder: el generalista o estadista, frente a la repetición o la iteración, hay que precisar sobre todo, sus consecuencias cognitivas y metodológicas: cómo afecta a nuestra forma de trabajar con la información, incluso nuestra forma de pensar. Una de las características más destacables es que en la repetición el patrón no existe previamente. Mientras que en la estadística y en la generalidad, somos nosotros previamente (l@s investigador@s) quienes escogemos las características que vamos a estudiar, y sobre ellas aplicamos nuestras encuestas, nuestro muestreo, etc. en la lógica de la repetición y la iteración es al contrario, vamos vacíos, abiertos, sin-generalidades, esperando ver qué posibles patrones de repetición encontrarnos en el medio que estudiamos.

Si la repetición es posible, es más bien debido al milagro que a la ley

G. Deleuze, Repetición y Diferencia, 1969.

Es por eso que la repetición tiene que ver directamente con la minería; y la minería con un espacio topológico en el que no conocemos (en el que desconocemos) previamente qué puede pasar. Pero no solamente hay una incertidumbre de valores, como en la estadística, es decir, no solamente desconocemos qué porcentajes aparecerán tras nuestra investigación, sino que desconocemos incluso aquello que buscamos, podemos encontrar prácticamente cualquier cosa; también nada. Y en este sentido es topológica, describe un espacio de volumen inmanente, no un espacio previamente estructurado que los datos llenan, sino un espacio continuum sobre el que irán apareciendo conexiones, posibilidades, patrones, algoritmos. Este es en definitiva el devenir masivo de los datos, que hace referencia al carácter inercial de la información, un carácter incontrolable y su comportamiento topológico. Al volverse masivos, los datos describen tendencias, necesitamos ver todos los datos, no una muestra de ellos, para ver precisamente cómo varían, en tramos que todavía desconocemos, en torno a nuevos focos, nuevos espacios que recorren, nuevas relaciones entre ellos o entre fuentes que antes despreciábamos, para aprender así a reubicarlos, a ver cómo generan ellos nuevos tags en vez de la estructura previa a la que estábamos acostumbrados, incluso en las bases de datos SQL antes de la utilización de los Big Data.

“Los índices tradicionales estaban predefiinidos, y eso limitaba lo que uno podía buscar. Para añadir un índice nuevo, había que crearlo desde cero, lo que requería un tiempo. Las bases de datos clásicas, las llamadas bases de datos relaciones, están pensadas para un mundo en el que los datos son escasos, por lo que pueden seleccionarse con mucho cuidado […] Ahora disponemos de grandes cantidades de datos, de clase y calidad variables. Raras veces encajan en alguna de las categorías definidas con precisión que se conocen de antemano. Y las preguntas que queremos hacer a menudo surgen sólo cuando recogemos los datos y empezamos a trabajar con ellos” 

Mayer-Schonberger y Cukier. Big data, La revolución de los datos masivos, 2013

Los Big Data no muestran causas, en ellos podemos descubrir patrones, generar algoritmos, percibir correlaciones insospechadas entre parámetros; pero estas relaciones nunca llegarán a alcanzar el estatus tradicional de “causa”. Una vez más, mediante el lenguaje deleuziano, podemos también explicarlo. Los datos masivos nos proporcionan entornos casi-causales (Deleuze, Lógica del sentido), donde la información describe líneas, trendings… que empujan, como también ya describió Leibniz, sin suponer necesidad de esas relaciones. Crean por tanto el campo previo sobre el que pensar, sobre el que establecer correlaciones, su carácter masivo es por tanto esta fuerza que nos incita a ver el qué sin necesidad de hacer hipótesis sobre un porqué hipotético.