Big data: ¿De qué se trata?

Big data: ¿De qué se trata?
Por:
  • larazon

Blanca Heredia

Big data es una realidad que no se refiere, simplemente, a “mucha” información. Se refiere, más bien y según lo explican con gran claridad y elocuencia Cukier y Mayer-Schoenberger en su artículo The Rise of Big Data en el número de mayo-junio de este año de Foreign Affairs, a una realidad nueva en materia de información: más información disponible que nunca antes en la historia y usos novísimos de esa información.

Para dimensionar de qué estamos hablando, Cukier y Mayer-Schoenberger ofrecen la siguiente analogía. En el siglo 3 antes de Cristo, la Biblioteca de Alejandría contenía lo que se pensaba era la suma total de todo el conocimiento humano. La información de la que disponemos actualmente en el mundo equivale a 320 Bibliotecas de Alejandría (1200 exabytes) para cada uno de los 7 mil millones de habitantes que viven hoy en el planeta tierra. Si esa información se grabara en discos compactos, alcanzaría para hacer 5 columnas de discos compactos de aquí a la luna (¡!).

La realidad que denota la expresión Big Data alude así, en primer término, a esa cantidad absolutamente masiva y sin precedente de información a la que hoy podemos acceder y sistematizar. Habría que añadir, por otra parte, que ese volumen gigantesco de datos está creciendo a velocidades igualmente impresionantes. Por citar sólo un dato: la mitad de toda la información hoy disponible en internet fue creada en los dos últimos años.

Este crecimiento exponencial tiene mucho que ver con el internet, pero también con la cuantificación y “datificación” de información que antes no se contaba y almacenaba (ejemplo: localización geográfica de una gran diversidad de objetos). Los autores del artículo citado señalan, sin embargo, que el volumen masivo y el crecimiento exorbitante de la información disponible son tan sólo una de las características que definen al fenómeno.

El otro atributo central de Big Data tiene que ver con el impacto de esa masividad informacional y la tecnología asociada con su manejo sobre la forma en la que se procesa y emplea la información. Los cambios más importantes, al respecto, son dos. Primero, tras siglos de operar con pocos datos dado el alto costo de obtenerlos, hoy, en muchos ámbitos, disponemos de la totalidad (o casi) de los datos sobre una enorme diversidad de variables.

Segundo, la masividad informacional ha impulsado un cambio en la manera de analizarla, misma que básicamente consiste pasar de modelos analíticos causales a modelos de análisis centrados en correlaciones probabilísticas.

Estos nuevos modelos están la base, por ejemplo, del traductor de Google y otros similares, los cuales operan estimando la probabilidad de que ciertas palabras sigan o antecedan a otras sobre la base del orden de las palabras contenidas en millones de textos digitalizados. También están en la base de los sensores que usa UPS en sus vehículos para anticipar cuando pueden descomponerse.

Big Data está revolucionando ya la forma en la que operan las empresas, la actividad científica y partes crecientes del gobierno —seguridad, en particular— en los países desarrollados. ¿Y en México...…estamos haciendo algo en relación a esta nueva realidad?

bherediar@yahoo.com