¡No te pierdas nuestro contenido!

Cuando de datos se trata: Google. Nos guste o no, la empresa de Mountain View ha hecho de la minería de datos uno de los negocios más rentables hoy en día. Gracias a ello se sostiene, quizá, como el mayor distribuidor de spam anuncios en línea del planeta. Por otro lado, Google suele ofrecer a sus usuarios excelentes herramientas, tanto para la investigación profunda --Scholar, es indispensable en la academia-- como para la exploración ocasional. En este sentido, quiero hablarles de Google Books Ngram Viewer, una nueva herramienta de búsqueda que reúne esas dos características.

Creo que ya todos sabemos que Google, a pesar de las críticas, ha pasado los últimos años digitalizando buena parte de la cultura de la humanidad depositada en miríadas de libros. De hecho, capturó 5.2 millones de libros, publicados entre 1500 y 2008, en idioma inglés, francés, español, alemán, chino y ruso. Pues no sólo los ha escaneado y enviado a un disco duro: ha construido una monumental base de datos, gratuita, con 500 mil millones de términos obtenidos de esos libros.

¿Qué hace exactamente Google Books Ngram Viewer?

  1. Lee una serie de términos separados por comas --n-gramas, específicamente--.

  2. Lee un rango establecido en años.

  3. Lee un corpus elegido por el usuario: la base de datos. Hay 10 disponibles.

  4. Lee un factor de precisión (smoothing) entre 0 y 50, con 3 como valor por defecto. Mientras más grande sea el factor, más "suave" es la curva de la gráfica.

  5. Entrega una gráfica con la frecuencia de los términos de búsqueda a lo largo del corpus y los años elegidos.

Pongamos por caso el término "Artificial Intelligence" en el corpus "English" durante la última mitad del siglo XX. Abajo muestro la gráfica resultante: es un asomo histórico-cuantitativo a la evolución de la Inteligencia Artificial. Noten que a finales de los 80's disminuye el interés en el área, el cuál parece establecerse 10 años después.

Ahora algo más interesante. Pongamos a competir "Artificial Intelligence" versus "Robot". Esta vez noten que ambos términos están correlacionados.

Dejo en sus manos mejores ejemplos. Diría que con su imaginación y curiosidad "el cielo es el límite", pero no me viene bien ser cursi... Por ahora.

Foto: Andrew Turner