domingo, 6 de abril de 2014

Patrones de estilo

Cuando en abril de 2013 se publicó en Londres la novela "The Cuckoo's calling" de Robert Galbraith, las 1500 copias vendidas no resultaron llamativas. Pero en julio Amazon señaló que, en apenas 24 horas, el libro había subido más de 5000 posiciones en su ranking de ventas. Fue después que J.K. Rowling, autora de la saga Harry Potter, confirmara que era ella quien se escondía tras ese seudónimo.
Lo curioso es que ese anuncio se hizo luego de que dos académicos, apoyados en técnicas de estilometría forense y usando computadoras y análisis estadísticos, señalaran como muy probable que ella fuese la verdadera autora.


Las técnicas empleadas en la estilometría analizan la presencia de determinados patrones gramaticales, que permiten identificar estadísticamente al autor de un texto, en tanto se tengan obras confirmadas para comparar. Se observa, por ejemplo, el largo promedio de las palabras y su "distancia" entre ellas, cuáles son las 100 palabras más usadas, y cuáles grupos de 4 letras aparecen con mayor frecuencia.
En este caso particular, se analizaron ocho obras de cuatro autores, dos por cada uno, más la novela en cuestión. Las comparaciones establecidas señalaron que Rowling ocupaba el primer o segundo puesto en cada una de las cuatro pruebas. Si bien nunca podría señalarse la autoría con un 100% de certeza, sólo hay una posibilidad en 16 de encontrar un autor que pasara todas estas pruebas de similitud sólo por azar.
Aunque puede parecer que esto implica tecnología de punta, este tipo de análisis se viene desarrollando desde el siglo XIX, con aportes de lógicos como DeMorgan, y en los años 60 se usaron para identificar a los autores de ensayos sobre la Constitución de EEUU.
Los detalles de esta historia apasionante se fueron descubriendo con el paso del tiempo, y uno de sus protagonistas lo cuenta en esta reseña, en primera persona, y explicando cómo trabajaron con el software JGAAP.

Distintos medios comunicaron la noticia, en inglés y en castellano, no sólo por los involucrados, o porque el origen de todo fue una publicación anónima en Twitter, también por las sumas de dinero que tuvieron que moverse al final, y sobre todo por el temor de que una tecnología actual pudiera terminar para siempre con los seudónimos y la libertad creativa que implican para los autores reconocidos.

Gracias Nati C. por la referencia!