La digitalización masiva de libros, unida a técnicas cada vez más complejas de análisis de datos, permite realizar estudios de todo tipo, como por ejemplo la densidad de vocabulario de un texto.
El investigador Zack Booth Simpson realizó en el año 2000 un estudio, basándose en manuales digitalizados por el Proyecto Gutenberg: en cada libro contó el número total de palabras y la cantidad de palabras diferentes, es decir, el ‘tamaño’ de su vocabulario. Por supuesto, los textos más voluminosos contenían mayor número de palabras, pero ¿mayor variedad de ellas? La medida relevante de la riqueza del vocabulario es su densidad, es decir, el cociente del número de palabras diferentes entre el número total de ellas.
¿Y cuál resultó ser el libro más rico en vocabulario? Moby Dick de Herman Melville: con 17.227 palabras diferentes para un total de 211.763 –el cociente es 0,0813–; esto significa que Melville introduce una nueva palabra ¡en casi todas las líneas!
Este gráfico –extraído y adaptado del blog ‘Science Étonnante’– resume algunos datos del estudio de Zack Booth Simpson:
El libro menos rico en vocabulario es La Biblia: 12.867 palabras diferentes para 790.126 totales –el cociente es 0,0163–: posee una densidad cinco veces menor que Moby Dick.
Más recientemente, el lingüista Matthew Jockers ha estudiado una base de datos de 3.600 libros digitalizados, para los que ha calculado cerca de 500 características diferentes basadas en el vocabulario, la puntuación, los temas tratados, etc. Todas estas propiedades definen coordenadas para cada libro, y es posible calcular ‘la distancia’ entre dos libros en este espacio de dimensión tan grande.
Imagen de Matthew Jockers, University of Nebraska-Lincoln, tomada de Future Tech
La anterior imagen muestra una representación de cómo funciona esta distancia entre libros: si dos puntos están cerca, los libros que representan se parecen en muchos de los aspectos estudiados. En el pequeño grupo destacado en la esquina superior izquierda se sitúa Moby Dick y los pocos libros que le son próximos.
Nota: La novela Moby Dickde Herman Melville se publicó en 1851. Narra el viaje del barco ballenero Pequod en su obstinada persecución de una gran ballena blanca. El texto incluye minuciosas descripciones de la caza de ballenas en el siglo XIX y gran abundancia de detalles sobre la vida marinera de aquella época.
Visto en Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…), Science Étonnante, 4 de febrero de 2013.
Sobre la autora: Marta Macho Stadler es profesora de Topología en el Departamento de Matemáticas de la UPV/EHU, y colaboradora asidua en ZTFNews, el blog de la Facultad de Ciencia y Tecnología de esta universidad.
Fuente:
Cuaderno de Cultura Científica
2 comentarios:
La grandiosidad de Melville
La grandiosidad de Melville
Publicar un comentario