Software ayuda a conocer el contenido de
obras literarias extrayendo palabras clave
Colombia.com
(19/Mar/2008): Se trata de un
software al que se le introduce el texto
sacado de Internet, y automáticamente
reproduce un listado de palabras clave del
libro, aquellas que más importancia tienen
dentro del relato.
Así el usuario
puede hacerse una idea de lo que trata la
obra. El invento es aplicable a todo tipo de
géneros literarios, incluso a textos
científicos.
El software es
una invención de un grupo de investigadores
de la Universidad de Málaga (UMA) que ha
conseguido hacerlo mediante un programa
informático diseñado por ellos mismos.
En pocas palabras
Por ejemplo si
introducimos 'El origen de las especies', de
Charles Darwin, el programa hace un listado
de palabras como: 'selección', 'natural',
'diversidad' o 'especie'; por orden de
importancia. Así, viendo los 15 ó 20
términos más relevantes se sabe el contenido
sobre el que el libro puede versar. «La
herramienta ha sido probada en varios
idiomas y funciona», comenta el investigador
principal, Pedro Juan Carpena, profesor del
Departamento de Física Aplicada II de la UMA.
De esta manera,
la aplicación podría ser utilizada en los
buscadores de Internet como 'Google' a la
hora de seleccionar información. Así, se
evitaría que en una búsqueda aparecieran
todos los artículos que contienen una
palabra, y se visualizarían sólo aquellos en
los que ese mismo término funciona en el
texto de manera relevante.
Según cuenta
Carpena, está técnica se ha logrado gracias
a una teoría matemática que viene a decir
que las palabras importantes de un documento
se distribuyen de una manera determinada.
«Los artículos o las conjunciones aparecen
de manera aleatoria, sin embargo los
términos importantes aparecen agrupados,
cada cierto tiempo; es como si entre ellas
se atrajesen», explica.
Estos investigadores malagueños han dado un
paso más y ahora quieren aplicar su invento
al ADN humano. Éste está formado por cuatro
tipos de nucleótidos: adenina (A), guanina
(G), citosina (C) y timina (T). Así, las
distintas combinaciones de estos elementos
son consideradas por los científicos como un
texto cualquiera. Eso sí, el problema es que
aquí no hay espacios que determinen dónde
empieza una 'palabra' y donde acaba.
Para salvar este
obstáculo aplicarán la propiedad matemática
con todas las longitudes posibles desde 1 a
25 caracteres y después las contrastarán. De
esta manera, pretenden averiguar cuáles son
las combinaciones de nucleótidos que
contienen la información más importante
dentro del ADN humano.
En el equipo de
investigación participan, además de
profesores de la Universidad de Málaga,
especialistas en genética de Granada y
Alemania. El proyecto está subvencionado por
la Consejería de Innovación, Ciencia y
Empresa con más de 170.000 euros.
Con información
de Sur.es |