











Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Prepara tus exámenes
Prepara tus exámenes y mejora tus resultados gracias a la gran cantidad de recursos disponibles en Docsity
Prepara tus exámenes con los documentos que comparten otros estudiantes como tú en Docsity
Los mejores documentos en venta realizados por estudiantes que han terminado sus estudios
Estudia con lecciones y exámenes resueltos basados en los programas académicos de las mejores universidades
Responde a preguntas de exámenes reales y pon a prueba tu preparación
Consigue puntos base para descargar
Gana puntos ayudando a otros estudiantes o consíguelos activando un Plan Premium
Comunidad
Pide ayuda a la comunidad y resuelve tus dudas de estudio
Descubre las mejores universidades de tu país según los usuarios de Docsity
Ebooks gratuitos
Descarga nuestras guías gratuitas sobre técnicas de estudio, métodos para controlar la ansiedad y consejos para la tesis preparadas por los tutores de Docsity
El resumen automático es una herramienta importante para acceder a la información en internet, que se utiliza para generar resúmenes de textos, voz, gráficos y otros formatos. Este documento aborda la historia, los tipos y los desafíos de la generación automática de resúmenes, incluyendo el idioma, el género y el formato de entrada y salida. Además, se presentan ejemplos de herramientas y recursos relacionados.
Qué aprenderás
Tipo: Apuntes
1 / 19
Esta página no es visible en la vista previa
¡No te pierdas las partes importantes!
Bernardo Garcés Chapero (bernardo.garces) Grupo 33 2008/2009 Q
También es un ejemplo de resumen la información que aparece en algunos blogs sobre los temas principales de los que se habla, con enlaces a las entradas de interés.
El resumen automático es pues, la técnica que se utiliza para generar resúmenes de una o varias fuentes mediante un programa informático.
Las primeras muestras de interés hacia la elaboración de resúmenes automáticos aparecen en los años 60 en algunas bibliotecas de EEUU, donde querían indexar digitalmente el contenido de la biblioteca para facilitar su busqueda. Al existir restricciones en el volumen de almacenamiento disponible, era imposible almacenar la totalidad de los documentos, por lo que se hacia necesario almacenar pequeños resúmenes de estos para que quien los consultara pudiese conocer más acerca de ellos. Si bien algunos documentos ya disponían de un resumen para poder utilizarse en este caso, otros no lo tenían, y esto hacia que se despertase el interés por técnicas que permitiesen hacer resúmenes automáticos de las fuentes que no disponían de uno. Durante los siguientes 30 años se continuo usando y evolucionando esta técnica en otros ámbitos, pero no es hasta los años 90, con la expansión de la World Wide Web y la aparición de innumerables fuentes de información, cuando los resúmenes automáticos cobran mayor importancia. Sin embargo, la situación actual es completamente diferente a la de los años 60, pues a diferencia de aquel entonces, ahora la capacidad de almacenamiento es mucho mayor debido a que la unidad de almacenamiento es mucho más barata, y esto es algo que seguramente irá en aumento. Por eso, el problema actual es el de filtrar la abundante información disponible en pequeños resúmenes para que esta pueda ser abordable. De ahí la importancia que cobran en estos momentos las técnicas de resumen automático.
Si bien es cierto que hay una serie de propiedades deseables en un resumen, no todos los resúmenes tienen las mismas necesidades. Hay diferentes variables o criterios que hay que considerar a la hora de hacer un resumen automático de una fuente, como por ejemplo la persona a la que va dirigido, el dispositivo que lo reproducirá, el medio de donde se extrae (con su tipo de datos, su idioma, la diversidad de fuentes), etc. Esto provoca que en ocasiones sea necesario que el resumen se ajuste a las necesidades individuales del momento, y que por lo tanto se generen diferentes resúmenes para unas mismas fuentes de entrada. Casos como estos, los podemos representar en las necesidades de los diferentes cargos de una compañía ficticia, donde un alto cargo como el presidente de la compañía puede necesitar un muy breve resumen de datos económicos, de un extenso mail o documento, para que le llegue a su reducido teléfono móvil y el pueda leerlo para tomar una decisión. Por otra parte, un jefe de proyecto de esa misma compañía puede necesitar un resumen de esa misma fuente en la que se detallen los recursos necesarios para llevarlo a cabo. En general, las propiedades que debe tener un resumen varían para cada persona y situación, lo que hace que las posibilidades sean infinitas.
le es familiar y espera obtener un resumen en un dominio mas general. Esta característica será útil para poder orientar el resumen a una audiencia especifica.
También se tendrán que tener en cuenta las necesidades de la persona o el sistema que solicite el resumen cuando se trate de decidir la naturaleza de los datos que deben extraerse. Es posible que de todo el contenido de una fuente, solo se precisen datos relacionados con precios, o datos relacionados con otro tipo de referencias.
Los resúmenes automáticos no tienen por que tratar solamente con fuentes textuales, la gran variedad de formatos de datos existentes en la red y en otros medios hacen interesante el hecho de que existan formas de realizar resúmenes automáticos de todo tipo de contenidos, ya sean documentos de texto, grabaciones de voz, gráficas de las que extraer conclusiones, tablas de las que extraer datos o cualquier tipo de elementos multimedia que contengan información susceptible a ser tratada y resumida. Sin embargo, cada uno de los medios utilizados necesitan un tratamiento especifico, por lo que en general, se habla de resumen automático cuando se esta tratando texto.
Si bien se debe poder generar un resumen a partir de cualquier formato de fuentes, también se debería poder generar el resumen en un formato adecuado a las necesidades del que lo solicita. Un buen ejemplo de formato de salida diferente al texto, podría ser la posibilidad de generar resúmenes en formato de audio para aquellas personas con discapacidades visuales, también puede ser útil que el contenido viniese en una tabla o en un gráfico, ya que estos últimos pueden ser considerados como formas de resumir el contenido.
Dependiendo de las exigencias o necesidades de la persona, el sistema o el dispositivo que requiera el resumen, será necesario que este se ajuste a un volumen adecuado. Por ejemplo, un teléfono móvil de tamaño reducido necesitará que el resumen sea corto para que se pueda leer de forma cómoda, mientras que un resumen destinado a ser visualizado en una pagina web puede tener mayor tamaño. A la relación entre el tamaño del resumen generado y el tamaño total de la fuente o fuentes a resumir se le llama grado de compresión, y este puede variar del 0% al 100%. Para ilustrar a que hace referencia ese porcentaje, hay que considerar que un resumen con grado de compresión del 1% sería el que deseche el 99% del volumen total de la fuente, mientras que un resumen con grado de compresión del 99% sería el que escribe el contenido de la fuente prácticamente en su totalidad. Esta característica puede ser también útil para generar titulares a partir de una fuente, pues seleccionando un grado se compresión alto (cuanto más bajo sea el número, mayor el grado de compresión) se pueden obtener porciones muy pequeñas que no superen el tamaño de una frase.
Esta característica es importante para indicar si lo que se busca es una resumen guiado por una consulta realizada o se busca un resumen más genérico. Los resultados que se reciben de una búsqueda en Google son un ejemplo de resumen guiado por una consulta.
Según el propósito que se tenga, será necesario un tipo de resumen u otro, entre los tipos de resumen conocidos tenemos:
El proceso de minería de texto, rama de la minería de datos, es aquel por el cual se intenta obtener información nueva de alta calidad a partir de textos. Esta información se obtiene tras derivar el texto a partir de ciertos patrones, tendencias o datos estadísticos, siendo necesario en ocasiones estructurar el texto de origen para poder proceder a la obtención de datos. La minería de texto esta altamente relacionada con el tratamiento del lenguaje natural, y es también en ocasiones un campo clave en la obtención de información para poder generar resúmenes automáticos.
Otro campo que esta fuertemente ligada y en actual desarrollo junto con el tratamiento del lenguaje natural es la traducción automática o MT (Machine Translation). Los avances de este campo, se producen en paralelo junto con los del tratamiento y generación del lenguaje natural, pues al igual que en el caso del resumen automático, aquí también son necesarios los procesos de comprensión, transformación y generación del lenguaje natural. La importancia de este campo en el resumen automático viene dada por la necesidad que puede existir de obtener resúmenes en un idioma diferente al de la fuente, algo de agradecer por parte de usuarios que no conozcan el idioma.
Existen dos posibles formas de proceder o enfoques cuando se intenta generar un resumen automático, la extracción y la abstracción. Por otra parte, también hay que considerar los resúmenes que no son completamente automatizados.
El más simple de los enfoques es el de la extracción, que trata las fuentes como un conjunto de frases. Para llevar a cabo el proceso de extracción, el primer paso es identificar las frases más relevantes de las fuentes. Para proceder en esta fase se pueden utilizar criterios de selección basados en métodos estadísticos y otros tipos de heurísticos durante el tratamiento de la fuente, también puede resultar útil tener en cuenta las colisiones entre diferentes fuentes como indicativo de la bondad de la frase. En segundo lugar y a partir de los fragmentos extraídos previamente, hay que generar un resumen procurando perder la menor cantidad de información posible y evitando la redundancia. Por último, pueden aplicarse tratamientos posteriores al resumen para conseguir un texto coherente y bien cohesionado, uniendo los diferentes fragmentos o completando frases que puedan haber quedado incompletas.
Los resúmenes por abstracción suponen un reto mucho mayor que el de los resúmenes por extracción, ya que las técnicas de tratamiento del lenguaje natural empleadas en estos son mucho más sofisticadas. Esto es debido a que los resúmenes por abstracción no se limitan a extraer fragmentos relevantes de un texto, sino que analizan el texto con mayor profundidad para poder comprenderlo y poder generar un nuevo resumen a partir de la información analizada de la fuente. Si el hecho de que exista la necesidad de comprender el texto de forma más profunda ya hace que el problema sea más difícil, a esto se le añade la dificultad de generar texto desde cero a partir de una base de conocimiento. El resumen por abstracción es por lo tanto similar al método que emplearía un ser humano para hacer un resumen propio de un texto, y la dificultad de reproducir ese método por un ordenador es lo que hace que los métodos de extracción sean los que han conseguido avances mas significativos. Será pues necesario esperar a que mejoren los métodos de tratamiento y generación de lenguaje natural para obtener aplicaciones que puedan conseguir buenos resúmenes por este método.
Dada la dificultad de generar resúmenes completamente automáticos o FAS (Fully Automated Summarization), existen otros métodos que no están completamente automatizados y buscan que el usuario intervenga en el proceso de generación del resumen de una forma u otra.
Ahora que ya se ha expuesto la información necesaria para conocer los aspectos básicos de un resumen automático, el siguiente paso es conocer las técnicas que se emplean para conseguir generarlos. Estas técnicas se dividen en tres familias distintas, las que se basan en un análisis superficial del texto (no aplican análisis lingüístico), las que se basan en entidades nombradas en el texto (aplican reconocimiento y clasificación del léxico utilizado) y las que se basan en la estructura discursiva del texto (utilizan un tratamiento estructural del texto).
Los tratamientos superficiales tratan la fuente como si de una cadena de caracteres se tratase. Hay que decir que aunque a esta familia de técnicas no se le atribuye la realización de un análisis lingüístico del texto, no es del todo cierto que eso sea así, pues el simple hecho de fragmentar el texto en oraciones ya supone un análisis lingüístico mayor que el de separar el texto entre una letra mayúscula y un punto, esto es así porque existen letras mayúsculas y puntos que no indican el principio o el final de una oración (por ejemplo U.R.S.S). Es por eso que es necesario disponer de cierto conocimiento lingüístico y aplicarlo para poder identificar y filtrar los casos en los que los signos de puntuación o las mayúsculas no delimitan una frase. Un ejemplo de esta técnica, consiste en seleccionar los fragmentos más relevantes que se encuentran en la fuente aplicando operaciones de calculo sobre estos, como puede ser el usar aquellos que contengan las palabras que están siendo usadas en el texto con mayor frecuencia. Por ejemplo, se podrían seleccionar los fragmentos de texto que empiezan por una letra mayúscula y acaban con un punto y que contengan las palabras con mayor frecuencia de aparición en la fuente, de esta forma se obtendrían las frases que superficialmente pueden ser más relevantes y aptas para el resumen. Otro ejemplo de esta técnica, sería el de seleccionar los fragmentos de la fuente considerando la posición en la que se encuentren dentro de ella. Dependiendo del tipo y genero de la fuente, las posiciones a las que se les dará más relevancia pueden variar, mientras que en una noticia se le dará especial importancia al titular, a las entradillas y a las citas, en un articulo científico se valorará más el resumen abstracto, las conclusiones y la bibliografía. También puede aumentarse la relevancia de un fragmento de texto si en el se encuentran ciertas palabras o cadenas de palabras clave en su contenido.
La familia de técnicas basadas en entidades ya utilizan un mayor nivel de análisis lingüístico que las técnicas de análisis superficial. Estas ya contemplan tratamientos que permiten reconocer unidades lingüísticas dentro de la fuente, para ello emplean analizadores morfológicos, gracias a los cuales pueden reconocer nombres, verbos, adjetivos, etc. También utilizan desambiguadores léxicos, ya que una misma palabra puede pertenecer a más e una categoría y hay que poder desambiguarlo (por ejemplo “sano” puede hacer referencia a un adjetivo o a la primera persona del presente de indicativo del verbo sanar). También es importante detectar palabras diferentes que pertenecen al mismo concepto (por ejemplo dos formas verbales distintas de un mismo verbo), para ello utilizaremos
herramientas que se encargan de separar la raíz de las palabras para trabajar con ella en vez de con la palabra original, estas herramientas son conocidas como herramientas de lematización o stemming. Todos estos métodos de análisis y otros más son aplicados a la fuente para poder conseguir análisis más sofisticados tanto de tipo sintáctico como semántico. Una vez se tiene conocimiento de las diferentes entidades existentes en la fuente, pueden empezar a detectarse relaciones establecidas entre ellas, como la recurrencia de formas o lemas, relaciones semánticas o también relaciones temáticas entre otras. Con todo ello, ya será posible construir una representación de conectividad del texto, de forma que se pueda determinar los fragmentos de texto que son especialmente relevantes y que pueden ser buenos candidatos a formar parte del resumen que se pretende generar. Como se ha podido observar, estos técnicas presentan mejoras evidentes sobre los de análisis superficial, sin embargo, para poder emplearlas, son necesarios volúmenes de conocimiento enormes con una gran labor de investigación detrás de ellos, como pueden ser bases de conocimiento léxico, reconocedores de entidades o sistemas de resolución de referencias anafóricas. Esto hace que la mayoría de aplicaciones de este tipo de técnicas se encuentren dentro del ámbito de la investigación y no en el de los productos comerciales como ocurre con las técnicas basadas en el análisis superficial.
Estas técnicas existen con la intención de aprovechar al máximo lo que puede proporcionarnos la estructura de las fuentes para obtener conocimiento para generar el resumen. Un buen ejemplo de empleo de este tipo de técnicas es el de intentar extraer información contenida en un documento construido con un lenguaje de marcas como podría ser XML. El hecho de que exista una estructura bien definida donde aparezca el contenido, es de gran utilidad para que se pueda aprovechar el conocimiento que se tiene sobre esta estructura y extraer la información más relevante. En el caso de HTML, es posible aprovechar el contenido que encierran las etiquetas y
conocida como ROUGE (Recall-Oriented Understudy for Gisting Evaluation), que ha sido presentada por el NIST (National Institute of Standard and Technology) y llevada a cabo por grupos de investigación. Esta métrica consiste principalmente en calcular solapamientos entre los resúmenes generados automáticamente y las fuentes originales de estos resúmenes. Un alto nivel de solapamiento debería indicar un alto nivel correspondencia entre los conceptos de ambos documentos. Sin embargo, esta métrica tiene los problemas clásicos que ya se han discutido, como la incapacidad de comprobar la coherencia o la cohesión del resumen generado.
Con todo lo visto hasta ahora sobre la evaluación de resúmenes automáticos, es el momento de presentar los dos enfoques básicos para llevarla a cabo, estos enfoques son el intrínseco (que no tiene en cuenta la audiencia a la que va dirigida) y el extrínseco (que tiene en cuenta la audiencia a la que va dirigida). Es importante diferenciar entre ambos, pues como se ha comentado anteriormente, los resúmenes son algo altamente dependiente de a quien va dirigido y conviene separar los conceptos para que resulte más fácil identificar las propiedades que se deben evaluar y como deben evaluarse.
El enfoque intrínseco intenta evaluar el resumen sin considerar la audiencia a la que este va dirigida. Para lograr este objetivo, se intenta dar mayor peso a aspectos como la coherencia o lo informativo del resumen generado. Es común pues, llevar a cabo la evaluación comparando los resúmenes generados con modelos reconocidos de aquellos aspectos que un resumen de calidad deba presentar. Estos modelos reconocidos, suelen ser resúmenes de referencia generados por sistemas de generación de resúmenes automáticos que gozan de reconocimiento, o directamente por equipos de investigación humanos. Algunas de las propiedades a evaluar y como se procede para llevarlo a cabo son las siguientes. 6.3.1.1 Coherencia Los problemas de coherencia en los resúmenes vienen dados por el hecho de utilizar métodos de extracción en lugar de abstracción para generarlos, esto es así porque al sacar fuera de su contexto a una frase, es posible que esta deje de tener sentido en el lugar donde se introduzca como resultado de referencias anafóricas mal resueltas. 6.3.1.2 Informativo Para evaluar lo informativo que puede ser un resumen aparecen varios métodos, uno de ellos consistiría en calcular el ya comentado nivel de retención para dar un resultado de cuanta información de la fuente mantiene el resumen, otro posible método sería el de comparar el resumen generado con un resumen de referencia sobre el mismo tema y evaluar cuanta información de este aparece también en el resumen generado.
6.3.1.3 Precisión También puede evaluarse cuantas frases del resumen de referencia aparecen en el resumen generado, sin embargo, este método tiene inherente el problema de no poder diferenciar conceptos idénticos expresados con diferentes palabras y por lo tanto puede no ser capaz de identificar resúmenes diferentes pero completamente validos ambos. 6.3.1.4 Ranking Otras medidas consisten en evaluar cada una de las fragmentos del resumen de referencia entre un determinado rango de valores y, tras generar el resumen automático, calcular cual es la bondad de este basada comparándolo con el de referencia y obteniendo un valor que viene dado por los rangos de los fragmentos utilizados. Este método ya no tiene la problemática que presenta el anterior, pues diferentes resumen son susceptibles a tener valores de bondad diferentes que hagan que uno sea considerado mejor que otro. 6.3.1.5 Similitud del contenido La última medida expuesta, es la de comparar la similitud del resumen generado con el resumen de referencia, pero con la peculiaridad de que esta comparación se realiza a nivel semántico, por lo que resulta adecuado tanto para resúmenes generados con métodos de extracción, como para los generados por métodos de abstracción. El problema de esta medida, es que al utilizar métodos que van más allá del análisis sintáctico aparecen las dificultades típicas del tratamiento del lenguaje natural, sin embargo, esta es la métrica más útil para la evaluación de resúmenes generados por métodos de abstracción, lo que hace interesante que se continúe investigando sobre ella.
La evaluación extrínseca de un resumen tiene su enfoque en el usuario al que va dirigido el resumen, teniendo más en cuenta la utilidad que este puede tener sobre ese usuario que su calidad como resumen. Una de las formas de evaluar ese aspecto, es asegurarse de que el texto que se usa para el resumen es fácil de entender para el usuario que lo recibe. Algunos de los métodos para la evaluación extrínseca de los resúmenes son los siguientes. 6.3.2.1 Juego de Shannon Este método de evaluación es una variante de las medidas de Shannon en la teoría de la información, el método consiste en intentar evaluar la información intentando adivinar que información viene después. Si se consigue reconstruir fácilmente la información mediante este método indica que será fácil de comprender por parte de un usuario. El problema radica de que este método es altamente dependiente del conocimiento del usuario, que es algo difícil de conocer a priori. Así pues, cualquier cambio ya sea en el conocimiento del dominio o de la lengua en la que se genera el resumen alteraría el resultado de forma notable. 6.3.2.2 Test de preguntas Este otro método de evaluación intenta medir lo que los usuarios han entendido del
La bibliografía principal que se ha utilizado en el desarrollo de este documento es: