Desarrollo de un modelo basado en extracción de características del texto para clasificar comentarios de opinión en lengua española según su polaridad

Proyecto de investigación No.: 
326-B6-175

Estado:

Edgar Casasola (Investigador principal)

Gabriela Marín

Antonio Leoni de León

Descripción: 

Vigencia: 12/01/2016 al 31/12/2016

En las investigaciones más recientes en el campo del "análisis de sentimiento" los métodos más utilizados para clasificación de textos cortos por polaridad utilizan modelos de clasificación supervisados (Kiritchenko et al, 2014). Para utilizar métodos de clasificación de este tipo es necesario “transformar” los textos cortos originales en “vectores con las características" para su procesamiento en las etapas de entrenamiento y clasificación. Al hablar de "característica" nos referimos a lo que en inglés se denomina como “feature”. 

Se propone crear un modelo basado en identificación, extracción y representación de características de textos cortos mediante el uso de corpus polarizados para clasificación por polaridad. Los textos cortos provenientes de redes sociales son transformados en vectores de "dimensión reducida" para llevar a cabo el entrenamiento y clasificación de una forma computacionalmente efectiva. El modelo propuesto utilizará las características asociadas a: la forma superficial del texto, algunas características sintácticas, y la polaridad de estos en léxicos de propósito específico. Esas características y los léxicos se usarán para producir vectores de representación "indirecta" de características.

La idea es entrenar los clasificadores con vectores de dimensión reducida en lugar de vectores con alta cantidad de entradas. La reducción de dimensión hace computacionalmente práctico el uso de estos modelos de clasificación (Baeza­Yates, 2011).

Objetivo general

Desarrollar un modelo basado en extracción de características del texto para clasificar comentarios de opinión en lengua española según su polaridad.

Impacto del proyecto:

Aporte de nuevo conocimiento:

Como producto de este trabajo se obtendrá un método de representación del texto que permitirá desarrollar clasificadores de polaridad efectivos para el español. Características del texto como los énfasis de forma, las partículas de negación, algunos conectores, y las categorías lingüisticas son las posibles características potenciales cuyo uso en la clasificación de polaridad será evaluada.

Desarrollo tecnológico:

Conocer las formas de trabajar con texto para clasificación tiene un impacto aún mayor en el campo de Procesamiento de Lenguaje Natural. Por esta razón, indirectamente se tendrá un impacto a mediano plazo en las empresas de desarrollo de software que quieran desarrollar tecnologías del lenguaje ya que se contará con conocimiento a nivel nacional para tal efecto. Y a largo plazo se beneficia a los usuarios de tecnologías del lenguaje en español.

Visualización internacional:

Esta visualización se llevará a cabo dado que se someterán los resultados al Taller de Análisis de Sentimiento de la Sociedad Española para Procesamiento de Lenguaje Natural ­ TASS 2016, a celebrarse en Salamanca España en Setiembre 2016.

Además se estableció en forma directa que uno de los objetivos específicos de la investigación es divulgarár resultados en publicaciones internacionales. Se pretende llevar a cabo publicaciones en revistas y conferencias de alto impacto a nivel internacional.

Cabe aclarar que actualmente somos el primer grupo de investigación fuera de España en participar en la competencia TASS 2015 y pretendemos consolidar nuestra participación el año 2016.

Impacto académico:

Este proyecto es parte de las Actividades Sustantivas de la Escuela de Ciencias de la Computación e Informática.