Palabras que utilizamos todos los días en cualquier ámbito como rápido, lento, bonito, caliente o normal llevan implícita una carga de información que cada vez importa más a empresas y organizaciones. El lenguaje evaluativo, el que se utiliza cada día, es una de las producciones de la lengua que hace que las interacciones comunicativas sean interesantes, ya que aportan información esencial. El análisis de sentimiento es un ámbito que ha recibido gran atención en los últimos años debido al uso masivo de las redes sociales. El uso de estas comunidades virtuales ha generado grandes cantidades de texto evaluativo producido por los usuarios en torno a todo tipo de productos y servicios. Ante el interés que ha despertado el análisis de estos textos, un equipo investigador del Departamento de Filologías Románicas de la URV ha desarrollado una técnica que incluye diferentes métodos matemáticos y lingüísticos y que consigue modelar formalmente los enunciados evaluativos y captar o extraer el sentimiento (o valoración) que hay detrás de estas expresiones lingüísticas de naturaleza difusa. El resultado de su investigación, que se ha realizado en colaboración con el centro de excelencia IRAFM de la República Checa, se ha publicado en la revista científica Mathematics
Para analizar el sentimiento se utilizan herramientas computacionales que detectan y evalúan el lenguaje valorativo, en términos de polaridad, es decir: clasifican automáticamente los textos en función de la connotación positiva o negativa del lenguaje utilizado. Con este análisis se intenta determinar la actitud de una persona con respecto a un tema. La actitud puede ser un juicio o evaluación, su estado afectivo (estado emocional del autor cuando escribe), o la intención comunicativa emocional (el efecto emocional que el autor intenta causar en el lector). El desarrollo de estas herramientas de análisis de sentimiento requiere de modelos formales que puedan describir el lenguaje evaluativo en términos de que una máquina sea capaz de procesar.
Se dice que el lenguaje evaluativo es difuso o vago, ya que es muy difícil delimitar su significado de palabras cotidianas como bien, mal, grande, pequeño, amar, odiar, etc. Por ejemplo, un niño de 5 años puede ser “alto” si mide 130 cm, y un jugador adulto de baloncesto, en cambio, es “alto” si mide 220 cm. Esta variabilidad también puede encontrarse entre culturas: por ejemplo, el significado final del adjetivo “alto” es seguramente diferente en la concepción norteamericana y en la japonesa. Aunque el significado final es diferente, todo el mundo puede entender que “alto” significa valor elevado en una escala de altura. Un modelo para caracterizar esta “borrosidad” en el significado es un modelo difuso, y ésta es la base de la propuesta de esta investigación, encabezada por Adrià Torrens y María Dolores Jiménez, del Grupo de Investigación en Lingüística Matemática del Departamento de Filologías Románicas de la URV, junto con Vilém Novák, de la Universidad de Ostrava, en la República Checa.
Modelar formalmente los enunciados evaluativos y captar o extraer el sentimiento (o la valoración) que hay detrás de estas expresiones lingüísticas es sin duda un reto. Normalmente, para estas tareas se utilizan tanto algoritmos de aprendizaje automático como técnicas de diccionario (conocidas como bolsa de palabras).
Los algoritmos de aprendizaje se centran en aspectos de rendimiento computacional. En general, estas técnicas no aportan características suficientes desde el punto de vista de los procesos lingüísticos. Con esta investigación se pretende presentar un nuevo enfoque basado en un modelo formal interdisciplinario que identifique y analice la naturaleza difusa y la información vaga de las expresiones evaluativas abordando muchos de sus matices y ofreciendo una idiosincrasia «explicativa».
El modelo que propone este equipo investigador combina una gramática de propiedades y un modelo de lógica difusa. La gramática de propiedades establece las restricciones/condiciones que una estructura lingüística debe cumplir para ser adecuada. El modelo difuso permite captar la vaguedad de estas expresiones (“alto” puede significar 130 cm o 220 cm), así como determinar el grado de positividad y/o negatividad de una expresión (cualquier palabra puede ser más o menos positiva o negativa en función del contexto en el que sea empleada). Se prevé que este modelo tenga múltiples aplicaciones y un impacto importante en ámbitos como data mining, herramientas de autoaprendizaje de lenguas, detectores automáticos de autoría, etc.
El estudio no s’acaba aquí.. Según el equipo investigador, el siguiente paso es llevar a cabo un proyecto interdisciplinario con profesionales de la psicología, ingeniería computacional, lingüística y lexicografía para la construcción de un conjunto de núcleos evaluativos que puedan aplicarse en los análisis de sentimiento, similar al proyecto de WordNet que se desarrolló en la Universidad de Princeton. “Esto ayudaría a poder identificar lenguaje violento, y también tendría beneficios para los análisis de datos en el sector servicios, turismo, y en la detección de problemas cognitivos en relación con el nivel semántico del lenguaje”, explica María Dolores Jiménez, una de las investigadoras implicadas en esta investigación.