Detección automática de contextos de lenguaje
tipo de documento semantico ckh_publication
Ficheros
Resumen
Las técnicas de procesamiento del lenguaje natural (NLP) desempeñan un papel fundamental en la búsqueda de texto. Algunas técnicas como la lematización o la aplicación de expresiones regulares ayudan a realizar una búsqueda más flexible. Sin embargo, el empleo de herramientas Big Data es también un punto importante en relación a la optimización de la búsqueda.
En este trabajo, se plantea el caso de uso del cumplimiento de una operativa para los agentes de un callcenter de una compañía de telecomunicaciones. Aquí, se aplican las técnicas NLP a las transcripciones de las llamadas. De este modo, el reto no solo corresponde al gran volumen de datos sino también a la versatilidad del lenguaje hablado. Para lidiar con esta última limitación, se propone un módulo de búsqueda de sinónimos mediante dos enfoques: empleando la librería de FreeLing y con web scraping del diccionario en línea de WordReference.
La actuación de los dos métodos se evaluó a través de las medidas de sensibilidad, especificidad, accuracy, precisión y F1 a lo largo de tres escenarios distintos en varias monitorizaciones. Finalmente, se observó que no había diferencias significativas entre ambos, pero el enfoque de FreeLing fue el más óptimo en cuanto a tiempo de procesamiento. Ser capaces de aportar una cota inferior a esta aplicación nos permitirá abordar nuevos casos de estudio relacionados con el contenido de las llamadas.
Natural language processing (NLP) plays an important role in the text searching. Some techniques like lemmatization and regular expressions help to perform a more flexible searching. However, Big Data technologies application is also an important point in relation with search optimization.
In this project, it is stated the use case of the fulfilment of an operation for the call center agents from a telecommunications company. Here, NLP techniques are applied to call transcripts. By this way, the challenge is not only the huge volume of the data but also the versatility of spoken language. In order to deal with the latter, a synonym search module is proposed through two approaches: employing FreeLing library and scraping data from WordReference web page.
The performance of the two methods was assessed through sensitivity, specificity, accuracy, precision and F1 score measures across three different scenarios on several monitorizations. Finally, it was observed that there were not any significant differences between the two, but the FreeLing approach was the most optimal in terms of processing time. Being able to provide a lower bound to this application will allow us to address new case studies in relation to calls content.
Códigos UNESCO CyT
Palabras clave
Editoreak: Comillas , Administradores CKH · Universidad de Comillas
Honekin partekatua:
