ClimaText and ClimateBert,
the ultimate team for the
disclosure analysis of
climate-related financial risks
the ultimate team for the
disclosure analysis of
climate-related financial risks
tipo de documento semantico ckh_publication
Ficheros
Resumen
En los últimos años ha crecido la demanda por parte de agentes económicos, especialmente de los inversores y organismos institucionales, para que las compañías informen sobre los riesgos financieros a los que se enfrentan en relación con el cambio climático. Por ello, cabe esperar que las empresas publiquen a corto plazo una gran cantidad de información, en formato de texto, para identificar este tipo de riesgos en sus informes financieros y no financieros. A tal fin, este trabajo presenta la aplicación de las técnicas de PLN más avanzadas para lograr la detección del cambio climático en corpus textuales. Utilizando la novedosa base de datos "ClimaText", integrada por datos procedentes de Wikipedia, de 10K Files Reports y de reclamaciones en la web, se han creado y comparado dos modelos de clasificación de texto para identificar qué frases están relacionadas con el cambio climático y cuáles no. En este sentido, dado que el tema del cambio climático es muy fluido y en cierta medida ambiguo, desambiguar el significado de las cambiantes palabras según el contexto es una tarea muy compleja que requiere un modelo con gran capacidad. Por esta razón, el estudio ha utilizado un modelo de Transformer de PLN muy popular, denominado BERT, así como el recientemente publicado, ClimateBert. Estos algoritmos se basan en la arquitectura de Transformer, que permite el aprendizaje de las relaciones contextuales entre las palabras de un texto. De este modo, se procede a comparar los resultados obtenidos por cada uno de los modelos entrenados con los distintos algoritmos, siendo este estudio el primero que aplica sobre la base de datos ClimaText el recientemente publicado algoritmo ClimateBert, que ha sido pre-entrenado específicamente sobre grandes cantidades de cuerpos de texto relacionados con el cambio climático.
In recent years there has been a growing demand from financial agents, especially from investors and institutional agents, for companies to report on climate-related financial risks. A vast amount of information, in text format, can be expected to be disclosed in the short term by firms in order to identify these types of risks in their financial reports. To this end, this paper introduces the application of state-of-the-art NLP techniques to achieve the detection of climate change in text corpora. By using the novel "ClimaText" database, consisting of data collected from Wikipedia, 10K Files Reports and web-based claims, two text classification models have been created to identify which sentences are climate change related and which are not. In this sense, as the topic of climate change is highly fluid and somewhat ambiguous, disambiguating the meaning from the changing significants according to the context is a highly complex task that requires a model with high capacity. For this reason, the study has used a popular NLP transformer model, BERT, as well as the recently published model, ClimateBert. These algorithms are based on the transformer architecture which enables learning the contextual relationships between words in a text. In this way, we proceed to compare the results obtained by each of the models trained with the different algorithms, this study being the first one to implement on the ClimaText database the recently published ClimateBert algorithm, which has been specifically pre-trained on vast amounts of climate-related text corpora. Our text classification model obtained from the ClimateBert fine-tuning process outperforms the models, both our own and the one introduced by Varini et al. (2020), created with BERT, being therefore ClimateBert an outstanding tool within the NLP through which investors, institutional agents and companies themselves may monitor the disclosure of climate risk in reports.
Códigos UNESCO CyT
Palabras clave
Editores: Comillas , Administradores CKH · Universidad de Comillas
Compartida con:
