Machine Learning aplicado a procesos de Anti Money Laundry (AML).
tipo de documento semantico ckh_publication
Ficheros
Resumen
Anti Money Laundering (AML) es el conjunto prácticas que tratan de evitar que fondos provenientes de fuentes ilegítimas sean introducidos en el sistema financiero como fondos legales. En el proceso de detección de AML se plantean dos problemas principales: el tiempo que transcurre desde que una alarma es detectada hasta que se obtiene una conclusión sobre esta y el bajo índice de detección que presentan los sistemas de AML. El proyecto consiste en realizar el pipeline completo del procesamiento de una alarma.
Se plantean dos tareas principales. En primer lugar, la creación de un sistema de Risk Scoring interpretable que permita asignar una puntuación a cada alarma, y obtener información de qué parámetros influyen en esta puntuación. Para el sistema de Risk Scoring interpretable la combinación óptima de soluciones fue el algoritmo XGBoost con la librería SHAP de Machine Learning Interpretable. El objetivo principal de este sistema es reducir el número de falsos positivos generados inicialmente por los umbrales de alarma. Tanto los datos iniciales cómo los resultados del modelo analítico de Machine Learning deben estar disponibles en un cuadro de mando fácil de usar para el analista. En segundo lugar, plantear una solución que permita detectar otros escenarios mas complejos que no se observan en las reglas actuales y obtener información de la red bancaria, analizando posibles comunidades y cadenas de pagos. Para esto, se empleará un análisis basado en base de datos y métrica de grafos mediante No4j. Esto permite analizar no solo la alarma o el cliente como un ente independiente, sino que se centra en las relaciones de este, lo que permite descubrir comportamientos sospechosos y anomalías no contempladas en las reglas.
Anti Money Laundering (AML) are the laws, regulations and processes developed by financial institutions and government agencies to avoid that money from illegal activities is re-introduced in the financial system as legitimate. The alarm detection process presents two main issues: the time elapsed between a transaction is marked as an alarm and a decision is made regarding that alarm and the low detection rate that is associated with AML detection systems. There are two main lines of work in the project, each of them tries to solve one of the main issues stated above. On one hand, the confection of an alarm classification system, achieved by an Explainable Risk Scoring platform, that assigns a score to each alarm and describes the parameters that affect the output of the model. The optimal combination to obtain this result was the achieved by a XGBoost Regressor model together with the interpretable Machine Learning library SHAP. The output of the regression model, together with the original data of the alarm and the available data of the client, must be easily accessible to the analyst. With this purpose, a dashboard is created. The main purpose of this first branch of the project is to reduce the number of false positives detected by the original thresholds, increasing the efficiency of the analyst.
On the other hand, current detection systems analyze a transaction or a client as an individual. It is important for these systems to take into account the relationships of the clients and the financial entities in order to detect suspicious movements that would otherwise not be detected. In order to accomplish this, graph analytics will be used to obtain information about the network and flag anomalies.
