Hybrid Wrapper Algorithm to analize the Importance of Explanatory Variables of Racism
tipo de documento semantico ckh_publication
Ficheros
Resumen
El análisis de variables es un aspecto muy importante
cuando se trata de entender un fenómeno. Conocer cuáles
son las causas que puedan afectar, permite tomar medidas
para tratar de incentivar determinados tipos de
comportamiento.
Hoy en día, el análisis de variables explicativas, aplicando
herramientas de Machine Learning, es una práctica habitual,
desde los métodos de filtrado, selección de variables
basados en la regularización y penalización del modelo por
complejidad hasta los métodos wrapper. Este último es la
base del algoritmo presentado en este artículo.
Este trabajo consiste en el análisis de tres conjuntos de
datos obtenidos en los años 2015, 2016 y 2017 que buscan
obtener información sobre qué variables caracterizan a una
persona hacia la tolerancia a la inmigración.
Para ello, se ha creado un algoritmo con los siguientes
objetivos: (1) obtener aquellas variables que
mayoritariamente explican cómo de tolerante es una
persona ante la inmigración, (2) obtener un valor de cómo
de explicativa es una variable respecto a otras, consideradas
como más explicativas a la hora de explicar el carácter
racista de una persona y (3) comprobar la evolución del
carácter explicativo de estas variables a lo largo del tiempo.
La diferencia entre este modelo y los ya existentes radica,
en primer lugar, en la creación de un algoritmo wrapper
híbrido que mezcla una alternativa a un método backward,
con similitudes a un modelo denominado
prediction_shuffling, y una alternativa al método forward
como modelos complementarios que categorizan las
variables mediante contrastes de hipótesis de igualdad de
medias que se distribuye según una T Student.
Además, se ha creado un modelo para estimar un valor de
cuánto de explicativa es una variable independientemente
de la posible correlación entre variables, útil cuando se
analiza la evolución de la importancia de las variables en
diferentes lugares, años, etc.
The analysis of variables is a very important segment
when trying to understand a situation. Knowing which
are the causes that may affect something, allows us to
take measures to try to encourage certain types of
behavior.
Nowadays, the analysis of explanatory variables,
applying Machine Learning tools, is a common
practice, existing: filtering methods, selection of
variables based on the regularization and penalization
of the model by complexity and wrapper methods, the
latter being the basis of the algorithm presented in this
article.
This project consists of the analysis of three data sets
obtained in the years 2015, 2016 and 2017 that seek to
obtain information on which variables characterize a
person towards immigration.
For this purpose, an algorithm has been created with
the following objectives: (1) to obtain those variables
that mostly explain this situation, (2) to obtain a value
of how explanatory a variable is with respect to others
and (3) to check the evolution of the explanatory
character of these variables over time.
The difference between this model and the existing
ones lies, first of all, in the creation of a wrapper
algorithm that mixes an alternative to a backward
method, with similarities to a model called
prediction_shuffling, and an alternative to a forward
method as complementary models that categorize the
variables based on a mean equality hypothesis test that
follows T-Student distribution type.
Furthermore, a model has been created to estimate a
value of how explanatory a variable is independently
of the possible correlation between variables, useful
when analyzing the evolution of the importance of
variables in different places, years, etc.
