Técnicas de deep learning con datos tabulares para la seguridad de redes
tipo de documento semantico ckh_publication
Ficheros
Resumen
Este estudio investiga la aplicación de técnicas avanzadas de aprendizaje profundo (DL) en datos tabulares para el desarrollo de sistemas de detección de intrusiones (IDS). Utilizando el conjunto de datos UNSW-NB15, se comparan cuatro modelos: XGBoost, MLP, NON y TabNet. Los análisis se centraron en métricas de rendimiento como precisión, recall y F1-Score, especialmente en la clasificación de conexiones de tipo "Normal" (conexiones no maliciosas), crítica para minimizar falsos positivos de esta clase. Los resultados destacan que un modelo de aprendizaje automático (ML) más convencional como XGBoost mantiene en general un rendimiento superior a los de DL. Por otra parte, MLP, a pesar de su simplicidad respecto al resto de modelos, también muestra una precisión notable en esta clase "Normal". Los modelos NON y TabNet, con arquitecturas más complejas, ofrecen una mejor discriminación entre diferentes tipos de ataque, aunque su accuracy global es ligeramente inferior a la de XGBoost. Además, se discuten los desafíos y limitaciones de aplicar DL a datos tabulares, como la necesidad de grandes conjuntos de datos de alta calidad y la complejidad en la interpretación de los modelos. Se sugieren futuras líneas de investigación, incluyendo la mejora y diversificación de los conjuntos de datos, la integración de técnicas de aprendizaje multimodal y la generación de datos sintéticos para eliminar sesgos. Estas mejoras podrían potenciar la eficacia de los IDS y contribuir significativamente a estudios futuros de modelos avanzados.
This study investigates the application of advanced deep learning (DL) techniques on tabular data for the development of intrusion detection systems (IDS). Using the UNSW-NB15 dataset, four models are compared: XGBoost, MLP, NON, and TabNet. The analyses focused on performance metrics such as precision, recall, and F1-Score, especially in the classification of "Normal" type connections (non-malicious connections), which is critical for minimizing false positives of this class. The results highlight that a more conventional machine learning (ML) model like XGBoost generally maintains superior performance compared to DL models. On the other hand, MLP, despite its simplicity compared to the rest of the models, also shows remarkable accuracy in this "Normal" class. The NON and TabNet models, with more complex architectures, offer better discrimination between different types of attacks, although their overall accuracy is slightly lower than that of XGBoost. Additionally, the challenges and limitations of applying DL to tabular data are discussed, such as the need for large, high-quality datasets and the complexity in interpreting the models. Future research directions are suggested, including the improvement and diversification of datasets, the integration of multimodal learning techniques, and the generation of synthetic data to eliminate biases. These improvements could enhance the effectiveness of IDS and significantly contribute to future studies of advanced models.