Método Sistemático para Mitigar el Problema de las Clases No Balanceadas con Alta Dimensionalidad y Solapamiento en Big Data
Fecha
2026-04-24
Autores
Bolívar Velazco, Armando Isaac
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Autónoma de Ciudad Juárez
Resumen
Uno de los principales desafíos del análisis de datos es la magnitud de la información, tanto en número de observaciones como en variables. Big data alude a volúmenes que exceden la capacidad de un sistema individual; la alta dimensionalidad, a un número de atributos que dificulta el análisis y la generalización de modelos. También aparecen clases desbalanceadas, con pocas instancias de interés, y solapamiento entre clases, que complican la identificación precisa.
Esta tesis revisa técnicas para entornos de big data y datos tradicionales, evaluando cómo afrontan alta dimensionalidad, desbalance y solapamiento. A partir de ese análisis se propone un método sistemático: una secuencia de técnicas aplicadas en orden concreto para mitigar estas dificultades en problemas de clasificación.
Primero se emplean distancias fraccionarias en espacios de disimilitud para contrarrestar la alta dimensionalidad. Luego se realiza una búsqueda distribuida del vecino más cercano en múltiples nodos, que sirve como base para una versión adaptada de SMOTE orientada a big data para sobremuestreo y manejo del desbalance. Además, se incorpora una implementación de la edición de Wilson para big data, desarrollada en esta tesis, para reducir el solapamiento entre clases.
El método propuesto disminuye la complejidad y el tamaño de los datos y mejora, de forma estadísticamente significativa, las tasas de clasificación.
Descripción
Palabras clave
Alta dimensionalidad, big data, desbalance de clases, preprocesamiento de datos, aprendizaje automático.