Aprendizaje semisupervisado

Semi-Supervised Learning

¿Qué es el aprendizaje semisupervisado?

El aprendizaje semisupervisado es un enfoque de aprendizaje automático que entrena un modelo utilizando datos etiquetados y no etiquetados. Se sitúa entre el aprendizaje supervisado, que depende totalmente de datos etiquetados, y el aprendizaje no supervisado, que funciona solo con datos no etiquetados.

El método está diseñado para aprovechar los patrones en los datos no etiquetados, a la vez que se basa en los resultados conocidos de las instancias etiquetadas. Esto conduce a modelos más precisos, especialmente cuando los datos etiquetados son escasos. Es especialmente útil en dominios como el procesamiento del lenguaje natural, la visión artificial, la bioinformática, la detección de fraudes y el reconocimiento de voz, donde la recopilación de datos etiquetados a menudo implica la introducción manual por parte de expertos.

Por qué es importante el aprendizaje semisupervisado

Los datos etiquetados suelen ser difíciles de obtener. Por ejemplo, un especialista puede tardar horas en anotar cada imagen en una aplicación de imagenología médica. Mientras tanto, terabytes de datos similares no etiquetados podrían estar fácilmente disponibles. El aprendizaje supervisado tradicional ignora los datos no etiquetados, lo que puede resultar en un uso ineficiente de los recursos disponibles.

El aprendizaje semisupervisado ofrece una alternativa práctica. Permite a los sistemas aprender la distribución y los patrones más amplios de un conjunto de datos utilizando muchas entradas sin procesar, mientras que afina las predicciones utilizando un conjunto relativamente pequeño de resultados confirmados. Esto hace que el modelo sea más eficiente, escalable y, en muchos casos, más robusto a las condiciones del mundo real.

Principios básicos del aprendizaje semisupervisado

El aprendizaje semisupervisado opera bajo el supuesto de que la estructura de los datos contiene información valiosa. Varios principios guían su aplicación:

Supuesto de continuidad: Los puntos cercanos en el espacio de entrada también deben estar cerca en el espacio de salida. Esto significa que es probable que los puntos de datos similares compartan la misma etiqueta.

Supuesto de clúster: Los datos tienden a formar clústeres, y es probable que las muestras en el mismo clúster compartan etiquetas.

Supuesto de variedad: Los datos de alta dimensión a menudo se encuentran en una variedad de baja dimensión, y el aprendizaje puede mejorarse respetando esa estructura.

Los modelos semisupervisados utilizan estos principios para construir límites de decisión que se alinean mejor con la verdadera distribución de los datos.

Cómo funciona el aprendizaje semisupervisado

Un sistema semisupervisado típico comienza con un pequeño conjunto de datos etiquetados. El modelo utiliza ese subconjunto etiquetado para formar una comprensión inicial de la tarea. Luego, utiliza los datos no etiquetados restantes para refinar o expandir sus patrones aprendidos. Este proceso puede ser iterativo y a menudo implica técnicas como el pseudoetiquetado, el aprendizaje basado en grafos y la regularización de la consistencia.

Algoritmos populares en el aprendizaje semisupervisado

Si bien no existe un enfoque único para todos, varios métodos se han utilizado ampliamente en la práctica:

Autoentrenamiento

El autoentrenamiento implica entrenar un modelo con datos etiquetados y luego usar ese modelo para predecir etiquetas para el conjunto no etiquetado. Las predicciones más seguras se añaden entonces al conjunto de datos etiquetados. Este proceso se repite, expandiendo gradualmente el conjunto etiquetado.

Coentrenamiento

En el coentrenamiento, dos modelos se entrenan con diferentes características de datos. Cada modelo etiqueta los datos para el otro, basándose en el supuesto de que las características son condicionalmente independientes. Este método es adecuado cuando los datos se dividen naturalmente en dos o más vistas.

Métodos basados en grafos

Estos enfoques tratan los datos etiquetados y no etiquetados como nodos en un grafo. Los bordes representan la similitud. Las etiquetas se propagan entonces a través del grafo basándose en la proximidad y la similitud de los nodos. La propagación de etiquetas y la difusión de etiquetas son algoritmos comunes aquí.

Modelos generativos

Algunos modelos de aprendizaje semisupervisado utilizan supuestos generativos para modelar la distribución conjunta de entradas y etiquetas. Un modelo generativo puede ayudar a inferir etiquetas probables para datos no etiquetados basándose en la estructura del espacio de entrada.

Regularización de la consistencia

Esta técnica anima al modelo a producir salidas similares cuando las entradas se perturban o se alteran ligeramente. Se basa en el supuesto de que pequeños cambios en la entrada no deberían conducir a cambios significativos en la producción.

Aprendizaje semisupervisado vs. Aprendizaje supervisado y no supervisado

El aprendizaje supervisado requiere que cada muestra de entrenamiento se empareje con una etiqueta. Esto puede producir un buen rendimiento cuando se dispone de suficientes datos etiquetados. Por otro lado, el aprendizaje no supervisado busca descubrir la estructura de los datos sin etiquetas. A menudo se utiliza para la agrupación o la reducción de la dimensionalidad.

El aprendizaje semisupervisado combina las fortalezas de ambos enfoques. Utiliza un pequeño conjunto de datos etiquetados para guiar el modelo mientras aprende la estructura y los patrones de un conjunto considerable no etiquetado. Esto lo hace especialmente útil cuando los datos etiquetados son caros, pero los datos no etiquetados son abundantes.

El aprendizaje semisupervisado en la IA generativa

El auge de los modelos generativos, como las redes generativas antagónicas (GAN) y los transformadores, ha aumentado el interés en el aprendizaje semisupervisado. Estos modelos pueden generar datos sintéticos que complementan los conjuntos de datos existentes, extendiendo aún más el alcance de los datos etiquetados.

Según estudios de mercado, se prevé que el etiquetado semisupervisado domine el mercado de etiquetado de datos de la IA generativa en 2024, con una cuota de ingresos estimada del 39,6%. Esta tendencia está impulsada por la necesidad de reducir los costes de etiquetado, manteniendo al mismo tiempo la calidad de los datos para los modelos a gran escala.

Aplicaciones del aprendizaje semisupervisado

Atención médica

En la imagenología médica, el aprendizaje semisupervisado permite el uso de vastos archivos de exploraciones no anotadas. Unas pocas imágenes etiquetadas por expertos pueden guiar el modelo, mientras que miles de ejemplos no etiquetados mejoran la generalización. Este enfoque apoya la detección temprana de enfermedades, la detección de anomalías y el diagnóstico automatizado.

Comercio electrónico

La categorización de productos en las plataformas de comercio electrónico a menudo implica miles de tipos y estilos de productos. El etiquetado manual no es escalable. Los modelos semisupervisados utilizan datos de clientes, historial de compras y pequeñas entradas etiquetadas para automatizar la clasificación de productos, mejorando la búsqueda en el sitio y los sistemas de recomendación.

Ciberseguridad

Los registros no etiquetados y el tráfico de red forman la mayor parte de los datos de ciberseguridad disponibles. Con los modelos semisupervisados, se puede utilizar un pequeño conjunto de amenazas conocidas para detectar anomalías o patrones que sugieran amenazas nuevas u ocultas en grandes conjuntos de datos.

Finanzas

Los sistemas de detección de fraudes se benefician de los modelos semisupervisados que utilizan casos de fraude etiquetados junto con un gran corpus de datos de transacciones no etiquetados. Esto ayuda a los sistemas a detectar comportamientos sospechosos incluso cuando los patrones de fraude evolucionan.

Reconocimiento de voz

La adquisición de transcripciones precisas para los datos de audio es costosa en los sistemas basados en la voz. Los enfoques semisupervisados entrenan modelos con un número limitado de muestras de voz etiquetadas, utilizando vastas colecciones de audio sin procesar para refinar los patrones de reconocimiento.

Beneficios del aprendizaje semisupervisado

El aprendizaje semisupervisado tiende un puente entre los datos etiquetados y no etiquetados. Gracias a los marcos de trabajo y bibliotecas modernos, el método es práctico, flexible y cada vez más accesible.

Mejora el rendimiento del modelo en entornos con escasez de datos y reduce la dependencia de los costosos procesos de anotación. El aprendizaje semisupervisado permite a los sistemas crecer y adaptarse en dominios donde llegan continuamente nuevos datos sin necesidad de reiniciar desde cero.

También apoya una implementación del modelo más rápida al reducir el tiempo necesario para el etiquetado de datos, especialmente en las industrias que dependen de la iteración rápida.

Limitaciones y desafíos

Aunque el aprendizaje semisupervisado ofrece eficiencia, no está exento de limitaciones. El modelo puede aprender patrones engañosos si el pequeño conjunto etiquetado está mal elegido o desequilibrado. Del mismo modo, las pseudoetiquetas generadas al principio del entrenamiento pueden introducir ruido si son incorrectas, debilitando el modelo con el tiempo.

Los supuestos del modelo (como la continuidad o la agrupación) pueden no ser válidos para todos los tipos de datos. Por ejemplo, algunos conjuntos de datos del mundo real contienen clases complejas o superpuestas que desafían los límites claros.

Otro problema es la escalabilidad. Si bien los datos no etiquetados son más fáciles de recopilar, el entrenamiento de modelos semisupervisados sofisticados todavía requiere memoria y potencia computacional, especialmente cuando se trata de entradas de alta dimensión como vídeo o modelos 3D.

Al utilizar mejor los datos, los métodos semisupervisados apoyan un desarrollo de modelos más rápido, barato y preciso. A medida que las empresas y las instituciones de investigación buscan sistemas de IA escalables y adaptables, el aprendizaje semisupervisado seguirá siendo un método de elección fundamental.

Glosario relacionado