¿Qué es la regresión en el aprendizaje automático?

KOHb - Getty Images

Las técnicas de regresión son esenciales para descubrir relaciones dentro de los datos y crear modelos predictivos para una amplia gama de casos de uso empresarial, desde pronósticos de ventas hasta análisis de riesgos. A continuación se profundiza en esta poderosa técnica de aprendizaje automático.

La regresión en el aprendizaje automático es una técnica utilizada para capturar las relaciones entre variables independientes y dependientes, con el objetivo principal de predecir un resultado. Implica entrenar un conjunto de algoritmos para revelar patrones que caracterizan la distribución de cada punto de datos. Una vez identificados los patrones, el modelo puede realizar predicciones precisas para nuevos puntos de datos o valores de entrada.

Hay diferentes tipos de regresión. Dos de los más comunes son la regresión lineal y la regresión logística. En la regresión lineal, el objetivo es ajustar todos los puntos de datos a lo largo de una línea clara. La regresión logística se centra en determinar si cada punto de datos debe estar por debajo o por encima de la línea. Esto es útil para clasificar las observaciones en categorías distintas, como fraude/no fraude, spam/no spam o cat/not-cat.

La regresión es un concepto fundamental en la mayoría de las estadísticas. El aprendizaje automático mejora las cosas mediante el uso de algoritmos para destilar estas relaciones fundamentales a través de un proceso automatizado, dijo Harshad Khadilkar, científico principal de TCS Research y profesor asociado visitante en IIT Bombay.

"La regresión es lo que utilizan los científicos y las empresas al responder preguntas cuantitativas, específicamente del tipo 'cuántos', 'cuánto', 'cuándo lo harán', etc. En el aprendizaje automático, descubre cualquier medida que no esté disponible actualmente en el mercado. datos", explicó Khadilkar.

Dos técnicas comunes utilizadas en la regresión en el aprendizaje automático son la interpolación y la extrapolación. En la interpolación, el objetivo es estimar valores dentro de los puntos de datos disponibles. La extrapolación tiene como objetivo predecir valores más allá de los límites de los datos existentes, basándose en las relaciones de regresión existentes.

La regresión es un concepto esencial no sólo para los expertos en aprendizaje automático, sino también para todos los líderes empresariales, ya que es una técnica fundamental en el análisis predictivo, dijo Nick Kramer, vicepresidente de soluciones aplicadas de la consultora global SSA & Company. La regresión se utiliza habitualmente para muchos tipos de pronósticos; Al revelar la naturaleza de la relación entre variables, las técnicas de regresión brindan a las empresas información sobre cuestiones clave, como la pérdida de clientes, la elasticidad de los precios y más.

David Stewart, jefe de ciencia de datos de Legal & General, un administrador de activos global, señaló que los modelos de regresión se utilizan para hacer predicciones basadas en información que ya conocemos, lo que los hace ampliamente relevantes en diferentes industrias. Por ejemplo, la regresión lineal, que pronostica un resultado numérico, podría usarse para medir la altura de una persona en función de factores como la edad y el sexo. Por el contrario, la regresión logística podría ayudar a predecir la probabilidad de que una persona compre un nuevo producto utilizando sus compras anteriores de productos como indicadores.

La regresión lineal tiene una sensibilidad fija o constante a las variables de las que depende, ya sea pronosticar los precios de las acciones, el clima de mañana o la demanda minorista. Por ejemplo, un doble cambio en una variable conducirá a una desviación específica en la producción, dijo Khadilkar. Muchos algoritmos estándar de la industria utilizan regresión lineal, como el pronóstico de la demanda de series temporales.

La regresión logística, por el contrario, se centra en medir la probabilidad de un evento en una escala de 0 a 1 o de 0% a 100%. La idea central de este enfoque es crear una curva en forma de S que muestre la probabilidad de que ocurra un evento, siendo el evento (como una falla del sistema o una violación de seguridad) altamente improbable en un lado de la curva y cerca de él. seguro por el otro.

Como se señaló, las técnicas de regresión lineal se centran en ajustar nuevos puntos de datos a una línea. Son valiosos para el análisis predictivo.

Por el contrario, la regresión logística tiene como objetivo determinar la probabilidad de que un nuevo punto de datos pertenezca por encima o por debajo de la línea, es decir, a una clase particular. Las técnicas de regresión logística son útiles en tareas de clasificación como las mencionadas anteriormente: para determinar si una transacción es fraudulenta, un correo electrónico es spam o una imagen es un gato, o no.

La principal diferencia entre estos enfoques radica en sus objetivos. La clasificación es particularmente útil en procesos supervisados de aprendizaje automático para categorizar puntos de datos en diferentes clases, que luego pueden usarse para entrenar otros algoritmos. La regresión lineal es más aplicable para problemas como la identificación de valores atípicos a partir de una línea de base común, como se ve en la detección de anomalías, o para predecir tendencias.

El uso de redes neuronales artificiales es uno de los enfoques más importantes y novedosos en la regresión, afirmó Khadilkar. Estos enfoques utilizan técnicas de aprendizaje profundo para crear algunos de los modelos de regresión más sofisticados disponibles.

"Nos permite aproximar cantidades con interrelaciones mucho más complejas que nunca", explicó. "Hoy en día, las redes neuronales se están apoderando de casi todas las formas de aplicaciones de regresión".

De los enfoques discutidos anteriormente, la regresión lineal es la más fácil de aplicar y comprender, dijo Khadilkar, pero a veces no es un gran modelo de la realidad subyacente. La regresión no lineal, que incluye la regresión logística y las redes neuronales, proporciona más flexibilidad en el modelado, pero a veces a costa de una menor explicabilidad.

Los modelos de regresión producirán obedientemente una respuesta, pero pueden ocultar inexactitudes o simplificaciones excesivas, coincidió Kramer. Y una predicción equivocada suele ser peor que ninguna predicción. Es importante comprender que un enfoque puede funcionar mejor que otros, según el problema.

"Se me conoce por usar la punta de la hoja de mi navaja suiza y hacerla funcionar cuando el destornillador sería más efectivo. De manera similar, a menudo vemos a los analistas aplicar el tipo de regresión que conocen, incluso cuando no es la mejor solución", dijo Kramer.

Aquí hay cinco tipos de regresión y lo que hacen mejor.

Kramer ofreció las siguientes aplicaciones específicas de regresión utilizadas frecuentemente en los negocios:

Stewart dijo que una de las principales ventajas de los modelos de regresión es que son simples y fáciles de entender. Son modelos muy transparentes y es fácil explicar claramente cómo el modelo hace una predicción.

Otra ventaja es que los modelos de regresión se utilizan en las industrias desde hace mucho tiempo y se comprenden bien. Por ejemplo, los modelos lineales generalizados se utilizan mucho en la profesión actuarial y su uso está bien establecido. "Los organismos reguladores comprenden bien los modelos, lo que simplifica la celebración de debates informados sobre la implementación del modelo y el riesgo, la gobernanza y la supervisión asociados", dijo Stewart.

Su simplicidad, sin embargo, es también su limitación, afirmó. Los modelos de regresión se basan en varios supuestos que rara vez se aplican en escenarios del mundo real y solo pueden manejar relaciones simples entre los predictores y el valor predicho. Por lo tanto, otros modelos de aprendizaje automático suelen superar a los modelos de regresión.

En opinión de Khadilkar, la regresión proporciona el mayor valor como herramienta de medición, interpolación y predicción cuantitativa, y es increíblemente buena en esto. "Sus propiedades son bien conocidas y también tenemos excelentes formas de cuantificar nuestra confianza en nuestras predicciones", dijo. Por ejemplo, se pueden predecir los precios del mercado de valores con un rango específico de posibles variaciones en torno a la cantidad prevista.

Sin embargo, hay muchas aplicaciones en las que la regresión no es adecuada. "Por ejemplo, es menos útil para reconocer rostros a partir de imágenes. Además, no es adecuado cuando se intenta extraer datos para reconocer patrones o automatizar decisiones", dijo Khadilkar.

"La principal desventaja de la regresión es posiblemente el hecho de que sólo nos da una predicción de la cantidad de interés sin sugerir qué se debe hacer con la información", explicó Khadilkar. "Eso depende del ser humano decidir".

Aprendizaje supervisado versus no supervisado: uso en los negocios

Los 12 principales casos de uso y aplicaciones empresariales del aprendizaje automático

Elegir entre un sistema de aprendizaje automático o basado en reglas

Blog