Error Cuadrático Medio (ECM o MSE) + Ejercicio

El Error Cuadrático Medio (ECM o MSE, por sus siglas en inglés: Mean Squared Error) es una métrica utilizada para evaluar la precisión de los modelos de predicción, especialmente en regresión. Mide la diferencia promedio entre los valores predichos por el modelo y los valores reales. Cuanto más bajo sea el valor del MSE, mejor será el modelo, ya que indica que las predicciones están más cerca de los valores reales.

===

El Error Cuadrático Medio es una métrica clave para evaluar la precisión de modelos de regresión, ya que mide cuán cerca están las predicciones de los valores reales. Un MSE bajo significa que el modelo es preciso, mientras que un MSE alto indica que el modelo necesita mejorar.

¿Qué nos dice el MSE?

  • Valor bajo: Un valor bajo del MSE indica que el modelo está haciendo predicciones cercanas a los valores reales, lo que significa que el modelo es preciso.
  • Valor alto: Un valor alto del MSE indica que hay una gran diferencia entre las predicciones del modelo y los valores reales, lo que sugiere que el modelo tiene un rendimiento deficiente y no es capaz de hacer predicciones precisas.

Ejemplo en el contexto del código:

Imagina que tienes un conjunto de datos de viviendas, con las características de superficie, número de habitaciones y edad, y el modelo de regresión lineal predice el precio de cada vivienda.

  • Si el modelo predice un precio de $200,000 para una vivienda cuyo precio real es $210,000, la diferencia es de $10,000.
  • Si la diferencia se cuadrara (se eleva al cuadrado) para evitar cancelaciones (es decir, para que no se sumen diferencias positivas y negativas), y luego se promediara, se obtendría el MSE.

El MSE es especialmente útil porque al elevar las diferencias al cuadrado, penaliza más las grandes discrepancias, lo que significa que las predicciones erróneas significativas son castigadas de manera más severa que las pequeñas.

¿Por qué se usa el MSE?

  • Sensibilidad a grandes errores: Debido al hecho de elevar al cuadrado las diferencias, el MSE es más sensible a los grandes errores de predicción. Esto es útil en muchos contextos, donde es preferible tener un modelo que penalice fuertemente los grandes errores.
  • Fácil de derivar: El MSE es diferenciable, lo que lo convierte en una métrica conveniente para el entrenamiento de modelos, ya que se puede usar con algoritmos de optimización como el gradiente descendente.

Desventajas:

  • No tiene la misma unidad que la variable objetivo: Dado que se elevan al cuadrado las diferencias, el MSE tiene unidades cuadráticas, lo que puede hacer que sea difícil de interpretar directamente (por ejemplo, si se predicen precios en miles de dólares, el MSE estará en "miles de dólares cuadrados").
  • Sensibilidad a los valores atípicos: Los valores atípicos pueden tener un gran impacto en el MSE, ya que las diferencias se elevan al cuadrado.

Código de ejemplo

Predicción del Precio de una Vivienda usando Regresión Lineal

Ver en Colab ➜