Outliers en BoxPlot
Buenísimo dia!!!!!
El dia de hoy comentare una breve utilidad que nos permitirá comprender en un inicio el overfit o underfit de un modelo de regresión lineal, hablaremos una vez mas de los outliers.
El problema al realizar un modelo en una regresión lineal es la posibilidad de generalizar o simplificar de manera exagerada la capacidad explicativa de este, presentándose situaciones como las apreciadas en la gráfica.
Outliers
Donde entran los famosos outliers como relatamos en un post anterior, son datos que sobre salen de nuestra media y varianza y tienden a afectar nuestro modelo siendo casos bastante puntuales que son excepciones a la información ( por lo mismo están fuera de la media y de la varianza), hoy veremos otra forma de entender el comportamiento de una variable y sera utilizando el conocido boxplot.
Al revisar en lo que trata el diagrama de caja, veremos estos puntos en la parte superior, donde se ve que sobresalen tanto de la media y la varianza de la variable estudiada, esto nos indica fuertemente que estamos viendo data fuera de la norma que es altamente posible correspondan a outliers.
Para ver el ejemplo en código pueden verlo desde nuestro github.
Saludos!