Regresión Lineal con Python: Crea tu Primer Modelo de IA para Predecir Precios (Guía 2025)





 ¿Alguna vez te has preguntado cómo Netflix sabe qué serie recomendarte o cómo Amazon predice qué producto vas a necesitar? Parece magia, pero es la ciencia de los datos en acción. Hoy, vamos a desmitificar esa "magia".


En esta guía paso a paso, vas a construir tu primer modelo de Machine Learning desde cero. No necesitas ser un genio matemático ni tener años de experiencia. Usando el poder de Python y algunas de sus librerías más populares, crearemos un programa capaz de aprender de los datos y hacer predicciones.


Nuestro objetivo: predecir el valor de las viviendas en California basándonos en el ingreso medio de la zona. ¡Prepárate para darle a tu computadora su primer cerebro!


¿Cómo Funciona? El Código Paso a Paso


Vamos a dividir el proceso en 5 pasos lógicos, desde la preparación del entorno hasta la predicción final. Verás que cada línea de código tiene un propósito claro y sencillo.

Paso 1: La Preparación (Importar las Herramientas)


¿Qué acabamos de hacer?


import pandas as pd: Convocamos a Pandas, la herramienta definitiva para manejar y organizar datos en tablas (piensa en un Excel con superpoderes). La llamamos pd por convención, para escribir más rápido.

import matplotlib.pyplot as plt: Traemos a Matplotlib, nuestro artista gráfico. Lo usaremos para crear visualizaciones y entender mejor nuestros datos.

from sklearn.datasets import fetch_california_housing: De la enorme librería de Machine Learning Scikit-learn, pedimos una función que nos da acceso a un conjunto de datos clásico: los precios de vivienda en California. Es nuestro material de estudio.

from sklearn.linear_model import LinearRegression: También de Scikit-learn, importamos el "cerebro" del proyecto: el algoritmo de Regresión Lineal. Es el modelo que aprenderá a encontrar la relación entre las variables.

Paso 2: La Carga de Datos (El Material de Estudio)

Ahora que tenemos las herramientas, carguemos los datos y démosles un formato con el que podamos trabajar cómodamente.



Aquí, los datos crudos se convierten en una tabla organizada:

  1. La primera línea ejecuta fetch_california_housing() y guarda toda la información en la variable housing_dataset.
  2. La segunda línea es clave: le pedimos a Pandas (pd) que cree una tabla limpia llamada DataFrame (que nombramos df). Usamos los datos (housing_dataset.data) y los nombres de las columnas (housing_dataset.feature_names).
  3. Finalmente, añadimos a nuestra tabla la columna que queremos predecir: el valor medio de la casa (MedHouseVal). Ahora todo está en un único lugar, listo para ser analizado.

Paso 3: La Exploración (El Vistazo al Terreno)

Un buen científico de datos nunca trabaja a ciegas. Antes de entrenar un modelo, debemos "mirar" los datos para confirmar nuestras sospechas. ¿Realmente el ingreso medio influye en el precio de la casa? Vamos a visualizarlo.



Al ejecutar este código, verás un gráfico de dispersión. Cada punto es un distrito de California.

A simple vista, se observa una tendencia clara: a medida que el ingreso medio (eje X) aumenta, el valor de la vivienda (eje Y) también tiende a aumentar. Esta relación positiva nos confirma que tiene sentido usar un modelo de regresión lineal para aprender este patrón.


Paso 4: El Entrenamiento (La Sesión de Estudio)

Este es el corazón del Machine Learning. Aquí es donde nuestro modelo "aprende" de los datos.


Desglosemos la magia:

  • Separación de variables: Por convención, X (mayúscula) contiene las características que usamos para predecir (la causa), y y (minúscula) contiene la variable que queremos adivinar (el efecto).
  • modelo = LinearRegression(): Creamos una instancia de nuestro cerebro, un modelo de regresión lineal vacío, listo para absorber conocimiento.
  • modelo.fit(X, y): Esta es la línea más importante. El método .fit() es la "sesión de estudio". El modelo analiza todos los datos de X e y y calcula internamente la fórmula matemática de una línea recta (y = mx + b) que mejor se ajusta a esa nube de puntos que vimos en el gráfico.

Al terminar esta línea, modelo ya no es un cerebro vacío. Ahora es un cerebro entrenado que contiene la fórmula para predecir precios basándose en ingresos.

Paso 5: La Predicción (El Examen Final)

Nuestro modelo ha estudiado. Ahora, vamos a ponerlo a prueba con un dato que nunca ha visto antes para ver si aprendió correctamente.

Vamos a preguntarle: ¿Cuál sería el valor de una casa en un distrito donde el ingreso medio es de 80,000$? (el dato se introduce como 8, ya que la unidad es en decenas de miles).


Resultado esperado:
Valor predicho: $3.79

¿Qué significa este 3.79?

El modelo tomó el 8 que le dimos, lo introdujo en la fórmula que aprendió (y = m*8 + b) y calculó el resultado. Como la unidad del valor de la casa está en cientos de miles de dólares, el modelo predice que una vivienda en esa zona costaría aproximadamente $379,000.


Conclusión: ¡Has Creado Inteligencia Artificial!

¡Felicidades! Has completado con éxito todos los pasos para entrenar un modelo de Machine Learning. No has escrito cientos de reglas if/else para determinar el precio. En su lugar, le has dado datos a un algoritmo y has dejado que aprenda las reglas por sí mismo.

Este es el concepto fundamental detrás de gran parte de la inteligencia artificial moderna. A partir de aquí, puedes experimentar: ¿qué pasaría si añadieras más variables como la antigüedad de la casa (HouseAge) o el número de habitaciones (AveRooms)? El proceso sería el mismo, pero el modelo sería aún más inteligente.






No hay comentarios.:

Publicar un comentario