Lánzate al Machine Learning para principiantes: tu primer paso concreto hoy
Machine Learning para Principiantes: lo esencial en un artículo — código real, diagramas y pasos concretos, extractos de un curso de 44 lecciones.
La mejor forma de aprender Machine Learning para Principiantes es practicando. Este artículo te pone en marcha con extractos prácticos extraídos de un curso de 44 lecciones, para que obtengas un primer resultado ya hoy.
- Introducción y Primeros Pasos
- Aprender de los Datos
- Las Tres Grandes Familias de ML
- Clasificación vs Regresión
- Primer Modelo con Orange
Entrenamiento vs prueba — ¿por qué separar?
Objetivos pedagógicos
- Comprender la diferencia entre memorizar y generalizar
- Conocer las proporciones clásicas de separación (80/20, 70/30)
- Distinguir entre conjunto de entrenamiento, validación y prueba
- Comprender la validación cruzada (cross-validation)
- Identificar la trampa del 'data leakage'
La trampa: probar sobre los datos de entrenamiento
Imagina un estudiante que prepara un examen. El profesor le entrega 50 ejercicios con sus soluciones y le dice "estúdialos bien". El día del examen, el profesor plantea los mismos 50 ejercicios. El estudiante puede sacar un 100 % sin entender nada: solo ha memorizado.
Es exactamente lo que ocurre si pruebas un modelo de ML con los datos con los que fue entrenado. Un modelo sobreajustado puede "aprender de memoria" los ejemplos y obtener un 100 % en el entrenamiento, pero ser completamente inútil con datos nuevos.
La solución: la división train/test
La solución es sencilla: se divide el dataset en 2 paquetes aleatoriamente antes del entrenamiento.
Conjunto de entrenamiento (train)
70 a 80 % de los datos. Sirve para entrenar el modelo. Es el "cuaderno de ejercicios con soluciones" que estudia el alumno.
Conjunto de prueba (test)
20 a 30 % de los datos. Sirve para evaluar el modelo tras el entrenamiento. Es el examen final con ejercicios nunca vistos.
| Conjunto | Proporción | Rol |
|---|---|---|
| Train | 60–70% | Entrenar los parámetros del modelo |
| Validation | 15–20% | Ajustar hiperparámetros, comparar varios modelos |
| Test | 15–20% | Evaluación final, una sola vez, al final |
¿Por qué 3 paquetes? Porque si ajustas tu modelo observando los resultados del test, terminas "sobreoptimizando" para ese test concreto: se convierte en una forma de entrenamiento indirecto.
La validación cruzada (k-fold cross-validation)
Problema de la división simple train/test: el resultado depende de qué datos hayan caído en el conjunto de prueba. Una mala selección = métrica pesimista u optimista.
La validación cruzada de k pliegues resuelve esto promediando varios splits:
El data leakage: la trampa invisible
El data leakage (fuga de datos) es el error más sutil y frecuente. Se produce cuando información del test "filtra" al entrenamiento, lo que da resultados artificialmente buenos en validación pero catastróficos en producción.
Ejemplos típicos
Cómo evitarlo
Visualizar el modelo y sus predicciones
Objetivos pedagógicos
- Visualizar un árbol con el widget Tree Viewer
- Leer las reglas aprendidas por el modelo
- Realizar predicciones con el widget Predictions
- Cerrar el primer flujo de trabajo completo
Ver el árbol: el widget Tree Viewer
La gran ventaja del árbol de decisión es que se puede ver. El widget Tree Viewer dibuja el árbol rama por rama, con sus preguntas y respuestas.
Realizar predicciones: el widget Predictions
Para aplicar el modelo a nuevos casos se utiliza el widget Predictions. Recibe dos entradas: el modelo entrenado y los datos a predecir.
Encontrar patrones — intuición visual
Objetivos pedagógicos
- Definir qué es un pattern en ML
- Visualizar un pattern en un diagrama de dispersión
- Comprender la noción de frontera de decisión
- Distinguir un pattern simple (lineal) de uno complejo (no lineal)
- Entender el vínculo entre el pattern detectado y la generalización
¿Qué es un pattern?
Un pattern (en español: patrón recurrente) es una regularidad estadística en los datos. Es lo que la máquina busca detectar para poder realizar predicciones.
Visualización: un diagrama de dispersión y su frontera
La forma más sencilla de visualizar un pattern: un gráfico de 2 features. Imaginemos un dataset de flores con 2 características (longitud del pétalo, anchura del pétalo) y 2 especies (A y B).
Patrones lineales vs no lineales
No todos los patrones tienen la misma complejidad.
Patrón lineal
La frontera es una línea recta (o un plano en 3D, un hiperplano en N dimensiones).
Ejemplo: "cuanto más aumenta la dosis de azúcar, mayor es el riesgo de diabetes" (relación directa).
Algoritmos adecuados: regresión lineal, regresión logística, SVM lineal.
Patrón no lineal
La frontera es curva, en espiral o con formas complejas.
Ejemplo: "el riesgo de cáncer aumenta con la edad, pero también depende de combinaciones complejas (genética, estilo de vida)".
Algoritmos adecuados: árboles de decisión, bosques aleatorios, redes neuronales, XGBoost.
El pattern no es la regla definitiva: solo una aproximación
Importante: un pattern de ML nunca es una regla absoluta. Es una tendencia estadística. El modelo proporciona probabilidades, no certezas.
| Pattern detectado | Casos en los que funciona | Casos en los que falla |
|---|---|---|
| "Email con 'ganado 1M€' = spam" | 95 % de los casos | Lotería oficial realmente ganada |
| "Joven + saldo bajo = se da de baja" | 70 % de los casos | Estudiante que seguirá siendo cliente 30 años |
| "Píxeles rojos redondos = manzana" | 80 % de los casos | Tomate, fresa, balón |
Por eso todo modelo de ML se evalúa con métricas (precisión, recall, etc.). No se busca la perfección, sino el mejor rendimiento posible, sabiendo que siempre habrá errores.
Por qué la dimensión lo cambia todo: la maldición de la dimensionalidad
Con 2 features se puede dibujar un gráfico 2D y ver los patterns. Con 3 features aún es posible (3D). Pero en la práctica los datasets suelen tener 10, 100 o incluso 1000 features. Visualizar se vuelve imposible.
Este artículo cubre los extractos más útiles: el curso completo Machine Learning para Principiantes (11 capítulos, 44 lecciones, ejercicios resueltos y proyecto final) te lleva hasta el final.
./acceder-al-curso-completo curso gratuito: Dominar Claude CodeFAQ
¿Cuánto tiempo se necesita para aprender Machine Learning para Principiantes?
¿Se necesitan requisitos previos?
¿Por dónde empezar de forma concreta?
📬 ¿Quieres recibir este tipo de guía cada semana? Suscríbete gratis — código real, cero palabrería.