Fine Tuning LLMs expliqué simplement (avec schémas et vrai code)
Fine Tuning LLMs : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 37 leçons.
Un guide qui va droit au but : Fine Tuning LLMs décortiqué avec des schémas, des exemples concrets et des commandes testées. Tout vient d'un cours structuré de 11 chapitres — en voici le meilleur.
- Introduction et Installation
- Fondamentaux des LLMs
- Preparation des Donnees
- Fine-Tuning Complet
- LoRA et QLoRA PEFT
Ollama et intégration locale
Objectifs pédagogiques
- Installer Ollama et faire tourner un modèle pré-existant
- Importer votre modèle GGUF custom via un Modelfile
- Utiliser l'API REST d'Ollama depuis n'importe quel langage
- Intégrer Ollama dans une app Python / Node / Rust
- Optimiser pour le matos (CPU, M2, RTX)
Installer Ollama
Faire tourner un modèle existant
API native
| Matériel | Modèle | Tokens/sec |
|---|---|---|
| M2 16 GB | Mistral 7B Q4_K_M | 40 |
| M3 Max 64 GB | Mistral 7B Q4_K_M | 80 |
| M3 Max 64 GB | Llama 3 70B Q4_K_M | 10 |
| RTX 4090 24 GB | Mistral 7B Q4_K_M | 100+ |
| RTX 3060 12 GB | Mistral 7B Q4_K_M | 35 |
Cas d'usage Ollama en production
POC en interne
Faire découvrir le modèle aux équipes métier sans infra cloud.
App desktop
Embarqué dans Tauri / Electron / Swift app pour analyse locale.
Edge / on-prem
Données sensibles qui ne doivent pas sortir du réseau interne.
Limites d'Ollama
Pousser votre modèle sur ollama.com
Vous pouvez partager votre modèle custom sur la registry Ollama publique :
Formats Alpaca, ChatML, ShareGPT, JSONL
Objectifs pédagogiques
- Identifier les 4 formats les plus utilisés en 2026
- Convertir un dataset entre Alpaca, ChatML et ShareGPT
- Appliquer le bon chat template selon le modèle cible
- Sauvegarder son dataset en JSONL streamable
- Détecter les erreurs de formatage avant l'entraînement
Format 1 : Alpaca (le plus simple)
Issu du projet Stanford Alpaca (2023). Trois champs : instruction, input (optionnel) et output.
Convertir entre formats
Alpaca → ChatML
Hugging Face s'en occupe automatiquement via tokenizer.apply_chat_template(). Vous ne devez jamais écrire ces templates à la main.
Installer Python, PyTorch et Hugging Face
Objectifs pédagogiques
- Installer Python 3.11 et un environnement virtuel dédié
- Choisir et installer la bonne version de PyTorch (CPU vs CUDA)
- Installer la pile complète Hugging Face avec versions compatibles
- Vérifier que le GPU est bien détecté par PyTorch
- Créer son compte Hugging Face et configurer son token
Prérequis système
| Composant | Recommandé | Minimum |
|---|---|---|
| Python | 3.11 | 3.10 |
| RAM | 32 GB | 16 GB |
| GPU NVIDIA | RTX 4090 (24 GB) | RTX 3060 (12 GB) ou Colab T4 |
| Disque libre | 200 GB SSD | 50 GB |
| CUDA Toolkit | 12.1 | 11.8 |
bitsandbytes sur Windows) ne supportent pas encore parfaitement Python 3.12. Restez sur 3.11 pour ce cours.Étape 1 : Installer Python 3.11 et un environnement virtuel
Créez un dossier de travail puis un environnement virtuel dédié au cours. Cela évite tout conflit avec d'autres projets Python.
GPU NVIDIA avec CUDA 12.1
peft
Parameter-Efficient Fine-Tuning. Indispensable pour LoRA et QLoRA.
bitsandbytes
Quantisation 8-bit et 4-bit. Permet le QLoRA. Doit matcher votre version CUDA.
Étape 4 : Créer un compte et un token Hugging Face
Cet article couvre les extraits les plus utiles — le cours complet Fine Tuning LLMs (11 chapitres, 37 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.
./acceder-au-cours-complet cours gratuit : Ingénierie de promptsFAQ
Combien de temps pour apprendre Fine Tuning LLMs ?
Faut-il des prérequis ?
Par où commencer concrètement ?
📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.