Fine Tuning LLMs expliqué simplement (avec schémas et vrai code)

Fine Tuning LLMs : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 37 leçons.

Fine Tuning LLMs expliqué simplement (avec schémas et vrai code)

Un guide qui va droit au but : Fine Tuning LLMs décortiqué avec des schémas, des exemples concrets et des commandes testées. Tout vient d'un cours structuré de 11 chapitres — en voici le meilleur.

tl;dr
  • Introduction et Installation
  • Fondamentaux des LLMs
  • Preparation des Donnees
  • Fine-Tuning Complet
  • LoRA et QLoRA PEFT
~$ cat ./parcours.md # Fine Tuning LLMs — 9 chapitres
01
Introduction et Installation
→ Présentation du cours et pourquoi fine-tuner ?→ Installer Python, PyTorch et Hugging Face+ 1 autres leçons
02
Fondamentaux des LLMs
→ Architecture Transformer en bref→ Pré-entraînement, SFT, RLHF, DPO+ 2 autres leçons
03
Préparation des Données
→ Collecte et nettoyage des données→ Formats Alpaca, ChatML, ShareGPT, JSONL+ 2 autres leçons
04
Fine-Tuning Complet
→ Concepts du full fine-tuning→ Hugging Face Trainer et TrainingArguments+ 2 autres leçons
05
LoRA et QLoRA PEFT
→ Principe de LoRA low-rank adaptation→ QLoRA quantisation 4-bit et NF4+ 2 autres leçons
06
Entraînement et Hyperparamètres
→ Learning rate, batch size et époques→ Schedulers cosine, linear, warmup+ 2 autres leçons
07
Alignement Avancé DPO RLHF
→ DPO Direct Preference Optimization→ ORPO et KTO alternatives modernes+ 1 autres leçons
08
Déploiement et Inférence
→ Quantisation GGUF avec llama.cpp→ Servir avec vLLM ou TGI (haute perf)+ 1 autres leçons
🏁
Projet final (+ 1 chapitres en chemin)
→ Tu repars avec un projet concret et démontrable

Ollama et intégration locale

NOTEObjectif — Déployer votre modèle fine-tuné via Ollama, l'outil le plus simple pour faire tourner un LLM localement (macOS, Windows, Linux) avec une API REST en 30 secondes.

Objectifs pédagogiques

TIPÀ l'issue de ce module
  • Installer Ollama et faire tourner un modèle pré-existant
  • Importer votre modèle GGUF custom via un Modelfile
  • Utiliser l'API REST d'Ollama depuis n'importe quel langage
  • Intégrer Ollama dans une app Python / Node / Rust
  • Optimiser pour le matos (CPU, M2, RTX)

Installer Ollama

Faire tourner un modèle existant

API native

MatérielModèleTokens/sec
M2 16 GBMistral 7B Q4_K_M40
M3 Max 64 GBMistral 7B Q4_K_M80
M3 Max 64 GBLlama 3 70B Q4_K_M10
RTX 4090 24 GBMistral 7B Q4_K_M100+
RTX 3060 12 GBMistral 7B Q4_K_M35

Cas d'usage Ollama en production

POC en interne

Faire découvrir le modèle aux équipes métier sans infra cloud.

App desktop

Embarqué dans Tauri / Electron / Swift app pour analyse locale.

Edge / on-prem

Données sensibles qui ne doivent pas sortir du réseau interne.

Limites d'Ollama

Pousser votre modèle sur ollama.com

Vous pouvez partager votre modèle custom sur la registry Ollama publique :

Formats Alpaca, ChatML, ShareGPT, JSONL

NOTEObjectif — Connaître les formats standard de datasets pour le fine-tuning de LLMs et savoir les convertir l'un dans l'autre. Comprendre l'importance du template de chat spécifique à chaque modèle.

Objectifs pédagogiques

TIPÀ l'issue de ce module
  • Identifier les 4 formats les plus utilisés en 2026
  • Convertir un dataset entre Alpaca, ChatML et ShareGPT
  • Appliquer le bon chat template selon le modèle cible
  • Sauvegarder son dataset en JSONL streamable
  • Détecter les erreurs de formatage avant l'entraînement

Format 1 : Alpaca (le plus simple)

Issu du projet Stanford Alpaca (2023). Trois champs : instruction, input (optionnel) et output.

Convertir entre formats

Alpaca → ChatML

Hugging Face s'en occupe automatiquement via tokenizer.apply_chat_template(). Vous ne devez jamais écrire ces templates à la main.

Installer Python, PyTorch et Hugging Face

NOTEObjectif — Mettre en place un environnement Python propre pour le fine-tuning : Python 3.11, PyTorch avec CUDA, et toute la pile Hugging Face (Transformers, PEFT, Datasets, TRL).

Objectifs pédagogiques

TIPÀ l'issue de ce module
  • Installer Python 3.11 et un environnement virtuel dédié
  • Choisir et installer la bonne version de PyTorch (CPU vs CUDA)
  • Installer la pile complète Hugging Face avec versions compatibles
  • Vérifier que le GPU est bien détecté par PyTorch
  • Créer son compte Hugging Face et configurer son token

Prérequis système

ComposantRecommandéMinimum
Python3.113.10
RAM32 GB16 GB
GPU NVIDIARTX 4090 (24 GB)RTX 3060 (12 GB) ou Colab T4
Disque libre200 GB SSD50 GB
CUDA Toolkit12.111.8
WARNINGAttention Python 3.12 : En 2026, certaines dépendances (notamment bitsandbytes sur Windows) ne supportent pas encore parfaitement Python 3.12. Restez sur 3.11 pour ce cours.

Étape 1 : Installer Python 3.11 et un environnement virtuel

Créez un dossier de travail puis un environnement virtuel dédié au cours. Cela évite tout conflit avec d'autres projets Python.

GPU NVIDIA avec CUDA 12.1

peft

Parameter-Efficient Fine-Tuning. Indispensable pour LoRA et QLoRA.

bitsandbytes

Quantisation 8-bit et 4-bit. Permet le QLoRA. Doit matcher votre version CUDA.

Étape 4 : Créer un compte et un token Hugging Face

va-plus-loin

Cet article couvre les extraits les plus utiles — le cours complet Fine Tuning LLMs (11 chapitres, 37 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.

./acceder-au-cours-complet cours gratuit : Ingénierie de prompts

FAQ

Combien de temps pour apprendre Fine Tuning LLMs ?
Avec une progression structurée (11 chapitres, 37 leçons courtes et pratiques), on atteint un niveau opérationnel en quelques semaines à raison de 30 à 60 minutes par jour. L'important est de pratiquer chaque notion immédiatement.
Faut-il des prérequis ?
Des bases en informatique suffisent. Si tu sais utiliser un terminal et lire du code simple, tu es prêt.
Par où commencer concrètement ?
Reproduis les commandes de cet article, puis suis le cours complet Fine Tuning LLMs : il enchaîne les 37 leçons dans l'ordre, avec exercices et projet final.

📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.