Introduction LLMs SLMs expliqué simplement (avec schémas et vrai code)

Introduction LLMs SLMs : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 44 leçons.

Introduction LLMs SLMs expliqué simplement (avec schémas et vrai code)

Un guide qui va droit au but : Introduction LLMs SLMs décortiqué avec des schémas, des exemples concrets et des commandes testées. Tout vient d'un cours structuré de 11 chapitres — en voici le meilleur.

tl;dr
  • Introduction et Installation
  • Comment Fonctionne un LLM
  • Architecture Transformer
  • Panorama des LLMs en 2026
  • Les SLMs Small Language Models
~$ cat ./parcours.md # Introduction LLMs SLMs — 10 chapitres
01
Introduction et Installation
→ Présentation du cours et brève histoire des LLMs→ Installer Ollama et lancer son premier modèle+ 1 autres leçons
02
Comment Fonctionne un LLM
→ Tokens : comment le modèle voit le texte→ Fenêtre de contexte (context window)+ 2 autres leçons
03
Architecture Transformer
→ Le papier "Attention is All You Need" vulgarisé→ Encoder vs Decoder vs Encoder-Decoder+ 2 autres leçons
04
Panorama des LLMs en 2026
→ LLMs propriétaires : OpenAI, Anthropic, Google→ Modèles open-weights : Llama, Mistral, Qwen, Gemma+ 2 autres leçons
05
Les SLMs Small Language Models
→ SLM vs LLM : définition et seuil→ Panorama : Phi-3, Gemma, TinyLlama, Qwen-small+ 2 autres leçons
06
Inférence Locale Avec Ollama
→ Commandes Ollama essentielles→ Quantisation : Q4, Q5, Q8 expliquées+ 2 autres leçons
07
Hugging Face Transformers
→ Installation et premier pipeline→ AutoModel et AutoTokenizer+ 2 autres leçons
08
Choisir le Bon Modèle
→ Critères : coût, latence, confidentialité, qualité→ Matrice de décision LLM cloud / open / SLM+ 1 autres leçons
🏁
Projet final (+ 2 chapitres en chemin)
→ Tu repars avec un projet concret et démontrable

Installer Ollama et lancer son premier modèle

NOTEObjectif — Installer Ollama sur Windows, macOS ou Linux, télécharger votre premier modèle et avoir une conversation complète avec un LLM tournant entièrement en local sur votre machine, sans la moindre connexion Internet après le téléchargement initial.

Objectifs pédagogiques

TIPÀ l'issue de ce module
  • Installer Ollama sur votre système d'exploitation
  • Vérifier que le service tourne correctement
  • Télécharger un modèle depuis la bibliothèque Ollama
  • Lancer une conversation avec un modèle local
  • Comprendre où sont stockés les modèles sur votre machine
  • Connaître les commandes Ollama de base

Pourquoi Ollama ?

Ollama est un outil open-source qui simplifie radicalement l'usage des LLMs en local. Là où il fallait auparavant gérer manuellement la quantisation, les bindings GPU et les dépendances Python, Ollama vous donne un binaire unique et une commande aussi simple que ollama run llama3. C'est devenu en 2026 la référence pour faire tourner un LLM sur son laptop.

Simplicité

Une seule commande pour télécharger et lancer un modèle. Pas de configuration GPU manuelle.

Multi-plateforme

Windows, macOS (Apple Silicon) et Linux. Optimisé pour CPU et GPU automatiquement.

API REST intégrée

Ollama expose une API locale sur http://localhost:11434 pour intégrer dans vos apps.

Installation pas à pas

Rendez-vous sur https://ollama.com/download et choisissez votre système. L'installation prend moins de deux minutes.

Windows

TIPAstuce : tapez /bye pour quitter la conversation et /? pour voir toutes les commandes disponibles dans le mode interactif d'Ollama.

Où sont stockés les modèles ?

Les modèles peuvent être volumineux. Savoir où ils vivent vous évite de mauvaises surprises de stockage.

OSEmplacement par défaut
WindowsC:\Users\<votre-nom>\.ollama\models
macOS~/.ollama/models
Linux/usr/share/ollama/.ollama/models

Pour changer cet emplacement (vers un disque externe par exemple), définissez la variable d'environnement OLLAMA_MODELS avant de lancer le service.

API Ollama et intégration Python

NOTEObjectif — Découvrir l'API locale d'Ollama et l'appeler depuis Python, pour intégrer un LLM local dans vos propres scripts et applications.

Objectifs pédagogiques

TIPÀ l'issue de ce module
  • Comprendre qu'Ollama expose une API HTTP locale
  • Appeler l'API avec curl et en Python
  • Utiliser la bibliothèque Python officielle
  • Passer un system prompt et des options
  • Intégrer un LLM local dans une application

Ollama est aussi un serveur

En plus de la ligne de commande, Ollama tourne en arrière-plan comme un serveur HTTP local, accessible sur http://localhost:11434. Tout ce que fait la CLI, vous pouvez le faire par requête HTTP, donc depuis n'importe quel langage.

Le pont vers le code

Du chat dans le terminal à l'API Python, vous savez maintenant intégrer un LLM local dans n'importe quel programme.

Installation et premier pipeline

NOTEObjectif — Installer la bibliothèque Transformers de Hugging Face et réaliser votre première inférence en Python avec l'abstraction la plus simple : le pipeline.

Objectifs pédagogiques

TIPÀ l'issue de ce module
  • Installer Transformers et ses dépendances
  • Comprendre ce qu'est un pipeline
  • Lancer une analyse de sentiment en 3 lignes
  • Connaître les tâches disponibles
  • Charger un modèle précis dans un pipeline

Hugging Face : le GitHub des modèles

Hugging Face fournit la bibliothèque Transformers, devenue le standard pour utiliser des modèles open-source en Python. Elle donne accès à des centaines de milliers de modèles via une interface uniforme.

Des tâches prêtes à l'emploi

Tâche (chaîne)Ce que ça fait
sentiment-analysisDétermine si un texte est positif ou négatif.
text-generationComplète ou génère du texte.
summarizationRésume un texte long.
translationTraduit d'une langue à une autre.
question-answeringRépond à une question à partir d'un contexte fourni.
zero-shot-classificationClasse un texte dans des catégories que vous définissez.

Choisir un modèle précis

Pour le français ou un besoin spécifique, indiquez explicitement le modèle (son identifiant Hugging Face).

WARNINGAttention : Les pipelines de génération par défaut utilisent de petits modèles anciens (comme GPT-2). Ne jugez pas la qualité des LLMs modernes sur eux : ce sont des outils pédagogiques, pas des modèles de production.
va-plus-loin

Cet article couvre les extraits les plus utiles — le cours complet Introduction LLMs SLMs (11 chapitres, 44 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.

./acceder-au-cours-complet cours gratuit : Ingénierie de prompts

FAQ

Combien de temps pour apprendre Introduction LLMs SLMs ?
Avec une progression structurée (11 chapitres, 44 leçons courtes et pratiques), on atteint un niveau opérationnel en quelques semaines à raison de 30 à 60 minutes par jour. L'important est de pratiquer chaque notion immédiatement.
Faut-il des prérequis ?
Aucun prérequis : le cours part de zéro, chaque notion est introduite avant d'être utilisée.
Par où commencer concrètement ?
Reproduis les commandes de cet article, puis suis le cours complet Introduction LLMs SLMs : il enchaîne les 44 leçons dans l'ordre, avec exercices et projet final.

📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.