IA & LLM

Introduction LLMs SLMs expliqué simplement (avec schémas et vrai code)

Introduction LLMs SLMs : l'essentiel en un article — vrai code, schémas et étapes concrètes, extraits d'un cours de 44 leçons.

REHOUMA Haythem

11 Jun 2026 • 11 min read

Un guide qui va droit au but : Introduction LLMs SLMs décortiqué avec des schémas, des exemples concrets et des commandes testées. Tout vient d'un cours structuré de 11 chapitres — en voici le meilleur.

tl;dr

Introduction et Installation
Comment Fonctionne un LLM
Architecture Transformer
Panorama des LLMs en 2026
Les SLMs Small Language Models

~$ cat ./parcours.md # Introduction LLMs SLMs — 10 chapitres

Introduction et Installation

→ Présentation du cours et brève histoire des LLMs→ Installer Ollama et lancer son premier modèle+ 1 autres leçons

Comment Fonctionne un LLM

→ Tokens : comment le modèle voit le texte→ Fenêtre de contexte (context window)+ 2 autres leçons

Architecture Transformer

→ Le papier "Attention is All You Need" vulgarisé→ Encoder vs Decoder vs Encoder-Decoder+ 2 autres leçons

Panorama des LLMs en 2026

→ LLMs propriétaires : OpenAI, Anthropic, Google→ Modèles open-weights : Llama, Mistral, Qwen, Gemma+ 2 autres leçons

Les SLMs Small Language Models

→ SLM vs LLM : définition et seuil→ Panorama : Phi-3, Gemma, TinyLlama, Qwen-small+ 2 autres leçons

Inférence Locale Avec Ollama

→ Commandes Ollama essentielles→ Quantisation : Q4, Q5, Q8 expliquées+ 2 autres leçons

Hugging Face Transformers

→ Installation et premier pipeline→ AutoModel et AutoTokenizer+ 2 autres leçons

Choisir le Bon Modèle

→ Critères : coût, latence, confidentialité, qualité→ Matrice de décision LLM cloud / open / SLM+ 1 autres leçons

🏁

Projet final (+ 2 chapitres en chemin)

→ Tu repars avec un projet concret et démontrable

Installer Ollama et lancer son premier modèle

NOTEObjectif — Installer Ollama sur Windows, macOS ou Linux, télécharger votre premier modèle et avoir une conversation complète avec un LLM tournant entièrement en local sur votre machine, sans la moindre connexion Internet après le téléchargement initial.

Objectifs pédagogiques

TIPÀ l'issue de ce module

Installer Ollama sur votre système d'exploitation
Vérifier que le service tourne correctement
Télécharger un modèle depuis la bibliothèque Ollama
Lancer une conversation avec un modèle local
Comprendre où sont stockés les modèles sur votre machine
Connaître les commandes Ollama de base

Pourquoi Ollama ?

Ollama est un outil open-source qui simplifie radicalement l'usage des LLMs en local. Là où il fallait auparavant gérer manuellement la quantisation, les bindings GPU et les dépendances Python, Ollama vous donne un binaire unique et une commande aussi simple que ollama run llama3. C'est devenu en 2026 la référence pour faire tourner un LLM sur son laptop.

Simplicité

Une seule commande pour télécharger et lancer un modèle. Pas de configuration GPU manuelle.

Multi-plateforme

Windows, macOS (Apple Silicon) et Linux. Optimisé pour CPU et GPU automatiquement.

API REST intégrée

Ollama expose une API locale sur http://localhost:11434 pour intégrer dans vos apps.

Installation pas à pas

Rendez-vous sur https://ollama.com/download et choisissez votre système. L'installation prend moins de deux minutes.

Windows

TIPAstuce : tapez /bye pour quitter la conversation et /? pour voir toutes les commandes disponibles dans le mode interactif d'Ollama.

Où sont stockés les modèles ?

Les modèles peuvent être volumineux. Savoir où ils vivent vous évite de mauvaises surprises de stockage.

OS	Emplacement par défaut
Windows	`C:\Users\<votre-nom>\.ollama\models`
macOS	`~/.ollama/models`
Linux	`/usr/share/ollama/.ollama/models`

Pour changer cet emplacement (vers un disque externe par exemple), définissez la variable d'environnement OLLAMA_MODELS avant de lancer le service.

API Ollama et intégration Python

NOTEObjectif — Découvrir l'API locale d'Ollama et l'appeler depuis Python, pour intégrer un LLM local dans vos propres scripts et applications.

Objectifs pédagogiques

TIPÀ l'issue de ce module

Comprendre qu'Ollama expose une API HTTP locale
Appeler l'API avec curl et en Python
Utiliser la bibliothèque Python officielle
Passer un system prompt et des options
Intégrer un LLM local dans une application

Ollama est aussi un serveur

En plus de la ligne de commande, Ollama tourne en arrière-plan comme un serveur HTTP local, accessible sur http://localhost:11434. Tout ce que fait la CLI, vous pouvez le faire par requête HTTP, donc depuis n'importe quel langage.

Le pont vers le code

Du chat dans le terminal à l'API Python, vous savez maintenant intégrer un LLM local dans n'importe quel programme.

Installation et premier pipeline

NOTEObjectif — Installer la bibliothèque Transformers de Hugging Face et réaliser votre première inférence en Python avec l'abstraction la plus simple : le pipeline.

Objectifs pédagogiques

TIPÀ l'issue de ce module

Installer Transformers et ses dépendances
Comprendre ce qu'est un pipeline
Lancer une analyse de sentiment en 3 lignes
Connaître les tâches disponibles
Charger un modèle précis dans un pipeline

Hugging Face : le GitHub des modèles

Hugging Face fournit la bibliothèque Transformers, devenue le standard pour utiliser des modèles open-source en Python. Elle donne accès à des centaines de milliers de modèles via une interface uniforme.

Des tâches prêtes à l'emploi

Tâche (chaîne)	Ce que ça fait
`sentiment-analysis`	Détermine si un texte est positif ou négatif.
`text-generation`	Complète ou génère du texte.
`summarization`	Résume un texte long.
`translation`	Traduit d'une langue à une autre.
`question-answering`	Répond à une question à partir d'un contexte fourni.
`zero-shot-classification`	Classe un texte dans des catégories que vous définissez.

Choisir un modèle précis

Pour le français ou un besoin spécifique, indiquez explicitement le modèle (son identifiant Hugging Face).

WARNINGAttention : Les pipelines de génération par défaut utilisent de petits modèles anciens (comme GPT-2). Ne jugez pas la qualité des LLMs modernes sur eux : ce sont des outils pédagogiques, pas des modèles de production.

va-plus-loin

Cet article couvre les extraits les plus utiles — le cours complet Introduction LLMs SLMs (11 chapitres, 44 leçons, exercices corrigés et projet final) t'emmène jusqu'au bout.

./acceder-au-cours-complet cours gratuit : Ingénierie de prompts

FAQ

Combien de temps pour apprendre Introduction LLMs SLMs ?

Avec une progression structurée (11 chapitres, 44 leçons courtes et pratiques), on atteint un niveau opérationnel en quelques semaines à raison de 30 à 60 minutes par jour. L'important est de pratiquer chaque notion immédiatement.

Faut-il des prérequis ?

Aucun prérequis : le cours part de zéro, chaque notion est introduite avant d'être utilisée.

Par où commencer concrètement ?

Reproduis les commandes de cet article, puis suis le cours complet Introduction LLMs SLMs : il enchaîne les 44 leçons dans l'ordre, avec exercices et projet final.

./a-lire-aussi

→ Prompts IA Efficaces : les 9 étapes clés pour passer de zéro à opérationnel → Lance-toi en Ingénierie Prompts Avancé : ton premier pas concret aujourd'hui → Fine Tuning LLMs expliqué simplement (avec schémas et vrai code)

📬 Tu veux recevoir ce type de guide chaque semaine ? Abonne-toi gratuitement — code réel, zéro blabla.

Installer Ollama et lancer son premier modèle

Objectifs pédagogiques

Pourquoi Ollama ?

Simplicité

Multi-plateforme

API REST intégrée

Installation pas à pas

Windows

Où sont stockés les modèles ?

API Ollama et intégration Python

Objectifs pédagogiques

Ollama est aussi un serveur

Le pont vers le code

Installation et premier pipeline

Objectifs pédagogiques

Hugging Face : le GitHub des modèles

Des tâches prêtes à l'emploi

Choisir un modèle précis

FAQ

Stay up to date