Projet perso · pair-programming avec Jeremy Aubin

LocalIA.

L'IA générative qui tourne sur votre Mac.
Sans abonnement. Sans données qui sortent.

79.7tokens/sec
Qwen3-Coder 30B-A3B 4-bit
+20 %vs llama.cpp
Apple MLX 4-bit
🍎
32 GBRAM
Mac mini M4 32 GB
Le contexte

Aujourd'hui, les équipes paient cher pour utiliser une IA qui ne leur appartient pas.

~150 €/mois / dev

d'abonnements IA cumulés

Copilot + Claude + ChatGPT Plus

0contrôle

sur les prompts envoyés

Vos données partent chez OpenAI, Anthropic, Google

~500 mslatence

sur chaque token

Aller-retour serveur US à chaque mot

Pourquoi local

Trois raisons. Une réponse.

Souveraineté

Le modèle vit dans votre RAM. Aucune dépendance à un fournisseur cloud. Si OpenAI change ses conditions demain, vous n'êtes pas concerné.

Confidentialité

Code source, contrats, données client, R&D : rien ne quitte la machine. Niveau de confidentialité par défaut, air-gap.

Coût

0 €/mois après l'installation. Le seul coût est l'électricité du Mac. Pour une équipe de 5, c'est 750 €/mois économisés.

Architecture

Quatre briques. Tout en local.

Mac Apple Silicon
32 GB RAM
mlx_lm.server
Inférence MLX · :8080
LibreChat natif
UI web · :3080
MongoDB
Persistance conv · :27017

Flux
La requête part de votre navigateur, traverse LibreChat (UI), arrive au serveur MLX qui charge le modèle en RAM, génère la réponse token par token et la renvoie. MongoDB persiste l'historique.

Aucun appel externe
Mode avion possible. Les modèles sont téléchargés depuis Hugging Face une seule fois, ensuite plus aucune connexion sortante.

Modèles installés

Deux modèles. Hot-swap en ~10 s.

32 GB de RAM = un seul modèle chargé à la fois. On bascule de l'un à l'autre depuis l'UI LibreChat, en une dizaine de secondes.

Dense
≈ 17 GB
Raisonnement général

Gemma 4 31B Instruct

4-bit

Le modèle qui réfléchit

mlx-community/gemma-4-31b-it-4bit
MoE · 3B actifs
≈ 17 GB
Code, refactor, review

Qwen3-Coder 30B-A3B Instruct

4-bit

Le modèle qui code

mlx-community/Qwen3-Coder-30B-A3B-Instruct-4bit
Performance mesurée

Plus rapide que llama.cpp.

Throughput
0,0tokens/sec

Mesuré sur Mac mini M4 32 GB, modèle Qwen3-Coder 30B-A3B 4-bit, prompt court.

MLX vs llama.cpp · même modèle Q4
Apple MLX79.7 t/s
llama.cpp~66.5 t/s

+20 % de throughput, sans GPU dédié. Apple MLX exploite directement le moteur Neural Engine + GPU intégré.

Cas d'usage métiers

Ciblée. Pas générique.

L'IA locale n'est pas un remplacement de ChatGPT, c'est l'outil parfait pour les usages où confidentialité, coût et contrôle dominent.

Qdrant + Mistral Embed

RAG documents internes

Indexez contrats, wikis, comptes-rendus avec Qdrant + Mistral Embed. L'IA répond uniquement depuis vos sources, jamais depuis ses connaissances générales.

Qwen3-Coder 30B-A3B

Code review privé

Qwen3-Coder lit votre repo, propose des refactors, repère les bugs et les risques sécurité. Aucune ligne ne sort de la machine.

RAG + historique

Support N1 sur historique tickets

Une IA qui connaît vos clients, vos précédents tickets, votre tonalité. Pour répondre vite et bien sans externaliser la donnée client.

Gemma 4 raisonnement

Brainstorm conseil offline

Ateliers stratégiques, analyses sectorielles, exploration de scénarios. Idéal quand vous êtes en déplacement, en avion, ou quand la confidentialité prime.

À savoir avant

Il faut un Mac qui suit.

Soyons clairs : LocalIA n'est pas magique. Pour faire tourner un modèle 30B+ en 4-bit avec un débit confortable, il faut du matériel.

RAM minimum
32 GB
Architecture
Apple Silicon (M2 Pro / M3 / M4)
Disque
≈ 35 GB pour 2 modèles
OS
macOS 15+

En dessous des 32 GB, le système swap : l'expérience devient inutilisable. Sur un Mac M1 16 GB, vous pouvez tester de plus petits modèles (~7B), mais la qualité s'effondre.

Stack technique

Ce qui tourne sous le capot.

Apple MLX
Inférence 4-bit native Apple Silicon, ~+15-25 % vs llama.cpp
LibreChat
UI multi-modèles, hot-swap, MIT, sans Docker
MongoDB Community
Brew service local, persistance des conversations
Ollama (parallel)
Port 11434, conservé pour RAG Qdrant existant
Hugging Face Hub
Modèles MLX préquantifiés communautaires
Suite logique

Et si on poussait l'expérience encore plus loin ?

Cyrano by LeCoq.ai, un modèle unique qui route intelligemment.

Un seul modèle, Cyrano, qui après entraînement décide automatiquement vers quel LLM envoyer chaque requête : puissant pour les tâches complexes, plus léger pour le reste. Économies financières et écologiques 100 % garanties.

  • Par tâchecode et brouillon en local, gros contextes en cloud
  • Par budgettu fixes un plafond mensuel, Cyrano respecte
  • Par sensibilitédonnée client toujours en local, sans exception
Projet en pair-programming avec
Et après ?

On en parle ?

Vous montez une stack IA locale dans votre boîte, vous voulez en discuter, ou juste cloner le repo pour essayer chez vous. Toutes les portes sont ouvertes.

© 2026 Alexis Hessler · Pensé et codé sur Mac · Hébergé sur VPS perso