Projet perso · pair-programming avec Jeremy Aubin

LocalIA.

L'IA générative qui tourne sur votre Mac.
Sans abonnement. Sans données qui sortent.

Voir la démo Code GitHub

79.7tokens/sec

Qwen3-Coder 30B-A3B 4-bit

⚡

+20 %vs llama.cpp

Apple MLX 4-bit

🍎

32 GBRAM

Mac mini M4 32 GB

Le contexte

Aujourd'hui, les équipes paient cher pour utiliser une IA qui ne leur appartient pas.

~150 €/mois / dev

d'abonnements IA cumulés

Copilot + Claude + ChatGPT Plus

0contrôle

sur les prompts envoyés

Vos données partent chez OpenAI, Anthropic, Google

~500 mslatence

sur chaque token

Aller-retour serveur US à chaque mot

Pourquoi local

Trois raisons. Une réponse.

Souveraineté

Le modèle vit dans votre RAM. Aucune dépendance à un fournisseur cloud. Si OpenAI change ses conditions demain, vous n'êtes pas concerné.

Confidentialité

Code source, contrats, données client, R&D : rien ne quitte la machine. Niveau de confidentialité par défaut, air-gap.

Coût

0 €/mois après l'installation. Le seul coût est l'électricité du Mac. Pour une équipe de 5, c'est 750 €/mois économisés.

Architecture

Quatre briques. Tout en local.

Mac Apple Silicon

32 GB RAM

mlx_lm.server

Inférence MLX · :8080

LibreChat natif

UI web · :3080

MongoDB

Persistance conv · :27017

Flux
La requête part de votre navigateur, traverse LibreChat (UI), arrive au serveur MLX qui charge le modèle en RAM, génère la réponse token par token et la renvoie. MongoDB persiste l'historique.

Aucun appel externe
Mode avion possible. Les modèles sont téléchargés depuis Hugging Face une seule fois, ensuite plus aucune connexion sortante.

Modèles installés

Deux modèles. Hot-swap en ~10 s.

32 GB de RAM = un seul modèle chargé à la fois. On bascule de l'un à l'autre depuis l'UI LibreChat, en une dizaine de secondes.

Dense

≈ 17 GB

Raisonnement général

Gemma 4 31B Instruct

4-bit

Le modèle qui réfléchit

mlx-community/gemma-4-31b-it-4bit

MoE · 3B actifs

≈ 17 GB

Code, refactor, review

Qwen3-Coder 30B-A3B Instruct

4-bit

Le modèle qui code

mlx-community/Qwen3-Coder-30B-A3B-Instruct-4bit

Performance mesurée

Plus rapide que llama.cpp.

Throughput

0,0tokens/sec

Mesuré sur Mac mini M4 32 GB, modèle Qwen3-Coder 30B-A3B 4-bit, prompt court.

MLX vs llama.cpp · même modèle Q4

Apple MLX79.7 t/s

llama.cpp~66.5 t/s

+20 % de throughput, sans GPU dédié. Apple MLX exploite directement le moteur Neural Engine + GPU intégré.

Cas d'usage métiers

Ciblée. Pas générique.

L'IA locale n'est pas un remplacement de ChatGPT, c'est l'outil parfait pour les usages où confidentialité, coût et contrôle dominent.

Qdrant + Mistral Embed

RAG documents internes

Indexez contrats, wikis, comptes-rendus avec Qdrant + Mistral Embed. L'IA répond uniquement depuis vos sources, jamais depuis ses connaissances générales.

Qwen3-Coder 30B-A3B

Code review privé

Qwen3-Coder lit votre repo, propose des refactors, repère les bugs et les risques sécurité. Aucune ligne ne sort de la machine.

RAG + historique

Support N1 sur historique tickets

Une IA qui connaît vos clients, vos précédents tickets, votre tonalité. Pour répondre vite et bien sans externaliser la donnée client.

Gemma 4 raisonnement

Brainstorm conseil offline

Ateliers stratégiques, analyses sectorielles, exploration de scénarios. Idéal quand vous êtes en déplacement, en avion, ou quand la confidentialité prime.

À savoir avant

Il faut un Mac qui suit.

Soyons clairs : LocalIA n'est pas magique. Pour faire tourner un modèle 30B+ en 4-bit avec un débit confortable, il faut du matériel.

RAM minimum: 32 GB
Architecture: Apple Silicon (M2 Pro / M3 / M4)
Disque: ≈ 35 GB pour 2 modèles
OS: macOS 15+

En dessous des 32 GB, le système swap : l'expérience devient inutilisable. Sur un Mac M1 16 GB, vous pouvez tester de plus petits modèles (~7B), mais la qualité s'effondre.

Stack technique

Ce qui tourne sous le capot.

Apple MLX

Inférence 4-bit native Apple Silicon, ~+15-25 % vs llama.cpp

LibreChat

UI multi-modèles, hot-swap, MIT, sans Docker

MongoDB Community

Brew service local, persistance des conversations

Ollama (parallel)

Port 11434, conservé pour RAG Qdrant existant

Hugging Face Hub

Modèles MLX préquantifiés communautaires

Suite logique

Et si on poussait l'expérience encore plus loin ?

Cyrano by LeCoq.ai, un modèle unique qui route intelligemment.

Un seul modèle, Cyrano, qui après entraînement décide automatiquement vers quel LLM envoyer chaque requête : puissant pour les tâches complexes, plus léger pour le reste. Économies financières et écologiques 100 % garanties.

Découvrir LeCoq.ai

Par tâchecode et brouillon en local, gros contextes en cloud
Par budgettu fixes un plafond mensuel, Cyrano respecte
Par sensibilitédonnée client toujours en local, sans exception

Projet en pair-programming avec

Jeremy Aubin·Alexis Hessler

Et après ?

On en parle ?

Vous montez une stack IA locale dans votre boîte, vous voulez en discuter, ou juste cloner le repo pour essayer chez vous. Toutes les portes sont ouvertes.

Email direct

alexis.hessler@protonmail.com

Code source

github.com/alexishessler/LocalAI

in/alexis-hessler