LocalIA.
L'IA générative qui tourne sur votre Mac.
Sans abonnement. Sans données qui sortent.
Aujourd'hui, les équipes paient cher pour utiliser une IA qui ne leur appartient pas.
d'abonnements IA cumulés
Copilot + Claude + ChatGPT Plus
sur les prompts envoyés
Vos données partent chez OpenAI, Anthropic, Google
sur chaque token
Aller-retour serveur US à chaque mot
Trois raisons. Une réponse.
Souveraineté
Le modèle vit dans votre RAM. Aucune dépendance à un fournisseur cloud. Si OpenAI change ses conditions demain, vous n'êtes pas concerné.
Confidentialité
Code source, contrats, données client, R&D : rien ne quitte la machine. Niveau de confidentialité par défaut, air-gap.
Coût
0 €/mois après l'installation. Le seul coût est l'électricité du Mac. Pour une équipe de 5, c'est 750 €/mois économisés.
Quatre briques. Tout en local.
Flux
La requête part de votre navigateur, traverse LibreChat (UI), arrive au serveur MLX qui charge le modèle en RAM, génère la réponse token par token et la renvoie. MongoDB persiste l'historique.
Aucun appel externe
Mode avion possible. Les modèles sont téléchargés depuis Hugging Face une seule fois, ensuite plus aucune connexion sortante.
Deux modèles. Hot-swap en ~10 s.
32 GB de RAM = un seul modèle chargé à la fois. On bascule de l'un à l'autre depuis l'UI LibreChat, en une dizaine de secondes.
Gemma 4 31B Instruct
Le modèle qui réfléchit
Qwen3-Coder 30B-A3B Instruct
Le modèle qui code
Plus rapide que llama.cpp.
Mesuré sur Mac mini M4 32 GB, modèle Qwen3-Coder 30B-A3B 4-bit, prompt court.
+20 % de throughput, sans GPU dédié. Apple MLX exploite directement le moteur Neural Engine + GPU intégré.
Ciblée. Pas générique.
L'IA locale n'est pas un remplacement de ChatGPT, c'est l'outil parfait pour les usages où confidentialité, coût et contrôle dominent.
RAG documents internes
Indexez contrats, wikis, comptes-rendus avec Qdrant + Mistral Embed. L'IA répond uniquement depuis vos sources, jamais depuis ses connaissances générales.
Code review privé
Qwen3-Coder lit votre repo, propose des refactors, repère les bugs et les risques sécurité. Aucune ligne ne sort de la machine.
Support N1 sur historique tickets
Une IA qui connaît vos clients, vos précédents tickets, votre tonalité. Pour répondre vite et bien sans externaliser la donnée client.
Brainstorm conseil offline
Ateliers stratégiques, analyses sectorielles, exploration de scénarios. Idéal quand vous êtes en déplacement, en avion, ou quand la confidentialité prime.
Il faut un Mac qui suit.
Soyons clairs : LocalIA n'est pas magique. Pour faire tourner un modèle 30B+ en 4-bit avec un débit confortable, il faut du matériel.
- RAM minimum
- 32 GB
- Architecture
- Apple Silicon (M2 Pro / M3 / M4)
- Disque
- ≈ 35 GB pour 2 modèles
- OS
- macOS 15+
En dessous des 32 GB, le système swap : l'expérience devient inutilisable. Sur un Mac M1 16 GB, vous pouvez tester de plus petits modèles (~7B), mais la qualité s'effondre.
Ce qui tourne sous le capot.
Et si on poussait l'expérience encore plus loin ?
Cyrano by LeCoq.ai, un modèle unique qui route intelligemment.
Un seul modèle, Cyrano, qui après entraînement décide automatiquement vers quel LLM envoyer chaque requête : puissant pour les tâches complexes, plus léger pour le reste. Économies financières et écologiques 100 % garanties.
- Par tâchecode et brouillon en local, gros contextes en cloud
- Par budgettu fixes un plafond mensuel, Cyrano respecte
- Par sensibilitédonnée client toujours en local, sans exception
On en parle ?
Vous montez une stack IA locale dans votre boîte, vous voulez en discuter, ou juste cloner le repo pour essayer chez vous. Toutes les portes sont ouvertes.