Waarom Apple Silicon de eerste serieuze vergader-AI mogelijk maakt zonder cloud
M1, M2, M3 en M4 chips hebben een Neural Engine die WhisperKit en Apple MLX zo efficiënt draait dat lokale vergader-AI praktisch wordt. Hier is wat dat technisch betekent voor je werkdag in 2025 en welke compromissen wel of niet meer nodig zijn.
Waarom Apple Silicon de eerste serieuze vergader-AI mogelijk maakt zonder cloud
In 2020 had je twee opties voor vergader-AI. Cloud (Otter, Fireflies, Zoom AI) of niets. De cloud-route was niet gekozen omdat hij beter was, hij was gekozen omdat hij de enige route was. Geen enkele laptop kon Whisper, GPT-3.5 of een vergelijkbaar model lokaal draaien zonder dat je vier minuten op een tien-minuten-transcriptie wachtte.
In 2025 is dat veranderd, en de reden is heel concreet hardware. Apple's M-serie chips bevatten een Neural Engine die ontworpen is voor exact dit type werklast. WhisperKit, de open-source port van OpenAI's Whisper naar Apple's MLX-framework, transcribeert sneller dan real-time op een base-model M1. Apple MLX laat 4-bit gequantiseerde Phi-4 Mini draaien die structurele samenvattingen produceert die concurrerend zijn met kleine cloud-modellen. Op een M2 Pro is het sneller dan een rondreis naar de cloud.
Dat is geen hype. Het is gewoon wat de hardware nu doet. Deze post legt uit wat er technisch is gebeurd, welke compromissen daarmee verdwenen zijn, en welke nog blijven.
Wat de Neural Engine eigenlijk doet
De Neural Engine (ANE) is een aparte coprocessor in elke M-serie chip, los van de CPU en GPU. Hij is geoptimaliseerd voor 16-bit float matrix multiplicaties, het basisbouwblok van neural networks.
Op een M1 zit een 16-core ANE die rond 11 TOPS (tera operations per second) haalt. M2 doet 15.8 TOPS. M3 ongeveer 18 TOPS. M4 zit boven 38 TOPS dankzij een nieuwere ANE-architectuur.
Vergelijk dat met een server-GPU zoals een NVIDIA T4 (8 TOPS in INT8) of een A10 (62 TOPS) en je ziet dat een gewone laptop in 2025 niet meer ver onder een data-center-GPU zit voor inference. Het verschil zit in geheugenbandbreedte, niet zozeer in pure rekenkracht.
Voor vergader-AI is de werklast precies wat de ANE goed kan: stream audio door een transformer (Whisper) en produceer tekst, of stream tekst door een kleine transformer (Phi-4 Mini) en produceer een samenvatting. Geen training, alleen inference.
WhisperKit op een M1: wat we feitelijk meten
Whisper Large v3 (1.55B parameters) draait op WhisperKit op een M1 8GB met de volgende benaderingen:
- Een opname van 60 minuten transcribeert in ongeveer 4 tot 6 minuten, afhankelijk van taal en complexiteit van de spraak.
- Voor Nederlands en Vlaams (met code-switching naar Engels) is de Word Error Rate in onze tests rond de 8 tot 12 procent, afhankelijk van speaker en achtergrondgeluid.
- Voor Frans rond de 7 tot 10 procent.
- Voor zuiver Engels rond de 4 tot 7 procent.
Dat is ruwweg vergelijkbaar met wat Otter.ai cloud-side levert op dezelfde audio. Niet identiek, maar binnen ruisband.
Belangrijker: de transcriptie gebeurt zonder dat de audio het toestel verlaat. Op een M2 Pro of M3 Pro is het real-time of sneller, wat betekent dat live-transcriptie tijdens de vergadering technisch haalbaar is.
Apple MLX en de samenvattings-stap
Voor de samenvattings-stap is de keuze in 2025 vooral tussen Microsoft Phi-4 Mini Instruct (3.8B parameters, 4-bit gequantiseerd ongeveer 2.4 GB) en Meta's Llama 3.1 8B Instruct (4-bit, ongeveer 4.5 GB).
Phi-4 Mini is in onze tests de beste keuze voor base-model M1's met 8 GB geheugen. Hij produceert structurele output (samenvatting, beslissingen, actiepunten, thema's) in een formaat dat we via JSON-schema-validation deterministisch kunnen parsen. Voor een 30-minuten vergadering werkt hij op een M1 in 30 tot 60 seconden.
Llama 3.1 8B is voor 16 GB+ Macs en levert kwalitatief diepere samenvattingen, vooral voor lange of complexe vergaderingen. Voor één-uur-vergaderingen op een M2 Pro doet hij ongeveer 2 minuten samenvatten.
Voor lange transcripten (boven de 6.000 tokens, ongeveer 45 minuten gesprek) gebruiken we map-reduce: per chunk van het transcript een mini-samenvatting, daarna een reduce-stap die alle mini-samenvattingen verenigt. Dat schaalt naar drie-uur-vergaderingen zonder context-window-problemen.
Dat is het belangrijkste punt: lokaal samenvatten van een drie-uur-meeting was in 2023 onmogelijk op een laptop. In 2025 is het ongeveer drie minuten extra wachten, eenmalig, op een Mac van 1.500 euro.
Welke compromissen wel of niet zijn verdwenen
Vergelijken we wat eind-2024 nog moest met wat begin-2025 niet meer hoeft:
Compromis dat verdwenen is: audio uploaden om te transcriberen. WhisperKit op de Neural Engine doet het lokaal, in real-time of sneller. Geen netwerkverbinding nodig.
Compromis dat verdwenen is: transcript naar cloud-LLM sturen voor samenvatting. Apple MLX met Phi-4 Mini of Llama 3.1 8B levert lokaal samenvatting voor 90 procent van de use cases. De resterende 10 procent (heel lange documenten, zeer specialistische jargon) kan via MCP naar Claude Desktop of Cursor geroute worden zonder dat de transcripten je Mac verlaten, omdat MCP via een lokale Unix socket spreekt.
Compromis dat is gebleven: cross-device sync. Je vergaderindex leeft op één Mac. Als je een tweede Mac hebt, deelt die nog niet automatisch. iCloud-encrypted index sync staat op de roadmap voor v3.x, maar dat is nog werk in uitvoering.
Compromis dat is gebleven: model-grootte voor diepe redenering. Phi-4 Mini en Llama 3.1 8B zijn goed voor structurele output. Voor diepe analyse-vragen ("wat zegt deze cluster van vergaderingen over onze product-richting van het afgelopen kwartaal?") zijn frontier-modellen zoals Claude 4.5 of GPT-5 nog steeds beter. Onze antwoord daarvoor is MCP: lokale retrieval + frontier model voor reasoning, zonder dat de bronteksten je Mac verlaten.
Compromis dat verdwenen is: het maandelijkse cloud-abonnement. Een Mac die je toch al hebt, plus een eenmalige licentie, plus eventueel een bestaande Claude Desktop subscription. Geen extra recurring SaaS-bill voor de vergaderindex zelf.
Voor wie deze hardware-shift uitmaakt
Niet voor iedereen. Drie profielen zien we in praktijk:
Belgische KMO's met compliance-druk. Cabinet, consultancy, healthcare, financieel. Voor hen is "geen audio in de cloud" niet een nice-to-have maar een compliance-vereiste. De Apple Silicon-stap maakt die vereiste realistisch zonder kwaliteitsverlies.
Knowledge workers die al zwaar in Claude Desktop of Cursor zitten. Voor hen verandert MeetMemo de lokale Claude-context drastisch: alle vergader-history wordt addressabel vanuit hun bestaande AI-tool, zonder cloud-omweg.
Privacy-bewuste individuen. Geen team-context, gewoon iemand die niet wil dat zijn cliëntgesprekken op een Amerikaanse server zitten. De Apple-Silicon-route is voor hen pragmatisch beschikbaar geworden.
Voor mobile-first teams, voor teams die per se webbaserd willen werken, of voor teams die geen Macs hebben, is de cloud-route nog steeds de praktische keuze. We pretenderen niet dat een lokale Mac-app voor iedereen werkt.
Concrete vereisten voor 2025
Als je het wilt proberen op een Mac:
- Apple Silicon Mac. M1, M2, M3 of M4. Intel-Macs zijn voor de samenvattings-stap niet snel genoeg.
- macOS 14 of nieuwer. ScreenCaptureKit's audio-capture en de MLX-bibliotheken vereisen het.
- Ongeveer 5 GB vrije schijfruimte. WhisperKit-modellen ongeveer 1.5 GB, Phi-4 Mini ongeveer 2.4 GB, plus een buffer voor de SQLite-index.
- Geen internet vereist na installatie, behalve voor de eenmalige model-download bij eerste opstart.
Download MeetMemo gratis en probeer een vergadering opnemen op je eigen Mac. Als je de transcriptie en samenvatting binnen drie minuten klaar hebt staan zonder dat een byte je toestel heeft verlaten, dan is dat de Apple-Silicon-shift in concrete termen.
De hardware was er in 2024. De software-stack (WhisperKit, MLX, MCP) is er sinds begin 2025. Het is niet langer een toekomstig pad. Het is gewoon wat een Mac in 2025 kan.