Eigen AI-infrastructuur opzetten: de 5-laagse stack voor AVG-proof AI

19 mei 2026

Mohammad Moghtader — CTO Virtual Computing

5-laagse AI-stack op Nederlandse Docker-hosting met n8n, LangFlow, Dify en OpenWebUI

De afgelopen achttien maanden is "AI in je bedrijf gebruiken" verschoven van een experiment naar een productie-vraag. En met die verschuiving komen vragen die je in de hype-fase nog kon negeren: waar staat onze data, wat doen we met de prompts, kunnen we straks nog van leverancier wisselen, en wat als OpenAI z'n prijzen verdubbelt?

Voor steeds meer Nederlandse MKB-teams — vooral in zorg, juridisch en finance — leidt dat naar dezelfde conclusie: een eigen AI-infrastructuur. Niet om OpenAI of Anthropic te vervangen, maar om de regie en de data terug te halen. In dit artikel beschrijven we de stack die we hiervoor uitrollen, in vijf concrete bouwlagen.

Waarom een eigen AI-stack?

Drie redenen, in volgorde van hoe vaak ze bovenkomen in onze gesprekken:

1. Data-soevereiniteit. Je prompts en bedrijfsdata blijven onder Nederlands recht. Geen training-data voor een Amerikaanse leverancier, geen verrassingen bij subpoena's of beleidswijzigingen aan de overkant van de oceaan. Voor zorg- en juridische klanten is dit vaak geen optie maar een vereiste.

2. Kostbeheersing. Per-token credits-modellen schalen onvoorspelbaar. Een SaaS-tool die nu €50 per gebruiker per maand kost kan over een jaar €120 zijn — niemand weet het. Bij een eigen stack betaal je een vaste maandprijs voor de infrastructuur, plus alleen de LLM-calls die je werkelijk gebruikt (en je kunt switchen tussen aanbieders zonder dat de pipeline kapot gaat).

3. Lock-in vermijden. Vandaag is OpenAI dominant, morgen is Anthropic. Of het wordt Mistral, of Llama 4. Wie aan één LLM-leverancier vast zit via z'n SaaS-tool kan niet meebewegen. Een eigen stack is leverancier-agnostisch.

Nadeel om eerlijk te benoemen: een eigen stack vraagt om bewuste keuzes. Je krijgt de regie, maar je moet ook beslissingen nemen die de SaaS-tool voor je nam. Daarom werken we met een vaste 5-laagse architectuur die voor 90% van de gevallen passend is.

De vijf lagen

Een productie-AI-applicatie heeft typisch vijf onderdelen. Bij Virtual Computing draaien we elke laag als een afzonderlijke Docker-container op onze managed hosting, zodat ze los te schalen en te updaten zijn.

Laag 1 — Orkestratie

Wat het doet: workflows aan elkaar knopen. LLM-calls combineren met databases, e-mail, CRM, Teams-berichten en wat-dan-ook.

Tools: n8n is de open-source standaard, Activepieces is een eenvoudiger alternatief voor business-teams.

Waarom op eigen infra: je orkestratie heeft toegang tot AL je API-keys (CRM, factuur-systeem, e-mail) en alle data die door je workflows stroomt. Dat is geen plek voor een SaaS-tussenlaag — en zeker niet voor een tool als Zapier waar elk per-task-credit zich opstapelt zodra je workflows groeien.

We hebben hier eerder een aparte gids voor geschreven: n8n hosting in Nederland: zelf-hosten, managed of cloud.

Laag 2 — Agent-frameworks

Wat het doet: visueel agents en LLM-flows bouwen — drag-and-drop bovenop LangChain. Ideaal voor RAG-pipelines (retrieval-augmented generation), multi-step reasoning en tool-use.

Tools: LangFlow voor de developer-leaning teams, Flowise voor business-leaning teams. Dify is de zwaarder uitgebouwde optie die ook deployment en versionering meebrengt.

Waarom op eigen infra: je agents werken vaak op gevoelige bedrijfsdocumenten. Bij een SaaS-tool weet je niet welke chunks waar verwerkt worden, bij een eigen runtime wel.

Laag 3 — LLM-interface

Wat het doet: een ChatGPT-achtige web-interface op je eigen modellen. Per team, per project of per klant. Werkt met OpenAI, Anthropic, Mistral én lokale modellen via Ollama.

Tools: OpenWebUI is hier de duidelijke open-source winnaar. Werkt direct met cloud-API's én lokale Ollama-runtimes, ondersteunt rolgebaseerde toegang en prompt-bibliotheken.

Waarom op eigen infra: je medewerkers willen ChatGPT-achtige tooling, maar je wilt voorkomen dat ze gevoelige info in iemand-anders-zijn-cloud typen. Een eigen OpenWebUI met jouw API-key geeft dezelfde gebruikservaring, met audit-log en data-controle.

Laag 4 — LLM-app platform

Wat het doet: productie-LLM-applicaties bouwen — knowledge-bots, klantenservice-AI, interne assistenten — met versionering, datasets en evaluatie.

Tools: Dify is een compleet platform-product dat zowel agents als deployment dekt. Voor lichtere use-cases is een LangFlow- of Flowise-flow vaak voldoende.

Waarom op eigen infra: een knowledge-bot indexeert je documenten. Die documenten moeten niet over een grenspoort heen.

Laag 5 — Runtime + vector database (optioneel)

Wat het doet: lokale LLM-runtime (voor gevoelige workloads of cost-control) en een vector-database voor je RAG-pipeline.

Tools: Ollama voor de lokale runtime (Llama 3, Mistral, Qwen, Phi), pgvector als simpele PostgreSQL-extensie, of Qdrant/Weaviate voor zwaardere workloads.

Waarom op eigen infra: dit is de laag waar de meeste data-soevereiniteit zit. Een document dat je via een lokale Ollama embedt en in je eigen Qdrant opslaat, verlaat nooit je infrastructuur.

GPU-vraag: Ollama draait op CPU voor kleine modellen (Llama 3 8B is bruikbaar), maar voor productie willen de meeste teams een dedicated GPU (NVIDIA A4000 of hoger). Dat bieden we op aanvraag.

Vier voorbeelden van wat je hiermee bouwt

RAG over bedrijfsdocumenten

Doorzoek je SharePoint, contracten of helpdesk-historie met LLM's, zonder dat de bron-documenten je infrastructuur verlaten. LangFlow doet de retrieval, Ollama de embeddings, Qdrant de vector-storage. Vier containers, geen externe afhankelijkheden behalve je gekozen LLM (en zelfs die kun je lokaal houden).

Klantenservice-AI met menselijke escalatie

n8n routeert inkomende tickets, Dify draait de LLM-conversatie, Chatwoot doet de live-chat met de menselijke escalatie. Eén pijplijn, drie containers, jij houdt het transcript. Geen Intercom-abonnement van €300/mnd, geen data bij een Amerikaanse partij.

Privé ChatGPT voor je team

OpenWebUI als chat-interface bovenop je eigen API-keys. Iedereen heeft toegang tot GPT-4 of Claude of een lokaal model — zonder dat prompts naar derden lekken. Met je eigen rate-limits en audit-log.

Automatische rapporten en samenvattingen

n8n trekt data uit je systemen, een LLM vat samen, n8n levert het rapport via e-mail of Teams. Geen "AI-feature" in een SaaS, maar je eigen pijplijn die je kunt aanpassen wanneer je wilt.

AVG, en wat dit betekent

Een eigen stack maakt AVG-compliance niet automatisch waterdicht — maar het maakt 'm haalbaar. Drie aandachtspunten die we altijd doorlopen:

Verwerkingsregister. Wat verwerk je waar? Bij welke LLM-leverancier komt welke data terecht? Documenteer per workflow.
DPIA bij gevoelige data. Voor zorg- en juridische data is een Data Protection Impact Assessment vaak verplicht. Wij helpen daarbij, en de containerized opzet maakt de scope helder afbakenbaar.
Bewaartermijnen. Hoe lang blijft een gesprek of een prompt bewaard in je tool? Stel retentie-policies in op zowel orkestratie-laag (n8n) als interface-laag (OpenWebUI).

Lees ook ons artikel over NIS2-richtlijn en MKB-bedrijven als je een organisatie hebt die straks onder die wetgeving valt — een eigen AI-stack helpt enorm bij de bewijsvoering.

Praktische volgorde van uitrol

In de praktijk bouwen we deze stack zelden in één keer. Onze aanbevolen volgorde:

Begin met n8n als orkestratie-laag. Eén container, gelijk waarde door bestaande workflows te migreren vanuit Zapier of Make.
Voeg OpenWebUI toe zodra het team meer met LLM's wil doen dan via Copilot of ChatGPT-abonnementen.
Bouw je eerste RAG-pipeline met LangFlow of Flowise zodra er een concrete use-case ligt (knowledge-bot, klantenservice).
Voeg Dify toe als je productie-LLM-apps wilt met versionering en evaluatie.
Overweeg Ollama + vector-DB alleen wanneer data-gevoeligheid of cost-control het rechtvaardigt.

Niet elke stap is voor elk team relevant. Een accountantskantoor heeft anders nodig dan een productiebedrijf.

Wat het kost

Voor een complete 5-laagse stack zonder dedicated GPU zit je tussen €130 en €200 per maand bij Virtual Computing. Met dedicated GPU voor lokale Ollama-modellen begint dat rond €350 per maand.

Een fractie van wat een per-gebruiker SaaS-stack ($30-50 per gebruiker per maand × 25 gebruikers = €750-1250 per maand) kost — en zonder dat je data bij derden ligt.

Per losse container starten de prijzen al vanaf €29 per maand. Kijk voor de actuele opties op onze AI-infrastructuurpagina.

Vragen die we vaak krijgen

Kunnen we Azure OpenAI ernaast gebruiken? Ja. n8n en Dify hebben native integraties met Azure OpenAI, AWS Bedrock en Google Vertex AI. Veel klanten gebruiken Azure OpenAI voor compliance-gedreven workloads en lokale Ollama voor experimenten.

Werkt dit met onze Microsoft 365-tenant? Ja. n8n praat met Microsoft Graph (SharePoint, OneDrive, Teams) via OAuth. Een RAG over je SharePoint-bibliotheek is een veelvoorkomende eerste use-case.

Heb ik een GPU nodig? Voor n8n, LangFlow, Flowise, Dify en OpenWebUI niet. Wel als je lokale modellen via Ollama wilt draaien. Voor de meeste MKB-teams kan dat later, wanneer de eerste workflows productie zijn.

Is dit niet veel werk om op te zetten? Onze 5 containers zijn binnen een werkdag uitrolbaar. De inhoudelijke configuratie — workflows ontwerpen, prompts schrijven, RAG-pipelines bouwen — kost meer tijd. Daar helpen onze AI-adviseurs bij via Maatwerk AI.

Conclusie

Een eigen AI-infrastructuur op Nederlandse Docker-hosting geeft je drie dingen die een SaaS-stack niet biedt: data-soevereiniteit, kostbeheersing en leverancier-flexibiliteit. De vijf bouwlagen — orkestratie, agents, LLM-interface, LLM-app platform en runtime — zijn open-source en bewezen, en we hebben ze inmiddels bij tientallen MKB-teams uitgerold.

De juiste vraag is niet "moet ik dit doen?", maar "welke lagen heb ik wanneer nodig?". Vrijwel iedereen begint bij laag 1 (n8n) en groeit van daaruit door.

Wil je een complete AI-stack laten opzetten met advies over modelkeuze en datastrategie? Bekijk de AI-infrastructuurpagina, kijk wat er aan losse hosted apps op onze infrastructuur draait, of plan direct een AI-strategiegesprek — bellen kan op 085 013 4500.

Geschreven door