Begrippenlijst

Om verwarring en onduidelijkheid te voorkomen volgt hieronder een bondige begrippenlijst.

Een op een machine gebaseerd systeem dat is ontworpen om met verschillende niveaus van autonomie te werken en dat na het inzetten ervan aanpassingsvermogen kan vertonen, en dat, voor expliciete of impliciete doelstellingen, uit de ontvangen input afleidt hoe output te genereren zoals voorspellingen, inhoud, aanbevelingen of beslissingen die van invloed kunnen zijn op fysieke of virtuele omgevingen.

Applicatie

Een applicatie is een versie van het project waar de eindgebruiker mee te maken krijgt.

Chunking

Chunking is een techniek om grote stukken tekst in kleinere stukken tekst, chunks, op te delen. Dit maakt het makkelijker om een tekst te verwerken en te analyseren.

Chunk-size is het maximale aantal karakters dat een chunk kan bevatten en refereert dus naar de lengte van een chunk.

Codebase

Een codebase bestaat uit alle code die tot nu toe gemaakt is en in het onderhavige project relevant is voor de ontwikkeling van de applicatie.

Embedding

Een embedding is een numerieke vertaling van tekst met als doel de semantiek van tekst vast te leggen en bruikbaar te maken voor het taalmodel en retriever.

Embeddingsmodel

Een embeddingsmodel is het model dat de vertaling maakt van tekst naar een numerieke weergave (zie ook: Vectorstore).

Ingestion

Sub-functies die samen zorgen voor het prepareren van data om in een vectorstore opgeslagen te kunnen worden.

Inputdata

Inputdata is data die in een AI-systeem worden ingevoerd of direct door een AI-systeem worden verworven en op basis waarvan het systeem een output genereert.

Knowledgebase

Een knowledge base is een kennisbank met informatie die je kan onderzoeken of raadplegen.

Persoonsgegevens

Alle informatie over een geïdentificeerde of identificeerbare natuurlijke persoon („de betrokkene”); als identificeerbaar wordt beschouwd een natuurlijke persoon die direct of indirect kan worden geïdentificeerd, met name aan de hand van een identificator zoals een naam, een identificatienummer, locatiegegevens, een online identificator of van een of meer elementen die kenmerkend zijn voor de fysieke, fysiologische, genetische, psychische, economische, culturele of sociale identiteit van die natuurlijke persoon.

Query

Een query is een opdracht die je aan een database geeft om een bepaalde actie uit te voeren en die mogelijk ook informatie teruggeeft.

Rag pipeline

Een RAG-pipeline is een keten van subprocessen die samen als doel hebben om vanuit een vraag van een gebruiker (user):

voor de vraag relevante informatie op te halen uit een vectorstore middels een retriever.
De vraag te beantwoorden met een taalmodel.

Retriever

Een retriever in een RAG-pipeline haalt relevante documenten op uit een vectorstore. Dit wordt als context meegegeven aan een taalmodel.

Taalmodel

Een taalmodel of Large Language Model (LLM) genereert taal op basis van een input-vraag en eventuele context die wordt meegegeven.

Trainingsdata

Trainingsdata is data die worden gebruikt voor het trainen van een AI-systeem door de leerbare parameters hiervan aan te passen.

Validatiedata

Validatiedata is data die worden gebruikt voor het verrichten van een evaluatie van het getrainde AI-systeem en voor het afstemmen van onder andere de niet-leerbare parameters en het leerproces ervan, om underfitting of overfitting te voorkomen.

Vectorstore

In een vectorstore zijn ingesloten (embedded) vectoren opgeslagen. Deze vectoren zijn multidimensionale numerieke representaties van gegevens zoals afbeeldingen of tekst. Het is een manier om gegevens weer te geven op basis van de betekenis ervan.

Woo

In de Wet open overheid (Woo) is geregeld dat overheidsorganisaties informatie moet geven over wat de overheid doet, hoe ze dat doet en waarom. Dit moeten ze uit zichzelf doen, of als iemand daar om vraagt (een Woo-verzoek). Zo kunnen onder andere burgers de overheid controleren.