November 14, 2024
De use case Kamervragen is afgelopen week vastgelegd, dus zijn we weer naar de technische tekentafel gegaan om de huidige RAG-pipeline door te ontwikkelen tot een echt bruikbare applicatie.
Na gesprekken met JenV merkte we dat de grootste pijn zat in het zoeken van de juiste bronnen. Daarom gaat het retrieval gedeelte vrij uitgebreid zijn en bovendien interactief, zodat de eindgebruiker invloed heeft op welke bronnen er worden gebruikt uit de retrieval-stap voor het tekstvoorstel.
Bovendien is er de behoefte om als query in het systeem een hele Kamervraag in te voegen (dat betekent een inleiding plus alle subvragen). Hoe ga je deze hele Kamervragen verwerken tot iets wat logisch bruikbaar is voor de gebruiker en voor de LLM in de RAG-pipeline?
De eerste aanpak om dit te doen was proberen te matchen op basis van elke subvraag van een Kamervraag, gematcht met subvragen uit eerder beantwoorde Kamervragen. Per subvraag kan de eindgebruiker dan selecteren of dit logischerwijs past bij de gestelde vraag of niet. De vragen die de gebruiker als relevant acht, kunnen dan doorgezet worden naar de LLM. De LLM probeert dan deze context, aangevuld met gebruikerscontext (zoals een nieuwsbericht), over te zetten naar een template-suggestie voor beantwoording.
...November 4, 2024
Aanleiding
#
Op basis van de eerste experimenten en de schoongeveegde code zijn we begonnen om toe te werken naar minimale applicatie. Dit doen we op basis van twee sprints.
In sprint 1 ligt de focus op het opbouwen van de pipeline en het werkend krijgen van alle onderdelen. In de tweede sprint ligt de focus op de optimalisatie van de pipeline.
Doelstelling
#
Het doel van sprint 1 was om vanuit de opgeschoonde code deployments te creƫren binnen het UbiOps-platform om zo inzicht te krijgen in de bottlenecks, zodat er effectief kan worden doorontwikkelt.
...October 2, 2024
De resultaten van de eerste micro-experimenten zijn een verkenning van de parameters en geen shoot-out van de verschillende modellen in absolute zin.
Wel geeft dit ons een beginpunt van parameters om vanuit te gaan voor de ontwikkeling van de uiteindelijke pipeline voor de use case Kamervragen.
Experimentele set-up
#
Knowledge base
#
Er is getest met 1159 Kamervragen met beantwoorden als knowledge base. Dit zijn alle Kamervragen met bestandextensie (zoals .pdf of .docx) uit de API van de Open Data van de Tweede Kamer.
Deze vragen bestaan uit volledige documenten met subvragen.
...October 1, 2024
Binnen het project LearningLion werken we aan een use case voor de beantwoording van Kamervragen. Hiervoor wordt een eerder ontwikkelde RAG-pipeline doorontwikkeld. Uit eerdere documentatie hierover wordt niet meteen duidelijk waarom enkele parameters en modellen zijn gekozen in de pipeline tot nu toe. Vaak zitten er logische heuristieken achter en soms lijkt door anekdotisch experimenten besloten om voor sommige numerieke parameters te gaan. We willen steeds meer richting het op basis van experimenten kiezen voor de belangrijkste parameters in de RAG-pipeline en bijbehorende methodes om deze resultaten te vergelijken, zodat ons proces transparanter en reproduceerbaar is.
...