Long tail short tail
Project description
Voor het beschrijven van het project hebben we een een aantal onderzoekensvragen opgesteld. Deze bestaat uit een hoofdvraag een meerdere deelvragen die de hoofdvraag beantwoorden. De onderzoeksvragen zijn als volgt:
Hoofdvraag:
- How can we design a caching implementation for a chatbot that enables students at universities partnered with CY2 to deliver faster and more precise responses?
Deelvragen:
- How can the system identify comparable questions to select and return a cached response?
- Which caching mechanisms can be used for a chatbot?
- When should a cached response be updated in the system?
- What are the security implications of a caching system in a chatbot?
- Which ethical concerns apply to a caching system in a chatbot?
Context
De klant waarvan we de opdracht hebben gekregen is CY2. CY2 is een initiatief van Fontys Hogescholen, specifiek gericht op het bevorderen van de digitale vaardigheden en ondernemerschap van studenten. Het biedt een platform waar studenten in contact kunnen komen met bedrijven, experts en andere studenten om ideeën en projecten te ontwikkelen, met een focus op technologie en innovatie.
De opdracht van het project gaat over het ontwikkelen van een caching systeem voor een chatbot. De chatbot genereerd antwoorden op basis van het gebruik van artificial intelligence. Het genereren van antwoorden kost relatief veel tijd en computerkracht.
Het caching systeem heeft als doel de chatbot sneller en efficienter te maken. Het caching systeem moet ervoor zorgen dat niet alle antwoorden hoeven te worden gegenereerd. In plaats daarvan worden de antwoorden van vragen die al eerder zijn gesteld tijdelijk opgeslagen. Zodra een vergelijkbare vraag wordt gesteld wordt dit antwoord teruggeven aan de gebruiker.
Results
Aangezien ons project nog niet afgelopen is, hebben we nog niet al onze eindproducten klaar.
Onderzoek:
Question Similarity Research Report (TR level 4)
We hebben de verschillende manieren waarop we ‘vergelijkbare’ vragen kunnen herkennen in ons systeem onderzocht, we hebben verschillende algoritmes, tekst vertorizers en AI similarity search engines vergeleken, en hebben op basis van onze bevindingen gekozen voor de Pinecone Similarity search engine.
Caching System Research Report (TR level 2-3)
We hebben de verschillende manieren waarop we vraag en antwoord paren kunnen opslaan onderzocht.
Cache Management Research Report (TR level 1)
Door middel van een interview hebben we de functionele en niet-functionele vereisten van CY2 mbt tot cache management vast gezet.
Ethical Requirements Report (TR level 1-2)
We hebben belangrijke ethische overwegingen relevant aan ons project en context geïdentificeerd en actiepunten voorgesteld om deze ethische kwesties goed aan te pakken.
Software (nog in ontwikkeling):
Functionaliteit voor eerste user story (Must)
De belangrijkste functionaliteit (Het identificeren van vergelijkbare vragen, gecashte antwoorden terug sturen, en nieuwe vraag/antwoord paren opslaan) is bijna volledig afgewerkt, er zijn nog verbeteringen in te voeren om het systeem vloeiend op het bestaande systeem aan te laten sluiten (onder andere UI).
About the project group
De projectgroep bestaat uit vijf leden. Niet iedereen is Nederlandstalig, vandaar dat Engels de voertaal is. Iedereen heeft minimale basiskennis van programmeren, al zijn de specialisatie achtergronden verschillend.
De dagen voor het groepsproject waren maandag, woensdag en donderdag. Op deze dagen kwamen we fysiek bij elkaar op de opleiding. Het project waar we aan werkte duurde van begin september 2024 tot eind februari 2025.
We volgen de scrum-methodiek met dagelijkse stand-ups end een sprint oplevering aan het einde van iedere sprint periode. De opleveringen deden we voor onze opdrachtgever van CY2. De sprintperiodes waren telkens 3 weken lang.