In 2022 begon een intrigerende reis in de wereld van LLM als rechter technieken, waarbij grote taalmodellen (LLM’s) worden gebruikt om de output van andere LLM’s te evalueren. Deze techniek is een belangrijke stap in de ontwikkeling van kunstmatige intelligentie en biedt inzicht in hoe LLM’s zelf de kwaliteit van gegenereerde teksten kunnen beoordelen.

Onderzoek naar GPT-4 als Evaluator

Vroege Experimenten met GPT-4

Een van de eerste en meest baanbrekende onderzoeken op dit gebied is te vinden in de studie “Sparks of Artificial General Intelligence” [1]. Dit werk onderzocht de prestaties van GPT-4, waarbij het model werd gevraagd een gedicht te schrijven over oneindige paddenstoelen. De studie vergeleek de reacties van ChatGPT en GPT-4, en toonde aan dat GPT-4 significant beter presteerde in termen van coherentie en creativiteit. Dit was een belangrijke mijlpaal, omdat het de eerste poging was om GPT-4 als een evaluator te gebruiken.

AlpacaEval en Automatische Evaluatie

Daarnaast werd met de introductie van AlpacaEval [7] een automatische evaluator voor instructie-opvolgende taalmodellen geïntroduceerd. AlpacaEval gebruikte een vaste set van ongeveer 800 prompts en genereerde outputs met zowel een basismodel (GPT-4-Turbo) als een te evalueren model. Een LLM-rechter (GPT-4) werd vervolgens gevraagd om de kwaliteit van beide modeloutputs te vergelijken, wat resulteerde in automatische winpercentages. Dit proces leidde tot indrukwekkende resultaten, met GPT-4 Omni bovenaan de lijst met een LC Win Rate van 57,5% en een Win Rate van 51,3%.

Formalisering van Evaluatietechnieken

G-Eval: Een Systematische Aanpak

Met de groeiende interesse in LLM-als-rechter technieken, begonnen onderzoekers deze methoden te formaliseren en dieper te analyseren. Een opvallend voorbeeld hiervan is G-Eval [8], dat een keten van gedachtenbenadering gebruikt om de kwaliteit van outputs te evalueren. Hierbij wordt de LLM gevraagd een set evaluatiestappen uit te voeren, zoals het identificeren van kernpunten in een nieuwsartikel en het vergelijken van deze punten met een gegeven samenvatting. Dit zorgde voor een gestructureerde en systematische evaluatiebenadering.

Consistentie met Menselijke Evaluatie

Verder toonde een formele studie aan dat LLM’s een haalbaar alternatief zijn voor menselijke evaluatie [9]. Deze studie, gericht op verhaalgeneratie, toonde aan dat de evaluaties van LLM’s consistent waren met die van menselijke beoordelaars. De paper “LLM-als-rechter” [10], geschreven door de makers van Vicuna, formaliseerde deze techniek verder en onthulde verschillende vooroordelen van LLM-evaluatoren, zoals positiestendens, veelzeggendheidstendens, zelfverheerlijkingstendens en beperkte redeneercapaciteit.

Vooroordelen in LLM-Evaluaties

Een andere belangrijke bevinding kwam uit de studie “LLM’s zijn geen eerlijke beoordelaars” [11], die de nadruk legde op positiestendens. Deze studie toonde aan dat het veranderen van de positie van modeloutputs binnen de prompt de evaluatieresultaten drastisch kon beïnvloeden. Gelukkig werd een oplossing geboden door de posities te randomiseren, wat de eerlijkheid van de evaluaties verbeterde.

Vicuna en Andere Open LLM’s

Prompts en Evaluatie

Onderzoekers hebben ook gebruik gemaakt van open LLM’s zoals Vicuna, LIMA, Guanaco, Tulu en Orca om de kwaliteit van modeloutputs te evalueren. Verschillende evaluatieprompts werden gebruikt om algemene vragen, codeervragen en wiskundige vragen te beoordelen.

  • Prompt #1: Algemene Vragen
    • Vraag:
      • {Vraag}
      • {Begin van Assistent A’s Antwoord}
      • {Einde van Assistent A’s Antwoord}
      • {Begin van Assistent B’s Antwoord}
      • {Einde van Assistent B’s Antwoord}
    • Instructie: Beoordeel de antwoorden van beide assistenten op kwaliteit en relevantie.
  • Prompt #2: Codeervragen
    • Vraag:
      • {Vraag}
      • {Begin van Assistent A’s Antwoord}
      • {Einde van Assistent A’s Antwoord}
      • {Begin van Assistent B’s Antwoord}
      • {Einde van Assistent B’s Antwoord}
    • Instructie: Beoordeel de technische nauwkeurigheid en volledigheid van beide antwoorden.
  • Prompt #3: Wiskundige Vragen
    • Vraag:
      • {Vraag}
      • {Begin van Assistent A’s Antwoord}
      • {Einde van Assistent A’s Antwoord}
      • {Begin van Assistent B’s Antwoord}
      • {Einde van Assistent B’s Antwoord}
    • Instructie: Beoordeel de wiskundige nauwkeurigheid en helderheid van de uitleg.

Evaluatiemethoden omvatten het werken als een onpartijdige rechter en het beoordelen van de kwaliteit van de antwoorden die door beide assistenten worden gegeven. Het is belangrijk om ervoor te zorgen dat er geen voorkeur wordt gegeven aan een van de assistenten. Evaluatiecriteria zoals relevantie, nauwkeurigheid, en volledigheid worden gebruikt om de antwoorden te beoordelen en een score toe te kennen.

Gespecialiseerde Evaluatoren

Hoewel de focus van dit overzicht ligt op LLM als rechter technieken, is er ook veel onderzoek gedaan naar het trainen van gespecialiseerde LLM’s voor evaluatie. Een bekend voorbeeld hiervan is de Prometheus serie van modellen [12, 13], die specifiek zijn ontworpen voor evaluatietaken. Andere voorbeelden zijn onder andere JudgeLM [14] en PandaLM [15], die ook bijdragen aan de ontwikkeling van nauwkeurige en betrouwbare evaluatie-instrumenten.

Conclusie

Het onderzoek naar LLM als rechter technieken heeft de potentie om de manier waarop we AI evalueren en toepassen drastisch te veranderen. Door gebruik te maken van geavanceerde LLM’s zoals GPT-4 en gespecialiseerde evaluatiemodellen, kunnen we niet alleen de kwaliteit van AI-outputs verbeteren, maar ook inzicht krijgen in de vooroordelen en beperkingen van deze systemen. De voortdurende vooruitgang in dit veld belooft spannende nieuwe mogelijkheden voor de toekomst van kunstmatige intelligentie.

Toekomstperspectieven

Toekomstig onderzoek zou zich kunnen richten op het verder verminderen van biases in LLM-evaluaties, het verbeteren van de nauwkeurigheid en betrouwbaarheid van evaluatiecriteria, en het ontwikkelen van nieuwe gespecialiseerde evaluatiemodellen. De integratie van deze technieken in verschillende domeinen kan leiden tot bredere toepassingen en betere AI-systemen wereldwijd.

Referenties:

[1] Sparks of AGI
[2] Vicuna Blog
[3] Open LLMs
[4] AlpacaEval
[5] G-Eval
[6] Human Evaluation Alternative
[7] AlpacaEval
[8] G-Eval
[9] Human Evaluation Feasibility
[10] LLM-as-a-Judge
[11] Bias in LLM Evaluation
[12] Prometheus Series
[13] Prometheus Follow-up
[14] JudgeLM
[15] PandaLM


Ontdek meer van Djimit van data naar doen.

Abonneer je om de nieuwste berichten naar je e-mail te laten verzenden.