← Terug naar blog

De oorsprong van Word2Vec

Data Platforms

Word2Vec, ontwikkeld door een team onder leiding van Tomas Mikolov bij Google in 2013, is een baanbrekende innovatie in de wereld van natural language processing (NLP). Deze techniek maakte het mogelijk om woorden te converteren naar vectoren van reële getallen, waarbij semantische en syntactische patronen binnen een grote hoeveelheid tekstdata geïdentificeerd konden worden. De publicatie van Mikolov et al., getiteld “Efficient Estimation of Word Representations in Vector Space1” in 2013, was cruciaal voor de popularisering van deze techniek (Mikolov et al., 2013).

De kernformules van Word2Vec

De kern van Word2Vec ligt in het trainen van een neuraal netwerk om woordassociaties te leren van een grote tekstcorpus zonder gelabelde data te vereisen. Dit wordt bereikt via twee architectuurkeuzes: 1. Continuous Bag-of-Words (CBOW) en 2. Skip-gram. CBOW voorspelt een woord op basis van zijn context, terwijl Skip-gram het omgekeerde doet door de context te voorspellen vanuit een woord. Deze methodes gebruiken een ‘soft’ doelfunctie die de cosinus gelijkenis tussen de werkelijke woordvector en de voorspelde woordvector maximaliseert, waardoor woorden met vergelijkbare betekenissen dicht bij elkaar in de vectorruimte komen te liggen.

1. Continuous Bag of Words (CBOW)

In het CBOW-model wordt het doel bereikt om het doelwoord (w_t) te voorspellen uit een venster van omliggende context woorden. De context woorden zijn wtk​,…,wt−1​,wt+1​,…,wt+k​, waarbij (k) de grootte van de trainingscontext aangeeft. De voorspellingsfunctie y^ wordt gegeven door:

voorspellingsfunctie

waarbij (h) de gemiddelde vector van de getransformeerde input context woorden is:

vector getransformeerde inputcontextwoorden

Hierin is (W) de gewichtsmatrix tussen de inputlaag en de verborgen laag, en (W′) de gewichtsmatrix tussen de verborgen laag en de outputlaag. xt+j​ is de one-hot2 gevectoriseerde vorm van het woord (wt+j).

2. Skip-gram

Het Skip-gram-model werkt omgekeerd aan CBOW. Hier is het doel om de omliggende woorden te voorspellen uit een gegeven doelwoord. Voor een doelwoord (wt), wordt de voorspellingsfunctie (^​t+j​*) voor elk context woord (wt*+j​) gedefinieerd als:

voorspellingsfunctie context woord

met (ht = W.x_t), waar (xt) de one-hot gevectoriseerde representatie is van het doelwoord (wt). In beide modellen is softmax3 de activatie functie die is gedefinieerd als: met (ht = W.x_t), waar (xt) de one-hot gevectoriseerde representatie is van het doelwoord (wt). In beide modellen is softmax de activatie functie die is gedefinieerd als:

activatie functie

waar (z_) de logits4 zijn (de inputs naar de softmax-functie), die de ongenormaliseerde log-kansen vertegenwoordigen dat een specifiek woord voorkomt in de gegeven context. Deze wiskundige beschrijvingen van CBOW en Skip-gram vormen de basis van hoe Word2Vec werkt, waarbij het leert de woordvectoren te optimaliseren zodat woorden met vergelijkbare betekenissen dichtbij elkaar liggen in de vectorruimte.

Meest voorkomende toepassing van Word2Vec

Een van de meest voorkomende toepassingen van Word2Vec is in de ontwikkeling van aanbevelings systemen en zoekmachines. Door de relaties tussen woorden te begrijpen, kunnen deze systemen relevantere resultaten leveren op basis van de context van zoekopdrachten. Verder wordt Word2Vec gebruikt voor sentiment analyse, waarbij het mogelijk is de algemene sentimenten van teksten te detecteren door de vector representaties van woorden te analyseren.

Toepassing in tech

In de technologiewereld wordt Word2Vec breed ingezet voor het verbeteren van de gebruikerservaring. Zo wordt het bijvoorbeeld gebruikt in chatbots en virtuele assistenten om de natuurlijkheid en relevantie van hun antwoorden te verbeteren. Daarnaast wordt het toegepast in spraakherkenningssoftware, waarbij het helpt om de betekenis van gesproken taal beter te interpreteren. Deze toepassingen zijn essentieel voor het bouwen van systemen die kunnen integreren met gebruikers op een manier die zo menselijk mogelijk aanvoelt.

Elke nieuwe doorbraak op het gebied van NLP zoals Word2Vec drijft de grenzen van wat mogelijk is in technologie en machine learning verder naar voren, en transformeert de manier waarop we met machines communiceren. Dit maakt Word2Vec een van de hoekstenen van moderne AI-toepassingen.

DjimIT Nieuwsbrief

AI updates, praktijkcases en tool reviews — tweewekelijks, direct in uw inbox.

Gerelateerde artikelen