· Artikel · 2 min read
Was sind eigentlich Embeddings?
Embeddings, die magische Landkarte, die uns hilft, Worte oder Texte in einer Weise darzustellen, die Computer besser verstehen. Diese Landkarte ist jedoch nicht wie eine gewöhnliche Karte, die wir kennen, sondern befindet sich in einem hochdimensionalen Vektorraum, der für uns schwer vorzustellen ist. Trotz, oder gerade wegen dieser Komplexität des Raums, kann ein Computer Worte und Texte besser verstehen und zuordnen.
Wenn wir, mithilfe eines Computers, auf diese Landkarte schauen, sehen wir, dass Wörter und Texte, die im Zusammenhang stehen, nahe beieinander liegen. Durch diese Anordnung können wir Texte Clustern, ähnliche Texte zusammenfassen, klassifizieren oder durchsuchen.
Word Embeddings und Dokument Embeddings
Word Embeddings fokussieren sich auf individuelle Wörter und deren Bedeutung und setzen einzelne Wörter im Raum zueinander in Beziehung. Beispiele für die Anwendung: Semantische Zusammenhänge von Wörtern wie Ärztin ➟ Arzt ➟ Pflegekraft oder Wortübersetzungen.
Word Embeddings Verfahren
- Word2Vec einer der bekanntesten Algorithmen zur Erstellung von Wort-Embeddings entwickelt von Google
- GloVe von der Stanford University
- FastText eine Erweiterung von Word2Vec von Facebook
Interessanter wird es bei den Dokument Embeddings. Dieses fokussieren sich auf den Gesamtzusammenhang, die Struktur und das Thema eines gesamten Dokumentes, Satzes oder einer Textpassage. Ähnliche Dokumente sind im Vektorraum nah beieinander positioniert. Damit lassen sich Texte, unabhängig von der Sprache, der benutzen Wörter zueinander in Beziehung bringen.
Text Embeddings Verfahren
- Doc2Vec eine Erweiterung von Word2Vec, um Embeddings von größeren Texteinheiten zu erstellen.
- BERT ein von Google entwickeltes Modell
- GPT von OpenAI mit verschiedenen Modellen wie text-embedding-ada-002
Mit einem modernen Embeddings-Verfahren wie ada-002 können viele Anwendungsfälle auf einer Landkarte umgesetzt werden.
- Suche (bei der die Ergebnisse nach ihrer Relevanz zu einer Suchanfrage geordnet werden)
- Clusterbildung (bei der Texte aufgrund ihrer Ähnlichkeit gruppiert werden)
- Empfehlungen (bei der Artikel mit verwandten Texten empfohlen werden)
- Klassifizierung (bei der Texte basierend auf ihrem ähnlichsten Label klassifiziert werden, die Sentimentanalyse ist hier ein Spezialfall)
Wohin speichern wir diese magische Landkarte und wie interagieren wir damit? An dieser Stelle treten Vektordatenbanken und Ähnlichkeitsberechnungen auf den Plan, über die ich in einem meiner kommenden Artikel berichten.