Jump to main content Hotkeys
Distributed and Self-organizing Systems
Distributed and Self-organizing Systems

Masterarbeit

Comparsion of vector indexing algorithms
Comparsion of vector indexing algorithms

Completion

2024/05

Research Area

Intelligent Information Management

Advisers

haas

gaedke

Description

An important area of artificial intelligence is natural language processing and, in particular, the understanding of written texts. Modern methods use artificial neural networks to convert texts into vectors and capture their meaning mathematically. A vector is a list of numbers with a certain number of dimensions. Mathematical operations can be used to calculate the similarity between two vectors and thus also determine the proximity of two texts in terms of content. This is useful for many applications, e.g. search engines can thus answer natural language queries. If the number of vectors stored is very large, searching for the most similar vectors to a query becomes very slow and inefficient. A simple but impractical method is to compare the query with each stored vector. Therefore, special indexing methods are needed to speed up the search for similar vectors.


This thesis investigates the speed and accuracy of vector indexing algorithms. Existing methods are to be researched and analysed by comparing them on the basis of the two criteria, speed and accuracy, using a wide range of sample data. The thesis should answer the question of which indexing method is to be preferred for which data set (e.g. different dimension sizes of the vectors), taking into account a weighting of the two criteria mentioned.

Description (German)

Ein wichtiger Bereich der künstlichen Intelligenz ist die Verarbeitung natürlicher Sprache und insbesondere das Verstehen von geschriebenen Texten. Moderne Methoden nutzen künstliche neuronale Netze, um Texte in Vektoren umzuwandeln und deren Bedeutung mathematisch zu erfassen. Ein Vektor ist eine Liste von Zahlen mit einer bestimmten Anzahl von Dimensionen. Mit Hilfe von mathematischen Operationen kann man die Ähnlichkeit zwischen zwei Vektoren berechnen und damit auch die inhaltliche Nähe zweier Texte bestimmen. Dies ist nützlich für viele Anwendungen, z.B. können Suchmaschinen somit natürlichsprachliche Anfragen beantworten. Wenn die Anzahl der gespeicherten Vektoren sehr groß ist, wird die Suche nach den ähnlichsten Vektoren zu einer Anfrage sehr langsam und ineffizient. Eine einfache aber unpraktikable Methode ist, die Anfrage mit jedem gespeicherten Vektor zu vergleichen. Deshalb braucht man spezielle Indizierungsverfahren, die die Suche nach ähnlichen Vektoren beschleunigen.

Diese Arbeit untersucht die Geschwindigkeit und Genauigkeit von Vektorindizierungsalgorithmen. Es sollen bestehende Verfahren recherchiert und analysiert werden, indem diese anhand der beiden Kriterien, Geschwindigkeit und Genauigkeit, miteinander auf Basis verschiedenster Beispieldaten verglichen werden. Die Arbeit soll die Frage beantworten, welches Indizierungsverfahren bei welcher Beschaffenheit des Datensets (z.B. unterschiedliche Dimensionsgröße der Vektoren) unter Einbeziehung einer Gewichtung der beiden genannten Kriterien zu bevorzugen ist.


Powered by DGS
Edit list (authentication required)

Press Articles