Bachelorarbeit / Masterarbeit / Praktikum

Training of an AI to extract relevant concepts from a scientific text

Completion

2021/12

Research Area

Intelligent Information Management

Advisers

In this project, we want to extract structured relevant information from scientific abstracts.

When researchers share files with other scientists, they typically also publish an abstract describing characteristics of the dataset in a natural-language-based free-text fashion. Such a text is easy to understand for humans but difficult to understand for machines. Typically, NLP methods are applied to analyze the structure and do an entity extraction and part-of-speech tagging.

We want to go one step beyond and train a model based on existing AI approaches, such as SciBERT, in order to only extract aspects that are describing the research dataset for researchers from the Hybrid Societies domain. The extracted concepts shall then be mapped to unambiguous identifiers. An existing terminology service can be used for that purpose as a background knowledge source.

The project result has to encompass a practical realization of the solution and a document describing the problem, requirements, State-of-the-Art, concept, implementation and evaluation.

—

If you are basically interested in such a topic, please contact me via email (andre.langer@informatik.tu-chemnitz.de ) so that we can discuss further details or find an alternative idea together.

Description (German)

In diesem Projekt wollen wir strukturierte relevante Informationen aus wissenschaftlichen Abstracts extrahieren.

Wenn Forscher Dateien mit anderen Wissenschaftlern teilen, veröffentlichen sie typischerweise auch einen Abstract, der die Eigenschaften des Datensatzes in einer auf natürlicher Sprache basierenden Freitextform beschreibt. Ein solcher Text ist für Menschen leicht zu verstehen, aber für Maschinen schwer zu erfassen. Typischerweise werden NLP-Methoden angewendet, um die Struktur zu analysieren und eine Entitätsextraktion und Part-of-Speech-Tagging durchzuführen.

Wir wollen einen Schritt weiter gehen und ein Modell trainieren, das auf bestehenden KI-Ansätzen wie SciBERT basiert, um nur die Aspekte zu extrahieren, die den Forschungsdatensatz für Forscher aus der Domäne Human-Computer-Interaction beschreiben. Die extrahierten Konzepte sollen dann auf semantisch eindeutige Bezeichner abgebildet werden. Hierfür kann ein bestehender Terminologiedienst als Hintergrundwissen genutzt werden.

Das Projektergebnis muss eine praktische Umsetzung der Lösung und ein Dokument umfassen, das Problem, Anforderungen, State-of-the-Art, Konzept, Implementierung und Evaluation beschreibt.

—

Wenn Sie grundsätzlich an einem solchen Thema interessiert sind, kontaktieren Sie mich bitte per E-Mail (andre.langer@informatik.tu-chemnitz.de ), damit wir weitere Details besprechen oder gemeinsam eine alternative Variante finden können.