Masterarbeit

Erfassung und semantische Aufbereitung von semistrukturierten Daten aus heterogenen Datenquellen

Completion

2015/10

Research Area

Intelligent Information Management

Students

Advisers

Ein großer Teil des im Internet frei verfügbaren Wissens liegt in Form von inhomogenen, semistrukturierten Daten vor, welche nur schwach miteinander verknüpft sind und im Allgemeinen keinerlei semantische Klassifizierung beinhalten. Sowohl für das „Internet of Things“, für Web-Dienste als auch für Unternehmen, besonders im Bereich E-Commerce und E-Government, werden die dort zu findenden Informationen immer relevanter. Dies betrifft dabei auch im vermehrten Maß Informationen aus sozialen Netzwerken. Die notwendige Aufbereitung der Daten für eine Nutzbarmachung erfordert aufgrund der enormen Größe der Informationsmenge automatisierte Prozesse. Im Gegensatz zu vollstrukturierten Datenbeständen ist bei semistruktuierten Datenbeständen keine explizite Definition und Typisierung aller Datenobjekte erforderlich. Der strukturierte Anteil innerhalb von semistrukturierten Datenbeständen ist durch den jeweiligen Datenverwendungszweck bestimmt. Auf Basis dieser Eigenschaften bieten semistrukturierte Datenbestände eine hohe Erweiterbarkeit sowie Flexibilität beim Datenaustausch bzw. beim Bezug von Daten aus heterogenen Datenquellen, was durch die weite Verbreitung von XML als Auszeichnungsprache für semistrukturierte Daten belegt ist. Ebenso sind semistrukturierte Daten im Bereich sozialer Netzwerke als Repräsentationsform für soziale Inhalte vertreten und dienen somit als wesentliche Informationsquellen die verwertet werden könnten, um das Nutzungserlebnis zu optimieren oder zu personalisieren. Zur Extraktion von Wissen aus semistrukturierten Datenbeständen sind sowohl Ansätze für strukturierte als auch unstrukturierte Daten relevant. Die Anwendbarkeit dieser existierenden Ansätze auf die Domäne der semistrukturierten Daten muss analysiert und geeignete Ansätze gegebenenfalls adaptiert werden.

Ziel dieser Arbeit ist es, Expertise über die Domäne der automatisierten Wissensextraktion aus semistrukturierten Daten zu erarbeiten. Dabei sind Anforderungen an einen möglichen Dienst zur Extraktion von Wissen aus semistrukturierten Daten aufzustellen. Anschließend sind existierende Ansätze für die Extraktion zu erforschen, zu kategorisieren und zu bewerten. Auf den erarbeiteten Kenntnisse aufbauend, soll ein Konzept für einen Dienst zur automatisierten Wissensextraktion aus semistrukturierten Daten ausgearbeitet werden. Dazu sollen geeignete Methoden adaptiert und Algorithmen zur Erfassung (Analyse, Extraktion) und Aufbereitung (Transformation, Gruppierung, Referenzausbildung) entwickelt werden. Nachfolgend soll das Konzept detailliert beschrieben und beispielhaft implementiert werden. Anhand von Beispieldaten aus sozialen Netzwerken soll gezeigt werden, inwieweit der erstellte Prototyp seminstrukturierte Daten auswertet und zusätzliches Wissen extrahiert. Abschließend ist die eigene Lösung anhand der Anfangs aufgestellten Anforderungen zu evaluieren.