Automatische Inhaltsanalyse von Linked Data zur Bewertung von Content Trust
The redecentralization of the Web introduces the imminent challenge of trustworthiness of autonomous web applications. One way to solve this problem is content trust. However, for its trust evaluation, metadata about the content is required, which thematically capture the given resource and include properties such as authors, references, and publication date. This metadata is not initially available and therefore has to be collected by applying Natural Language Processing (NLP) and a concept for its preparation.
Information is exchanged between applications in various formats. One important format is RDF, which can be analyzed from the point of view of good scalability. Linked Data is potentially suitable for a speech-centralized web, as decentralization of data is enabled by linking. To minimize the text analysis of literals, the structure given ontologies can be used for analysis and already classify the content thematically. Only in the further analysis of literals, methods like NLP are needed. The detailed classification of non-textual content such as images, videos or audio will not be considered in more detail for this work. The data collected for the content trust evaluation is to be stored in a suitable metadata format and transferred to the prototypical implementation of the content trust model via a suitable interface.
The goal of this work is to find an approach or a combination of approaches to the previously mentioned problems and tasks in the context of content trust for web applications in a decentralized web. This includes in particular the state of the art in content analysis and in particular NLP. The proof of concept with an implementation prototype is part of this work as well as a corresponding evaluation with exemplary use cases.
Description (German)
Die Redezentralisierung des Webs bringt die Herausforderung der Trustworthiness mit sich, die für die Interaktion autonom agierender Applikationen benötigt wird. Eine Möglichkeit dieses Problem zu lösen ist Content Trust. Für dessen Trust Evaluation sind jedoch Metadaten über den Inhalt nötig, welche die gegebene Ressource thematisch erfassen und Eigenschaften wie Autoren, Referenzen und Veröffentlichungsdatum beinhalten. Diese liegen nicht initial vor und müssen daher über Anwendung von Natural Language Processing (NLP) sowie einem Konzept zur Aufbereitung erfasst werden.
Informationen werden zwischen Applikationen in verschiedensten Formaten ausgetauscht. Ein bedeutendes Format ist RDF, welches sich unter dem Gesichtspunkt einer guten Skalierbarkeit analysieren lässt. Linked Data eignet sich potenziell für ein redezentralisiertes Web, da die Dezentralisierung der Daten durch die Verlinkung ermöglicht wird. Um die Textanalyse von Literals zu minimieren, kann die Struktur gegebenen Ontologies zur Analyse herangezogen werden und den Inhalt bereits thematisch einordnen. Erst bei der weiteren Analyse der Literalen werden Verfahren wie NLP benötigt. Die detaillierte Klassifizierung von nicht-textuellem Inhalt wie Bildern, Videos oder Ton werden hierbei für die Arbeit nicht genauer betrachtet. Die für die Content-Trust Trust Evaluation gesammelten Daten sollen in einem geeigneten Metadatenformat gespeichert und über eine geeignete Schnittstelle an die prototypische Umsetzung des Content Trust Modells übergeben werden.
Das Ziel dieser Arbeit ist es, einen Ansatz oder eine Kombination von Ansätzen für die zuvor genannten Probleme und Aufgaben im Kontext von Content Trust für Webanwendungen in einem dezentralisierten Web zu finden. Dies schließt insbesondere den Stand der Technik in Bezug auf Inhaltsanalyse und im speziellen NLP mit ein. Der Nachweis der Machbarkeit mit einem Implementierungsprototyp des Konzepts ist ebenso Teil dieser Arbeit wie eine entsprechende Evaluation mit exemplarischen Anwendungsfällen.