Bachelorarbeit / Teamorientierte Projektarbeit / Praktikum

Extended Crowd Elements

Research Area

Web Engineering

Advisers

Dr.-Ing. Sebastian Heil

senior researcher

Room: 1/B204

Phone: +49 371 531 32861

Fax: +49 371 531 8 32861

Email: sebastian.heil@informatik.tu-chemnitz.de

Prof. Dr.-Ing. Martin Gaedke

professor

Room: 1/B319

Phone: +49 371 531 25530

Fax: +49 371 531 25539

Email: gaedke@informatik.tu-chemnitz.de

Description

Crowdsourcing has become a crucial tool for the quick and unexpensive outsourcing of temporary repetitive workloads. Especially for Image and Natural Language Processing and the creation of training datasets for AI algorithms, use of microtasking platforms like Amazon Mechanical Turk have become widespread. Here, quality control of the results is of utmost importance. However, the existing standard tools provide only limited configuration options and quality control mechanisms have to be manually implemented.

This thesis investigates the extension of the existing WebComponent-based Crowd HTML Elements of Mechanical Turk. It aims at providing Web Components, which extend the configuration possibilities of the standard components and comprise quality control mechanisms. The application scenario of this thesis is the labeling of images using bounding boxes and classification (crowd-bounding-box). The concept needs to extend the existing functionality by the following aspects: labeling several images in one task, restricting the maximum number of images labeled by one unique crowdworker, dynamically increasing number of available images per unique crowdworker depending on the past performance (acceptance ratio), tracking of user interactions e.g. reading the instructions, pre-test and spot check using known results (ground truth), a software architecture that enables to add further quality control methods following the open-closed-principle at a later time, as well as further suitable quality control methods if necessary. The implementation of the concept using WebComponents can be based on the Polymer framework.

The objective of this thesis is the creation of a solution or the combination of existing approaches to solve the problem of extending the image labeling funcionality by configuration options and quality control methods through a WebComponent infrastructure as described above. This comprises the analysis of the state of the art of image labeling through Crowdsourcing/Microtasking and quality control methods as well as the demonstration of the solution by prototypical implemetation and a suitable evaluation based on experimentation with (potentially simulated) crowdworkers within the Mechanical Turk platform or sandbox.

Description (German)

Crowdsourcing ist zu einem wesentlichen Werkzeug für die schnelle und kostengünstige Auslagerung von temporär anfallender repetitiver Arbeit geworden. Insbesondere im Bereich der Verarbeitung von Bildern und natürlichsprachigen Texten und der Erstellung von Trainingsdatensätzen für KI Algorithmen haben sich microtasking Platformen wie Amazon Mechanical Turk etabliert. Hierbei ist die Qualitätssicherung der Ergebnisse von zentraler Bedeutung. Jedoch unterstützen die vorhandenen Standardtools nur eingeschränkte Konfigurationsmöglichkeiten und Qualitätssicherungsmethoden müssen manuell implementiert werden.

Diese Thesis untersucht die Erweiterung der WebComponent-basierten Crowd HTML Elements von Mechanical Turk. Ziel ist die Bereitstellung Web Komponenten, die die Konfigurationsmöglichkeiten der Standard Komponenten erweitern und Qualitätssicherungsmechanismen beinhalten. Das Anwendungsszenario dieser Arbeit ist das Labeling von Bildern mittels Bounding Boxes und Klassifikation (crowd-bounding-box). Das Lösungskonzept muss die bestehende Funktionalität um folgende Aspekte erweitern: Labeln mehrerer Bilder in einem Task, Beschränkung der maximalen Zahl von Bildern je individuellem Crowdworker, Dynamisch wachsende Anzahl von verfügbaren Bildern für einen Crowdworker abhängig von vergangener Performance (Acceptance Ratio), Erfassung von Nutzeraktionen wie bspw. Lesen der Anleitung, Vortest und Stichprobentests anhand bekannter Ergebnisse (Ground Truth), eine Softwarearchitektur welche das spätere Hinzufügen von weiteren Qualitätssicherungsmethoden nach dem Open-Closed Prinzip ermöglicht, sowie weitere geeignete Qualitätssicherungsmethoden falls nötig. Die Umsetzung des Konzeptes durch Web Komponenten kann auf dem Polymer Framework basieren.

Ziel dieser Arbeit ist es einen geeigneten Ansatz oder eine Kombination von Ansätzen zur Lösung des oben beschriebenen Problems der Erweiterung der Bild-Labeling Funktionen um Konfigurationsmöglichkeiten und Qualitätssicherungsmethoden durch Web Komponenten Infrastruktur wie oben beschrieben. Dies beinhaltet insbesondere die Untersuchung des Stands der Technik bezüglich Bild-Labeling mittels Crowdsourcing/Microtasking und Qualitätssicherungsmethoden, sowie die Demonstration der Lösung durch prototypische Implementierung des Konzeptes ebenso, wie eine geeignete Evaluation durch Experimente mit (ggf. simulierten) Crowdworkern innerhalb der Mechanical Turk Platform bzw. Sandbox.