Praktikum - High Performance Data Mining mit MapReduce

Jahr: SS 2011
Dozent: Univ.-Prof. Dr. rer. nat. T. Seidl
Dr. rer. nat. B. Boden
Dr. rer. nat. S. Fries
Typ: Praktikum
Form: Praktikum
Sprache: EN, DE
Inhalt:  

Um aus vorhandenen Datenbeständen neue wertvolle Informationen zu gewinnen, werden im Data Mining verschiedene Techniken wie z. B. Klassifikation, Clusteranalyse und das Auffinden von Assoziationsregeln angewandt.

 

Da vorhandene Algorithmen meist nur auf einem Prozessor laufen, sind sie nur für kleine bis mittelgroße Datenbestände einsetzbar. In vielen Anwendungen sind jedoch riesige Datenbestände vorhanden, was die Entwicklung von massiv parallelisierbaren Algorithmen erfordert.

 

Die Parallelisierung von Algorithmen kann auf unterschiedliche Arten erfolgen, wie z. B. durch das von Google entwickelte MapReduce-Programmiermodell (das unter anderem in der Open-Source-Software Hadoop implementiert wird) oder die Erweiterung PACT.

 

Ziel dieses Praktikums ist die Anwendung des MapReduce-Modells (und evtl. seiner Erweiterungen) zur Entwicklung von parallelisierbaren Varianten bestehender Data-Mining-Algorithmen und ihre Evaluierung.

 

Kenntnisse aus der Vorlesung "Data Mining Algorithmen" werden empfohlen, sind aber nicht Voraussetzung. Für die Implementierung der Algorithmen sind Programmierkenntnisse in Java wichtig.

 

Die Vorbesprechung findet am Montag, 7.2. um 16:45 im Raum 6329 (Seminarraum i9) statt.

 

Anmeldung vom 12.1.2011 bis zum 23.1.2011 über die zentrale Vergabe für Seminare und Praktika: https://www.graphics.rwth-aachen.de/apse/

Material:
Termine:  
Type Datum Raum
Sonstige
Mit, 14:00 - 15:30
, Seminar room