Zusammenfassung
Das MapReduce-Programmiermodell ermöglicht die skalierbare Analyse und Transformation großer Datenmengen. Wir stellen das auf MapReduce basierende Marimba-Framework zur einfachen Entwicklung von inkrementellen, selbstwartbaren Programmen vor, welche bei Änderung von Quelldaten eine vollständige Wiederholung des MapReduce-Jobs vermeiden. Marimba wird anhand mehrerer Anwendungen illustriert und durch Leistungsmessungen evaluiert.















Notes
Das zu Hadoop gehörende spaltenbasierte Datenbanksystem HBase [4] verwaltet Tabellen, in denen Datensätze, die aus einer eindeutigen Row-ID sowie beliebigen Spalten bestehen, gespeichert werden.
Geänderte Dokumente werden als gelöscht und wieder neu eingefügt betrachtet.
HDFS (Hadoop Distributed File System) ist ein verteiltes Dateisystem, welches Dateiblöcke redundant auf mehreren Rechnern speichert. HDFS dient als Grundlage für das spaltenbasierte Datenbanksystem HBase.
Literatur
Apache Hadoop project. http://hadoop.apache.org/
Bhatotia P, Wieder A, Rodrigues R, Acar UA, Pasquin R (2011) Incoop: mapreduce for incremental computations. In: Proceedings of the 2nd ACM symposium on cloud computing (SOCC ’11), New York, NY, USA, 2011. S 7:1–7:14. ACM
Dean J, Ghemawat S (2004) In: MapReduce: simplified data processing on large clusters (OSDI), S 137–150
George L (2011) HBase: the definitive guide, 1st edn. O’Reilly Media, Sebastopol
Brown University Data Management Group. A comparison of approaches to large-scale data analysis. http://database.cs.brown.edu/projects/mapreduce-vs-dbms/
Ho R (2010) Map/reduce to recommend people connection. August 2010. http://horicky.blogspot.de/2010/08/mapreduce-to-recommend-people.html
Hu Y (2012) Efficiently extracting change data from column oriented NoSQL database. In: Proc of workshop on parallel, peer-to-peer, distributed and cloud computing (ICS 2012), Dezember 2012 (accepted)
Isard M, Budiu M, Yu Y, Birrell A, Fetterly D (2007) Dryad: distributed data-parallel programs from sequential building blocks. In: EuroSys, S 59–72
Jörg T, Parvizi R, Yong H, Dessloch S (2011) Incremental recomputations in mapreduce. In: CloudDB 2011, Oktober 2011
Krenzel S (2010) MapReduce: Finding friends. http://stevekrenzel.com/finding-friends-with-mapreduce
Logothetis D, Olston C, Reed B, Webb KC, Yocum K (2010) Stateful bulk processing for incremental analytics. In: SoCC, S 51–62
Marimba framework. http://code.google.com/marimba-framework
Peng D, Dabek F (2010) Large-scale incremental processing using distributed transactions and notifications. In: OSDI
Popa L et al. (2009) DryadInc: reusing work in large-scale computations. In: HotCloud
Schildgen J (2012) Ein MapReduce-basiertes Programmiermodell für selbstwartbare Aggregatsichten. Masterarbeit. TU, Kaiserslautern
Danksagung
Die vorgestellten Arbeiten wurden von Google im Rahmen eines Google Research Award finanziell unterstützt.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Schildgen, J., Jörg, T. & Deßloch, S. Inkrementelle Neuberechnungen in MapReduce. Datenbank Spektrum 13, 33–43 (2013). https://doi.org/10.1007/s13222-012-0109-3
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s13222-012-0109-3