Skip to main content
Log in

Inkrementelle Neuberechnungen in MapReduce

  • Schwerpunktbeitrag
  • Published:
Datenbank-Spektrum Aims and scope Submit manuscript

Zusammenfassung

Das MapReduce-Programmiermodell ermöglicht die skalierbare Analyse und Transformation großer Datenmengen. Wir stellen das auf MapReduce basierende Marimba-Framework zur einfachen Entwicklung von inkrementellen, selbstwartbaren Programmen vor, welche bei Änderung von Quelldaten eine vollständige Wiederholung des MapReduce-Jobs vermeiden. Marimba wird anhand mehrerer Anwendungen illustriert und durch Leistungsmessungen evaluiert.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Abb. 1
Algorithmus 1
Algorithmus 2
Abb. 2
Algorithmus 3
Algorithmus 4
Algorithmus 5
Algorithmus 6
Abb. 3
Algorithmus 7
Algorithmus 8
Algorithmus 9
Algorithmus 10
Abb. 4
Abb. 5

Notes

  1. Das zu Hadoop gehörende spaltenbasierte Datenbanksystem HBase [4] verwaltet Tabellen, in denen Datensätze, die aus einer eindeutigen Row-ID sowie beliebigen Spalten bestehen, gespeichert werden.

  2. Geänderte Dokumente werden als gelöscht und wieder neu eingefügt betrachtet.

  3. HDFS (Hadoop Distributed File System) ist ein verteiltes Dateisystem, welches Dateiblöcke redundant auf mehreren Rechnern speichert. HDFS dient als Grundlage für das spaltenbasierte Datenbanksystem HBase.

Literatur

  1. Apache Hadoop project. http://hadoop.apache.org/

  2. Bhatotia P, Wieder A, Rodrigues R, Acar UA, Pasquin R (2011) Incoop: mapreduce for incremental computations. In: Proceedings of the 2nd ACM symposium on cloud computing (SOCC ’11), New York, NY, USA, 2011. S 7:1–7:14. ACM

    Google Scholar 

  3. Dean J, Ghemawat S (2004) In: MapReduce: simplified data processing on large clusters (OSDI), S 137–150

    Google Scholar 

  4. George L (2011) HBase: the definitive guide, 1st edn. O’Reilly Media, Sebastopol

    Google Scholar 

  5. Brown University Data Management Group. A comparison of approaches to large-scale data analysis. http://database.cs.brown.edu/projects/mapreduce-vs-dbms/

  6. Ho R (2010) Map/reduce to recommend people connection. August 2010. http://horicky.blogspot.de/2010/08/mapreduce-to-recommend-people.html

  7. Hu Y (2012) Efficiently extracting change data from column oriented NoSQL database. In: Proc of workshop on parallel, peer-to-peer, distributed and cloud computing (ICS 2012), Dezember 2012 (accepted)

    Google Scholar 

  8. Isard M, Budiu M, Yu Y, Birrell A, Fetterly D (2007) Dryad: distributed data-parallel programs from sequential building blocks. In: EuroSys, S 59–72

    Chapter  Google Scholar 

  9. Jörg T, Parvizi R, Yong H, Dessloch S (2011) Incremental recomputations in mapreduce. In: CloudDB 2011, Oktober 2011

    Google Scholar 

  10. Krenzel S (2010) MapReduce: Finding friends. http://stevekrenzel.com/finding-friends-with-mapreduce

  11. Logothetis D, Olston C, Reed B, Webb KC, Yocum K (2010) Stateful bulk processing for incremental analytics. In: SoCC, S 51–62

    Chapter  Google Scholar 

  12. Marimba framework. http://code.google.com/marimba-framework

  13. Peng D, Dabek F (2010) Large-scale incremental processing using distributed transactions and notifications. In: OSDI

    Google Scholar 

  14. Popa L et al. (2009) DryadInc: reusing work in large-scale computations. In: HotCloud

    Google Scholar 

  15. Schildgen J (2012) Ein MapReduce-basiertes Programmiermodell für selbstwartbare Aggregatsichten. Masterarbeit. TU, Kaiserslautern

    Google Scholar 

Download references

Danksagung

Die vorgestellten Arbeiten wurden von Google im Rahmen eines Google Research Award finanziell unterstützt.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Johannes Schildgen.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Schildgen, J., Jörg, T. & Deßloch, S. Inkrementelle Neuberechnungen in MapReduce. Datenbank Spektrum 13, 33–43 (2013). https://doi.org/10.1007/s13222-012-0109-3

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s13222-012-0109-3

Schlüsselwörter

Navigation