Zusammenfassung
Entscheidungsbaumverfahren repräsentieren einen etablierten Ansatz zur Erstellung von Klassifikationsmodellen, mit deren Hilfe verschiedene Planungs- und Entscheidungsprobleme unterstützt werden können. In der Literaturfinden sich zahlreiche Vorschläge für erweiterte Entscheidungsbaumverfahren, wobei der sogenannte Random-Forest-Algorithmus als besonders leistungsfähig angesehen werden kann. Ein konstituierendes Merkmal betrieblicher Klassifikationsprobleme besteht allerdings darin, dass fehlerhafte Prognosen mit unterschiedlichen Kosten assoziiert sind. Deswegen soll die Eignung von Random Forest zur kostensensitiven Klassifikation in dem vorliegenden Beitrag genauer untersucht werden. In diesem Rahmen wird der Grenznutzen algorithmischer Modifikationen gegenüber dem ursprünglichen Entscheidungsbaumprinzip erhoben, um die Effizienz einer konkreten Erweiterung kritisch zu beleuchten. Der Untersuchungsansatz soll damit auch allgemeine Hinweise geben, wie der zu erwartende Nutzen aus einer Implementierung von erweiterten Entscheidungsbaumverfahren geeignet quantifiziert werden kann.
Literatur
Berry, M. J. A.; Linoff, G.: Data Mining Techniques: For Marketing, Sales and Customer Relationship Management. 2. Aufl., Wiley, New York, 2004.
Breiman, L.: Bagging predictors. Machine Learning 24(2), 1996, S. 123–140.
Breiman, L.: Random forests. Machine Learning 45(1), 2001, S. 5–32.
Buckinx, W.; Verstraeten, G.; Van Den Poel, D.: Predicting customer loyalty using the internal transactional database. Expert Systems with Applications 32(1), 2007, S. 125–134.
Domingos, P.: MetaCost: A General Method for Making Classifiers Cost-Sensitive. In: U. Fayyad; S. Chaudhuri; D. Madigan (Hrsg.): Proc. of the 5th Intern. Conf. on Knowledge Discovery and Data Mining, ACM Press, New York, 1999, S. 155–164.
Hastie, T.; Tibshirani, R.; Friedman, J.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer-Verlag, New York, 2002.
Hippner, H.; Wilde, K. D.: Data Mining im CRM. In: S. Helmke; M. Uebel; W. Dangelmaier (Hrsg.): Effektives Customer Relationship Management. Gabler, Wiesbaden, 2002, S. 211–232.
Ho, T. K.: The random subspace method for constructing decision forests. IEEE Transactions on Pattern Analysis and Machine Intelligence 20(8), 1998, S. 832–844.
Lessmann, S.; Voβ, S.: A reference model for customer-centric data mining with support vector machines. European Journal of Operational Research (doi:10.1016/ j.ejor.2008.12.017), 2009.
Lessmann, S.; Baesens, B.; Mues, C.; Pietsch, S.: Benchmarking classification models for software defect prediction: A proposed framework and novel findings. IEEE Transactions on Software Engineering 34(4), 2008, S. 485–496.
Ling, C.X.; Li, C.: Data Miningfor Direct Marketing: Problems and Solutions. In: R. Agrawal; P. E. Stolorz; G. Piatetsky-Shapiro (Hrsg.): Proc. of the 4th Intern. Conf. on Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, 1998, S. 73–79.
Neslin, S. A.; Gupta, S.; Kamakura, W.; Lu, J.; Mason, C. H.: Defection detection: Measuring and understanding the predictive accuracy of customer churn models. Journal of Marketing Research 43(2), 2006, S. 204–211.
Schüller, S.; Lessmann, S.; Voβ, S.: A Case Study of Random Forest in Predictive Data Mining. In: H. R. Hansen; D. Karagiannis; H.-G. Fill (Hrsg.): Business Services: Konzepte, Technologien, Anwendungen — 9. Internationale Tagung Wirtschaftsinformatik, Band 2. Österreichische Computer Gesellschaft, Wien, 2009, S. 319–328.
Viaene, S.; Dedene, G.: Cost-sensitive learning and decision making revisited. European Journal of Operational Research 166(1), 2004, S. 212–220.
Viaene, S.; Ayuso, M.; Guillen, M.; Van Gheel, D.; Dedene, G.: Strategies for detecting fraudulent claims in the automobile insurance industry. European Journal of Operational Research 176(1), 2007, S. 565–583.
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Lessmann, S., Schüller, S. & Voβ, S. Kostensensitive Klassifikation mit Random Forest . HMD 46, 57–68 (2009). https://doi.org/10.1007/BF03340381
Published:
Issue Date:
DOI: https://doi.org/10.1007/BF03340381