Skip to main content
Log in

Kostensensitive Klassifikation mit Random Forest

Eine Untersuchung zum Potenzial erweiterter Entscheidungsbaumverfahren

  • Published:
HMD Praxis der Wirtschaftsinformatik Aims and scope Submit manuscript

Zusammenfassung

Entscheidungsbaumverfahren repräsentieren einen etablierten Ansatz zur Erstellung von Klassifikationsmodellen, mit deren Hilfe verschiedene Planungs- und Entscheidungsprobleme unterstützt werden können. In der Literaturfinden sich zahlreiche Vorschläge für erweiterte Entscheidungsbaumverfahren, wobei der sogenannte Random-Forest-Algorithmus als besonders leistungsfähig angesehen werden kann. Ein konstituierendes Merkmal betrieblicher Klassifikationsprobleme besteht allerdings darin, dass fehlerhafte Prognosen mit unterschiedlichen Kosten assoziiert sind. Deswegen soll die Eignung von Random Forest zur kostensensitiven Klassifikation in dem vorliegenden Beitrag genauer untersucht werden. In diesem Rahmen wird der Grenznutzen algorithmischer Modifikationen gegenüber dem ursprünglichen Entscheidungsbaumprinzip erhoben, um die Effizienz einer konkreten Erweiterung kritisch zu beleuchten. Der Untersuchungsansatz soll damit auch allgemeine Hinweise geben, wie der zu erwartende Nutzen aus einer Implementierung von erweiterten Entscheidungsbaumverfahren geeignet quantifiziert werden kann.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Subscribe and save

Springer+ Basic
$34.99 /Month
  • Get 10 units per month
  • Download Article/Chapter or eBook
  • 1 Unit = 1 Article or 1 Chapter
  • Cancel anytime
Subscribe now

Buy Now

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Literatur

  1. Berry, M. J. A.; Linoff, G.: Data Mining Techniques: For Marketing, Sales and Customer Relationship Management. 2. Aufl., Wiley, New York, 2004.

    Google Scholar 

  2. Breiman, L.: Bagging predictors. Machine Learning 24(2), 1996, S. 123–140.

    MATH  MathSciNet  Google Scholar 

  3. Breiman, L.: Random forests. Machine Learning 45(1), 2001, S. 5–32.

    Article  MATH  Google Scholar 

  4. Buckinx, W.; Verstraeten, G.; Van Den Poel, D.: Predicting customer loyalty using the internal transactional database. Expert Systems with Applications 32(1), 2007, S. 125–134.

    Article  Google Scholar 

  5. Domingos, P.: MetaCost: A General Method for Making Classifiers Cost-Sensitive. In: U. Fayyad; S. Chaudhuri; D. Madigan (Hrsg.): Proc. of the 5th Intern. Conf. on Knowledge Discovery and Data Mining, ACM Press, New York, 1999, S. 155–164.

    Google Scholar 

  6. Hastie, T.; Tibshirani, R.; Friedman, J.: The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer-Verlag, New York, 2002.

    Google Scholar 

  7. Hippner, H.; Wilde, K. D.: Data Mining im CRM. In: S. Helmke; M. Uebel; W. Dangelmaier (Hrsg.): Effektives Customer Relationship Management. Gabler, Wiesbaden, 2002, S. 211–232.

    Chapter  Google Scholar 

  8. Ho, T. K.: The random subspace method for constructing decision forests. IEEE Transactions on Pattern Analysis and Machine Intelligence 20(8), 1998, S. 832–844.

    Article  Google Scholar 

  9. Lessmann, S.; Voβ, S.: A reference model for customer-centric data mining with support vector machines. European Journal of Operational Research (doi:10.1016/ j.ejor.2008.12.017), 2009.

  10. Lessmann, S.; Baesens, B.; Mues, C.; Pietsch, S.: Benchmarking classification models for software defect prediction: A proposed framework and novel findings. IEEE Transactions on Software Engineering 34(4), 2008, S. 485–496.

    Article  Google Scholar 

  11. Ling, C.X.; Li, C.: Data Miningfor Direct Marketing: Problems and Solutions. In: R. Agrawal; P. E. Stolorz; G. Piatetsky-Shapiro (Hrsg.): Proc. of the 4th Intern. Conf. on Knowledge Discovery and Data Mining. AAAI Press, Menlo Park, 1998, S. 73–79.

    Google Scholar 

  12. Neslin, S. A.; Gupta, S.; Kamakura, W.; Lu, J.; Mason, C. H.: Defection detection: Measuring and understanding the predictive accuracy of customer churn models. Journal of Marketing Research 43(2), 2006, S. 204–211.

    Article  Google Scholar 

  13. Schüller, S.; Lessmann, S.; Voβ, S.: A Case Study of Random Forest in Predictive Data Mining. In: H. R. Hansen; D. Karagiannis; H.-G. Fill (Hrsg.): Business Services: Konzepte, Technologien, Anwendungen — 9. Internationale Tagung Wirtschaftsinformatik, Band 2. Österreichische Computer Gesellschaft, Wien, 2009, S. 319–328.

    Google Scholar 

  14. Viaene, S.; Dedene, G.: Cost-sensitive learning and decision making revisited. European Journal of Operational Research 166(1), 2004, S. 212–220.

    Article  Google Scholar 

  15. Viaene, S.; Ayuso, M.; Guillen, M.; Van Gheel, D.; Dedene, G.: Strategies for detecting fraudulent claims in the automobile insurance industry. European Journal of Operational Research 176(1), 2007, S. 565–583.

    Article  MATH  Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Stefan Lessmann.

Rights and permissions

Reprints and permissions

About this article

Cite this article

Lessmann, S., Schüller, S. & Voβ, S. Kostensensitive Klassifikation mit Random Forest . HMD 46, 57–68 (2009). https://doi.org/10.1007/BF03340381

Download citation

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/BF03340381

Navigation