Zusammenfassung
Text ist immer noch die vorherrschende Kommunikationsform der heutigen Geschäftswelt. Techniken des Textverstehens erschliessen vielfältiges Wissen zur Verbesserung der Kommunikation zwischen Menschen und Maschinen. In der letzten Zeit haben das automatische Textverstehen und die Extraktion von Semantik bedeutende Fortschritte gemacht.
Der Vorteil der Nutzung eines Textanalysesystems für die Überprüfung der Regelkonformität in der Finanzbranche, ist angesichts des Wachstums der Online-Informationen wichtiger denn je. Es ist eine Herausforderung, aktuelle Informationen über Kunden, Unternehmen und Lieferanten zu verfolgen und zu interpretieren. Bei fehlerhaftem Verhalten sind die Auswirkungen auf ein Unternehmen unter Umständen drastisch.
Zum Beispiel sind Kundeneröffnungen wegen verordneten Abklärungen für Finanzinstitute oft komplex und kostenintensiv. Um zum Beispiel Missbräuche (Geldwäsche) aufzudecken müssen grosse Mengen an textueller Daten interpretiert werden.
Vorgestellt wird ein Anwendungsfall aus der Praxis mit dem Analysewerkzeug Person-Check und den dabei angewandten Textanalysen. Person-Check ermöglicht deutlich effizientere Abklärungen in Compliance-Prüfprozessen unter Berücksichtigung internationaler, lokaler und firmeninternen Richtlinien.
Abstract
Text is still the predominant form of communication in today’s business world. Techniques of text comprehension open up a wide range of knowledge for improving communication between people and machines. Recently, automatic text comprehension and the extraction of semantics have made significant progress.
The advantage of using a text analysis system to verify compliance in the financial industry is more important than ever given the growths of online information. It is a challenge to track and interpret current information about customers, companies and suppliers. If an organization behaves incorrectly, the impact can be very drastic.
For example, customer openings today are often complex and costly for financial institutions due to mandated clarifications. In order to detect abuses (money laundering), large amounts of textual data must be interpreted.
A case study from practice with the textual analysis tool Person-Check and the applied text analytics, will be presented. Person-Check enables significantly more efficient clarifications in compliance audit processes, taking into account international, local and internal company guidelines.
Notes
Bekannte kostenpflichtige Datendienste sind World-Check, Factiva und Teledata.
Häufig verwendete Suchmaschinen: Google, Yahoo, Bing und weitere.
Als organische Suchergebnisse werden in dieser Arbeit Platzierungen auf einer Suchergebnisseite (englisch Search Engine Result Page, kurz SERP) bezeichnet, die nicht bezahlt sind, wie zum Beispiel Anzeigen von Google-AdWords.
Bei der White-Space Tokenisierung werden die Wortgrenzen mittels Leerzeichen und Interpunktionszeichen gebildet. Vgl. https://de.wikipedia.org/wiki/Tokenisierung.
Die Canoo Language Tools bestehen aus einer Anzahl von unterschiedlichen Analysewerkzeugen und verwenden ein regelbasiertes morphologisches Wörterbuch. Weitere Informationen unter http://languagetools.canoo.com, abgerufen am 12. Februar 2019.
Vgl. https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/treetagger.html, abgerufen am 9. Februar 2019.
Vgl. http://www.wikipedia.org/wiki/Support-Vector-Machine, abgerufen am 12. Februar 2019.
LIBSVM -‑ A Library for Support Vector Machines http://www.csie.ntu.edu.tw/~cjlin/libsvm, abgerufen am 12. Februar 2019.
Ontologien in der Informatik sind sprachlich gefasste und formal geordnete Darstellungen von Begrifflichkeiten und der zwischen ihnen bestehenden Beziehungen. Sie werden dazu genutzt, „Wissen“ in digitalisierter und formaler Form zu nutzen. Vgl. https://de.wikipedia.org/wiki/Ontologie_(Informatik).
Weitere Information zur Produktbeschreibung unter http://www.imtf.com/de/loesungen/icos/, abgerufen am 31. Januar 2019.
Weitere Information zur Firmen- und Produktbeschreibung unter http://findit.canoo.com/. Ende 2018 haben Informatique-MTF SA und Canoo Engineering AG fusioniert. Informatique-MTF SA wird gemäss den Angaben auf http://www.imtf.com/de/merger/ (abgerufen am 12. Februar 2019) die Canoo Lösung Find-it weiter pflegen und ausbauen.
Vgl. https://wirtschaftslexikon.gabler.de/definition/due-diligence-35668, abgerufen am 12. Februar 2019.
Das Tool ist an ein Onboarding-Frontend ICOS/2 angebunden. Die hier gezeigten Screenshots sind einem Standalone-Demonstrator (POC) mit Test Daten entnommen. Die gezeigten Screen Komponenten (Widgets) sind für verschiedene Anwendungen konfigurierbar. Aus rechtlichen Gründen werden keine Screenshots der eingesetzten Applikation mit produktiven Daten gezeigt.
Bekannte String-Matching Algorithmen sind: Levenshtein-Distanz (auch Editierdistanz), N‑Gramme, Soundex, und weitere. Weiterführende Information und Implementierung verschiedener Algorithmen im Github Repository (Debatty 2015) https://github.com/tdebatty/java-string-similarity#overview.
Literatur
Aldenderfer M, Blashfield R (1984) Cluster analysis. SAGE, Beverly Hills
Allahyari M, Pouriyeh S, Assefi M, Safaei S, Trippe ED, Gutierrez JB, Kochut K (2017) A brief survey of text mining: classification, clustering and extraction techniques. arXiv preprint arXiv:1707.02919
Baeza-Yates R, Ribeiro-Neto B (2011) Modern Information Retrieval, 2. Aufl. Addison-Wesley, ACM Press, New York
Bensberg F, Auth Czarnecki GC (2018) Einsatz von Text Analytics zur Unterstützung literaturintensiver Forschungsprozesse – Konzeption, Realisierung und Lessons Learned
Bunescu R, Pasca M (2006) Using encyclopedic knowledge for named entity disambiguation. In: Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL-06) Trento
Cucerzan S (2007) Large-scale named entity disambiguation based on Wikipedia data. In: Proceedings of Empirical Methods in Natural Language Processing (EMNLP 2007) Prague
Debatty T (2015) „java-string-similarity“, GitHub-Repository. https://github.com/tdebatty/java-string-similarity#overview. Zugegriffen: 12. Februar 2019
Gabrilovich E, Markovitch S (2006) Overcoming the brittleness bottleneck using Wikipedia: enhancing text categorization with encyclopedic knowledge. In: Proceedings of the Twenty-First National Conference on Artificial Intelligence Boston
Gattani A, Lamba DS, Garera N, Tiwari M, Das XCS, Subramaniam S, Rajaraman A, Harinarayan V, Doan A (2013) Entity extraction, linking, classification, and tagging for social media: a wikipedia-based approach. Proc VLDB Endow 6(11):1126–1137
Ghosh J, Strehl A (2006) Similarity-Based Text Clustering: A Comparative Study. In: Kogan J, Nicholas C, Teboulle M (Hrsg) Grouping Multidimensional Data. Springer, Berlin, S 73–97
Krauss A, Krüger P, Meyer J (2016) Sustainable finance in Switzerland: where do we stand? Swiss Finance Institute, Zurich (White Paper)
Manning CD, Raghavan P, Schütze H (2008) Introduction to information retrieval. Cambridge University Press, New York
Müller RM, Lenz H‑J (2013) Business intelligence. Springer, Berlin Heidelberg. ISBN 978-3-642-35560-8
Pedrazzini S (1994) Phrase manager: a system for phrasal and idiomatic dictionaries. Olms, Hildesheim
Schieber A, Hilbert A (2014) Entwicklung eines generischen Vorgehensmodells für Text Mining. Technische Universität Dresden, Fakultät Wirtschaftswissenschaften, Dresden
Suthaharan S (2016) Machine learning models and algorithms for big data classification. Thinking with examples for effective learning. Springer, New York
Zesch T, Müller C, Gurevych I (2008) Extracting lexical semantic knowledge from Wikipedia and Wiktionary. In: Proceedings of the 6th InternationalConference on Language Resources and Evaluation (LREC 2008) Paris, S 1646–1652
Author information
Authors and Affiliations
Corresponding author
Rights and permissions
About this article
Cite this article
Hengartner, U. Searching-Tool für Compliance. HMD 56, 947–963 (2019). https://doi.org/10.1365/s40702-019-00533-6
Received:
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1365/s40702-019-00533-6
Schlüsselwörter
- Information Retrieval
- Data Mining
- Informationsextraktion
- Textanalyse
- Unstrukturierte Daten
- Inverse Dokumenthäufigkeit
- Verarbeitung natürlicher Sprache
- Big Data