Skip to main content
Log in

QUALM: Ganzheitliche Messung und Verbesserung der Datenqualität in der Textanalyse

  • Schwerpunktbeitrag
  • Published:
Datenbank-Spektrum Aims and scope Submit manuscript

Zusammenfassung

Bestehende Ansätze zur Messung und Verbesserung der Qualität von Textdaten in der Textanalyse bringen drei große Nachteile mit sich. Evaluationsmetriken wie zum Beispiel Accuracy messen die Qualität zwar verlässlich, sie (1) sind jedoch auf aufwändig händisch zu erstellende Goldannotationen angewiesen und (2) geben keine Ansatzpunkte für die Verbesserung der Qualität. Erste domänenspezifische Datenqualitätsmethoden für unstrukturierte Textdaten kommen zwar ohne Goldannotationen aus und geben Ansatzpunkte zur Verbesserung der Datenqualität. Diese Methoden wurden jedoch nur für begrenzte Anwendungsgebiete entwickelt und (3) berücksichtigen deshalb nicht die Spezifika vieler Analysetools in Textanalyseprozessen. In dieser Arbeit präsentieren wir hierzu das QUALM-Konzept zum qualitativ hochwertigen Mining von Textdaten (QUALity Mining), das die drei o.g. Nachteile adressiert. Das Ziel von QUALM ist es, die Qualität der Analyseergebnisse, z. B. bzgl. der Accuracy einer Textklassifikation, auf Basis einer Messung und Verbesserung der Datenqualität zu erhöhen. QUALM bietet hierzu eine Menge an QUALM-Datenqualitätsmethoden. QUALM-Indikatoren erfassen die Datenqualität ganzheitlich auf Basis der Passung zwischen den Eingabedaten und den Spezifika der Analysetools, wie den verwendeten Features, Trainingsdaten und semantischen Ressourcen (wie zum Beispiel Wörterbüchern oder Taxonomien). Zu jedem Indikator gehört ein passender Modifikator, mit dem sowohl die Daten als auch die Spezifika der Analysetools verändert werden können, um die Datenqualität zu erhöhen. In einer ersten Evaluation von QUALM zeigen wir für konkrete Analysetools und Datensätze, dass die Anwendung der QUALM-Datenqualitätsmethoden auch mit einer Erhöhung der Qualität der Analyseergebnisse im Sinne der Evaluationsmetrik Accuracy einhergeht. Die Passung zwischen Eingabedaten und Spezifika der Analysetools wird hierzu mit konkreten QUALM-Modifikatoren erhöht, die zum Beispiel Abkürzungen auflösen oder automatisch auf Basis von Textähnlichkeitsmetriken passende Trainingsdaten vorschlagen.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Abb. 1
Abb. 2
Abb. 3

Notes

  1. https://tika.apache.org/.

  2. https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html.

  3. https://www.kaggle.com/datasets.

  4. https://wordnet.princeton.edu/.

  5. http://www.sfs.uni-tuebingen.de/GermaNet/.

  6. http://www.nltk.org/.

  7. https://stanfordnlp.github.io/CoreNLP/, https://nlp.stanford.edu/software/CRF-NER.shtml.

  8. https://www.cs.waikato.ac.nz/ml/weka/.

  9. https://rapidminer.com/.

  10. https://github.com/kieferca/qualm.

  11. http://www.nltk.org/nltk_data/.

  12. https://www.nltk.org/api/nltk.sentiment.html.

  13. http://www.cs.cornell.edu/people/pabo/movie-review-data/.

  14. Die Tweets aus der Datenkollektion in NLTK wurden für dieses Beispiel in zwei disjunkte Trainings- und Testdatensätze gesplittet.

  15. https://github.com/felipebravom/StaticTwitterSent/tree/master/extra/Sentiment140-Lexicon-v0.1.

  16. https://www.kaggle.com/paoloripamonti/twitter-sentiment-analysis.

  17. https://www.mongodb.com/.

  18. http://www.nltk.org/nltk_data/.

  19. https://tika.apache.org/.

  20. https://github.com/optimaize/language-detector.

  21. Aus der Bibliothek DKPro Core: https://dkpro.github.io/dkpro-core/.

  22. http://www.nltk.org/_modules/nltk/tag/crf.html.

  23. http://www.nltk.org/_modules/nltk/tag/perceptron.html.

  24. https://www.nltk.org/_modules/nltk/tag/tnt.html.

  25. https://github.com/kieferca/qualm.

References

  1. Balamurali A, Joshi A, Bhattacharyya P (2012) Cost and benefit of using wordnet senses for sentiment analysis. In: LREC

    Google Scholar 

  2. Batini C, Scannapieco M (2016) Data and information quality. Springer, Cham

    Book  MATH  Google Scholar 

  3. Botha GR, Barnard E (2012) Factors that affect the accuracy of text-based language identification. Comput Speech Lang 26(5):307–320

    Article  Google Scholar 

  4. Cavnar WB, Trenkle JM (1994) N‑gram-based text categorization, S 161–175

    Google Scholar 

  5. Gröger C, Kassner L, Hoos E, Königsberger J, Kiefer C, Silcher S, Mitschang B (2016) The data-driven factory. Leveraging big industrial data for agile, learning and human-centric manufacturing. In: Hammoudi S et al. (ed.) Proceedings of the 18th international conference on enterprise information systems, S 40–52

    Google Scholar 

  6. Bär D, Zesch T (2013) Iryna Gurevych: DKPro similarity: An open source framework for text similarity. In: Proceedings of the 51st annual meeting of the association for computational linguistics. USA, Stroudsburg, S 121–126

    Google Scholar 

  7. Devlin J, Chang MW, Lee K, Toutanova K (2018) BERT: Pre-training of deep bidirectional transformers for language understanding (CoRR (abs/1810.04805))

    Google Scholar 

  8. Feurer M, Klein A, Eggensperger K, Springenberg J, Blum M, Hutter F (2015) Efficient and robust automated machine learning. In: Cortes C, Lawrence ND, Lee DD, Sugiyama M, Garnett R (Hrsg) Advances in neural information processing systems, Bd. 28, S 2962–2970

    Google Scholar 

  9. Flisar J, Podgorelec V (2018) Document enrichment using DBPedia ontology for short text classification. In: Proceedings of the 8th international conference on web intelligence, mining and semantics, WIMS ’18. ACM, New York, S 8:1–8:9

    Google Scholar 

  10. Gimpel K, Schneider N, O’Connor B, Das D, Mills D, Eisenstein J, Heilman M, Yogatama D, Flanigan J, Smith NA (2011) Part-of-speech tagging for twitter: Annotation, features, and experiments. In: Proceedings of the 49th annual meeting of the association for computational linguistics: human language technologies: Short papers - Volume 2, HLT ’11. Association for Computational Linguistics, Stroudsburg, S 42–47

    Google Scholar 

  11. Goméz-Perez A, Manzano Macho D (2004) An overview of methods and tools for ontology learning from texts. Knowl Eng Rev 19(3):187–212

    Article  Google Scholar 

  12. Hamdan H, Béchet F, Bellot P (2013) Experiments with DBpedia, wordnet and sentiwordnet as resources for sentiment analysis in micro-blogging. In: Second joint conference on lexical and computational semantics (*SEM). Association for Computational Linguistics, Atlanta, S 455–459 (Volume 2: Proceedings of the seventh international workshop on semantic evaluation (SemEval 2013))

    Google Scholar 

  13. Herschel M, Diestelkämper R, Ben Lahmar H (2017) A survey on provenance: What for? What form? What from? VLDB J 26(6):881–906

    Article  Google Scholar 

  14. Hirmer P, Behringer M (2016) Flexmash 2.0 - Flexible modeling and execution of data mashups. In: RMC

    Google Scholar 

  15. Hossin M, Sulaiman MN (2015) A review on evaluation metrics for data classification evaluations. Int J Data Min Knowl Manag Process 5:1–11

    Google Scholar 

  16. Hotho A, Staab S, Stumme G (2003) Ontologies improve text document clustering. In: Third IEEE international conference on data mining, S 541–544

    Book  Google Scholar 

  17. Immonen A, Paakkonen P, Ovaska E (2015) Evaluating the quality of social media data in big data architecture. IEEE Access 3:1

    Article  Google Scholar 

  18. Jonquet C, Musen MA, Shah NH (2010) Building a biomedical ontology recommender web service. J Biomed Semantics 1(Suppl 1):S1

    Article  Google Scholar 

  19. Kandel S, Heer J, Plaisant C, Kennedy J, van Ham F, Riche NH, Weaver C, Lee B, Brodbeck D, Buono P (2011) Research directions in data wrangling: Visualizations and transformations for usable and credible data. Inf Vis 10(4):271–288

    Article  Google Scholar 

  20. Kassner L, Kiefer C (2015) Taxonomy transfer: Adapting a knowledge representing resource to new domains and tasks. In: Proceedings of the 16th European conference on knowledge management, S 399–407

    Google Scholar 

  21. Kassner L, Mitschang B (2016) Exploring text classification for messy data: An industry use case for domain-specific analytics. In: Advances in database technology - EDBT 2016, 19th international conference on extending database technology, S 491–502 (OpenProceedings.org)

    Google Scholar 

  22. Kiefer C (2016) Assessing the quality of unstructured data: An initial overview. In: Krestel R, Mottin D, Müller E (Hrsg) Proceedings of the LWDA, CEUR workshop proceedings, S 62–73

    Google Scholar 

  23. Kiefer C (2017) Die Gratwanderung zwischen qualitativ hochwertigen und einfach zu erstellenden domänenspezifischen Textanalysen. In: Lecture Notes in Informatics (LNI) (B. Mitschang et al. (eds.))

    Google Scholar 

  24. Kiefer C (2019) Quality indicators for text data. In: Meyer H et al (Hrsg) Datenbanksysteme für Business, Technologie und Web (BTW 2019), 18. Fachtagung des GI-Fachbereichs ,,Datenbanken und Informationssysteme (DBIS), 4.-8. März 2019, Rostock, Germany, Workshopband, LNI, Bd. P‑290. Gesellschaft für Informatik, Bonn, S 145–154

    Google Scholar 

  25. Landauer TK, Foltz PW, Laham D (1998) An introduction to latent semantic analysis. Discourse Process 25(2-3):259–284

    Article  Google Scholar 

  26. Li Y, Ye J (2018) Learning adversarial networks for semi-supervised text classification via policy gradient. In: Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, KDD ’18. ACM, New York, S 1715–1723

    Google Scholar 

  27. Liu Y, Ge T, Mathews KS, Ji H, McGuinness DL (2018) Exploiting task-oriented resources to learn word embeddings for clinical abbreviation expansion (CoRR)

    Google Scholar 

  28. Manning CD, Raghavan P, Schütze H (2008) Introduction to information retrieval. Cambridge University Press, New York

    Book  MATH  Google Scholar 

  29. Marcus MP, Marcinkiewicz MA, Santorini B (1993) Building a large annotated corpus of English: The Penn Treebank. Comput Linguist 19(2):313–330

    Google Scholar 

  30. Miltsakaki E, Kukichy K (2000) Automated evaluation of coherence in student essays. In: Proceedings of LREC, S 1–8

    Google Scholar 

  31. Misirlis N, Vlachopoulou M (2018) Social media metrics and Analytics in marketing – S3M: A mapping literature review. Int J Inf Manage 38(1):270–276

    Article  Google Scholar 

  32. Niu C, Li W, Ding J, Srihari RK (2004) Orthographic case restoration using supervised learning without manual annotation. Int J Artif Intell Tools. https://doi.org/10.1142/S0218213004001454

    Google Scholar 

  33. Olvera-López J, Ariel Carrasco-Ochoa J, Martínez-Trinidad JF, Kittler J (2010) A review of instance selection methods. Artif Intell Rev 34:133–143

    Article  Google Scholar 

  34. Ranjit S, Kawaljeet S (2010) A descriptive classification of causes of data quality problems in data warehousing. International Journal of Computer Science Issues 7(3):41–50

    Google Scholar 

  35. Schierle M, Trabold D (2010) Multilingual knowledge-based concept recognition in textual data. In: Fink A, Lausen B, Seidel W, Ultsch A (Hrsg) Advances in data analysis, data handling and business intelligence, studies in classification, data analysis, and knowledge organization. Springer, Berlin, Heidelberg, S 327–336

    Google Scholar 

  36. Schmidt A, Ireland C, Gonzales E, Del Pilar Angeles M, Burdescu DD (2012) On the quality of non-structured data. http://www.iaria.org/conferences2012/filesDBKDA12/DBKDA_2012_PANEL.pdf. Accessed: 5 June 2019

    Google Scholar 

  37. Sebastian-Coleman L (2013) Measuring data quality for ongoing improvement: A data quality assessment framework. Elsevier, Burlington

    Book  Google Scholar 

  38. Sonntag D (2004) Assessing the quality of natural language text data. In: GI Jahrestagung, S 259–263

    Google Scholar 

  39. Tartir S, Arpinar IB (2007) Ontology evaluation and ranking using ontoQA. In: International conference on semantic computing (ICSC 2007), S 185–192

    Book  Google Scholar 

  40. Todoran IG, Lecornu L, Khenchaf A, Le Caillec JM (2015) A methodology to evaluate important dimensions of information quality in systems. ACM J Data Inf Qual 6(2-3):1–23

    Article  Google Scholar 

  41. Wang RY, Strong DM (1996) Beyond accuracy: What data quality means to data consumers. J Manag Inf Syst 12(4):5–33

    Article  Google Scholar 

  42. Wong W, Liu W, Bennamoun M (2008) Enhanced integrated scoring for cleaning dirty texts (CoRR)

    Google Scholar 

  43. Yu W, Li Q, Chen J, Cao J (2007) OS-RANK: Structure analysis for ontology ranking, S 339–346

    Google Scholar 

Download references

Danksagung

Die Autoren danken der Deutschen Forschungsgemeinschaft (DFG) für finanzielle Unterstützung dieses Projekts im Rahmen der Graduiertenschule GSaME (Graduate School of Excellence advanced Manufacturing Engineering) an der Universität Stuttgart.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Cornelia Kiefer.

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Kiefer, C., Reimann, P. & Mitschang, B. QUALM: Ganzheitliche Messung und Verbesserung der Datenqualität in der Textanalyse. Datenbank Spektrum 19, 137–148 (2019). https://doi.org/10.1007/s13222-019-00318-7

Download citation

  • Received:

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s13222-019-00318-7

Schlüsselwörter

Navigation