Skip to main content
Log in

Tabellenauswertungen im Zensus unter Berücksichtigung fehlender Werte

  • Originalveröffentlichung
  • Published:
AStA Wirtschafts- und Sozialstatistisches Archiv Aims and scope Submit manuscript

Zusammenfassung

Im European Statistics Code of Practice wird neben vielen anderen Punkten eine adäquate Konkretisierung von Stichproben- und Nicht-Stichprobenfehlern empfohlen. Dies umfasst insbesondere auch eine Messung der Genauigkeit unter Berücksichtigung fehlender Werte. In der Praxis werden fehlende Werte oft mit Hilfe von Imputationsverfahren ergänzt. Dabei müssen zwei Fragestellungen beachtet werden. Zum einen entsteht die Frage, ob die ergänzten Werte plausibel sein können. Dies wird mit Editing-Verfahren überprüft. Zum anderen muss bei einer Qualitätsmessung, etwa durch Varianzschätzverfahren, der Ergänzungsprozess korrekt berücksichtigt werden. Unabhängig von der Methodik werden zumeist computerintensive Verfahren verwendet. Dabei entsteht die Frage, welche der Methoden auf großen Surveys sinnvoll angewendet werden können.

Mit dem Register-gestützten Zensus 2011 wurde in Deutschland eine sehr große Erhebung durchgeführt. Im Zensusgesetz wurden konkrete Qualitätsvorgaben für die Ermittlung der Einwohnerzahl formuliert. In diesem Zusammenhang spielt die Imputation aber keine Rolle. Dagegen ist sie bei Variablen von Interesse, die nicht im Melderegister enthalten sind. Ausbildung oder Erwerbstätigkeit sind Beispiele für solche Variablen. Bisher ist die Beantwortung des Frageprogramms im Zensus verpflichtend. Sollte der Zensus in Zukunft auch einen freiwilligen Teil umfassen, so ist eine Diskussion über die Qualitätsmessung unter Berücksichtigung von fehlenden Werten unausweichlich. Der vorliegende Artikel referiert über eine Machbarkeitsstudie zur Varianzschätzung bzw. der Schätzung des mittleren quadratischen Fehlers (MSE) unter Imputation bei großen Erhebungen, mit Fokus auf einen Register-gestützten Zensus. Im Vordergrund stehen Verfahren der einfachen und multiplen Imputation im Kontext der Ergänzung plausibler Werte.

Abstract

The European Statistics Code of Practice defines standards for the production of statistics, covering data quality aspects. As important items within the quality framework, sampling and non-sampling errors are covered including measuring the accuracy of statistics in the presence of missing values. In practice, missing values are often treated by using imputation methods, where two aspects should be considered. First, the plausibility of imputed values plays an important role in official statistics applications. This can be examined with editing methods. Second, measuring the accuracy e. g. via variance estimation must incorporate the randomness of the imputation process. Since all relevant methods to be considered are computer-intensive, a comparative study of the methodology must include their applicability in the presence of large surveys.

The German register-assisted census 2011 has been conducted using a large sample. Accuracy goals for the census where given in the census law for the determination of the population size where imputation does not play any role. This aspect also holds for other variables in case of mandatory participation. However, in case of future censuses when some variables are based on voluntary participation, imputation has to be considered in the context of accuracy measurement as well. This paper presents the results of a feasibility study of variance or MSE estimation under imputation in large-scale surveys focusing on the register-assisted census. The main aim is to compare selected single and multiple methods considering the plausibility of imputed values.

This is a preview of subscription content, log in via an institution to check access.

Access this article

Price excludes VAT (USA)
Tax calculation will be finalised during checkout.

Instant access to the full article PDF.

Fig. 1
Fig. 2
Fig. 3
Fig. 4
Fig. 5
Fig. 6
Fig. 7
Fig. 8
Fig. 9
Fig. 10
Fig. 11
Fig. 12

Notes

  1. Zur Zeit Version 0.12-0 vom 14. Dezember 2013. Ein anderes R-Paket ist cluster mit der Funktion daisy, die ebenfalls die Berechnung einer Distanzmatrix nach Gower enthält. In der Nearest Neightbour Routine des VIM Paket wird ebenfalls die Gower Distanz verwendet.

  2. Version 0.1-6 vom 24.02.2011 (siehe Meinfelder und Schnapp 2015), ein Plausibilitätscheck wird in einer der nächsten Versionen implementiert sein.

Literatur

  • Andridge RR, Little RJ (2010) A review of hot deck imputation for survey non-response. Int Stat Rev 78(1):40–60

  • Battese GE, Harter RM, Fuller WA (1988) An error-components model for prediction of county crop areas using survey and satellite data. J Am Stat Assoc 83(401):28–36

  • Berger Y, Björnstad J, Zhang L, Skinner C (2004) Imputation and non-response. DACSEIS Deliverable 11

  • Brick J, Kalton G (1996) Handling missing data in survey research. Stat Methods Med Res 5:215 –238

  • Bruch C, Münnich R, Zins S (2011) Variance estimation for complex surveys. Tech. rep., AMELI deliverable D3.1

  • van Buuren S (2012) Flexible Imputation of Missing Data. Chapman and Hall, CRC Press, UK

  • van Buuren S, Groothuis-Oudshoorn K (2011) mice: multivariate imputation by chained equations in R. J Stat Softw 45(3):1–67. http://www.jstatsoft.org/v45/i03/

  • Chen J, Shao J (2000) Nearest neighbour imputation for survey data. J Off Stat 16(2):113–131

  • Datta GS, Lahiri P (2000) A unified measure of uncertainty of estimated best linear unbiased predictors in small area estimation problems. Stat Sin 10:613–627

  • Davison A, Sardy S (2004) Resampling methods for variance estimation. Tech. rep., DACSEIS Project

  • Enderle T, Münnich R, Bruch C (2013) On the impact of response patterns on survey estimates from access panels. Survey Res Methods 7(2):91–101. https://ojs.ub.uni-konstanz.de/srm/article/view/5036

  • Fay RE, Herriot RA (1979) Estimation of income for small places: an application of james-stein procedures to census data. J Am Stat Assoc 74(366):269–277

  • Friedrich U, Münnich RT, de Vries S, Wagner M (2015) Fast integer-valued algorithms for optimal allocations under constraints in stratified sampling. Comput Stat Data Anal 92:1–12.

  • Gabler S, Ganninger M, Münnich RT (2012) Optimal allocation of the sample size to strata under box constraints. Metrika 10:1–11

  • Gelman A, Raghunathan TE (2001) Using conditional distributions for missing-data imputation, in discussion of 'Using conditional distributions for missing-data imputation` by Arnold em et al. Stat Sci 3:268–269

  • Graham J, Olchowski A, Gilreath T (2007) How many imputations are really needed? some practical clarifications of multiple imputation theory. Prev Sci 8(3):206–213

  • Granquist L, Kovar JG (1997) Editing of survey data: how much is enough? Survey measurement and process quality. John Wiley & Sons, Inc., New York, S 415–435

  • Groves RM (2006) Nonresponse rates and nonresponse bias in household surveys. Public Opin Q 70(5):646–675

  • Hidiroglou MA, Berthelot JM (1986) Statistical editing and imputation for periodic business surveys. Survey Methodology 12(1):73–83

  • Kalton G, Kasprzyk D (1982) Imputing for missing survey responses. Proceedings of the Section on Survey Research Methods, American Statistical Association S 22–31

  • Landerman LR, Land KC, Pieper CF (1997) An empirical evaluation of the predictive mean matching method for imputing missing values. Sociol Methods Res 26(3):3–33

  • Lehtonen R, Veijanen A (2009) Design-based methods of estimation for domains and small areas. In: Rao C, Pfeffermann D (Hrsg) Handbook of Statistics, Bd 29, Kap. 31. Elsevier, New York, 219–249

  • Little RJ (1986) Survey nonresponse adjustments. Int Stat Rev 54(1):3

  • Little RJ (1988) Missing-data adjustments in large surveys. J Bus Econ Stat 6(3):287–296

  • Little RJ (1992) Regression with missing x’s: a review. J Am Stat Assoc 87(420):1227–1237

  • Little RJ (2004) To model or not to model? competing modes of inference for finite population sampling. J Am Stat Assoc 99(466):546–556

  • Little RJ, Smith PJ (1987) Editing and imputation for quantitative survey data. J Am Stat Assoc 82(397):58–68

  • Little RJ, Rubin D (2002) Statistical analysis with missing data. Wiley series in probability and mathematical statistics. Probability and mathematical statistics. Wiley, New York

  • Meinfelder F (2009) Analysis of incomplete survey data – multiple imputation via bayesian bootstrap predictive mean matching. PhD thesis, Universitaet Bamberg, Bamberg

  • Meinfelder F (2014) Multiple imputation: an attempt to retell the evolutionary process. AStA Wirtsch Sozial Archiv 8(4):249–267

  • Meinfelder F, Schnapp T (2015) BaBooN: Bayesian Bootstrap Predictive Mean Matching - Multiple and Single Imputation for Discrete Data. http://CRAN.R-project.org/package=BaBooN, r package version 0.2-0

  • Münnich R, Gabler S, Ganninger M, Burgard JP, Kolb JP (2011) Das Stichprobendesign des registergestützten Zensus 2011. Methoden - Daten - Analysen 5(1):37–61

  • Münnich R, Gabler S, Ganninger M, Burgard JP, Kolb JP (2012) Stichprobenoptimierung und Schätzung im Zensus 2011. Statistsches Bundesamt

  • Münnich R, Sachs E, Wagner M (2012) Numerical solution of optimal allocation problems in stratified sampling under box constraints. Adv Stat Anal 96(3):435–450

  • Münnich R, Burgard JP, Vogt M (2013) Small Area-Statistik: Methoden und Anwendungen. AStA Wirtsch Sozial Archiv 6(3–4):149–191

  • Münnich R, Gabler S, Ganninger M, Burgard JP, Kolb JP (2013) Validierungsprojekt zum deutschen Zensus 2011. Tech. rep., Universität Trier und GESIS

  • PrasadNGN, Rao JNK (1990) The estimation of the mean squared error of small-area estimators. J Am Stat Assoc 85(409):163–171. http://www.jstor.org/stable/2289539

  • R Development Core Team (2008) R: a Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna. http://www.R-project.org. (ISBN 3-900051-07-0)

  • Rao JNK (1996) On variance estimation with imputed survey data. J Am Stat Assoc 91(434):449–506

  • Rao JNK (2003) Small Area Estimation. John Wiley and Sons, New York

  • Rao J, Wu CFJ (1988) Resampling inference with complex survey data. Biometrika 83(401):231–241

  • Rubin DB (1978) Multiple imputations in sample surveys: a phenomenological Bayesian approach to nonresponse. Proceedings of the Survey Research Methods Section, S 20–28

  • Rubin DB (1986) Basic ideas of multiple imputation for nonresponse. Surv Methodol 12(1):37–47

  • Rubin DB (1987) Multiple Imputation for Nonresponse in Surveys. Wiley, New York

  • Rubin DB (1996) Multiple imputation after 18+ years. J Am Stat Assoc 91(434):473–489

  • Saigo H, Shao J, Sitter R (2001) A repeated half-sample bootstrap and balanced repeated replications for randomly imputed data. Surv Methodol 27(2):189– 196

  • Särndal CE (1992) Methods for estimating the precision of survey estimates when imputation has been used. Surv Methodol 18(2):241–252

  • Schafer J (1997) Analysis of incomplete multivariate data. Chapman and Hall, London

  • Schafer J (1999) Multiple imputation: a primer. Stat Methods Med Res 8(1):3–15

  • Schafer J, Graham JW (2002) Missing data: our view of the state of the art. Psychol Methods 7(2):147–177

  • Shao J, Sitter R (1996) Bootstrap for imputed survey data. J Am Stat Assoc 91(435):1278– 1288

  • Shao J, Wang H (2002) Sample correlation coefficients based on survey data under regression imputation. J Am Stat Assoc 97(458):544–552

  • Shao J, Chen Y, Chen Y (1998) Balanced repeated replication for stratified multistage survey data under imputation. J Am Stat Assoc 93(442):819– 831

  • Simpson G (2007) Analogue methods in palaeoecology: using the analogue package. J Stat Softw 22(2):1–29

  • Simpson G, Oksanen J (2011) analogue: Analogue matching and modern analogue technique transfer function models. (r package version 0.7-0). R package

  • Tsikriktsis N (2005) A review of techniques for treating missing data in om survey research. J Oper Manage 24:53 –62

  • Valliant R, Dorfman AH, Royall RM (2000) Finite population sampling and inference: a prediction approach. John Wiley, New York

  • Van Buuren S, Brand JP, Groothuis-Oudshoorn C, Rubin DB (2006) Fully conditional specification in multivariate imputation. J Stat Comput Simul 76(12):1049–1064

  • WolterK (2007) Introduction to Variance Estimation. Springer Science & Business Media, New York

  • You Y, Rao JNK (2002) A pseudo-empirical best linear unbiased prediction approach to small area estimation using survey weights. Can J Stat 30(3):431–439. (La Revue Canadienne de Statistique). http://www.jstor.org/stable/3316146

Download references

Danksagung

Die Forschungsarbeiten wurden im Rahmen des Forschungsprojektes zur Zensus-Imputation durchgeführt, welches als Machbarkeitsstudie für den Zensus 2021 ausgelegt war. Die Autoren danken dem Statistischen Bundesamt für die Förderung und stets sehr offenen und konstruktiven Diskussionen.

Danken möchten wir auch dem Associate Editor Prof. Dr. Manfred Ehling für die vollständige Übernahme des Begutachtungsprozesses sowie für eine Reihe sehr wertvoller Anregungen. Ebenso gilt der Dank zwei anonymen Gutachtern, deren Kommentare sehr zur Lesbarkeit der Arbeit beigetragen haben.

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Ralf Münnich.

Additional information

Herr Bruch und Herr Zimmermann haben zur Zeit der Forschungsarbeiten am Lehrstuhl für Wirtschafts- und Sozialstatistik an der Universität Trier gearbeitet, sind aber nun an der Universität Mannheim bzw. dem Statistischen Bundesamt in Wiesbaden tätig.

Anhang

Anhang

Tab. 12 Variablenbeschreibung

Rights and permissions

Reprints and permissions

About this article

Check for updates. Verify currency and authenticity via CrossMark

Cite this article

Münnich, R., Gabler, S., Bruch, C. et al. Tabellenauswertungen im Zensus unter Berücksichtigung fehlender Werte. AStA Wirtsch Sozialstat Arch 9, 269–304 (2015). https://doi.org/10.1007/s11943-015-0175-8

Download citation

  • Accepted:

  • Published:

  • Issue Date:

  • DOI: https://doi.org/10.1007/s11943-015-0175-8

Schlüsselwörter

Keywords

Navigation