Zusammenfassung
Im European Statistics Code of Practice wird neben vielen anderen Punkten eine adäquate Konkretisierung von Stichproben- und Nicht-Stichprobenfehlern empfohlen. Dies umfasst insbesondere auch eine Messung der Genauigkeit unter Berücksichtigung fehlender Werte. In der Praxis werden fehlende Werte oft mit Hilfe von Imputationsverfahren ergänzt. Dabei müssen zwei Fragestellungen beachtet werden. Zum einen entsteht die Frage, ob die ergänzten Werte plausibel sein können. Dies wird mit Editing-Verfahren überprüft. Zum anderen muss bei einer Qualitätsmessung, etwa durch Varianzschätzverfahren, der Ergänzungsprozess korrekt berücksichtigt werden. Unabhängig von der Methodik werden zumeist computerintensive Verfahren verwendet. Dabei entsteht die Frage, welche der Methoden auf großen Surveys sinnvoll angewendet werden können.
Mit dem Register-gestützten Zensus 2011 wurde in Deutschland eine sehr große Erhebung durchgeführt. Im Zensusgesetz wurden konkrete Qualitätsvorgaben für die Ermittlung der Einwohnerzahl formuliert. In diesem Zusammenhang spielt die Imputation aber keine Rolle. Dagegen ist sie bei Variablen von Interesse, die nicht im Melderegister enthalten sind. Ausbildung oder Erwerbstätigkeit sind Beispiele für solche Variablen. Bisher ist die Beantwortung des Frageprogramms im Zensus verpflichtend. Sollte der Zensus in Zukunft auch einen freiwilligen Teil umfassen, so ist eine Diskussion über die Qualitätsmessung unter Berücksichtigung von fehlenden Werten unausweichlich. Der vorliegende Artikel referiert über eine Machbarkeitsstudie zur Varianzschätzung bzw. der Schätzung des mittleren quadratischen Fehlers (MSE) unter Imputation bei großen Erhebungen, mit Fokus auf einen Register-gestützten Zensus. Im Vordergrund stehen Verfahren der einfachen und multiplen Imputation im Kontext der Ergänzung plausibler Werte.
Abstract
The European Statistics Code of Practice defines standards for the production of statistics, covering data quality aspects. As important items within the quality framework, sampling and non-sampling errors are covered including measuring the accuracy of statistics in the presence of missing values. In practice, missing values are often treated by using imputation methods, where two aspects should be considered. First, the plausibility of imputed values plays an important role in official statistics applications. This can be examined with editing methods. Second, measuring the accuracy e. g. via variance estimation must incorporate the randomness of the imputation process. Since all relevant methods to be considered are computer-intensive, a comparative study of the methodology must include their applicability in the presence of large surveys.
The German register-assisted census 2011 has been conducted using a large sample. Accuracy goals for the census where given in the census law for the determination of the population size where imputation does not play any role. This aspect also holds for other variables in case of mandatory participation. However, in case of future censuses when some variables are based on voluntary participation, imputation has to be considered in the context of accuracy measurement as well. This paper presents the results of a feasibility study of variance or MSE estimation under imputation in large-scale surveys focusing on the register-assisted census. The main aim is to compare selected single and multiple methods considering the plausibility of imputed values.
Notes
Zur Zeit Version 0.12-0 vom 14. Dezember 2013. Ein anderes R-Paket ist cluster mit der Funktion daisy, die ebenfalls die Berechnung einer Distanzmatrix nach Gower enthält. In der Nearest Neightbour Routine des VIM Paket wird ebenfalls die Gower Distanz verwendet.
Version 0.1-6 vom 24.02.2011 (siehe Meinfelder und Schnapp 2015), ein Plausibilitätscheck wird in einer der nächsten Versionen implementiert sein.
Literatur
Andridge RR, Little RJ (2010) A review of hot deck imputation for survey non-response. Int Stat Rev 78(1):40–60
Battese GE, Harter RM, Fuller WA (1988) An error-components model for prediction of county crop areas using survey and satellite data. J Am Stat Assoc 83(401):28–36
Berger Y, Björnstad J, Zhang L, Skinner C (2004) Imputation and non-response. DACSEIS Deliverable 11
Brick J, Kalton G (1996) Handling missing data in survey research. Stat Methods Med Res 5:215 –238
Bruch C, Münnich R, Zins S (2011) Variance estimation for complex surveys. Tech. rep., AMELI deliverable D3.1
van Buuren S (2012) Flexible Imputation of Missing Data. Chapman and Hall, CRC Press, UK
van Buuren S, Groothuis-Oudshoorn K (2011) mice: multivariate imputation by chained equations in R. J Stat Softw 45(3):1–67. http://www.jstatsoft.org/v45/i03/
Chen J, Shao J (2000) Nearest neighbour imputation for survey data. J Off Stat 16(2):113–131
Datta GS, Lahiri P (2000) A unified measure of uncertainty of estimated best linear unbiased predictors in small area estimation problems. Stat Sin 10:613–627
Davison A, Sardy S (2004) Resampling methods for variance estimation. Tech. rep., DACSEIS Project
Enderle T, Münnich R, Bruch C (2013) On the impact of response patterns on survey estimates from access panels. Survey Res Methods 7(2):91–101. https://ojs.ub.uni-konstanz.de/srm/article/view/5036
Fay RE, Herriot RA (1979) Estimation of income for small places: an application of james-stein procedures to census data. J Am Stat Assoc 74(366):269–277
Friedrich U, Münnich RT, de Vries S, Wagner M (2015) Fast integer-valued algorithms for optimal allocations under constraints in stratified sampling. Comput Stat Data Anal 92:1–12.
Gabler S, Ganninger M, Münnich RT (2012) Optimal allocation of the sample size to strata under box constraints. Metrika 10:1–11
Gelman A, Raghunathan TE (2001) Using conditional distributions for missing-data imputation, in discussion of 'Using conditional distributions for missing-data imputation` by Arnold em et al. Stat Sci 3:268–269
Graham J, Olchowski A, Gilreath T (2007) How many imputations are really needed? some practical clarifications of multiple imputation theory. Prev Sci 8(3):206–213
Granquist L, Kovar JG (1997) Editing of survey data: how much is enough? Survey measurement and process quality. John Wiley & Sons, Inc., New York, S 415–435
Groves RM (2006) Nonresponse rates and nonresponse bias in household surveys. Public Opin Q 70(5):646–675
Hidiroglou MA, Berthelot JM (1986) Statistical editing and imputation for periodic business surveys. Survey Methodology 12(1):73–83
Kalton G, Kasprzyk D (1982) Imputing for missing survey responses. Proceedings of the Section on Survey Research Methods, American Statistical Association S 22–31
Landerman LR, Land KC, Pieper CF (1997) An empirical evaluation of the predictive mean matching method for imputing missing values. Sociol Methods Res 26(3):3–33
Lehtonen R, Veijanen A (2009) Design-based methods of estimation for domains and small areas. In: Rao C, Pfeffermann D (Hrsg) Handbook of Statistics, Bd 29, Kap. 31. Elsevier, New York, 219–249
Little RJ (1986) Survey nonresponse adjustments. Int Stat Rev 54(1):3
Little RJ (1988) Missing-data adjustments in large surveys. J Bus Econ Stat 6(3):287–296
Little RJ (1992) Regression with missing x’s: a review. J Am Stat Assoc 87(420):1227–1237
Little RJ (2004) To model or not to model? competing modes of inference for finite population sampling. J Am Stat Assoc 99(466):546–556
Little RJ, Smith PJ (1987) Editing and imputation for quantitative survey data. J Am Stat Assoc 82(397):58–68
Little RJ, Rubin D (2002) Statistical analysis with missing data. Wiley series in probability and mathematical statistics. Probability and mathematical statistics. Wiley, New York
Meinfelder F (2009) Analysis of incomplete survey data – multiple imputation via bayesian bootstrap predictive mean matching. PhD thesis, Universitaet Bamberg, Bamberg
Meinfelder F (2014) Multiple imputation: an attempt to retell the evolutionary process. AStA Wirtsch Sozial Archiv 8(4):249–267
Meinfelder F, Schnapp T (2015) BaBooN: Bayesian Bootstrap Predictive Mean Matching - Multiple and Single Imputation for Discrete Data. http://CRAN.R-project.org/package=BaBooN, r package version 0.2-0
Münnich R, Gabler S, Ganninger M, Burgard JP, Kolb JP (2011) Das Stichprobendesign des registergestützten Zensus 2011. Methoden - Daten - Analysen 5(1):37–61
Münnich R, Gabler S, Ganninger M, Burgard JP, Kolb JP (2012) Stichprobenoptimierung und Schätzung im Zensus 2011. Statistsches Bundesamt
Münnich R, Sachs E, Wagner M (2012) Numerical solution of optimal allocation problems in stratified sampling under box constraints. Adv Stat Anal 96(3):435–450
Münnich R, Burgard JP, Vogt M (2013) Small Area-Statistik: Methoden und Anwendungen. AStA Wirtsch Sozial Archiv 6(3–4):149–191
Münnich R, Gabler S, Ganninger M, Burgard JP, Kolb JP (2013) Validierungsprojekt zum deutschen Zensus 2011. Tech. rep., Universität Trier und GESIS
PrasadNGN, Rao JNK (1990) The estimation of the mean squared error of small-area estimators. J Am Stat Assoc 85(409):163–171. http://www.jstor.org/stable/2289539
R Development Core Team (2008) R: a Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna. http://www.R-project.org. (ISBN 3-900051-07-0)
Rao JNK (1996) On variance estimation with imputed survey data. J Am Stat Assoc 91(434):449–506
Rao JNK (2003) Small Area Estimation. John Wiley and Sons, New York
Rao J, Wu CFJ (1988) Resampling inference with complex survey data. Biometrika 83(401):231–241
Rubin DB (1978) Multiple imputations in sample surveys: a phenomenological Bayesian approach to nonresponse. Proceedings of the Survey Research Methods Section, S 20–28
Rubin DB (1986) Basic ideas of multiple imputation for nonresponse. Surv Methodol 12(1):37–47
Rubin DB (1987) Multiple Imputation for Nonresponse in Surveys. Wiley, New York
Rubin DB (1996) Multiple imputation after 18+ years. J Am Stat Assoc 91(434):473–489
Saigo H, Shao J, Sitter R (2001) A repeated half-sample bootstrap and balanced repeated replications for randomly imputed data. Surv Methodol 27(2):189– 196
Särndal CE (1992) Methods for estimating the precision of survey estimates when imputation has been used. Surv Methodol 18(2):241–252
Schafer J (1997) Analysis of incomplete multivariate data. Chapman and Hall, London
Schafer J (1999) Multiple imputation: a primer. Stat Methods Med Res 8(1):3–15
Schafer J, Graham JW (2002) Missing data: our view of the state of the art. Psychol Methods 7(2):147–177
Shao J, Sitter R (1996) Bootstrap for imputed survey data. J Am Stat Assoc 91(435):1278– 1288
Shao J, Wang H (2002) Sample correlation coefficients based on survey data under regression imputation. J Am Stat Assoc 97(458):544–552
Shao J, Chen Y, Chen Y (1998) Balanced repeated replication for stratified multistage survey data under imputation. J Am Stat Assoc 93(442):819– 831
Simpson G (2007) Analogue methods in palaeoecology: using the analogue package. J Stat Softw 22(2):1–29
Simpson G, Oksanen J (2011) analogue: Analogue matching and modern analogue technique transfer function models. (r package version 0.7-0). R package
Tsikriktsis N (2005) A review of techniques for treating missing data in om survey research. J Oper Manage 24:53 –62
Valliant R, Dorfman AH, Royall RM (2000) Finite population sampling and inference: a prediction approach. John Wiley, New York
Van Buuren S, Brand JP, Groothuis-Oudshoorn C, Rubin DB (2006) Fully conditional specification in multivariate imputation. J Stat Comput Simul 76(12):1049–1064
WolterK (2007) Introduction to Variance Estimation. Springer Science & Business Media, New York
You Y, Rao JNK (2002) A pseudo-empirical best linear unbiased prediction approach to small area estimation using survey weights. Can J Stat 30(3):431–439. (La Revue Canadienne de Statistique). http://www.jstor.org/stable/3316146
Danksagung
Die Forschungsarbeiten wurden im Rahmen des Forschungsprojektes zur Zensus-Imputation durchgeführt, welches als Machbarkeitsstudie für den Zensus 2021 ausgelegt war. Die Autoren danken dem Statistischen Bundesamt für die Förderung und stets sehr offenen und konstruktiven Diskussionen.
Danken möchten wir auch dem Associate Editor Prof. Dr. Manfred Ehling für die vollständige Übernahme des Begutachtungsprozesses sowie für eine Reihe sehr wertvoller Anregungen. Ebenso gilt der Dank zwei anonymen Gutachtern, deren Kommentare sehr zur Lesbarkeit der Arbeit beigetragen haben.
Author information
Authors and Affiliations
Corresponding author
Additional information
Herr Bruch und Herr Zimmermann haben zur Zeit der Forschungsarbeiten am Lehrstuhl für Wirtschafts- und Sozialstatistik an der Universität Trier gearbeitet, sind aber nun an der Universität Mannheim bzw. dem Statistischen Bundesamt in Wiesbaden tätig.
Anhang
Anhang
Rights and permissions
About this article
Cite this article
Münnich, R., Gabler, S., Bruch, C. et al. Tabellenauswertungen im Zensus unter Berücksichtigung fehlender Werte. AStA Wirtsch Sozialstat Arch 9, 269–304 (2015). https://doi.org/10.1007/s11943-015-0175-8
Accepted:
Published:
Issue Date:
DOI: https://doi.org/10.1007/s11943-015-0175-8