Friday, 6 October 2017

Fehlende Daten Imputation Binär Optionen


Willkommen am Institut für digitale Forschung und Bildung Statistical Computing Seminare Fehlende Daten in SAS Teil 1 Hinweis: Eine PowerPoint-Präsentation dieser Webseite kann hier heruntergeladen werden. Einleitung Fehlende Daten sind ein häufiges Thema, und mehr denn oft beschäftigen wir uns mit der Frage der fehlenden Daten ad hoc. Der Zweck dieses Seminars ist es, gemeinsam verwendete Techniken für den Umgang mit fehlenden Daten zu diskutieren und gemeinsame Probleme, die entstehen könnten, wenn diese Techniken verwendet werden. Insbesondere konzentrieren wir uns auf die eine der beliebtesten Methoden, multiple Imputation. Wir sind nicht befürworten für jede Technik, um fehlende Daten handhaben und abhängig von der Art der Daten und Modell werden Sie mit anderen Techniken wie direkte maximale Wahrscheinlichkeit besser auf Ihre Bedürfnisse. Wir haben uns entschlossen, mehrere Imputationen durch eine Untersuchung der Daten, eine sorgfältige Berücksichtigung der Voraussetzungen für die Durchführung dieser Methode und ein klares Verständnis des zu schätzenden analytischen Modells zu erforschen. Wir hoffen, dass dieses Seminar Ihnen helfen wird, den Umfang der Probleme besser zu verstehen, denen Sie bei der Behandlung fehlender Daten mit dieser Methode begegnen könnten. Der Datensatz hsbmar. sas7bdat, der auf hsb2.sas7bdat basiert, der für dieses Seminar verwendet wird, kann unter folgendem Link heruntergeladen werden. Der SAS-Code für dieses Seminar wird mit SAS 9.4 und SAS STAT 13.1 entwickelt. Also mir von den Variablen sind mit ihnen Labels (Formate) zugeordnet. Hier ist die Einrichtung zum korrekten Lesen der Wertelabel. Ziele der statistischen Analyse mit fehlenden Daten: Minimieren von Bias Maximieren der Nutzung verfügbarer Informationen Erhalten geeigneter Schätzungen der Unsicherheit Exploration fehlender Datenmechanismen Der fehlende Datenmechanismus beschreibt den Prozess, von dem angenommen wird, dass er die fehlenden Werte erzeugt hat. Fehlende Datenmechanismen fallen im Allgemeinen in eine von drei Hauptkategorien. Es gibt genaue technische Definitionen für diese Begriffe in der Literatur, die folgende Erläuterung enthält notwendigerweise Vereinfachungen. Vollständig zufällig fehlen (MCAR) Eine Variable fehlt völlig zufällig, wenn weder die Variablen im Dataset noch der nicht beobachtete Wert der Variablen selbst vorhersagen, ob ein Wert fehlen wird. Fehlende völlig zufällig ist eine ziemlich starke Annahme und kann relativ selten sein. Eine relativ häufige Situation, in der Daten vollständig zufällig fehlen, tritt auf, wenn eine Teilmenge von Fällen zufällig ausgewählt wird, um einer zusätzlichen Messung zu unterziehen, dies wird manchmal als geplantes fehlendes bezeichnet. Zum Beispiel werden bei einigen Gesundheitsumfragen einige Themen zufällig ausgewählt Unterziehen sich einer umfangreicheren körperlichen Untersuchung, daher erhält nur eine Teilmenge der Teilnehmer vollständige Informationen für diese Variablen. Fehlende vollständig zufällig erlauben auch das Fehlen einer Variablen, die mit dem Fehlen eines anderen, z. B. Var1 fehlt, wenn var2 fehlt. Zum Beispiel, ein Mann und Frau sind beide fehlen Informationen über die Höhe. Eine Variable wird zufällig fehlen, wenn andere Variablen (aber nicht die Variable selbst) in dem Dataset verwendet werden können, um Fehltätigkeit auf einer gegebenen Variablen vorherzusagen. Zum Beispiel, in Umfragen, Männer können eher ablehnen, um einige Fragen als Frauen zu beantworten (d. H. Gender prognostiziert Mangel an einer anderen Variable). MAR ist eine weniger restriktive Annahme als MCAR. Unter dieser Voraussetzung hängt die Wahrscheinlichkeit des Fehlens nicht von den wahren Werten ab, nachdem die beobachteten Variablen kontrolliert wurden. MAR bezieht sich auch auf Unwissenheit. Der fehlende Datenmechanismus wird als ignorierbar bezeichnet, wenn er zufällig fehlt und die Wahrscheinlichkeit eines Fehlens nicht von der fehlenden Information selbst abhängt. Die Annahme der Unwissenheit ist für eine optimale Abschätzung der fehlenden Informationen erforderlich und eine notwendige Annahme für die beiden fehlenden Datentechniken, die wir diskutieren werden. Fehlen nicht zufällig (MNAR) Schließlich werden Daten nicht zufällig fehlen, wenn der Wert der nicht beobachteten Variablen selbst fehlt voraussagt. Ein klassisches Beispiel dafür ist das Einkommen. Personen mit sehr hohem Einkommen sind eher geneigt, Fragen über ihr Einkommen zu beantworten als Personen mit moderater Einkommen. Ein Verständnis der fehlenden Datenmechanismen, die in Ihren Daten vorhanden sind, ist wichtig, da verschiedene Arten von fehlenden Daten unterschiedliche Behandlungen erfordern. Wenn Daten vollständig zufällig fehlen, führt die Analyse nur der vollständigen Fälle nicht zu voreingenommenen Parameterschätzungen (z. B. Regressionskoeffizienten). Allerdings kann die Stichprobengröße für eine Analyse wesentlich reduziert werden, was zu größeren Standardfehlern führt. Im Gegensatz dazu kann die Analyse nur vollständiger Fälle für Daten, die entweder zufällig fehlen oder nicht zufällig fehlen, zu voreingenommenen Parameterschätzungen führen. Multiple Imputation und andere moderne Methoden wie direkte maximale Wahrscheinlichkeit nehmen im Allgemeinen an, dass die Daten mindestens MAR sind, was bedeutet, dass dieses Verfahren auch auf Daten verwendet werden kann, die vollständig zufällig fehlen. Statistische Modelle wurden auch für die Modellierung der MNAR-Prozesse entwickelt, diese Modelle gehen jedoch über den Rahmen dieses Seminars hinaus. Weitere Informationen über fehlende Datenmechanismen finden Sie unter: Allison, 2002 Enders, 2010 Little amp Rubin, 2002. Schafer amp Graham, 2002 Vollständige Daten: Im Folgenden wird ein Regressionsmodell vorgestellt, das die Verwendung des vollständigen Datensatzes (hsb2) vorhersagt Hsbmar Wir verwenden diese Ergebnisse zum Vergleich. Gemeinsame Techniken für den Umgang mit fehlenden Daten In diesem Abschnitt werden wir einige gemeinsame Techniken für den Umgang mit fehlenden Daten zu diskutieren und kurz zu diskutieren, ihre Grenzen. Vollständige Fallanalyse (listwise Deletion) Verfügbare Fallanalyse (paarweises Löschen) Mittlere Imputation Einfache Imputation Stochastische Imputation 1. Komplette Fallanalyse: Diese Methoden beinhalten das Löschen von Fällen in einem bestimmten Datenbestand, für die keine Daten über eine Variable von Interesse vorhanden sind. Es ist eine gängige Technik, weil es einfach zu implementieren und arbeitet mit jeder Art von Analyse. Im folgenden betrachten wir einige der deskriptiven Statistiken des Datensatzes hsbmar. Die Testergebnisse, sowie demographische und Schulinformationen für 200 Schüler enthält. Obwohl der Datensatz 200 Fälle enthält, haben sechs der Variablen weniger als 200 Beobachtungen. Die fehlenden Informationen variieren je nach Variable zwischen 4.5 (gelesen) und 9 (weiblich und prog) von Fällen. Diese Doe Snt scheint wie eine Menge fehlender Daten, so dass wir geneigt sein könnten, zu versuchen, die beobachteten Daten analysieren, wie sie sind, eine Strategie manchmal als vollständige Fallanalyse bezeichnet. Unten ist ein Regressionsmodell, bei dem die abhängige Variable read beim Schreiben regressiert wird. Mathe, weiblich und prog. Beachten Sie, dass das Standardverhalten von proc glm die vollständige Fallanalyse ist (auch als listwise Deletion bezeichnet). Betrachten wir den Ausgang, so sehen wir, dass in der Analyse nur 130 Fälle verwendet wurden, dh mehr als ein Drittel der Fälle in unserem Datensatz (70 200) wurden aufgrund fehlender Daten von der Analyse ausgeschlossen. Die Verringerung der Stichprobengröße (und der statistischen Leistung) allein könnte als ein Problem betrachtet werden, aber eine vollständige Fallanalyse kann auch zu voreingenommenen Schätzungen führen. Speziell sehen Sie unten, dass die Schätzungen für das Intercept, Schreiben, Mathematik und Prog unterscheiden sich von dem Regressionsmodell auf den vollständigen Daten. Außerdem sind die Standardfehler aufgrund der kleineren Stichprobengröße alle größer, was dazu führt, dass die Parameterabschätzung für weiblich fast nicht signifikant wird. Leider, wenn der Mechanismus der fehlenden Daten MCAR ist, wird dieses Verfahren eine Vorspannung in die Parameter-Schätzungen einführen. 2. Verfügbare Fallanalyse: Diese Methode beinhaltet die Schätzung von Mitteln, Abweichungen und Kovarianzen auf der Grundlage aller verfügbaren nicht fehlenden Fällen. Das bedeutet, dass eine Kovarianz - (oder Korrelations-) Matrix berechnet wird, wobei jedes Element auf dem vollständigen Satz von Fällen mit nicht fehlenden Werten für jedes Paar von Variablen basiert. Diese Methode wurde populär, weil der Verlust der Macht aufgrund fehlender Informationen nicht so erheblich ist wie bei der vollständigen Fallanalyse. Im Folgenden betrachten wir die paarweisen Korrelationen zwischen dem Ergebnis gelesen und jeder der Prädiktoren, schreiben, prog, weiblich und Mathematik. Abhängig von dem untersuchten paarweisen Vergleich ändert sich die Stichprobengröße auf der Grundlage der Menge an fehlender Gegenwart in einer oder beiden Variablen. Da proc glm keine Kovarianzmatrizen als Dateneingabe akzeptiert, wird das folgende Beispiel mit proc reg durchgeführt. Dies erfordert, dass wir Dummy-Variablen für unsere kategorische Prädiktor-Prog zu erstellen, da es keine Klassen-Anweisung in proc reg. Standardmäßig proc corr verwendet paarweises Löschen, um die Korrelationstabelle abzuschätzen. Die Optionen auf die proc corr-Anweisung, cov und outp. Gibt eine Varianz-Kovarianzmatrix aus, die auf dem paarweisen Löschen basiert, das im nachfolgenden Regressionsmodell verwendet wird. Das erste, was Sie sehen sollten, ist die Notiz, dass SAS in Ihrer Protokolldatei anzeigt, dass quotN nicht gleich über Variablen im Datensatz ist. Dies kann nicht angemessen sein. Der kleinste Wert wird verwendet. Einer der Hauptnachteile dieser Methode ist keine konsistente Stichprobengröße. Sie werden auch bemerken, dass die hier vorgestellten Parameterschätzungen sich von den Schätzungen unterscheiden, die aus der Analyse der vollständigen Daten und dem listwise Deletion-Ansatz erhalten wurden. Zum Beispiel hatte die Variable weiblich einen geschätzten Effekt von -2,7 mit den vollen Daten, wurde aber für die verfügbare Fallanalyse auf -1,85 abgeschwächt. Wenn der Mechanismus der fehlenden Daten MCAR ist, wird dieses Verfahren eine Vorspannung in die Parameterschätzungen einführen. Daher wird diese Methode nicht empfohlen. 3. Unbedingte mittlere Imputation: Diese Methode beinhaltet das Ersetzen der fehlenden Werte für eine einzelne Variable durch it39s geschätztes Gesamtmittel aus den verfügbaren Fällen. Während dies eine einfache und leicht umsetzbare Methode für den Umgang mit fehlenden Werten ist, hat es einige unglückliche Konsequenzen. Das wichtigste Problem bei der mittleren Imputation, das auch als Substitution bezeichnet wird, besteht darin, dass es zu einer künstlichen Verringerung der Variabilität führt, da Sie Werte in die Mitte der Variablenverteilung eintragen. Dies hat auch die unbeabsichtigte Konsequenz der Änderung der Größe der Korrelationen zwischen der unterstellten Variablen und anderen Variablen. Dieses Phänomen können wir in unseren Daten nachweisen. Im Folgenden sind Tabellen der Mittelwerte und Standardabweichungen der vier Variablen in unserem Regressionsmodell VOR und NACH einer mittleren Imputation sowie deren entsprechenden Korrelationsmatrizen dargestellt. Wir werden die zuvor erstellten Prog-Dummy-Variablen wieder nutzen. Sie werden feststellen, dass der Mittelwert (wie man es erwarten würde) nur sehr geringfügig ist. Allerdings ist die Standardabweichung merklich niedriger, nachdem man Mittelwerte für die Beobachtungen mit fehlenden Informationen eingegeben hat. Dies liegt daran, dass Sie die Variabilität in Ihren Variablen reduzieren, wenn Sie alle auf den Mittelwert. Darüber hinaus können Sie die Tabelle der quotPearson Korrelation Coefficientsquot sehen, dass die Korrelation zwischen jedem unserer Prädiktoren von Interesse (schrieb math. Weiblich und prog) sowie zwischen Prädiktoren und das Ergebnis gelesen haben nun abgeschwächt werden. Daher werden Regressionsmodelle, die versuchen, die Assoziationen zwischen diesen Variablen abzuschätzen, auch ihre Effekte geschwächt sehen. 4. Einzelne oder deterministische Imputation: Eine etwas anspruchsvollere Art der Imputation ist eine regressionsbedingte mittlere Imputation, die f fehlende Werte mit vorhergesagten Werten aus einer Regressionsgleichung korrigiert. Die Stärke dieses Ansatzes ist, dass es vollständige Informationen verwendet, um Werte zu berechnen. Der Nachteil hierbei ist, dass alle Ihre vorhergesagten Werte direkt auf die Regressionsgerade fallen, die wiederum die Variabilität verringert, nur nicht so viel wie bei unbedingter mittlerer Imputation. Darüber hinaus können statistische Modelle nicht zwischen beobachteten und unterstellten Werten unterscheiden und daher das Modell nicht mit dem Fehler oder der Unsicherheit in Zusammenhang bringen. Darüber hinaus werden Sie sehen, dass diese Methode auch die Assoziationen zwischen Variablen aufblasen wird, weil sie Werte, die perfekt miteinander korreliert sind, imputiert. Leider, auch unter der Annahme von MCAR, Regression Imputation wird nach oben Bias Korrelationen und R-Quadrat-Statistiken. Weitere Diskussion und ein Beispiel dafür finden Sie in Craig Enders Buch quotApplied Missing Data Analysisquot (2010). 5. Stochastische Imputation: In Anerkennung der Probleme mit der Regression Imputation und die reduzierte Variabilität im Zusammenhang mit diesem Ansatz, die Forscher entwickelten eine Technik zu integrieren oder quotadd backquot verloren Variabilität. Ein Restterm, der zufällig aus einer Normalverteilung mit Mittelwert Null und Varianz gleich der Restvarianz aus dem Regressionsmodell gezogen wird, wird zu den vorhergesagten Werten aus der Regressionsimputation addiert, wodurch ein Teil der verlorenen Variabilität wiederhergestellt wird. Dieses Verfahren ist den bisherigen Verfahren überlegen, da es unter MAR MARKO - Jedoch werden die Standardfehler, die während der Regressionschätzung erzeugt werden, während weniger vorgespannt als der einzelne Imputationsansatz, noch abgeschwächt werden. Während Sie vielleicht geneigt sind, eine dieser traditionelleren Methoden zu verwenden, betrachten Sie diese Aussage: "Die Datenanalyse ist schwierig, da es kein inhärent korrektes methodisches Vorgehen gibt. In vielen (wenn nicht in den meisten) Situationen wird die blindlings Anwendung der maximalen Wahrscheinlichkeitsschätzung oder der Mehrfachimputation wahrscheinlich zu einer genaueren Menge von Schätzungen führen, als die Verwendung eines der zuvor erwähnten fehlenden Datenverarbeitungstechniken (S.344, Applied Missing Data Analysis, 2010) . Multiple Imputation Multiple Imputation ist im Wesentlichen eine iterative Form der stochastischen Imputation. Jedoch wird statt des Ausfüllens eines einzelnen Wertes die Verteilung der beobachteten Daten verwendet, um mehrere Werte abzuschätzen, die die Unsicherheit um den wahren Wert widerspiegeln. Diese Werte werden dann in der Analyse von Interesse verwendet, wie in einem OLS-Modell, und die Ergebnisse kombiniert. Jeder berechnete Wert enthält eine zufällige Komponente, deren Größe das Ausmaß widerspiegelt, in dem andere Variablen im Imputationsmodell die wahren Werte nicht vorhersagen können (Johnson and Young, 2011 White et al, 2010). So baut man in die unterstellten Werte ein Maß an Unsicherheit um den Quotruthfulnessquot der unterstellten Werte. Ein allgemeines Missverständnis der fehlenden Datenmethoden ist die Annahme, dass die rechnerischen Werte die Quotientenwerte darstellen sollten. Der Zweck bei der Adressierung fehlender Daten ist die korrekte Wiedergabe der Varianz-Kovarianzmatrix, die wir beobachtet hätten, wenn unsere Daten keine fehlenden Informationen gehabt hätten. MI hat drei Grundphasen: 1. Imputation oder Fill-In Phase: Die fehlenden Daten werden mit Schätzwerten ausgefüllt und ein vollständiger Datensatz erstellt. Dieser Füllvorgang wird m-mal wiederholt. 2. Analysephase: Jeder der m vollständigen Datensätze wird dann unter Verwendung eines statistischen Verfahrens von Interesse (z. B. lineare Regression) analysiert. 3. Pooling-Phase: Die aus jedem analysierten Datensatz gewonnenen Parameterschätzwerte (z. B. Koeffizienten und Standardfehler) werden dann zum Schluss zusammengefasst. Die von Ihnen gewählte Imputationsmethode hängt vom Muster der fehlenden Informationen sowie vom Typ der Variablen mit fehlenden Informationen ab. Imputationsmodell, analytisches Modell und Kompatibilität: Bei der Entwicklung Ihres Imputationsmodells ist es wichtig zu beurteilen, ob Ihr Imputationsmodell congenialquot oder konsistent mit Ihrem analytischen Modell ist. Konsistenz bedeutet, dass Ihr Imputationsmodell (zumindest die gleichen Variablen, die in Ihrem analytischen oder Schätzmodell sind). Dies beinhaltet alle tr Anformationen auf Variablen, die benötigt werden, um Ihre Hypothese von Interesse zu beurteilen. Dies kann Logtransformationen, Interaktionsterme oder Recodes einer kontinuierlichen Variablen in eine kategorische Form einschließen, wenn sie in späterer Analyse verwendet wird. Der Grund hierfür bezieht sich auf die früheren Bemerkungen zum Zweck der multiplen Zurechnung. Da wir versuchen, die korrekte Varianz-Kovarianzmatrix zur Schätzung zu reproduzieren, sollten alle Beziehungen zwischen unseren analytischen Variablen gleichzeitig dargestellt und abgeschätzt werden. Andernfalls geben Sie Werte an, die davon ausgehen, dass sie eine Korrelation von Null mit den Variablen haben, die Sie nicht in Ihr Imputationsmodell aufgenommen haben. Dies würde zu einer Unterbewertung der Assoziation zwischen interessierenden Parametern in Ihrer Analyse und einem Leistungsverlust führen, um Eigenschaften von Daten zu erfassen, die von Interesse sein können, wie Nichtlinearitäten und statistische Interaktionen. Weiterführende Literatur zu diesem Thema: 1. von Hippel, 2009 2. von Hippel, 2013 3. White et al. 2010 Vorbereiten der Durchführung von MI: Erster Schritt: Untersuchen Sie die Anzahl und den Anteil der fehlenden Werte unter Ihren Variablen von Interesse. Die Prozedur proc means in SAS hat die Option nmiss, die die Anzahl der fehlenden Werte für die angegebenen Variablen zählt. Sie können auch fehlende Datenflags oder Indikatorvariablen für die fehlenden Informationen erstellen, um den Anteil der Fehlen zu beurteilen. Diese TargetMissing Data Patternsquot-Tabelle kann angefordert werden, ohne eine vollständige Imputation durchzuführen, indem die Option nimpute0 (die die zu erstellenden Null-Impedaten-Datensätze angibt) in der Anweisungszeile von proc mi angegeben wird. Jedes quotgroupquot repräsentiert einen Satz von Beobachtungen im Datensatz, die das gleiche Muster fehlender Informationen teilen. Zum Beispiel repräsentiert Gruppe 1 die 130 Beobachtungen in den Daten, die vollständige Informationen über alle 5 Variablen von Interesse haben. Dieses Verfahren bietet auch Mittel für jede Variable für diese Gruppe. Sie können sehen, dass es insgesamt 12 Muster für die angegebenen Variablen gibt. Die geschätzten Mittel, die mit jedem fehlenden Datenmuster assoziiert sind, können Ihnen auch einen Hinweis geben, ob die Annahme MCAR oder MARM angemessen ist. Wenn Sie anfangen zu beobachten, dass diejenigen mit bestimmten fehlenden Datenmustern eine sehr unterschiedliche Verteilung von Werten zu haben scheinen, ist dies ein Hinweis, dass Sie Daten möglicherweise nicht MCAR. Darüber hinaus können Sie je nach Art der Daten Muster erkennen, wie Monotone fehlen, die in Längsschnittdaten beobachtet werden können, wenn ein Individuum zu einem bestimmten Zeitpunkt abfällt und somit alle Daten danach fehlen. Außerdem können Sie Sprungmuster identifizieren, die in Ihrer ursprünglichen Überprüfung der Daten fehlten, die dann behandelt werden sollten, bevor Sie mit der Mehrfachimputation vorankommen. Dritter Schritt: Gegebenenfalls mögliche Hilfsvariablen identifizieren Hilfsvariablen sind Variablen in Ihrem Datensatz, die entweder mit einer fehlenden Variablen korreliert sind (die Empfehlung beträgt r gt 0,4) oder wird vermutlich mit Fehlen assoziiert. Diese Faktoren sind nicht von besonderem Interesse in Ihrem analytischen Modell. Aber sie werden dem Imputationsmodell hinzugefügt, um die Macht zu erhöhen und / oder dazu beizutragen, die Annahme von MAR plausibler zu machen. Es wurde festgestellt, daß diese Variablen die Qualität von unterstellten Werten, die aus mehreren Imputationen entstehen, verbessern. Darüber hinaus hat die Forschung ihre besondere Bedeutung beim Nachweis einer abhängigen Variablen und wenn Sie Variablen mit einem hohen Anteil an fehlenden Informationen (Johnson und Young, 2011 Young und Johnson, 2010 Enders. 2010). Sie können a priori von mehreren Variablen wissen Sie glauben, dass gute Hilfs-Variablen basierend auf Ihr Wissen über die Daten und Gegenstand. Darüber hinaus kann eine gute Überprüfung der Literatur oft helfen, identifizieren sie als gut. Wenn Sie jedoch nicht sicher sind, welche Variablen in den Daten potenzielle Kandidaten (dies ist oft der Fall bei der Analyse sekundärer Datenanalyse) ist, können Sie einige einfache Methoden verwenden, um potenzielle Kandidaten zu identifizieren. Eine Möglichkeit, diese Variablen zu identifizieren, besteht darin, Assoziationen zwischen write, read, female und math mit anderen Variablen in dem Dataset zu untersuchen. Betrachten wir zum Beispiel die Korrelationsmatrix zwischen unseren 4 Variablen von Interesse und zwei weiteren Testparametern von Wissenschaft und Gesellschaft. Wissenschaft und Gesellschaft scheinen beide ein gutes Hilfsmittel zu sein, da sie gut korreliert sind (r gt0.4) mit allen anderen interessanten Testzählvariablen. Sie werden auch feststellen, dass sie nicht gut mit Frauen korreliert sind. Ein gutes Hilfsmittel muß nicht mit jeder zu verwendenden Variablen korreliert werden. Sie werden auch feststellen, dass die Wissenschaft auch fehlende Informationen ihrer eigenen besitzen. Darüber hinaus ist ein gutes Hilfsmittel nicht erforderlich, um vollständige Informationen wertvoll zu sein. Sie können fehlen und noch wirksam bei der Verringerung der Bias (Enders, 2010). Ein Bereich, der noch unter aktiver Forschung ist, ist, ob es vorteilhaft ist, eine Variable als Hilfsmittel aufzunehmen, wenn sie nicht die 0.4-Korrelationsschwelle mit einer der zu berechnenden Variablen überschreitet. Einige Forscher glauben, dass die Einbeziehung dieser Arten von Items unnötigen Fehler in das Imputationsmodell (Allison, 2012) einführt, während andere nicht glauben, dass es irgendeinen Schaden in dieser Praxis gibt (Ender, 2010). So. Wir überlassen es Ihnen als der Forscher, Ihr bestes Urteil zu verwenden. Gute Hilfsvariablen können auch Korrelaten oder Vorhersagefehler sein. Let39s verwenden die fehlenden Daten Flags haben wir früher, um uns zu identifizieren einige Variablen, die gut korreliert werden können. Wir untersuchen, ob auch unsere potentielle Hilfsvariable socst die Vermutung fehlt. Im Folgenden finden Sie eine Reihe von t-Tests zu testen, wenn die mittlere gesellschaftlichen oder wissenschaftlichen Scores unterscheiden sich erheblich zwischen denen mit fehlenden Informationen und die ohne. Der einzige signifikante Unterschied wurde bei der Untersuchung der Fehltätigkeit auf Mathematik mit socst gefunden. Oben sehen Sie, dass die mittlere socst Score ist deutlich niedriger unter den Befragten, die auf Mathe fehlen. Dies deutet darauf hin, dass socst ein mögliches Korrelat von Fehlen ist (Enders, 2010) und kann uns helfen, die MAR-Annahme für multiple Imputation zu erfüllen, indem wir sie in unser Imputationsmodell aufnehmen. Beispiel 1: MI mit multivariater Normalverteilung (MVN): Wenn Sie eine oder mehrere Variablen berechnen wollen, ist eine der ersten Entscheidungen die Art der Verteilung, unter der Sie Ihre Variable (n) beurteilen möchten. Eine Methode in SAS verwendet Markov Chain Monte Carlo (MCMC), die davon ausgeht, dass alle Variablen im Imputationsmodell eine gemeinsame multivariate Normalverteilung haben. Dies ist wahrscheinlich der häufigste parametrische Ansatz für multiple Imputation. Der verwendete Algorithmus wird der DA-Algorithmus (Data Augmentation) genannt, der zur MCMC-Familie gehört. Der Algorithmus füllt fehlende Daten aus, indem er aus einer bedingten Verteilung, in diesem Fall einem multivariaten Normalwert, der fehlenden Daten bei den beobachteten Daten zeichnet. In den meisten Fällen haben Simulationsstudien gezeigt, dass die Annahme einer MVN-Verteilung zu zuverlässigen Schätzungen führt, auch wenn die Normalitätsannahme bei einer ausreichenden Stichprobengröße verletzt wird (Demirtas et al., 2008 KJ Lee, 2010). Häufig wurden voreingenommene Schätzungen beobachtet, wenn die Stichprobengröße relativ klein ist und der Bruchteil der fehlenden Information hoch ist. Anmerkung: Da wir eine multivariate Normalverteilung für die Imputation verwenden, sind Dezimal - und negative Werte möglich. Diese Werte sind jedoch kein Problem für die Schätzung, sondern wir müssen Dummy-Variablen für die nominalen kategorischen Variablen zu schaffen, so dass die Parameter estiamses für jede Ebene interpretiert werden kann. Imputation in SAS erfordert 3 Verfahren. Das erste ist proc mi, wo der Benutzer das zu verwendende Imputationsmodell und die Anzahl der zu erstellenden imputed Datasets angibt. Die zweite Prozedur führt das analytische Modell von Interesse (hier ist es eine lineare Regression mit proc glm) innerhalb jedes der imputierten Datenmengen. Der dritte Schritt führt einen Prozeduraufruf proc mianalyze durch, der alle Schätzungen (Koeffizienten und Standardfehler) über alle rechnerischen Datensätze zusammenfasst und einen Satz von Parameterschätzungen für das interessierende Modell ausgibt. Auf der Prozedur proc mi können wir mit der Option nimpute die Anzahl der durchzuführenden Imputationen angeben. Die unterstellten Datasets werden mit der Option out ausgegeben und zusammenhängend oder quotstackedquot zusammen in einem Dataset namens quotmimvnquot gespeichert. Eine Indizierungsvariable namens Imputation wird automatisch durch die Prozedur erstellt, um jede neue imputierte Datenmenge zu nummerieren. Nach der var-Anweisung werden alle Variablen für das Imputationsmodell einschließlich aller Variablen im analytischen Modell sowie beliebiger Hilfsvariablen angegeben. Die Option Seed ist nicht erforderlich, aber da MI ist so konzipiert, dass ein zufälliger Prozess, die Einstellung eines Saatgut können Sie die gleiche imputierten Datenbestand jedes Mal zu erhalten. Dies schätzt das lineare Regressionsmodell für jeden impliziten Datensatz einzeln mit der by-Anweisung und der zuvor erstellten Indikatorvariablen. Sie sehen im Ergebnis-Viewer, dass SAS die Parameterschätzwerte für jede der 10 Imputationen ausgibt. Die Ausgabeanweisung speichert die Parameterschätzungen aus dem Regressionsmodell in dem Dataset mit dem Namen quotamvn. quot. Dieser Dataset wird im nächsten Schritt des Prozesses, der Pooling-Phase, verwendet. Proc mianalyze verwendet den Datensatz quotamvnquot, der die Parameterschätzungen und zugehörigen Kovarianzmatrizen für jede Imputation enthält. Die Varianz-Kovarianzmatrix wird benötigt, um die Standardfehler abzuschätzen. Dieser Schritt kombiniert die Parameterschätzwerte zu einem einzigen Satz von Statistiken, der die Unsicherheit, die mit den unterstellten Werten verbunden ist, angemessen widerspiegelt. Die Koeffizienten sind einfach nur ein arithmetisches Mittel der einzelnen Koeffizienten, die für jedes der 10 Regressionsmodelle geschätzt werden. Die Mittelung der Parameterschätzungen dämpft die Variation, wodurch die Effizienz erhöht und die Abtastvariation verringert wird. Die Schätzung des Standardfehlers für jede Variable ist etwas komplizierter und wird im nächsten Abschnitt diskutiert. Wenn Sie diese Schätzungen mit denen der vollständigen Daten vergleichen, werden Sie feststellen, dass sie im Allgemeinen ziemlich vergleichbar sind. Die Variablen schreiben weiblich und mathematisch. Sind in beiden Sätzen von Daten signifikant. Sie werden auch eine kleine Inflation in den Standardfehlern beobachten, was zu erwarten ist, da der multiple Imputationsprozess dazu ausgelegt ist, zusätzliche Unsicherheiten in unsere Schätzungen aufzubauen. 2. Imputation Diagnostics: oberhalb der quotParameter Estimatesquot Tabelle in der SAS-Ausgabe oben sehen Sie eine Tabelle namens quotVariance Informationquot. Es ist wichtig, die Ausgabe von proc mianalyze zu untersuchen, da mehrere Teile der Information verwendet werden können, um zu bewerten, wie gut die Imputation durchgeführt wurde. Im Folgenden diskutieren wir jedes Stück: Variance Between (VB): Dies ist ein Maß für die Variabilität in den Parameterschätzungen (Koeffizienten), die aus den 10 unterstellten Datensätzen erhalten wurden. Zum Beispiel, wenn Sie alle 10 der Parameterschätzungen für das Schreiben übernommen und die Varianz berechnet haben Dies entspricht VB 0,000262. Diese Variabilität schätzt die zusätzliche Variation (Unsicherheit), die aus fehlenden Daten resultiert. Varianz innerhalb (VW): Dies ist einfach das arithmetische Mittel der Stichprobenabweichungen (SE) von jedem der 10 unterstellten Datensätze. Wenn Sie z. B. die Standardfehler für den Schreibvorgang für alle 10 Imputationen quadriert und dann durch 10 dividiert haben, würde dies gleich sein, würde dies V w 0,006014 entsprechen. Dies schätzt die Stichprobenvariabilität, die wir erwartet hätten, wenn es keine fehlenden Daten gegeben hätte. Varianz Gesamt (V T): Die primäre Nützlichkeit von MI kommt von, wie die Gesamtabweichung geschätzt wird. Die totale Varianz ist die Summe aus mehreren Varianzquellen. Während die Regressionskoeffizienten nur über die Imputationen gemittelt werden, wird die Varianz der Rubin-Formel (Rubin, 1 987) p in die Quotierung des Impfstoffs eingefügt, um die erwartete Unsicherheit zu erfassen und zwischen Imputationquot die Schätzvariabilität aufgrund fehlender Informationen zu erfassen (Graham, 2007 White et al. Die Gesamtabweichung ist die Summe von 3 Varianzquellen. Die innerhalb, die zwischen und eine zusätzliche Quelle der Stichproben-Varianz. Beispielsweise würde die Gesamtvarianz für die Variablenschreibweise wie folgt berechnet: V B V w V B m 0.000262 0.006014 0.000262 10 0.006302 Die zusätzliche Abtastvarianz ist buchstäblich die Varianz zwischen dividiert durch m. Dieser Wert repräsentiert den Abtastfehler, der mit den Gesamt - oder Durchschnittskoeffizientenschätzungen verknüpft ist. Es wird als Korrekturfaktor für die Verwendung einer bestimmten Anzahl von Imputationen verwendet. Dieser Wert wird kleiner, je mehr Imputationen durchgeführt werden. Die Idee, dass, je größer die Zahl der Imputationen, desto genauer die Parameter Schätzungen werden. Fazit: Der Hauptunterschied zwischen multipler Imputation und anderen Einzelimputationsmethoden liegt in der Schätzung der Varianzen. Die SE39s für jede Parameterschätzung sind die Quadratwurzel von it39s V T. Freiheitsgrade (DF): Im Gegensatz zur Analyse mit nicht-unterstellten Daten beeinflusst die Stichprobengröße nicht direkt die Schätzung von DF. DF nimmt mit der Zunahme der Imputationen weiter zu. Die Standardformel, die verwendet wird, um DF zu berechnen, kann zu fraktionalen Schätzungen sowie Schätzungen führen, die weit über den DF hinausgehen, der resultieren würde, wenn die Daten vollständig waren. Standardmäßig ist die DF unendlich. Hinweis: Das Starten von SAS v.8 ist eine Formel, mit der das Problem des aufgeblasenen DF angepasst werden kann (Barnard und Rubin, 1999). Verwenden Sie die EDF-Option auf der Proc mianalyze Zeile, um SAS anzuzeigen, was die richtig eingestellt DF. Fazit: Die Standardformel setzt voraus, dass der Schätzer eine Normalverteilung hat, d. h. eine t-Verteilung mit unendlichen Freiheitsgraden. In großen Proben ist dies normalerweise kein Problem, kann aber mit kleineren Stichprobengrößen erfolgen. In diesem Fall sollte die korrigierte Formel verwendet werden (Lipsitz et al., 2002). Relative Anstieg der Varianz (RIV RVI): Proportionale Erhöhung der Gesamtabtastvarianz, die auf fehlende Informationen zurückzuführen ist (V B V B m V W). Zum Beispiel beträgt der RVI für das Schreiben 0,048, dies bedeutet, daß die geschätzte Abtastvarianz für das Schreiben 4,8 grßer ist als seine Abtastvarianz, wenn die Daten beim Schreiben beendet wären. Fazit: Variablen mit großen Mengen an fehlenden und oder die mit anderen Variablen im Imputationsmodell schwach korreliert sind, neigen dazu, hohe RVI39s zu haben. Fraktion der fehlenden Informationen (FMI): Ist in direktem Zusammenhang mit RVI. Anteil der Gesamtabtastvarianz, die auf fehlende Daten zurückzuführen ist (V B V B m V T). It39s geschätzt auf der Grundlage der Prozentsatz fehlt für eine bestimmte Variable und wie korreliert diese Variable ist mit anderen Variablen im Imputationsmodell. Die Interpretation ähnelt einem R-Quadrat. Ein FMI von 0,046 für write bedeutet also, dass 4.6 der gesamten Stichproben-Varianz auf fehlende Daten zurückzuführen ist. Die Genauigkeit der Schätzung von FMI nimmt zu, wenn die Zahlimputation zunimmt, weil die Schätzungen der Schätzwerte stabiler werden. Dies ist besonders wichtig bei Anwesenheit einer (n) Variablen mit einem hohen Anteil an fehlender Information. Wenn die Konvergenz des Imputationsmodells langsam ist, untersuchen Sie die FMI-Schätzungen für jede Variable in Ihrem Imputationsmodell. Ein hoher FMI kann auf eine problematische Variable hindeuten. Bottom line: Wenn FMI ist hoch für eine bestimmte Variable (n) dann erwägen Erhöhung der Zahl der Imputationen. Eine gute Faustregel besteht darin, dass die Zahlimputationen (mindestens) dem höchsten FMI-Prozentsatz entsprechen. Relative Efficiency: The relative efficiency (RE) of an imputation (how well the true population parameters are estimated) is related to both the amount of missing information as well as the number ( m) of imputations performed. When the amount of missing information is very low then efficiency may be achieved by only performing a few imputations (the minimum number given in most of the literature is 5). However when there is high amount of missing information, more imputations are typically necessary to achieve adequate efficiency for parameter estimates. You can obtain relatively good efficiency even with a small number of m. However, this does not mean that the standard errors will be well estimated well. More imputations are often necessary for proper standard erro r estimation as the variability between imputed datasets incorporate the necessary amount of uncertainty around the imputed values. The direct relationship between RE, m and the FMI is: 1 (1FMI m ) . This formula represent the RE of using m imputation versus the infinte number of imputations. To get an idea of what this looks like practically, take a look at the figure below from the SAS documentation where m is the number of imputations and lambda is the FMI. Bottom line: It may appear that you can get good RE with a few imputations however, it often takes more imputations to get good estimates of the variances than good estimates of parameters like means or regression coefficients. After performing an imputation it is also useful to look at means, frequencies and box plots comparing observed and imputed values to assess if the range appears reasonable. You may also want to examine plots of residuals and outliers for each imputed dataset individually. If anomalies are evident in only a small number of imputations then this indicates a problem with the imputation model (White et al, 2010). You should also assess convergence of your imputation model. This should be done for different imputed variables, but specifically for those variables with a high proportion of missing (e. g. high FMI). Convergence of the proc mi procedure means that DA algorithm has reached an appropriate stationary posterior distribution. Convergence for each imputed variable can be assessed using trace plots. These plots can be requested on the mcmc statement line in the proc mi procedure. Long-term trends in trace plots and high serial dependence are indicative of a slow convergence to stationarity. A stationary process has a mean and variance that do not change over time. By default SAS will provide a trace plots of estimates for the means for each variable but you can also ask for these for the standard deviation as well. You can take a look at examples of good and bad trace plots in the SAS users guide section on quotAssessing Markov Chain Convergence quot. Above is an example of a trace plot for mea n social studies score. There are two main things you want to note in a trace plot. First, assess whether the algorithm appeared to reach a stable posterior distribution by examining the plot to see if the mean remains relatively constant and that there appears to be an absence of any sort of trend (indicating a sufficient amount of randomness in the means between iterations). In our case, this looks to be true. Second, you want to examine the plot to see how long it takes to reach this stationary phase. In the above example it looks to happen almost immediately, indicating good convergence. The dotted lines represent at what iteration and imputed dataset is drawn. By default the burn-in period (number of iterations before the first set of imputed values is drawn) is 200. This can be increased if it appears that proper convergence is not achieved using the nbiter option on the mcmc statement. Another plot that is very useful for assessing convergence is the auto correlation plot also specified on the mcmc statement using plotsacf. This helps us to assess possible auto correlation of parameter values between iterations. Let39s say you noticed a trend in the mean social studies scores in the previous trace plot. You may want to assess the magnitude of the observed dependency of scores across iterations. The auto correlation plot will show you that. In the plot below, you will see that the correlation is perfect when the mcmc algorithm starts but quickly goes to near zero after a few iterations indicating almost no correlation between iterations and therefore no correlation between values in adjacent imputed datasets. By default SAS, draws an imputed dataset every 100 iterations, if correlation appears high for more than that, you will need to increase the number of iterations between imputed datasets using the niter option. Take a look at the SAS 9.4 proc mi documentation for more information about this and other options. Note: The amount of time it takes to get to zero (or near zero) correlation is an indication of convergence time (Enders, 2010). For more information on these and other diagnostic tools, please se e Ender, 2010 and Rubin, 1987. Example 2: MI using fully conditional specification (also known as imputation by chained equations ICE or sequential generalized regression ) A second method available in SAS imputes missing variables using the fully conditional method (FCS) which does not assume a joint distribution but instead uses a separate conditio nal distribution for each imputed variable. This specification may be necessary if your are imputing a variable that must only take on specific values such as a binary outcome for a logistic model or count variable for a poisson model. In simulation studies (Lee amp Carlin, 2010 Van Buuren, 2007), the FCS has been show to produce estimates that are comparable to MVN method. Later we will discuss some diagnostic tools that can be used to assess if convergence was reached when using FCS. The FCS methods available is SAS are discriminant function and logistic regression for binary categorical variables and linear regression and predictive mean matching for continuous variables. If you do not specify a method, by default the discriminant function and regression are used. Some interesting properties of each of these options are: 1. The discriminant function method allows for the user to specify prior probabilities of group membership. In discriminant function only continuous variables can be covariates by default. To change this default use the classeffects option. 2. The logistic regression method assumes ordering of class variables if more then two levels. 3. The default imputation method for continuous variables is regression. The regression method allows for the use of ranges and rounding for imputed values. These options are prob lematic and typically introduce bias (Horton et al. 2003 Allison, 2005). Take a look at the quotOther Issuesquot section below, for further discussion on this topic. 4. The predictive mean matching method will provide imputed values that are consistent with observed values. If plausible values are necessary, this is a better choice then using bounds or rounding values produced from regression. For more information on these methods and the options associated with them, see SAS Help and Documentation on the FCS Statement . The basic set-up for conducting an imputation is shown below. The var statement includes all the variables that will be used in the imputation model. If you want to impute these variables using method different then the default you can specify which variable(s) is to be imputed and by what method on the FCS statement. In this example we are imputing the binary variable female and the categorical variable prog using the discriminant function method. Since they are both categorical, we also list female and prog on the class statement. Note: Because we are using the discriminant function method to impute prog we no longer need to create dummy variables. Additionally, we use the classeffectsinclude option so all continuous and categorical variables will be used as predictors when imputing female and prog . All the other variables on var statement will be imputed using regression since a different distribution was not specified. The ordering of variables on the var statement controls in which order variables will be imputed. With multiple imputation using FCS, a single imputation is conducted during an initial fill-in stage. After the initial stage, the variables with missing values are imputed in the order specified on the var statement. With subsequent variable being imputed using observed and imputed values from the variables that proceeded them. For more information on this see White et al. 2010. Also as in the previous proc mi example using MVN, we can also specify the number of burn-in interations using the option nbiter . The FCS statement also allows users to specify which variable you want to use as predictors, if no covariates are given from the imputed variable then SAS assumes that all the variables on the var statement are to be used to predict all other variables. Multiple conditional distributions can be specified in the same FCS statement. Take a look at the examples below. This specification, imputes female and prog under a generalized logit distribution that is appropriate for non-ordered categorical variables instead of the default cumulative logit that is appropriate for ordered variables. This second specification, imputes female and prog under a generalized logit distribution and uses predictive mean matching to impute math, read and write instead of the default regression method. This third specification, indicates that prog and female should be imputed using a different sets of predictors. 2. Analysis and Pooling Phase Once the 20 multiply imputed datasets have been created, we can run our linear regression using proc genmod . Since we imputed female and prog under a distribution appropriate for categorical outcomes, the imputed values will now be true integer values. Take a look at the results of proc freq for female and prog in the second imputed dataset as compared to original data with missing values. As you can see, the FCS method has imputed quotrealquot values for our categorical variables. Prog and female can now be used in the class statement below and we no longer need to create dummy variables for prog . As with the previous example using MVN, we will run our model on each imputed dataset stored in mifcs . We will also use an ODS Output statement to save the parameter estimates from our 20 regressions. Below is a proc print of what the parameter estimates in gmfcs look like for the first two imputed datasets. quot Imputation quot indicates which imputed dataset each set of parameters estimates belong to. quotLevel1quot indicates the levels or categories for our class variables. The mianalyze procedure will now require some additional specification in order to properly combine the parameter estimates. You can see above that the parameter estimates for variables used in our model39s class statement have estimates with 1 row for each level. Additionally, a column called quotLevel1quot specifies the name or label associated with each category. In order from mianalyze to estimate the combined estimates appropriately for the class variables we need to add some options to the proc mianalyze line. As before the parms refers to input SAS data set that contains parameter estimates computed from each imputed data set. However, we also need the option classvar added. This option is only appropriate when the model effects contain classification variables. Since proc genmod names the column indicator for classification quotLevel1quot we will need to specify classvarlevel . Note: Different procedures in SAS require different classvar options. If you compare these estimates to those from the full data (below) you will see that the magnitude of the write . female . and math parameter estimates using the FCS data are very similar to the results from the full data. Additionally, the overall significance or non-significance of specific variables remains unchanged. As with the MVN model, the SE are larger due to the incorporation of uncertainty around the parameter estimates, but these SE are still smaller then we observed in the complete cases analysis. 4. Imputation Diagnostics: Like the previous imputation method with MVN . the FCS statement will output trace plots. These can be examined for the mean and standard deviation of each continuous variable in the imputation model. As before, the dashed vertical line indicates the final iteration where the imputation occurred. Each line represents a different imputation. So all 20 imputation chains are overlayed on top of one another. Autocorrelation plots are only available with the mcmc statement when assuming a joint multivariate normal distribution. This plot is not available when using the FCS statement. 1. Why Auxiliary variables So one question you may be asking yourself, is why are auxiliary variables necessary or even important. First, they can help improve the likelihood of meeting the MAR assum ption (White et al, 2011 Johnson and Young, 2011 Allison, 2012). Remember, a variable is said to be missing at random if other variables in the dataset can be used to predict missingness on a given variable. So you want your imputation model to include all the variables you think are associated with or p redict missingness in your variable in order to fulfill the assumption of MAR. Second, including auxiliaries has been shown to help yield more accurate and stable estimates and thus reduce the estimated standard errors in analytic models (Enders, 2010 Allison, 2012 von Hippel and Lynch, 2013). This is especially true in the case of missing outcome variables. Third. including these variable can also help to increase po wer (Reis and Judd, 2000 Enders, 2010). In general, there is almost always a benefit to adopting a more quotinclusive analysis str ategyquot (Enders, 2010 Allison, 2012). 2. Selecting the number of imputations ( m ) Historically, the recommendation was for three to five MI datasets. Relatively low values of m may still be appropriate when the fraction of missing information is low and the analysis techniques are relatively simple. Recently, however, larger values of m are often being recommended. To some extent, this change in the recommended number of imputations is based on the radical increase in the computing power available to the typical researcher, making it more practical to run, create and analyze multiply imputed datasets with a larger number of imputations. Recommendations for the number of m vary. For example, five to 20 imputations for low fractions of missing information, and as many as 50 (or more) imputations when the proportion of missing data is relatively high. Remember that estimates of coefficients stabilize at much lower values of m than estimates of variances and covariances of error terms (i. e. standard errors). Thus, in order to get appropriate estimates of these parameters, you may need to increase the m. A larger number of imputations may also allow hypothesis tests with less restrictive assumptions (i. e. that do not assume equal fractions of missing information for all coefficients). Multiple runs of m imputations are recommended to assess the stability of the parameter estimates. Graham et al. 2007 conducted a simulation demonstrating the affect on power, efficiency and parameter estimates across different fractions of missing information as you decrease m. The authors found that: 1. Mean square error and standard error increased. 2. Power was reduced, especially when FMI is greater than 50 and the effect size is small, even for a large number of m (20 or more). 3. Variability of the estimate of FMI increased substantially. Im Algemeinen. the estimation of FMI improves with an increased m . Another factor to consider is the importance of reproducibility between analyses using the same data. White et al. (2010), ass uming the true FMI for any variable would be less than or equal to the percentage of cases that are incomplete, uses the rule m should equal the percentage of incomplete cases. Thus if the FMI for a variable is 20 then you need 20 imputed datasets. A similar analysis by Bodner, 2008 makes a similar recommendation. White et al. 2010 also found when making this assumption, the error associated with estimating the regression coefficients, standard errors and the resulting p-values was considerably reduced and resulted in an adequate level of reproducibility. 3. Maximum, Minimum and Round This issue often comes up in the context of using MVN to impute variables that normally have integer values or bounds. Intuitively speaking, it makes sense to round values or incorporate bounds to give quotplausiblequot values. However, these methods has been shown to decrease efficiency and increase bias by altering the correlation or covariances between variables estimated during the imputation process. Additionally, these changes will often result in an underestimation of the uncertainly around imputed values. Remember imputed values are NOT equivalent to observed values and serve only to help estimate the covariances between variables needed for inference (Johnson and Young 2011). Leaving the imputed values as is in the imputation model is perfectly fine for your analytic models. If plausible values are needed to perform a specific type of analysis, than you may want to use a different imputation algorithm such as FCS . Isn39t multiple imputation just making up data No. This is argument can be made of the missing data methods that use a single imputed value because this value will be treated like observed data, but this is not true of multiple imputation. Unlike single imputation, multiple imputation builds into the model the uncertainty error associated with the missing data. Therefore the process and subsequent estimation never depends on a single value. Additionally, another method for dealing the missing data, maximum likelihood produces almost identical results to multiple imputation and it does not require the missing information to be filled-in. What is Passive imputation Passive variables are functions of imputed variables. For example, let39s say we have a variable X with missing information but in my analytic model we will need to use X 2. In passive imputation we would impute X and then use those imputed values to create a quadratic term. This method is called quotimpute then transformquot (von Hippel, 2009). While th is appears to make sense, additional research (Seaman et al. 2012 Bartlett et al. 2014) has s hown that using this method is actually a misspecification of your imputation model and will lead to biased parameter estimates in your analytic model. There are better ways of dealing with transformations. How do I treat variable transformations such as logs, quadratics and interactions Most of the current literature on multiple imputation supports the method of treating variable transformations as quotjust another variablequot. For example, if you know that in your subsequent analytic model you are interesting in looking at the modifying effect of Z on the association between X and Y (i. e. an interaction between X and Z). This is a property of your data that you want to be maintained in the imputation. Using something like passive imputation, where the interaction is created after you impute X and or Z means that the filled-in values are imputed under a model assuming that Z is not a moderator of the association between X an Y. Thus, your imputation model is now misspecified. Should I include my dependent variable (DV) in my imputation model Yes An emphatic YES unless you would like to impute independent variables (IVs) assuming they are uncorrelated with your DV (Enders, 2010). Thus, causing the estimated association between you DV and IV39s to be biased toward the null (i. e. underestimated). Additionally, using imputed values of your DV is considered perfectly acceptable when you have good auxiliary variables in your imputation model (Enders, 2010 Johnson and Young, 2011 White et al. 2010). However, if good auxiliary variables are not available then you still INCLUDE your DV in the imputation model and then later restrict your analysis to only those observations with an observed DV value. Research has shown that imputing DV39s when auxiliary variables are not present can add unnecessary random variation into your imputed valu es (Allison, 2012). How much missing can I have and still get good estimates using MI Simulations have indicated that MI can perform well, under certain circumstances, even up to 50 missing observations (Allison, 2002). However, the larger the amount of missing information the higher the chance you will run into estimation problems during the imputation process and the lower the chance of meeting the MAR assumption unless it was planned missing (Johnson and Young, 2011). Additionally, as discussed further, the higher the FMI the more imputations are needed to reach good relative efficiency for effect estimates, especially standard errors. What should I report in my methods abut my imput ation Most papers mention if they performed multiple imputation but give very few if any details of how they implemented the method. In general, a basic description should include: Which statistical program was used to conduct the imputation. The type of imputation algorithm used (i. e. MVN or FCS). Some justification for choosing a particular imputation method. The number of imputed datasets ( m) created. The proportion of missing observations for each imputed variable. The variables used in the imputation model and why so your audience will know if you used a more inclusive strategy. This is particularly important when using auxiliary variables. This may seem like a lot, but probably would not require more than 4-5 sentences. Enders (2010) provides some examples of write-ups for particular scenarios. Additionally, MacKinnon (2010) discusses the reporting of MI procedures in medical journals. Main Take Always from this seminar: Multiple Imputation is always superior to any of the single imputation methods because: A single imputed value is never used The variance estimates reflect the appropriate amount of uncertainty surrounding parameter estimates There are several decisions to be made before performing a multiple imputation including distribution, auxiliary variables and number of imputations that can affect the quality of the imputation. Remember that multiple imputation is not magic, and while it can help increase power it should not be expected to provide quotsignificantquot effects when other techniques like listwise deletion fail to find significant associations. Multiple Imputation is one tool for researchers to address the very common problem of missing data. Allison (2002). Missing Data. Sage Publications. Allison (2012). Handling Missing Data by Maximum Likelihood. SAS Global Forum: Statistics and Data Analysis. Allison (2005). Imputation of Categorical Variables with PROC MI. SUGI 30 Proceedings - Philadelphia, Pennsylvania April 10-13, 2005. Barnard and Rubin (1999). Small-sample degrees of freedom with multiple imputation. Biometrika . 86(4), 948-955. Bartlett et al. (2014). Multiple imputation of covariates by fully conditional specific ation: Accommodating the substantive model. Stat Methods Med Res . Todd E. Bodner (2008).quotWhat Improves with Increased Missing Data Imputationsquot. Structural Equation Modeling: A Multidisciplinary Journal . 15:4, 651-675. Demirtas et al.(2008). Plausibility of multivariate normality assumption when multiply imputing non-gaussian continuous outcomes: a simulation assessment. Jour of Stat Computation amp Simulation . 78(1). Enders (2010). Applied Missing Data Analysis. The Guilford Press. Graham et al. (2007). How Many Imputations are Really Needed Some Practical Clarifications of Multiple Imputation Theory. Prev Sci, 8: 206-213. Horton et al. (2003) A potential for bias when rounding in multiple imputation. American Statistician. 57: 229-232. Lee and Carlin (2010). Multiple Imputation for missing data: Fully Conditional Specification versus Multivariate Normal Imputation. Am J Epidemiol . 171(5): 624-32. Lipsitz et al. (2002). A Degrees-of-Freedom Approximation in Multiple Imputation. J Statist Comput Simul, 72(4): 309-318. Little, and Rubin, D. B. (2002). Statistical Analysis with Missing Data . 2 nd edition, New York. John Wiley. Johnson and Young (2011). Towards Best Practices in analyszing Datasets with Missing Data: Comparisons and Recomendations. Journal of Marriage and Family, 73(5): 926-45. Mackinnon (2010). The use and reporting of multiple imputation in medical research a review. J Intern Med, 268: 586593. Editors: Harry T. Reis, Charles M. Judd (2000). Handbook of Research Methods in Social and Personality Psychology. Rubin (1976). Inference and Missing Data. Biometrika 63 (3), 581-592. Rubin (1987). Multiple Imputation for Nonresponse in Surveys. J. Wiley amp Sons, New York. Seaman et al. (2012). Multiple Imputation of missing covariates with non-linear effects: an evaluation of statistical methods. B MC Medical Research Methodology . 12(46). Schafer and Graham (2002) Missing data: our view of the state of the art. Psychol Methods, 7(2):147-77 van Buuren (2007). Multiple imputation of discrete and continuous data by fully conditional specification. Statistical Methods in Medical Research . 16: 219242 . von Hippel (2009). How to impute interactions, squares and other transformed variables. Sociol Methodol . 39:265-291. von Hippel and Lynch (2013). Efficiency Gains from Using Auxiliary Variables in Imputation. Cornell University Library . von Hippel (2013). Should a Normal Imputation Model be modified to Impute Skewed Variables . Sociological Methods amp Research, 42(1):105-138. White et al. (2011). Multiple imputation using chained equations: Issues and guidance for practice. Statistics in Medicine . 30(4): 377-399. Young and Johnson (2011). Imputing the Missing Y39s: Implications for Survey Producers and Survey Users. Proceedings of the AAPOR Conference Abstracts . pp. 62426248. The content of this web site should not be construed as an endorsement of any particular web site, book, or software product by the University of California. Imputation strategies for missing binary outcomes in cluster randomized trials Background Attrition, which leads to missing data, is a common problem in cluster randomized trials (CRTs), where groups of patients rather than individuals are randomized. Standard multiple imputation (MI) strategies may not be appropriate to impute missing data from CRTs since they assume independent data. In this paper, under the assumption of missing completely at random and covariate dependent missing, we compared six MI strategies which account for the intra-cluster correlation for missing binary outcomes in CRTs with the standard imputation strategies and complete case analysis approach using a simulation study. We considered three within-cluster and three across-cluster MI strategies for missing binary outcomes in CRTs. The three within-cluster MI strategies are logistic regression method, propensity score method, and Markov chain Monte Carlo (MCMC) method, which apply standard MI strategies within each cluster. The three across-cluster MI strategies are propensity score method, random-effects (RE) logistic regression approach, and logistic regression with cluster as a fixed effect. Based on the community hypertension assessment trial (CHAT) which has complete data, we designed a simulation study to investigate the performance of above MI strategies. The estimated treatment effect and its 95 confidence interval (CI) from generalized estimating equations (GEE) model based on the CHAT complete dataset are 1.14 (0.76 1.70). When 30 of binary outcome are missing completely at random, a simulation study shows that the estimated treatment effects and the corresponding 95 CIs from GEE model are 1.15 (0.76 1.75) if complete case analysis is used, 1.12 (0.72 1.73) if within-cluster MCMC method is used, 1.21 (0.80 1.81) if across-cluster RE logistic regression is used, and 1.16 (0.82 1.64) if standard logistic regression which does not account for clustering is used. Conclusion When the percentage of missing data is low or intra-cluster correlation coefficient is small, different approaches for handling missing binary outcome data generate quite similar results. When the percentage of missing data is large, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effect. Within-cluster and across-cluster MI strategies (except for random-effects logistic regression MI strategy), which take the intra-cluster correlation into account, seem to be more appropriate to handle the missing outcome from CRTs. Under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. 1. Introduction Cluster randomized trials (CRTs), where groups of participants rather than individuals are randomized, are increasingly being used in health promotion and health services research 1 . When participants have to be managed within the same setting, such as hospital, community, or family physician practice, this randomization strategy is usually adopted to minimize the potential treatment contamination between intervention and control participants. It is also used when individual level randomization may be inappropriate, unethical, or infeasible 2 . The main consequence of the cluster-randomized design is that participants can not be assumed independent due to the similarity of participants from the same cluster. This similarity is quantified by the intra-cluster correlation coefficient ICC . Considering the two components of the variation in the outcome, between-cluster and intra-cluster variations, may be interpreted as the proportion of overall variation in outcome that can be explained by the between-cluster variation 3 . It may also be interpreted as the correlation between the outcomes for any two participants in the same cluster. It has been well established that failing to account for the intra-cluster correlation in the analysis can increase the chance of obtaining statistically significant but spurious findings 4 . The risk of attrition may be very high in some CRTs due to the lack of direct contact with individual participants and lengthy follow-up 5 . In addition to missing individuals, the entire clusters may be missing, which further complicates the handling of missing data in CRTs. The impact of missing data on the results of statistical analysis depends on the mechanism which caused the data to be missing and the way that it is handled. The default approach in dealing with this problem is to use complete case analysis (also called listwise deletion), i. e. exclude the participants with missing data from the analysis. Though this approach is easy to use and is the default option in most statistical packages, it may substantially weaken the statistical power of the trial and may also lead to biased results depending on the mechanism of the missing data. Generally, the nature or type of missingness can fit into four categories: missing completely at random (MCAR), missing at random (MAR), covariate dependent (CD) missing, and missing not at random (MNAR) 6 . Understanding these categories is important since the solutions may vary depending on the nature of missingness. MCAR means that the missing data mechanism, i. e. the probability of missing, does not depend on the observed or unobserved data. Both MAR and CD mechanisms indicate that causes of missing data are unrelated to the missing values, but may be related to the observed values. In the context of longitudinal data when serial measurements are taken for each individual, MAR means that the probability of a missing response at a particular visit is related to either observed responses at previous visits or covariates, whereas CD missing - a special case of MAR - means that the probability of a missing response is dependent only upon covariates. MNAR means that the probability of missing data depends on the unobserved data. It commonly occurs when people drop out of the study due to poor or good health outcomes. A key distinction between these categories is that MNAR is non-ignorable while the other three categories (i. e. MCAR, CD, or MAR) are ignorable 7 . Under the circumstances of ignorable missingness, imputation strategies such as mean imputation, hot deck, last-observation carried forward, or multiple imputation (MI) - which substitute each missing value to one or multiple plausible values - can produce a complete dataset that is not adversely biased 8. 9 . Non-ignorable missing data are more challenging and require a different approach 10 . Two main approaches in handling missing outcomes are likelihood based analyses and imputation 10 . In this paper, we focus on MI strategies, which take into account the variability or uncertainty of the missing data, to impute the missing binary outcome in CRTs. Under the assumption of MAR, MI strategies replace each missing value with a set of plausible values to create multiple imputed datasets - usually varying in number from 3 to 10 11 . These multiple imputed datasets are analyzed by using standard procedures for complete data. Results from the imputed datasets are then combined for inference to generate the final result. Standard MI procedures are available in many standard statistical software packages such as SAS (Cary, NC), SPSS (Chicago IL), and STATA (College Station, TX). However, these procedures assume observations are independent and may not be suitable for CRTs since they do not take into account the intra-cluster correlation. To the best of our knowledge, limited investigation has been done on the imputation strategies for missing binary outcomes or categorical outcomes in CRTs. Yi and Cook reported marginal methods for missing longitudinal data from clustered design 12 . Hunsberger et al . 13 described three strategies for continuous missing data in CRTs: 1) multiple imputation procedure in which the missing values are replaced with re-sampled values from the observed data 2) a median procedure based on the Wilcoxon rank sum test assigning the missing data in the intervention group with the worst ranks 3) multiple imputation procedure in which the missing values are replaced by the predicted values from a regression equation. Nixon et al . 14 presented strategies of imputing missing end points from a surrogate. In the analysis of a continuous outcome from the Community Intervention Trial for Smoking Cessation (COMMIT), Green et al stratified individual participants into groups that were more homogeneous with respect to the predicted outcome. Within each stratum, they imputed the missing outcome using the observed data 15. 16 . Taljaard et al 17 compared several different imputation strategies for missing continuous outcomes in CRTs under the assumption of missing completely at random. These strategies include cluster mean imputation, within-cluster MI using Approximate Bayesian Bootstrap (ABB) method, pooled MI using ABB method, standard regression MI, and mixed-effects regression MI. As pointed out by Kenward et al that if a substantive model, such as generalized linear mixed model, is to be used which reflects the data structure, it is important that the imputation model also reflects this structure 18 . The objectives of this paper are to: i) investigate the performance of various imputation strategies for missing binary outcomes in CRTs under different percentages of missingness, assuming a mechanism of missing completely at random or covariate dependent missing ii) compare the agreement between the complete dataset and the imputed datasets obtained from different imputation strategies iii) compare the robustness of the results under two commonly used statistical analysis methods: the generalized estimating equations (GEE), and random-effects (RE) logistic regression, under different imputation strategies. 2. Methods In this paper, we consider three within-cluster and three across-cluster MI strategies for missing binary outcomes in CRTs. The three within-cluster MI strategies are logistic regression method, propensity score method, and MCMC method, which are standard MI strategies conducted within each cluster. The three across-cluster MI strategies are propensity score, random-effects logistic regression method, and logistic regression with cluster as a fixed effect. Based on the complete dataset from the community hypertension assessment trial (CHAT), we conducted a simulation study to investigate the performance of the above MI strategies. We used Kappa statistics to compare the agreement between the imputed datasets and the complete dataset. We also used the estimated treatment effects obtained from the GEE and RE logistic regression model 19 to assess the robustness of the results under different percentages of missing binary outcome under the assumption of MCAR and CD missing. 2.1. Complete case analysis Using this approach, only the patients with completed data are included for analysis, while patients with missing data are excluded. When the data are MCAR, the complete case analysis approach, using either likelihood-based analysis such as RE logistic regression, or the marginal model such as GEE approach, is valid for analyzing binary outcome from CRTs since the missing data mechanism is independent of the outcome. When the data are CD missing, both RE logistic regression and GEE approach are valid if the known covariates associated with the missing data mechanism are adjusted for. It can be implemented using GENMOD and NLMIXED procedure in SAS. 2.2. Standard multiple imputation Assuming the observations are independent, we can apply the standard MI procedures provided by any standard statistical software such as SAS. Three widely used MI methods are predictive model method (logistic regression method for binary data), propensity score method, and MCMC method 20 . In general, both propensity score method and MCMC method are recommended for the imputation of continuous variable 21 . A dataset is said to have a monotone missing pattern when a measurement Y j is missing for an individual implies that all subsequent measurements Y k . k gt j . are all missing for the individual. When the data are missing in the monotone missing pattern, any of the parametric predictive model and the nonparametric method that uses propensity scores or MCMC method is appropriate 21 . For an arbitrary missing data patterns, a MCMC method that assumes multivariate normality can be used 10 . These MI strategies are implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS separately for each intervention group. 2.2.1. Logistic regression method In this approach a logistic regression model is fitted using the observed outcome and covariates 21 . Based on the parameter estimates and the associated covariance matrix, the posterior predictive distribution of the parameters can be constructed. A new logistic regression model is then simulated from the posterior predictive distribution of the parameters and is used to impute the missing values. 2.2.2. Propensity score method The propensity score is the conditional probability of being missing given the observed data. It can be estimated by the means of logistic regression model with a binary outcome indicating whether the data are missing or not. The observations are then stratified into a number of strata based on these propensity scores. The ABB procedure 22 is then applied to each stratum. The ABB imputation first draws with replacement from the observed data to create a new dataset, which is a nonparametric analogue of drawing parameters from the posterior predictive distribution of the parameters, and then randomly draw imputed values with replacement from the new dataset. 2.2.3. Markov chain Monte Carlo method Using MCMC method pseudo random samples are drawn from a target probability distribution 21 . The target distribution is the joint conditional distribution of Y mis and given Y obs when missing data have a non-monotone pattern, where Y mis and Y obs represent the missing data and observed data, respectively, and represents the unknown parameters. The MCMC method is conducted as follows: replace Y mis by some assumed values, then simulate from the resulting complete data posterior distribution P( Y obs , Y mis ). Let ( t ) be the current simulated value of . then Y mis (t 1) can be drawn from the conditional predictive distribution Y m i s ( t 1 ) P ( Y m i s Y o b s. ( t ) ). Conditioning on Y mis (t 1). the next simulated value of can be drawn from its complete data posterior distribution ( t 1 ) P ( Y o b s. Y m i s ( t 1 ) ). By repeating the above procedure, we can generate a Markov chain which converges in distribution to P( Y mis , Y obs ). This method is attractive since it avoids complicated analytic calculation of the posterior distribution of and Y mis . However, the distribution convergence is an issue that researchers need to face. In addition, this method is based on the assumption of multivariate normality. When using it for imputing binary variables, the imputed values can be any real values. Most of the imputed values are between 0 and 1, some are out of this range. We round the imputed values to 0 if it is less than 0.5 and to 1 otherwise. This multiple imputation method is implemented using MI procedure in SAS. We use a single chain and non-informative prior for all imputations, and expectation-maximization (EM) algorithm to find maximum likelihood estimates in parametric models for incomplete data and derive parameter estimates from a posterior mode. The iterations are considered to have converged when the change in the parameter estimates between iteration steps is less than 0.0001 for each parameter. 2.3. Within-cluster multiple imputation Standard MI strategies are inappropriate for handling the missing data from CRTs due to the assumption of independent observations. For the within-cluster imputation, we carry out standard MI described above using logistic regression method, propensity score method, and MCMC method separately for each cluster. Thus, the missing values are imputed based on the observed data within the same cluster as the missing values. Given that subjects within the same cluster are more likely to be similar to each other than those from different clusters, within-cluster imputation can be seen as a strategy to impute the missing values to account for the intra-cluster correlation. These MI strategies are implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS. 2.4. Across-cluster multiple imputation 2.4.1. Propensity score method Compared to the standard multiple imputation using propensity score method, we added cluster as one of the covariates to obtain the propensity score for each observation. Consequently, patients within the same cluster are more likely to be categorized into the same propensity score stratum. Therefore, the intra-cluster correlation is taken into account when the ABB procedure is applied within each stratum to generate the imputed values for the missing data. This multiple imputation strategy is implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS. 2.4.2. Random-effects logistic regression Compared to the predictive model using standard logistic regression method, we assume the binary outcome is modeled by the random-effects logistic model: log it ( Pr ( Y i j l 1 ) ) X i j l U i j where Y ijl is the binary outcome of patient l in cluster j in the intervention group i X ijl is the matrix of fully observed individual-level or cluster level covariates, U i j N ( 0. B 2 ) represents the cluster-level random effect, and B 2 represent the between-cluster variance. B 2 can be estimated when fitting the random-effects logistic regression model using the observed outcome and covariates. The MI strategy using random-effects logistic regression method obtains the imputed values in three steps: (1) Fit a random-effects logistic regression model as described above using the observed outcome and covariates. Based on the estimates for and B obtained from step (1) and the associated covariance matrix, construct the posterior predictive distribution of these parameters. Fit a new random-effects logistic regression using the simulated parameters from the posterior predictive distribution and the observed covariates to obtain the imputed missing outcome. The MI strategy using random-effects logistic regression takes into account the between cluster variance, which is ignored in the MI strategy using standard logistic regression, and therefore may be valid for imputing missing binary data in CRTs. We provide the SAS code for this method in Appendix A. 2.4.3. Logistic regression with cluster as a fixed effect Compared to the predictive model using standard logistic regression method, we add cluster as a fixed effect to account for clustering effect. This multiple imputation strategy is implemented using MI, MIANALYZE, GENMOD, and NLMIXED procedures in SAS. 3. Simulation study 3.1. Community hypertension assessment trial The CHAT study was reported in detail elsewhere 23 . In brief, it was a cluster randomized controlled trial aimed at evaluating the effectiveness of pharmacy based blood pressure (BP) clinics led by peer health educators, with feedback to family physicians (FP) on the management and monitoring of BP among patients 65 years or older. The FP was the unit of randomization. Patients from the same FP received the same intervention. In total, 28 FPs participated in the study. Fourteen were randomly allocated to the intervention (pharmacy BP clinics) and 14 to the control group (no BP clinics offered). Fifty-five patients were randomly selected from each FP roster. Therefore, 1540 patients participated in the study. All eligible patients in both the intervention and control group received usual health service at their FPs office. Patients in the practices allocated to the intervention group were invited to visit the community BP clinics. Peer health educators assisted patients to measure their BP and review their cardiovascular risk factors. Research nurses conducted the baseline and end-of-trial (12 months after the randomization) audits of the health records of the 1540 patients who participated in the study. The primary outcome of the CHAT study was a binary outcome indicating whether the patients BP was controlled or not at the end of the trial. Patients BP was controlled if at the end of the trial, the systolic BP 140 mmHg and diastolic BP 90 mmHg for patient without diabetes or target organ damage, or the systolic BP 130 mmHg and diastolic BP 80 mmHg for patient with diabetes or target organ damage. Besides the intervention group, other predictors considered in this paper included age (continuous variable), sex (binary variable), diabetes at baseline (binary variable), heart disease at baseline (binary variable), and whether patients BP were controlled at baseline (binary variable). At the end of the trial, 55 patients BP were controlled. Without including any other predictors in the model, the treatment effects and their 95 confidence intervals (CI) estimated from the GEE and RE model were 1.14 (0.72, 1.80) and 1.10 (0.65, 1.86), respectively. The estimated ICC was 0.077. After adjustment for the above mentioned variables the treatment effects and their CIs estimated from GEE and RE model were 1.14 (0.76, 1.70) and 1.12 (0.72, 1.76), respectively. The estimated ICC was 0.055. Since there are no missing data in the CHAT dataset, it provides us a convenient platform to design a simulation study to compare the imputed and the observed values and further investigate the performance of the different multiple imputation strategies under different missing data mechanisms and percentages of missingness. 3.2. Generating dataset with missing binary outcome Using the CHAT study dataset, we investigated the performance of different MI strategies for missing binary outcome based on MCAR and CD mechanisms. Under the assumption of MCAR, we generated dataset with certain percentage of missing binary outcome, which indicates whether the BP was controlled or not at the end of the trial for each patient. The probability of missing for each patient was completely at random, i. e. the probability of missing did not depend on any observed or unobserved CHAT data. Under the assumption of CD missing, we considered sex, treatment group, whether patients BP controlled or not at baseline, which were commonly associated with drop out in clinical trials and observational studies 24 26 , were associated with the probability of missing. We further assumed that male patients were 1.2 times more likely to have missing outcome patients allocated to the control group were 1.3 times more likely to have missing outcome patients whose BP was not controlled at baseline were 1.4 times more likely to have missing outcome than patients whose BP were controlled at baseline. 3.3. Design of simulation study First we compared the agreement between the values of the imputed outcome variable and the true values of the outcome variable using Kappa statistics. Kappa statistic is the most commonly used statistic for assessing the agreement between two observers or methods which take into account the fact that they will sometimes agree or disagree simply by chance 27 . It is calculated based on the difference between how much agreement is actually present compared to how much agreement would be expected to be present by chance alone. A Kappa of 1 indicates the perfect agreement, and 0 indicates agreement equivalent to chance. Kappa statistic has been widely used by researchers to evaluate the performance of different imputation techniques on imputing missing categorical data 28. 29 . Second, under MCAR and CD missing, we compared the treatment effect estimates from the RE and GEE methods under the following scenarios: 1) exclude the missing values from the analysis, i. e. complete case analysis 2) apply standard multiple imputation strategies which do not take the intra-cluster correlation into account 3) apply the within-cluster imputation strategies and 4) apply the across-cluster imputation strategies. We designed the simulation study according to the following steps. 1) Generated 5, 10, 15, 20, 30 and 50 missing outcomes under both MCAR and CD missing assumption. These amounts of missingness were chosen to cover the range of possible missingness in practice 30 . Applied the above multiple imputation strategies to generate m 5 datasets. According to Rubin, the relative efficiency of the MI does not increase much when generating more than 5 imputed datasets 11 . Calculated Kappa statistic to assess the agreement between the values of imputed outcome variable and the true values of the outcome variable. Obtained the single treatment effect estimate by combining the effect estimates from the 5 imputed datasets using GEE and RE model. Repeated the above four steps for 1000 times, i. e. take 1000 simulation runs. Calculated the overall Kappa statistic by averaging the Kappa statistic from the 1000 simulation runs. Calculated the overall treatment effect and its standard error by averaging the treatment effects and their standard errors from the 1000 simulation runs. 4. Results 4.1. Results when data are missing completely at random With 5, 10, 15, 20, 30 or 50 percentage of missingness under MCAR assumption, the estimated Kappa for all different imputation strategies are slightly over 0.95, 0.90, 0.85, 0.80, 0.70, and 0.50 respectively. The estimated Kappa for different imputation strategies at different percentage of missing outcomes under the assumption of MCAR are presented in detail in Table 1. Kappa statistics for different imputation strategies when missingness is completely at random Treatment effect estimated from random-effects logistic regression when 30 data is covariate dependent missing . 5. Discussion In this paper, under the assumption of MCAR and CD missing, we compared six MI strategies which account for the intra-cluster correlation for missing binary outcomes in CRTs with the standard imputation strategies and complete case analysis approach using a simulation study. Our results show that, first, when the percentage of missing data is low or intra-cluster correlation coefficient is small, different imputation strategies or complete case analysis approach generate quite similar results. Second, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effects. Therefore, they may lead to statistically significant but spurious conclusion when used to deal with the missing data from CRTs. Third, under the assumption of MCAR and CD missing, the point estimates (OR) are quite similar across different approaches to handle the missing data except for random-effects logistic regression MI strategy. Fourth, both within-cluster and across-cluster MI strategies take into account the intra-cluster correlation and provide much conservative treatment effect estimates compared to MI strategies which ignore the clustering effect. Fifth, within-cluster imputation strategies lead to wider CI than across-cluster imputation strategies, especially when the percentage of missingness is high. This may be because within-cluster imputation strategies only use a fraction of data, which leads to much variation of the estimated treatment effect. Sixth, larger estimated kappa, which indicates higher agreement between the imputed values and the observed values, is associated with better performance of MI strategies in terms of generating estimated treatment effect and 95 CI closer to those obtained from the complete CHAT dataset. Seventh, under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. To the best of our knowledge, limited work has been done on comparing different multiple imputation strategies for missing binary outcomes in CRTs. Taljaard et al 17 compared four MI strategies (pooled ABB, within-cluster ABB, standard regression, mixed-effects regression) for missing continuous outcome in CRTs when missing is completely at random. Their findings are similar to ours. It should be noted that within-cluster MI strategies might only be applicable when the cluster size is sufficiently large and the percentage of missingness is relatively small. In the CHAT study, there were 55 patients in each cluster which provided enough data to carry out the within-cluster imputation strategies using propensity score and MCMC method. However, the logistic regression method failed when the percentage of missingness was high. This was because that when generating large percentage (20) of missing outcome, all patients with binary outcome of 0 were simulated as missing for some clusters. Therefore, logistic regression model failed for these particular clusters. In addition, our results show that the complete case analysis approach performs relatively well even with 50 missing. We think that due to the intra-cluster correlation, one would not expect that the missing values have much impact if a large proportion of a cluster is still present. However, further investigation about this issue using a simulation study will be helpful to answer this question. Our results show that the across-cluster random-effects logistic regression strategy leads to a potentially biased estimate, especially when the percentage of missingness is high. As we described in section 2.4.2, we assume the cluster-level random-effects follow normal distribution, i. e. U i j N ( 0. B 2 ). Researchers have shown that misspecification of the distributional shape have little impact on the inferences about the fixed effects 31 . Incorrectly assuming the random effects distribution is independent of the cluster size may affect inferences about the intercept, but does not seriously impact inferences about the regression parameters. However, incorrectly assuming the random effects distribution is independent of covariates may seriously impact inferences about the regression parameters 32. 33 . The mean of random effects distribution could be associated with a covariate, or the variance of random effects distribution could be associated with a covariate for our dataset, which might explain the potential bias from the across-cluster random-effects logistic regression strategy. In contrast, the imputation strategy of logistic regression with cluster as a fixed effect has better performance. However, it might only be applied when the cluster size is large enough to provide stable estimate for the cluster effect. For multiple imputation, the overall variance of the estimated treatment effect consists of two parts: within imputation variance U . and between imputation variance B . The total variance T is calculated as T U (1 1 m ) B . where m is the number of imputed datasets 10 . Since standard MI strategies ignore the between cluster variance and fail to account for the intra-cluster correlation, the within imputation variance may be underestimated, which could lead to underestimation of the total variance and consequently the narrower confidence interval. In addition, the adequacy of standard MI strategies depends on the ICC. In our study, the ICC of the CHAT dataset is 0.055 and the cluster effect in the random-effects model is statistically significant. Among the three imputation methods: predictive model (logistic regression method), propensity score method, and MCMC method, the latter is most popular method for multiple imputation of missing data and is the default method implemented in SAS. Although this method is widely used to impute binary and polytomous data, there are concerns about the consequences of violating the normality assumption. Experience has repeatedly shown that multiple imputation using MCMC method tends to be quite robust even when the real data depart from the multivariate normal distribution 20 . Therefore, when handling the missing binary or ordered categorical variables, it is acceptable to impute under a normality assumption and then round off the continuous imputed values to the nearest category. For example, the imputed values for the missing binary variable can be any real value rather than being restricted to 0 and 1. We rounded the imputed values so that values greater than or equal to 0.5 were set to 1, and values less than 0.5 were set to 0 34 . Horton et al 35 showed that such rounding may produce biased estimates of proportions when the true proportion is near 0 or 1, but does well under most other conditions. The propensity score method is originally designed to impute the missing values on the response variables from the randomized experiment with repeated measures 21 . Since it uses only the covariate information associated with the missingness but ignores the correlation among variables, it may produce badly biased estimates of regression coefficients when data on predictor variables are missing. In addition, with small sample sizes and a relatively large number of propensity score groups, application of the ABB method is problematic, especially for binary variables. In this case, a modified version of ABB should be conducted 36 . There are some limitations that need to be acknowledged and addressed regarding the present study. First, the simulation study is based on a real dataset, which has a relatively large cluster size and small ICC. Further research should investigate the performance of different imputation strategies at different design settings. Second, the scenario of missing an entire cluster is not investigated in this paper. The proposed within-cluster and across-cluster MI strategies may not apply to this scenario. Third, we investigate the performance of different MI strategies assuming missing data mechanism of MCAR and CD missing. Therefore, results cannot be generalized to MAR or MNAR scenarios. Fourth, since the estimated treatment effects are similar under different imputation strategies, we only presented the OR and 95 CI for each simulation scenario. However, estimates of standardized bias and coverage would be more informative and would also provide a quantitative guideline to assess the adequacy of imputes 37 . 6. Conclusions When the percentage of missing data is low or intra-cluster correlation coefficient is small, different imputation strategies or complete case analysis approach generate quite similar results. When the percentage of missing data is high, standard MI strategies, which do not take into account the intra-cluster correlation, underestimate the variance of the treatment effect. Within-cluster and across-cluster MI strategies (except for the random-effects logistic regression MI strategy), which take the intra-cluster correlation into account, seem to be more appropriate to handle the missing outcome from CRTs. Under the same imputation strategy and percentage of missingness, the estimates of the treatment effect from GEE and RE logistic regression models are similar. Appendix A: SAS code for across-cluster random-effects logistic regression method let maximum 1000 ods listing close proc nlmixed data mcaramppercentampindex cov parms b0 -0.0645 bgroup -0.1433 bdiabbase -0.04 bhdbase 0.1224 bage -0.0066 bbasebpcontrolled 1.1487 bsex 0.0873 s2u 0.5 Population Health Research Institute, Hamilton Health Sciences References Campbell MK, Grimshaw JM: Cluster randomised trials: time for improvement. The implications of adopting a cluster design are still largely being ignored. BMJ. 1998, 317 (7167): 1171-1172. View Article PubMed PubMed Central Google Scholar COMMIT Research Group: Community Intervention trial for Smoking Cessation (COMMIT): 1. Cohort results from a four-year community intervention. Am J Public Health. 1995, 85: 183-192. 10.2105 AJPH.85.2.183. View Article Google Scholar Donner A, Klar N: Design and Analysis of Cluster Randomisation Trials in Health Research. 2000, London: Arnold Google Scholar Cornfield J: Randomization by group: a formal analysis. Am J Epidemiol. 1978, 108 (2): 100-102. PubMed Google Scholar Donner A, Brown KS, Brasher P: A methodological review of non-therapeutic intervention trials employing cluster randomization, 1979-1989. Int J Epidemiol. 1990, 19 (4): 795-800. 10.1093 ije 19.4.795. View Article PubMed Google Scholar Rubin DB: Inference and missing data. Biometrika. 1976, 63: 581-592. 10.1093 biomet 63.3.581. View Article Google Scholar Allison PD: Missing Data. 2001, SAGE Publications Inc Google Scholar Schafer JL, Olsen MK: Multiple imputation for multivariate missing-data problems: a data analysts perspective. Multivariate Behavioral Research. 1998, 33: 545-571. 10.1207 s15327906mbr33045. View Article PubMed Google Scholar McArdle JJ: Structural factor analysis experiments with incomplete data. Multivariate Behavioral Research. 1994, 29: 409-454. 10.1207 s15327906mbr29045. View Article PubMed Google Scholar Little RJA, Rubin DB: Statistical Analysis with missing data. 2002, New York: John Wiley, Second Google Scholar Rubin DB: Multiple Imputation for Nonresponse in Surveys. 1987, New York, NY. John Wiley amp Sons, Inc View Article Google Scholar Yi GYY, Cook RJ: Marginal Methods for Incomplete Longitudinal Data Arising in Clusters. Journal of the American Statistical Association. 2002, 97 (460): 1071-1080. 10.1198 016214502388618889. View Article Google Scholar Hunsberger S, Murray D, Davis CE, Fabsitz RR: Imputation strategies for missing data in a school-based multi-centre study: the Pathways study. Stat Med. 2001, 20 (2): 305-316. 10.1002 1097-0258(20010130)20:2lt305::AID-SIM645gt3.0.CO2-M. View Article PubMed Google Scholar Nixon RM, Duffy SW, Fender GR: Imputation of a true endpoint from a surrogate: application to a cluster randomized controlled trial with partial information on the true endpoint. BMC Med Res Methodol. 2003, 3: 17-10.1186 1471-2288-3-17. View Article PubMed PubMed Central Google Scholar Green SB, Corle DK, Gail MH, Mark SD, Pee D, Freedman LS, Graubard BI, Lynn WR: Interplay between design and analysis for behavioral intervention trials with community as the unit of randomization. Am J Epidemiol. 1995, 142 (6): 587-593. PubMed Google Scholar Green SB: The advantages of community-randomized trials for evaluating lifestyle modification. Control Clin Trials. 1997, 18 (6): 506-13. 10.1016 S0197-2456(97)00013-5. discussion 514-6 View Article PubMed Google Scholar Taljaard M, Donner A, Klar N: Imputation strategies for missing continuous outcomes in cluster randomized trials. Biom J. 2008, 50 (3): 329-345. 10.1002 bimj.200710423. View Article PubMed Google Scholar Kenward MG, Carpenter J: Multiple imputation: current perspectives. Stat Methods Med Res. 2007, 16 (3): 199-218. 10.1177 0962280206075304. View Article PubMed Google Scholar Dobson AJ: An introduction to generalized linear models. 2002, Boca Raton: Chapman amp Hall CRC, 2 Google Scholar Schafer JL: Analysis of Incomplete Multivariate Data. 1997, London: Chapman and Hall View Article Google Scholar SAS Publishing: SAS STAT 9.1 Users Guide: support. sas documentation onlinedoc 91pdf sasdoc91 statug7313.pdf Rubin DB, Schenker N: Multiple imputation for interval estimation from simple random samples with ignorable nonresponse. Journal of the American Statistical Association. 1986, 81 (394): 366-374. 10.2307 2289225. View Article Google Scholar Ma J, Thabane L, Kaczorowski J, Chambers L, Dolovich L, Karwalajtys T, Levitt C: Comparison of Bayesian and classical methods in the analysis of cluster randomized controlled trials with a binary outcome: the Community Hypertension Assessment Trial (CHAT). BMC Med Res Methodol. 2009, 9: 37-10.1186 1471-2288-9-37. View Article PubMed PubMed Central Google Scholar Levin KA: Study design VII. Randomised controlled trials. Evid Based Dent. 2007, 8 (1): 22-23. 10.1038 sj. ebd.6400473. View Article PubMed Google Scholar Matthews FE, Chatfield M, Freeman C, McCracken C, Brayne C, MRC CFAS: Attrition and bias in the MRC cognitive function and ageing study: an epidemiological investigation. BMC Public Health. 2004, 4: 12-10.1186 1471-2458-4-12. View Article PubMed PubMed Central Google Scholar Ostbye T, Steenhuis R, Wolfson C, Walton R, Hill G: Predictors of five-year mortality in older Canadians: the Canadian Study of Health and Aging. J Am Geriatr Soc. 1999, 47 (10): 1249-1254. View Article PubMed Google Scholar Viera AJ, Garrett JM: Understanding interobserver agreement: the kappa statistic. Fam Med. 2005, 37 (5): 360-363. PubMed Google Scholar Laurenceau JP, Stanley SM, Olmos-Gallo A, Baucom B, Markman HJ: Community-based prevention of marital dysfunction: multilevel modeling of a randomized effectiveness study. J Consult Clin Psychol. 2004, 72 (6): 933-943. 10.1037 0022-006X.72.6.933. View Article PubMed Google Scholar Shrive FM, Stuart H, Quan H, Ghali WA: Dealing with missing data in a multi-question depression scale: a comparison of imputation methods. BMC Med Res Methodol. 2006, 6: 57-10.1186 1471-2288-6-57. View Article PubMed PubMed Central Google Scholar Elobeid MA, Padilla MA, McVie T, Thomas O, Brock DW, Musser B, Lu K, Coffey CS, Desmond RA, St-Onge MP, Gadde KM, Heymsfield SB, Allison DB: Missing data in randomized clinical trials for weight loss: scope of the problem, state of the field, and performance of statistical methods. PLoS One. 2009, 4 (8): e6624-10.1371 journal. pone.0006624. View Article PubMed PubMed Central Google Scholar McCulloch CE, Neuhaus JM: Prediction of Random Effects in Linear and Generalized Linear Models under Model Misspecification. Biometrics. Neuhaus JM, McCulloch CE: Separating between - and within-cluster covariate effects using conditional and partitioning methods. Journal of the Royal Statistical Society. 2006, 859-872. Series B, 68 Heagerty PJ, Kurland BF: Misspecified maximum likelihood estimates and generalised linear mixed models. Biometrika. 2001, 88 (4): 973-985. 10.1093 biomet 88.4.973. View Article Google Scholar Christopher FA: Rounding after multiple imputation with Non-binary categorical covariates. SAS Focus Session SUGI. 2004, 30: Google Scholar Horton NJ, Lipsitz SR, Parzen M: A potential for bias when rounding in multiple imputation. American Statistician. 2003, 229-232. 10.1198 0003130032314. 57 Li X, Mehrotra DV, Barnard J: Analysis of incomplete longitudinal binary data using multiple imputation. Stat Med. 2006, 25 (12): 2107-2124. 10.1002 sim.2343. View Article PubMed Google Scholar Collins LM, Schafer JL, Kam CM: A comparison of inclusive and restrictive strategies in modern missing data procedures. Psychol Methods. 2001, 6 (4): 330-351. 10.1037 1082-989X.6.4.330. View Article PubMed Google Scholar Pre-publication history Ma et al licensee BioMed Central Ltd. 2011 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. org licenses by 2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.

No comments:

Post a Comment