Thursday 16 February 2017

Einfache Und Multiple Regression In Stata Forex

Lineare Regressionsanalyse mit Stata Einführung Lineare Regression, auch als einfache lineare Regression oder bivariate lineare Regression bekannt, wird verwendet, wenn wir den Wert einer abhängigen Variablen basierend auf dem Wert einer unabhängigen Variablen vorhersagen wollen. Beispielsweise könnten Sie die lineare Regression verwenden, um zu verstehen, ob die Prüfungsleistung anhand der Revisionszeit vorhergesagt werden kann (dh Ihre abhängige Variable wäre die Prüfungsleistung, gemessen von 0-100 Mark, und Ihre unabhängige Variable wäre die Revisionszeit in Stunden) . Alternativ können Sie die lineare Regression verwenden, um zu verstehen, ob der Zigarettenkonsum aufgrund der Dauer des Rauchens vorhergesagt werden kann (dh Ihre abhängige Variable wäre Zigarettenkonsum, gemessen an der Anzahl der täglich verbrauchten Zigaretten, und Ihre unabhängige Variable würde die Dauer des Rauchens betragen in Tagen). Wenn Sie zwei oder mehr unabhängige Variablen haben, anstatt nur eine, müssen Sie mehrere Regression verwenden. Alternativ, wenn Sie nur wollen, um festzustellen, ob eine lineare Beziehung existiert, könnten Sie Pearsons Korrelation. Anmerkung: Die abhängige Variable wird auch als Ergebnis-, Ziel - oder Kriteriumvariable bezeichnet, während die unabhängige Variable auch als Prädiktor-, Erklärungs - oder Regressor-Variable bezeichnet wird. Letztlich, je nachdem, welcher Begriff Sie verwenden, ist es am besten, konsistent zu sein. Wir werden diese als abhängige und unabhängige Variablen in diesem Leitfaden bezeichnen. In dieser Anleitung zeigen wir Ihnen, wie Sie mit Stata eine lineare Regression durchführen und die Ergebnisse aus diesem Test interpretieren und berichten. Bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie jedoch die unterschiedlichen Annahmen verstehen, die Ihre Daten erfüllen müssen, damit die lineare Regression Ihnen ein gültiges Ergebnis liefert. Wir diskutieren diese Annahmen als nächstes. Annahmen Es gibt sieben Annahmen, die eine lineare Regression untermauern. Wenn eine dieser sieben Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht linear analysieren, da Sie kein gültiges Ergebnis erhalten. Da die Annahmen 1 und 2 sich auf Ihre Wahl der Variablen beziehen, können sie nicht für die Verwendung von Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie erfüllt diese Annahmen, bevor Sie fortfahren. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Inch), die Temperatur (gemessen in ° C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit IQ - Gemessen in Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie nicht sicher sind, ob Ihre abhängige Variable kontinuierlich ist (d. h. auf der Intervall - oder der Verhältnisstufe), finden Sie in unseren Variablen-Typen. Annahme 2: Ihre unabhängige Variable sollte auf der kontinuierlichen oder kategorischen Ebene gemessen werden. Wenn Sie jedoch eine kategoriale unabhängige Variable haben, ist es üblicher, einen unabhängigen t-Test (für 2 Gruppen) oder eine Einweg-ANOVA (für 3 Gruppen oder mehr) zu verwenden. Wenn Sie unsicher sind, sind Beispiele für kategorische Variablen Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und Hoch) und Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut). In dieser Anleitung zeigen wir Ihnen die lineare Regressionsabläufe und die Stata-Ausgabe, wenn sowohl Ihre abhängigen als auch unabhängigen Variablen auf einer kontinuierlichen Ebene gemessen wurden. Glücklicherweise können Sie Annahmen 3, 4, 5, 6 und 7 mit Stata. Wenn wir uns auf die Annahmen 3, 4, 5, 6 und 7 begeben, empfehlen wir, diese in dieser Reihenfolge zu testen, da es einen Auftrag darstellt, bei dem, falls ein Verstoß gegen die Annahme nicht korrigierbar ist, die lineare Regression nicht mehr möglich ist. In der Tat, nicht wundern, wenn Ihre Daten nicht eine oder mehrere dieser Annahmen, da dies ziemlich typisch ist, wenn die Arbeit mit realen Daten anstatt Lehrbuch Beispiele, die oft nur zeigen, wie die Durchführung linearer Regression, wenn alles gut geht. Jedoch sorgen Sie sich nicht, weil, selbst wenn Ihre Daten bestimmte Annahmen ausfallen, es häufig eine Lösung gibt, zum dieses zu überwinden (zB Ihre Daten zu verwandeln oder einen anderen statistischen Test anstatt zu verwenden). Denken Sie daran, dass die Ergebnisse, die Sie beim Ausführen der linearen Regression erhalten, nicht gültig sind, wenn Sie nicht überprüfen, ob Daten diese Annahmen erfüllen oder ob Sie sie falsch testen. Annahme 3: Es muss eine lineare Beziehung zwischen den abhängigen und unabhängigen Variablen bestehen. Während es eine Reihe von Möglichkeiten gibt zu prüfen, ob eine lineare Beziehung zwischen den beiden Variablen existiert, empfehlen wir die Erstellung eines Scatterplots mit Stata, in dem Sie die abhängige Variable mit Ihrer unabhängigen Variablen abbilden können. Sie können das Scatterplot dann visuell überprüfen, um die Linearität zu überprüfen. Ihr Scatterplot kann so aussehen wie eine der folgenden: Wenn die in Ihrem Scatterplot angezeigte Beziehung nicht linear ist, müssen Sie entweder eine nichtlineare Regressionsanalyse ausführen oder Ihre Daten umwandeln, die Sie mit Stata bearbeiten können. Annahme 4: Es sollte keine signifikanten Ausreißer geben. Ausreißer sind einfach einzelne Datenpunkte innerhalb Ihrer Daten, die nicht dem üblichen Muster folgen (zB in einer Studie von 100 Studenten IQ Scores, wo die mittlere Punktzahl 108 mit nur einer kleinen Abweichung zwischen den Schülern war, hatte ein Schüler eine Punktzahl von 156, die Ist sehr ungewöhnlich, und kann sie sogar in die obersten 1 der IQ-Scores weltweit setzen). Die folgenden Scatterplots zeigen die möglichen Auswirkungen von Ausreißern auf: Das Problem bei Ausreißern besteht darin, dass sie einen negativen Einfluss auf die Regressionsgleichung haben können, die dazu verwendet wird, den Wert der abhängigen Variablen basierend auf der unabhängigen Variablen vorherzusagen. Dies ändert die Ausgabe, die Stata produziert und reduziert die prädiktive Genauigkeit Ihrer Ergebnisse. Glücklicherweise können Sie Stata verwenden, um eine Casewise-Diagnose durchzuführen, damit Sie mögliche Ausreißer erkennen können. Annahme 5: Sie sollten die Unabhängigkeit der Beobachtungen haben. Die Sie bequem mit der Durbin-Watson-Statistik überprüfen können. Das ist ein einfacher Test, mit Stata laufen. Annahme 6: Ihre Daten müssen Homosedastizität zeigen. Wo ist die Abweichung entlang der Linie der besten fit bleiben ähnlich wie Sie entlang der Linie bewegen. Die beiden Scatterplots unten geben einfache Beispiele für Daten, die diese Annahme erfüllen und eine, die die Annahme fehlschlägt: Wenn Sie Ihre eigenen Daten analysieren, sind Sie glücklich, wenn Ihr Scatterplot wie eines der beiden oben aussieht. Während sie dazu beitragen, die Unterschiede in den Daten zu veranschaulichen, die die Annahme der Homoscedastizität erfüllen oder verletzen, sind Daten in der realen Welt oft viel chaotischer. Sie können überprüfen, ob Ihre Daten Homosedastizität zeigten, indem sie die standardisierten Rückstände der Regression auf den standardisierten Vorhersagewert der Regression skizzierten. Annahme 7: Schließlich müssen Sie überprüfen, ob die Residuen (Fehler) der Regressionsgeraden annähernd normal verteilt sind. Zwei gängige Methoden zur Überprüfung dieser Annahme sind die Verwendung eines Histogramms (mit einer überlagerten Normalkurve) oder eines Normal-P-P-Plots. In der Praxis wird die Überprüfung der Annahmen 3, 4, 5, 6 und 7 voraussichtlich die meiste Zeit in Anspruch nehmen, wenn sie eine lineare Regression durchführt. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Verfahren. Veranschaulichen wir das Stata-Verfahren, das erforderlich ist, um eine lineare Regression unter der Annahme durchzuführen, dass keine Annahmen verletzt worden sind. Zuerst beschreiben wir das Beispiel, das wir verwenden, um das lineare Regressionsverfahren in Stata zu erklären. Studien zeigen, dass die Ausübung kann dazu beitragen, Herzkrankheiten zu verhindern. Innerhalb vernünftiger Grenzen, je mehr Sie üben, desto weniger Risiko haben Sie von Herzkrankheiten leiden. Eine Möglichkeit, in der Übung reduziert Ihr Risiko von Herzkrankheiten leiden ist durch die Verringerung eines Fettes in Ihrem Blut, genannt Cholesterin. Je mehr Sie üben, desto niedriger die Cholesterin-Konzentration. Darüber hinaus wurde vor kurzem gezeigt, dass die Zeitspanne, die Sie verbringen, Fernsehen ndash ein Indikator für einen sesshaften Lebensstil ndash könnte ein guter Vorhersage der Herzkrankheit (dh das ist, je mehr TV Sie sehen, desto größer ist Ihr Risiko von Herzerkrankungen ). Daher entschied ein Forscher, festzustellen, ob Cholesterinkonzentration im Zusammenhang mit Zeit verbrachten Fernsehen in ansonsten gesunden 45 bis 65 Jahre alten Männern (eine gefährdete Kategorie von Menschen). Zum Beispiel, als die Menschen mehr Zeit mit dem Fernsehen verbracht haben, hat sich ihre Cholesterinkonzentration erhöht (eine positive Beziehung) oder das Gegenteil passiert Der Forscher wollte auch den Anteil der Cholesterin-Konzentration kennen, die die Zeit verbrachte, Fernsehen zu erklären, zu erklären, als auch zu sein In der Lage, die Cholesterinkonzentration vorherzusagen. Der Forscher konnte dann feststellen, ob zum Beispiel Menschen, die acht Stunden verbrachte Fernsehen pro Tag hatte gefährlich hohe Konzentrationen von Cholesterin im Vergleich zu Menschen, die nur zwei Stunden Fernsehen. Um die Analyse durchzuführen, rekrutierte der Forscher 100 gesunde männliche Teilnehmer im Alter zwischen 45 und 65 Jahren. Die Zeitspanne, die für das Fernsehen (d. H. Die unabhängige Variable, Zeitsteuerung) und die Cholesterolkonzentration (d. h. die abhängige Variable, Cholesterol) verbracht wurde, wurde für alle 100 Teilnehmer aufgezeichnet. In variablen Ausdrücken ausgedrückt, wollte der Forscher Cholesterin auf Timetv regressiv. Hinweis: Das Beispiel und die Daten, die für dieses Handbuch verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens erstellt. Setup in Stata In Stata haben wir zwei Variablen erstellt: (1) timetv. Was die durchschnittliche tägliche Fernsehzeit in Minuten (d. H. Die unabhängige Variable) und (2) Cholesterin ist. Welche die Cholesterinkonzentration in mmolL ist (d. h. die abhängige Variable). Hinweis: Es spielt keine Rolle, ob Sie die abhängige oder unabhängige Variable zuerst erstellen. Nachdem wir diese beiden Variablen ndash timetv und cholesterol ndash erstellt haben, haben wir die Scores in die beiden Spalten der Dateneditor-Tabelle (Bearbeiten) eingetragen (dh die Zeit in Stunden, die die Teilnehmer in der linken Spalte (z Unabhängige Variable) und die Cholesterinkonzentration der Teilnehmer in mmolL in der rechten Spalte (zB Cholesterin, abhängige Variable) wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Analysieren Sie Ihre Daten mithilfe von linearen Regression in Stata, wenn die sechs Annahmen im vorherigen Abschnitt, Annahmen nicht verletzt worden sind. Sie können lineare Regression mit Code oder statas grafische Benutzeroberfläche (GUI) durchführen. Nachdem Sie Ihre Analyse durchgeführt haben, Zeigen Sie an, wie Sie Ihre Ergebnisse interpretieren können: Wählen Sie zuerst aus, ob Sie den Code oder die grafische Benutzeroberfläche von GUI verwenden möchten. Der Code für die Durchführung der linearen Regression Ihrer Daten erfolgt wie folgt: regress DependentVariable IndependentVariable Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP . Mit unserem Beispiel, wo die abhängige Variable ist Cholesterin und die unabhängige Variable ist timetv. Der erforderliche Code wäre: Regress Cholesterin Timetv Hinweis 1: Sie müssen genau sein, wenn Sie den Code in die Box eingeben. Der Code ist case sensitive. Wenn Sie zum Beispiel Cholesterin eingegeben haben, wo das C Großbuchstaben und nicht Kleinbuchstaben (dh ein kleines c) sind, erhalten Sie eine Fehlermeldung wie die folgende: Anmerkung 2: Wenn Sie die Fehlermeldung in Anmerkung 2 immer noch erhalten : Oben, ist es wert, den Namen zu überprüfen, den Sie Ihre zwei Variablen im Daten-Editor gab, wenn Sie Ihre Akte gründen (dh sehen Sie den Dateneditorschirm oben). In der Box auf der rechten Seite des Dateneditor-Bildschirms ist es so, dass du deine Variablen im Abschnitt geschrieben hast, nicht den Abschnitt, den du in den Code eingeben musst (siehe unten für unsere abhängige Variable). Dies mag offensichtlich erscheinen, aber es ist ein Fehler, der manchmal gemacht wird, was zu dem Fehler in Anmerkung 2 oben führt. Deshalb geben Sie den Code, regress Cholesterin timetv. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Sie können die Stata-Ausgabe sehen, die hier erzeugt wird. Grafische Benutzeroberfläche (GUI) Die drei Schritte, die zur Durchführung einer linearen Regression in den Stationen 12 und 13 erforderlich sind, sind nachfolgend aufgeführt: Klicken Sie auf S tatistics gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP Sie werden mit dem Regress ndash Linear Regression Dialogfeld präsentiert: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie Cholesterin aus dem Dropdown-Feld Abhängige Variable aus, und wählen Sie innerhalb der Dropdown-Liste Independent variables die Option timetv aus. Sie werden mit dem folgenden Bildschirm enden: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Ausgabe der linearen Regressionsanalyse in Stata Wenn Ihre Daten die Annahme 3 (dh, es gab eine lineare Beziehung zwischen den beiden Variablen), 4 (dh keine signifikanten Ausreißer), Annahme 5 (dh Sie hatten Unabhängigkeit von Beobachtungen), Annahme 6 Dh Ihre Daten zeigten Homosedastizität) und Annahme 7 (dh die Residuen (Fehler) wurden annähernd normalverteilt), was wir bereits im Abschnitt Annahmen erklärt haben, müssen Sie nur die folgende lineare Regressionsausgabe in Stata interpretieren: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Die Ausgabe besteht aus vier wichtigen Informationsstücken: (a) Der R 2 - Wert (R-quadratische Reihe) repräsentiert den Anteil der Abweichung in der abhängigen Variablen, der durch unsere unabhängige Variable erklärt werden kann (technisch ist der Anteil der Abweichung Durch das Regressionsmodell über das mittlere Modell hinaus). Jedoch beruht R 2 auf der Stichprobe und ist eine positiv voreingenommene Schätzung des Anteils der Abweichung der abhängigen Variablen, die durch das Regressionsmodell (dh zu groß) (b) einen angepassten R 2 - Wert (Adj R - Quadrierte Reihe), die eine positive Vorspannung korrigiert, um einen Wert zu liefern, der in der Population erwartet werden würde (c) der F-Wert, Freiheitsgrade (F (1, 98)) und die statistische Signifikanz des Regressionsmodells (Prob gt F Zeile) Und (d) die Koeffizienten für die konstante und unabhängige Variable (Coef-Spalte), die die Information ist, die Sie benötigen, um die abhängige Variable, Cholesterin vorherzusagen. Mit der unabhängigen Variable, timetv. In diesem Beispiel ist R 2 0,151. Angepasst R 2 0,143 (zu 3 d. p.), was bedeutet, dass die unabhängige Variable, timetv. Erklärt 14.3 der Variabilität der abhängigen Variablen, Cholesterin. In der Bevölkerung. Die bereinigte R 2 ist ebenfalls eine Schätzung der Effektgröße, die bei 0,143 (14,3) für eine mittlere Effektgröße nach Cohens (1988) Klassifizierung anzeigt. Allerdings ist in der Regel R 2 nicht das eingestellte R 2, das in den Ergebnissen berichtet wird. In diesem Beispiel ist das Regressionsmodell statistisch signifikant, F (1, 98) 17.47, p .0001. Dies zeigt, dass insgesamt das angewandte Modell die abhängige Variable, Cholesterin, statistisch signifikant vorhersagen kann. Anmerkung: Wir geben den Ausgang der linearen Regressionsanalyse vor. Da Sie jedoch Ihre Daten für die Annahmen getestet haben, die wir im Abschnitt Annahmen erläutert haben, müssen Sie auch die Stata-Ausgabe interpretieren, die bei der Prüfung dieser Annahmen erstellt wurde. Dazu gehören: (a) die Scatterplots, die du benutzt hast, um zu prüfen, ob es eine lineare Beziehung zwischen deinen beiden Variablen gab (dh Annahme 3) (b) casewise Diagnostik, um zu überprüfen, dass es keine signifikanten Ausreißer gab (dh Annahme 4) (c) die Ausgabe von Die Durbin-Watson-Statistik zur Überprüfung der Unabhängigkeit der Beobachtungen (dh Annahme 5) (d) ein Scatterplot der Regressions-standardisierten Residuen gegen die Regression standardisierten vorhergesagten Wert, um festzustellen, ob Ihre Daten Homosedastizität (dh Annahme 6) und ein Histogramm (mit überlagert) Normalkurve) und Normal PP Plot, um zu überprüfen, ob die Residuen (Fehler) annähernd normal verteilt waren (dh Annahme 7). Denken Sie auch daran, dass die Ausgabe, die Sie aus dem linearen Regressionsverfahren (dh der Ausgabe, die wir oben besprochen haben) nicht mehr relevant ist, wenn Ihre Daten eine dieser Annahmen nicht bestanden haben, und Sie müssen möglicherweise einen anderen statistischen Test ausführen, um zu analysieren deine Daten. Berichte über die Ausgabe der linearen Regressionsanalyse Wenn Sie die Ausgabe Ihrer linearen Regression melden, ist es sinnvoll, Folgendes einzugeben: (a) eine Einführung in die Analyse, die Sie durchgeführt haben (b) Informationen über Ihre Probe, einschließlich fehlender Werte (c) Der beobachtete F-Wert, Grad der Freiheit und des Signifikanzniveaus (dh des p-Werts) (d) der Prozentsatz der Variabilität in der abhängigen Variablen, die durch die unabhängige Variable (dh Ihr Adjusted R 2) und (e) die Regressionsgleichung erklärt wird Für Ihr Modell. Basierend auf den obigen Ergebnissen konnten wir die Ergebnisse dieser Studie wie folgt berichten: Eine lineare Regression stellte fest, dass die tägliche Zeit, die das Fernsehen beobachtete, die Cholesterinkonzentration, F (1, 98) 17,47, p .0001 und die Zeit, die Fernsehen beobachtete, statistisch signifikant vorhersagen konnte Entfielen 14,3 der erklärten Variabilität in der Cholesterinkonzentration. Die Regressionsgleichung war: vorhergesagte Cholesterinkonzentration -2.135 0,044 x (Zeit verbrachte Fernsehen). Zusätzlich zur Meldung der Ergebnisse wie oben kann ein Diagramm verwendet werden, um Ihre Ergebnisse visuell darzustellen. Zum Beispiel könntest du dies mit einem Scatterplot mit Vertrauens - und Vorhersageintervallen machen (obwohl es nicht sehr üblich ist, das letzte hinzuzufügen). Dies kann es einfacher für andere, Ihre Ergebnisse zu verstehen. Darüber hinaus können Sie Ihre lineare Regressionsgleichung verwenden, um Vorhersagen über den Wert der abhängigen Variablen basierend auf verschiedenen Werten der unabhängigen Variablen zu machen. Während Stata diese Werte nicht als Teil des linearen Regressionsverfahrens oben produziert, gibt es eine Prozedur in Stata, die du verwenden kannst, um dies zu tun. Mehrfache Regressionsanalyse unter Verwendung von Stata Einleitung Mehrfache Regression (eine Erweiterung der einfachen linearen Regression) wird verwendet, um vorherzusagen Der Wert einer abhängigen Variablen (auch als Ergebnisvariable bekannt), basierend auf dem Wert von zwei oder mehr unabhängigen Variablen (auch als Prädiktorvariablen bekannt). Zum Beispiel könnten Sie mehrere Regression verwenden, um festzustellen, ob die Prüfung der Angst auf der Grundlage von Kursmarke, Revisionszeit, Vortragsbeginn und IQ-Score vorhergesagt werden kann (dh die abhängige Variable wäre die Untersuchung der Angst, und die vier unabhängigen Variablen würden Kursnote, Revision sein Zeit, Vortrag und IQ Score). Alternativ könnten Sie mehrere Regression verwenden, um festzustellen, ob Einkommen auf der Grundlage von Alter, Geschlecht und Bildungsniveau prognostiziert werden kann (d. h. die abhängige Variable wäre Einkommen, und die drei unabhängigen Variablen würden Alter, Geschlecht und Bildungsniveau sein). Wenn Sie eine dichotome abhängige Variable haben, können Sie eine binomische logistische Regression verwenden. Mehrfache Regression erlaubt Ihnen auch, die Gesamtanpassung (Varianz erklärt) des Modells und den relativen Beitrag jeder der unabhängigen Variablen zu der Gesamtabweichung zu bestimmen. Zum Beispiel möchten Sie vielleicht wissen, wie viel von der Variation in der Prüfung Angst erklärt werden kann durch Kursnote, Revisionszeit, Vortrag und IQ Punktzahl als Ganzes, sondern auch die relative Beitrag jeder unabhängigen Variablen in der Erklärung der Varianz. Diese Kurzanleitung zeigt Ihnen, wie Sie mit Stata mehrere Regression durchführen und wie Sie die Ergebnisse aus diesem Test interpretieren und melden können. Doch bevor wir Ihnen dieses Verfahren vorstellen, müssen Sie die verschiedenen Annahmen verstehen, die Ihre Daten erfüllen müssen, um für mehrere Regression zu sorgen, um Ihnen ein gültiges Ergebnis zu geben. Wir diskutieren diese Annahmen als nächstes. Annahmen Es gibt acht Annahmen, die mehrere Regression untermauern. Wenn eine dieser acht Annahmen nicht erfüllt ist, können Sie Ihre Daten nicht mit mehreren Regression analysieren, da Sie kein gültiges Ergebnis erhalten. Da die Annahmen 1 und 2 sich auf Ihre Wahl der Variablen beziehen, können sie nicht für die Verwendung von Stata getestet werden. Allerdings sollten Sie entscheiden, ob Ihre Studie erfüllt diese Annahmen, bevor Sie fortfahren. Annahme 1: Ihre abhängige Variable sollte auf der kontinuierlichen Ebene gemessen werden. Beispiele für solche kontinuierlichen Variablen sind die Höhe (gemessen in Fuß und Zoll), die Temperatur (gemessen in 176C), das Gehalt (gemessen in US-Dollar), die Revisionszeit (gemessen in Stunden), die Intelligenz (gemessen mit der IQ-Punktzahl), die Reaktionszeit (gemessen In Millisekunden), Testleistung (gemessen von 0 bis 100), Umsatz (gemessen in Anzahl der Transaktionen pro Monat) und so weiter. Wenn Sie nicht sicher sind, ob Ihre abhängige Variable kontinuierlich ist (d. h. auf der Intervall - oder der Verhältnisstufe), finden Sie in unseren Variablen-Typen. Annahme 2: Sie haben zwei oder mehr unabhängige Variablen. Die auf der kontinuierlichen oder kategorischen Ebene gemessen werden sollten. Beispiele für kontinuierliche Variablen. Sehe die Kugel oben. Beispiele für kategorische Variablen sind Geschlecht (zB 2 Gruppen: männlich und weiblich), Ethnizität (zB 3 Gruppen: Kaukasier, Afroamerikaner und Hispanic), körperliche Aktivität (zB 4 Gruppen: sesshaft, niedrig, mäßig und hoch), Beruf (zB 5 Gruppen: Chirurg, Arzt, Krankenschwester, Zahnarzt, Therapeut) und so weiter. In diesem Leitfaden zeigen wir Ihnen die vielfache Regressionsmethode, weil wir eine Mischung aus kontinuierlichen und kategorischen unabhängigen Variablen haben. Anmerkung: Wenn Sie nur kategoriale unabhängige Variablen (dh keine kontinuierlichen unabhängigen Variablen) haben, ist es üblicher, die Analyse aus der Perspektive einer Zwei-Wege-ANOVA (für zwei kategoriale unabhängige Variablen) oder faktorielle ANOVA (für drei oder mehr kategorische) Unabhängige Variablen) anstelle von mehreren Regression. Glücklicherweise können Sie die Annahmen 3, 4, 5, 6, 7 und 8 mit Stata überprüfen. Wenn wir uns auf die Annahmen 3, 4, 5, 6, 7 und 8 begeben, empfehlen wir, diese in dieser Reihenfolge zu testen, da sie einen Auftrag darstellt, bei dem, wenn ein Verstoß gegen die Annahme nicht korrigierbar ist, Sie nicht mehr mehrfach verwenden können Regression In der Tat, nicht wundern, wenn Ihre Daten nicht eine oder mehrere dieser Annahmen, da dies ziemlich typisch ist, wenn die Arbeit mit realen Daten anstatt Lehrbuch Beispiele, die oft nur zeigen, wie die Durchführung linearer Regression, wenn alles gut geht. Jedoch sorgen Sie sich nicht, weil, selbst wenn Ihre Daten bestimmte Annahmen ausfallen, es häufig eine Lösung gibt, zum dieses zu überwinden (zB Ihre Daten zu verwandeln oder einen anderen statistischen Test anstatt zu verwenden). Denken Sie daran, dass, wenn Sie nicht überprüfen, dass Sie Daten erfüllt diese Annahmen oder Sie für sie richtig zu testen, die Ergebnisse erhalten Sie, wenn mehrere Regression ausgeführt werden möglicherweise nicht gültig. Annahme 3: Sie sollten Unabhängigkeit von Beobachtungen haben (d. h. Unabhängigkeit von Residuen), die Sie in Stata mit der Durbin-Watson-Statistik einchecken können. Annahme 4: Es muss eine lineare Beziehung zwischen (a) der abhängigen Variablen und jeder Ihrer unabhängigen Variablen und (b) die abhängige Variable und die unabhängigen Variablen zusammen sein. Sie können die Linearität in Stata mit Scatterplots und partiellen Regressionsdiagrammen überprüfen. Annahme 5: Ihre Daten müssen Homosedastizität zeigen. Wo ist die Abweichung entlang der Linie der besten fit bleiben ähnlich wie Sie entlang der Linie bewegen. Sie können auf Homoscedasticity in Stata überprüfen, indem Sie die studentisierten Residuen gegen die nicht standardisierten vorhergesagten Werte zeichnen. Annahme 6: Ihre Daten dürfen keine Multikollinearität aufweisen. Die auftreten, wenn Sie zwei oder mehr unabhängige Variablen haben, die in hohem Maße miteinander korreliert sind. Sie können diese Annahme in Stata durch eine Inspektion von Korrelationskoeffizienten und ToleranzVIF-Werten überprüfen. Annahme 7: Es sollte keine signifikanten Ausreißer geben. Hohe Hebelpunkte oder einflussreiche Punkte. Die Beobachtungen in Ihrem Datensatz darstellen, die in irgendeiner Weise ungewöhnlich sind. Diese können einen sehr negativen Effekt auf die Regressionsgleichung haben, die verwendet wird, um den Wert der abhängigen Variablen basierend auf den unabhängigen Variablen vorherzusagen. Sie können mit Stata auf Ausreißer, Hebelpunkte und einflussreiche Punkte prüfen. Annahme 8: Die Residuen (Fehler) sollten annähernd normal verteilt sein. Die Sie in Stata mit einem Histogramm (mit einer überlagerten Normalkurve) und Normal P-P Plot oder einem Normal Q-Q Plot der studentisierten Residuen einchecken können. In der Praxis wird die Prüfung der Annahmen 3, 4, 5, 6, 7 und 8 wahrscheinlich die meiste Zeit bei der Durchführung mehrerer Regression einnehmen. Allerdings ist es keine schwierige Aufgabe, und Stata bietet alle Werkzeuge, die Sie benötigen, um dies zu tun. Im Abschnitt Testverfahren in Stata. Wir veranschaulichen die Stata-Prozedur, die erforderlich ist, um eine multiple Regression durchzuführen, vorausgesetzt, dass keine Annahmen verletzt wurden. Zuerst haben wir das Beispiel, das wir verwenden, um das multiple Regressionsverfahren in Stata zu erklären. Ein Gesundheitsforscher will VO 2 max vorhersagen, ein Indikator für Fitness und Gesundheit. Normalerweise erfordert dieses Verfahren, um dieses Verfahren durchzuführen, teure Laborausrüstung, und erfordert, dass Einzelpersonen ihr Maximum ausüben müssen (d. h. bis sie sich nicht länger durch körperliche Erschöpfung ausüben können). Dies kann Personen, die nicht sehr aktiv sind, und diejenigen, die ein höheres Krankheitsrisiko haben könnten (z. B. ältere untaugliche Themen). Aus diesen Gründen war es wünschenswert, einen Weg zur Vorhersage eines Individuums VO 2 max auf der Grundlage von Attributen zu finden, die leichter und billiger gemessen werden können. Zu diesem Zweck rekrutierte ein Forscher 100 Teilnehmer, um einen maximalen VO 2 max Test durchzuführen, aber auch sein Alter, Gewicht, Herzfrequenz und Geschlecht aufgezeichnet. Herzfrequenz ist der Durchschnitt der letzten 5 Minuten von 20 Minuten, viel einfacher, niedriger Arbeitsbelastung Zyklus Test. Das Ziel der Forscher ist es, VO 2 max auf der Grundlage dieser vier Attribute vorhersagen zu können: Alter, Gewicht, Herzfrequenz und Geschlecht. Hinweis: Das Beispiel und die Daten, die für dieses Handbuch verwendet werden, sind fiktiv. Wir haben sie gerade für die Zwecke dieses Leitfadens erstellt. Setup in Stata In Stata haben wir fünf Variablen erstellt: (1) VO 2 max. Die die maximale aerobe Kapazität (d. h. die abhängige Variable) und (2) Alter ist. Was sind die Teilnehmer Alter (3) Gewicht. Das ist die Teilnehmer Gewicht (technisch ist es ihre Masse) (4) Herzfrequenz. Was ist die Teilnehmer Herzfrequenz und (5) Geschlecht. Das ist das Teilnehmer Geschlecht (d. h. die unabhängigen Variablen). Nach dem Erstellen dieser fünf Variablen haben wir die Scores für jeden in die fünf Spalten der Dateneditor (Edit) Kalkulationstabelle eingegeben, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Testverfahren in Stata In diesem Abschnitt zeigen wir Ihnen, wie Sie Ihre Daten mit mehreren Regression in Stata analysieren können, wenn die acht Annahmen im vorherigen Abschnitt, Annahmen. Nicht verletzt worden sind. Sie können mehrere Regression mit Code oder Statas grafische Benutzeroberfläche (GUI) durchführen. Nachdem Sie Ihre Analyse durchgeführt haben, zeigen wir Ihnen, wie Sie Ihre Ergebnisse interpretieren können. Wählen Sie zuerst aus, ob Sie den Code oder die grafische Benutzeroberfläche (GUI) verwenden möchten. Der Code für die Durchführung mehrerer Regression auf Ihre Daten nimmt die Form an: regress DependentVariable IndependentVariable1 IndependentVariable2 IndependentVariable3 IndependentVariable4 Mit unserem Beispiel, wo die abhängige Variable VO2max ist und die vier unabhängigen Variablen Alter sind. Gewicht. Herzfrequenz und Geschlecht. Der erforderliche Code wäre: regress VO2max Altersgewicht Herzfrequenz i. gender Hinweis: Youll sehen aus dem Code oben, dass kontinuierliche unabhängige Variablen einfach eingegeben werden, wie es ist, während kategorische unabhängige Variablen das Präfix i haben (zB Alter für Alter, da dies ein ist Kontinuierliche unabhängige Variable, aber i. gender für Geschlecht, da dies eine kategorische unabhängige Variable ist). Also geben Sie den Code, regress VO2max Alter Gewicht Herzfrequenz i. gender. Und drücken Sie die ReturnEnter-Taste auf Ihrer Tastatur. Sie können die Stata-Ausgabe sehen, die hier erzeugt wird. Grafische Benutzeroberfläche (GUI) Die sieben Schritte, die zur Durchführung einer Mehrfachregression in Stata erforderlich sind, sind unten aufgeführt: Klicken Sie auf Statistik gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Anmerkung: Dont Sorge, dass youre Auswahl von Statistiken gt Lineare Modelle und verwandte gt Lineare Regression im Hauptmenü, oder dass die Dialogfelder in den folgenden Schritten haben den Titel, Lineare Regression. Du hast keinen Fehler gemacht Sie sind an der richtigen Stelle, um die Mehrfachregressionsverfahren durchzuführen. Dies ist nur der Titel, den Stata gibt, auch wenn man eine multiple Regressionsverfahren durchführt. Sie werden mit der Regress-Linear Regression Dialogbox, wie unten gezeigt präsentiert: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie die abhängige Variable VO2max aus. Aus der Dependent Variable: box und wählen Sie die kontinuierlichen unabhängigen Variablen, Alter. Gewicht und Herzfrequenz aus der Unabhängigen Variablen: Box, mit dem Dropdown-Button, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Wählen Sie die kategoriale unabhängige Variable, Geschlecht. Aus der Liste Unabhängige Variablen: Klicken Sie zunächst auf die Schaltfläche. Dies wird Ihnen die folgende Dialogbox präsentieren, in der Ihre kontinuierlichen unabhängigen Variablen (Alter Gewicht und Herzfrequenz) bereits in die Varlist eingegeben wurden: box: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Lassen Sie die Faktor-Variable im ndashType des Variablendash-Bereichs ausgewählt. Als nächstes werden im ndashAdd-Faktor variablendash-Bereich im Feld Specification: ausgewählt. Wählen Sie nun das Geschlecht im Feld "Variablen" mit der Dropdown-Schaltfläche aus und wählen Sie im Feld "Basis" die Option "Standard". Schließlich klicken Sie auf die Schaltfläche. Sie werden mit der folgenden Dialogbox versehen, in der die kategoriale unabhängige Variable i. gender steht. Wurde in die Varlist eingegeben: box: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Drück den Knopf. Du wirst zum Regress zurückkehren - Linear Regression Dialogfeld, aber mit der kategorischen unabhängigen Variable, i. gender. Jetzt in die Unabhängige Variablen eingegeben: Feld, wie unten gezeigt: Veröffentlicht mit schriftlicher Genehmigung von StataCorp LP. Drück den Knopf. Dadurch wird die Ausgabe erzeugt. Interpretation und Reporting der Stata-Ausgabe mehrerer Regressionsanalyse Stata erzeugt ein einziges Ausgabedatum für eine multiple Regressionsanalyse basierend auf den oben getroffenen Selektionen unter der Annahme, dass die acht für die multiple Regression benötigten Annahmen erfüllt sind. Bestimmen, wie gut das Modell passt Das R 2 und das eingestellte R 2 können verwendet werden, um zu bestimmen, wie gut ein Regressionsmodell auf die Daten passt: Die R-quadratische Zeile repräsentiert den R 2 - Wert (auch als Koeffizient der Bestimmung bezeichnet), was der Anteil ist Der Abweichung in der abhängigen Variablen, die durch die unabhängigen Variablen erklärt werden kann (technisch ist der Anteil der Variation, der durch das Regressionsmodell über das mittlere Modell hinaus berechnet wird). Sie können aus unserem Wert von 0,577 sehen, dass unsere unabhängigen Variablen 57,7 der Variabilität unserer abhängigen Variablen, VO 2 max, erklären. Allerdings musst du auch Adj R-squared (adj. R 2) interpretieren können, um deine Daten genau zu melden. Statistische Bedeutung Das F - ratio prüft, ob das gesamte Regressionsmodell für die Daten gut geeignet ist. Die Ausgabe zeigt, dass die unabhängigen Variablen die abhängige Variable statisch signifikant vorhersagen, F (4, 95) 32.39, p lt .0005 (d. h. das Regressionsmodell ist eine gute Anpassung der Daten). Geschätzte Modellkoeffizienten Die allgemeine Form der Gleichung zur Vorhersage von VO 2 max ab dem Alter. Gewicht. Herzfrequenz und Geschlecht ist: vorhergesagt VO 2 max 87,83 ndash (0,165 x Alter) ndash (0,385 x Gewicht) ndash (0.118 x Herzfrequenz) (13.208 x Geschlecht) Dies ergibt sich aus dem Coef. Spalte, wie unten gezeigt: Unstandardisierte Koeffizienten geben an, wieviel die abhängige Variable mit einer unabhängigen Variablen variiert, wenn alle anderen unabhängigen Variablen konstant gehalten werden. Betrachten Sie die Wirkung des Alters in diesem Beispiel. Der nicht standardisierte Koeffizient B 1. Für das Alter ist gleich -0.165 (siehe die erste Zeile der Coef-Spalte). Dies bedeutet, dass für jede 1 Jahr Erhöhung des Alters gibt es eine Abnahme in VO 2 max von 0,165 mlminkg. Statistische Bedeutung der unabhängigen Variablen Sie können die statistische Signifikanz der einzelnen unabhängigen Variablen testen. Dies prüft, ob die nicht standardisierten (oder standardisierten) Koeffizienten gleich 0 (Null) in der Population sind. Wenn p lt .05, können Sie schließen, dass die Koeffizienten statistisch signifikant unterschiedlich zu 0 (Null) sind. Der t-Wert und der entsprechende p-Wert befinden sich in den t - und Pgtt-Spalten, wie nachfolgend hervorgehoben: Aus der Pgtt-Spalte sehen Sie, dass alle unabhängigen Variablenkoeffizienten statistisch signifikant von 0 (Null) verschieden sind. Obwohl der Intercept, B 0. Wird auf statistische Signifikanz geprüft, das ist selten ein wichtiger oder interessanter Befund. Berichterstattung über die Ausgabe der multiplen Regressionsanalyse Sie können die Ergebnisse wie folgt aufschreiben: Eine multiple Regression wurde durchgeführt, um VO 2 max von Geschlecht, Alter, Gewicht und Herzfrequenz vorherzusagen. Diese Variablen statistisch signifikant vorhergesagt VO 2 max, F (4, 95) 32,39, p lt .0005, R 2 .577. Alle vier Variablen addierten sich statistisch signifikant zur Vorhersage, p lt .05.


No comments:

Post a Comment