SPSS einfache lineare Regression

Was ist die einfache lineare Regression?

Die lineare Regression beschreibt Art des linearen Zusammenhangs zwischen zwei Variablen. Wie hängt die Schuhgröße mit der Körpergröße zusammen? Wie sehr sinkt der Preis eines Gebrauchtwagens jeden Kilometer, den das Auto gefahren ist?

In dieser Anleitung lernst du mit SPSS eine einfache lineare Regression durchzuführen und zu interpretieren. Verwende dabei deine eigenen Daten oder unsere Beispieldaten, die hier heruntergeladen werden kann.

In unserem Beispiel erstellen wir ein statistisches Modell, das uns hilft, den Wert eines Gebrauchtwagens anhand einer Variable zu ermitteln (Prädiktor). Konkret gehen wir dem Zusammenhang zwischen dem Kilometerstand eines Autos und seinem Preis auf dem Gebrauchtmarkt nach. Gibt es einen Zusammenhang und wenn ja, wie hoch ist der Wertverlust für jeden gefahrenen Kilometer? Am Ende dieser Anleitung erhalten wir eine präzise Antwort.

Wie funktioniert die lineare Regression, einfach erklärt?

Um das Konzept einer linearen Regression zu verstehen, schauen wir uns zunächst die Verteilung der Daten an. In unserem Beispiel stellen wir die Variablen Preis und den Kilometerstand gegenüber. In unserem Beispiel befinden sich N=249 Autos mit den Werten Preis und Kilometerstand im Datensatz. Jeder Datenpunkt repräsentiert einen Fall (Case) bzw. in unserem ein Auto. Das Diagramm unten zeigt die Verteilung der Autos.

Die Verteilung der Daten mit den Variablen Preis und Kilometerstand

Das Ziel der Analysen in dieser Anleitung ist die Bildung einer Regressionsgleichung. In anderen Worten suchen wir eine Gerade, die möglichst mittig den Zusammenhang in den Daten beschreibt. Sinkt im Regelfall der Preis pro gefahrenen Kilometer eines Wagens und wenn ja, um wie viel? Als Ergebnis werden wir eine Regressionsgleichung erhalten, die wie folgt, aussieht:

Keine Sorge, noch benötigen wir keine großen mathematischen Kenntnisse. So viel vorab: y steht für die Zielvariable. Da wir eine Gleichung aufstellen möchten, die den Preis anhand der gefahrenen Kilometer bestimmt, ist die Zielvariable (y) der Preis. Die Variable b1 ist die Prädiktorvariable (Kilometerstand). Auf unser Diagramm übertragen könnte die rote Gerade den Zusammenhang beschreiben. Eventuell beschreibt die grüne Gerade einen stärken Zusammenhang. Mit dieser Anleitung berechnen wir Schritt für Schritt die perfekte Gerade für unsere Daten.

Rot und Grün sind von uns eingezeichnete Geraden und keine echten Ergebnisse.

Voraussetzungen prüfen

  • LinearitätLinearität Linearität bezieht sich auf die Beziehung zwischen zwei oder mehr Variablen, die durch eine gerade Linie dargestellt wird, bei der die Veränderung einer Variablen direkt proportional zur Veränderung der anderen Variable ist. prüfen: Linearität sollte bei beiden Variablen gegeben sein. Eine Anleitung zur Prüfung der Linearität befindet sich hier.
  • AusreißerAusreißer Ausreißer sind Datenpunkte, die deutlich von den übrigen Daten abweichen und die Verteilung der Daten beeinflussen können. Sie können aufgrund von Messfehlern, ungewöhnlichen Ereignissen oder menschlichem Fehler auftreten und sollten in der Regel in der Analyse berücksichtigt werden, um sicherzustellen, dass die Ergebnisse valide sind. prüfen: Ausreißer sind Werte, die im ungewöhnlich klein oder groß sind und einen negativen Einfluss auf die Analyse haben, weil sie die Ergebnisse verfälschen. Je weniger Ausreißer ein Datensatz hat, desto besser. Eine Anleitung zur Prüfung der statistischen Ausreißer befindet sich hier.
  • Multikollinearität prüfen: Wenn zwei Variablen eine sehr starke positive oder negative KorrelationKorrelation Korrelation bezieht sich auf den Zusammenhang oder die Beziehung zwischen zwei oder mehr Variablen, die durch den Grad der Änderung der Werte einer Variablen im Verhältnis zur Änderung der Werte einer anderen Variablen gemessen wird. (|r|>.90) haben spricht man in der Statistik von Multikollinearität. Hier gleichen sich die Variablen zu sehr und beinhalten zu ähnliche Informationen, was sich negativ bei der Interpretation der Ergebnisse auswirkt. Die zu untersuchenden Variablen dürfen keine Multikollinearität aufweisen. Eine Anleitung zur Überprüfung der Korrelation befindet sich hier.
  • Weitere Voraussetzungen prüfen: Um eine gültige lineare Regression zu berechnen, sollten noch weitere Kennzahlen analysiert werden (wie Homoskedastizität der ResiduenResiduen Residuen sind die Abweichungen zwischen den beobachteten Daten und den durch ein statistisches Modell vorhergesagten Daten und werden verwendet, um die Anpassung des Modells an die Daten zu beurteilen und um mögliche Muster oder Trends in den Daten zu erkennen. Sie können auch verwendet werden, um die Validität und Zuverlässigkeit von Vorhersagemodellen zu überprüfen., Normalverteilung der Residuen und Unabhängigkeit der Residuen). Diese stehen erst nach der Berechnung der Regression zur Verfügung und werden dementsprechend bei der Interpretation der Ergebnisse besprochen.

Berechnung der einfachen linearen Regression in SPSS

Berechnung der einfachen linearen Regression in SPSS

  1. Auswahl Menü

    Los geht es. Wir navigieren zu Analysieren > Regression > Linear… .

  2. Dialogfenster Lineare Regression

    Es erscheint das Dialogfenster „Lineare Regression“. An dieser Stelle ziehen wir die Zielvariable auf das Feld Abhängige Variableabhängige Variable Die abhängige Variable ist die Variable, die in einer Studie gemessen oder beobachtet wird und die von der unabhängigen Variable abhängig ist. Die unabhängige Variable ist die Variable, die in der Studie manipuliert oder gesteuert wird und die vermutete Ursache für die Veränderungen in der abhängigen Variable ist. . Die Prädiktorvariable kommt in das Feld unabhängige Variable(n).

  3. Auswahl der Variablen

    In unserem Beispiel sieht das so aus: Die Variable Preis befindet sich im Feld Abhängige Variable und Kilometerstand im Feld unabhängige Variable.

    Anschließend klicken wir in diesem Dialogfenster auf den Knopf Statistiken.

  4. Statistiken einstellen

    Im geöffneten Statistiken Dialogfenster nehmen wir die ersten Einstellungen vor. Wir setzen einen Haken auf Schätzer im Feld Regressionskoeffizienten. Darüber hinaus sollten Haken bei den Optionen Anpassungsgüte des Modells, Deskriptive Statistik und weiter unten Durbin-Watson im Feld Residuen gesetzt werden.

    Wir klicken auf Weiter, um die Eingaben zu bestätigen.

    Hinweis: In diesem Dialogfenster lassen sich weitere Optionen wie Kollinearitätsdiagnose oder Änderung in R-Quadrat auswählen. Sie geben interessante Informationen. Um diese Anleitung so einfach wie möglich zu halten, belassen wir es auf so wenig Komplexität wie notwendig und betrachten lediglich die absolut notwendigen Kennzahlen.

  5. Auswahl Diagramme

    Im vorherigen Fenster angekommen klicken wir nun klicken wir auf den Knopf Diagramme.

  6. Diagramme einstellen

    Im Dialogfenster wählen wir für Feld Y ZRESID und für Feld X ZPRED, wie im Bildschirmausschnitt unten. Im Feld Diagramme der standardisierten Residuen sollte beide Häkchen bei Histogramm und Normalverteilungsdiagramm aktiviert sein.

    Wir klicken auf den unteren „Weiter„-Knopf, um die Einstellungen zu übernehmen.

  7. Einfache lineare Regression in SPSS starten

    Mit einem Klick auf OK starten wir Berechnung der linearen Regression mit SPSS.

Berechnung der einfachen linearen Regression in SPSS

Ergebnisse Analysieren SPSS einfache linare Regression

Durbin-Watson-Statistik

Text

Multikollinearität prüfen mit KorrelationenKorrelation Korrelation bezieht sich auf den Zusammenhang oder die Beziehung zwischen zwei oder mehr Variablen, die durch den Grad der Änderung der Werte einer Variablen im Verhältnis zur Änderung der Werte einer anderen Variablen gemessen wird.

dfdfdf

Signifikanz prüfen mit ANOVA

Regressionskoeffizienten

Histogramm

Q-Q Plot

Häufig gestellte Fragen und Antworten: einfache lineare Regression

Wann verwende ich eine einfache lineare Regression?

Die einfache lineare Regression ist ein statistisches Modell, das verwendet wird, um die Beziehung zwischen einer abhängigen Variablen und einer unabhängigen Variablen zu beschreiben. Es wird verwendet, um Vorhersagen über die abhängige Variable zu treffen, basierend auf bekannten Werten der unabhängigen Variable.

Es gibt mehrere Gründe, warum man die einfache lineare Regression verwenden könnte:

Einfache Anwendung: Die einfache lineare Regression ist ein einfaches Modell, das leicht zu verstehen und anzuwenden ist. Es erfordert nur wenig statistisches Wissen und ist eine gute Wahl, wenn man schnell Vorhersagen treffen möchte.

Einfache Interpretation: Das Modell der einfachen linearen Regression besteht aus einer geraden Regressionslinie, die die Beziehung zwischen den Variablen beschreibt. Dies macht es einfach, die Ergebnisse zu interpretieren und Schlussfolgerungen über die Beziehung zwischen den Variablen zu ziehen.

Einfache Vorhersage: Das Modell der einfachen linearen Regression erlaubt es, Vorhersagen über die abhängige Variable zu treffen, basierend auf bekannten Werten der unabhängigen Variable. Das Modell gibt auch eine Schätzung für die Unsicherheit der Vorhersage an, die durch den Standardfehler der Schätzungen angegeben wird.

Wann verwenden wir eine einfache und wann multiple Regression?

Die einfache Regression wird verwendet, wenn es nur eine unabhängige Variable gibt, die die abhängige Variable erklären soll. Die multiple Regression wird verwendet, wenn es mehrere unabhängige Variablen gibt, die die abhängige Variable erklären sollen.

Eine einfache Regression eignet sich gut, wenn man eine lineare Beziehung zwischen einer abhängigen und einer unabhängigen Variablen untersuchen möchte. Wenn man jedoch mehrere Faktoren untersuchen möchte, die möglicherweise eine Rolle bei der Erklärung der abhängigen Variable spielen, ist die multiple Regression die bessere Wahl.

Die multiple Regression erlaubt es, den Einfluss mehrerer unabhängiger Variablen auf die abhängige Variable zu untersuchen und zu quantifizieren. Sie kann auch verwendet werden, um die relative Bedeutung der einzelnen unabhängigen Variablen zu bestimmen und zu sehen, wie gut sie zusammen die abhängige Variable erklären.

Was ist der Unterschied zwischen Korrelation und Regression?

Der Unterschied zwischen Korrelation und Regression besteht darin, dass Korrelation die Stärke und Richtung der Beziehung zwischen zwei Variablen misst, während Regression versucht, die Beziehung zwischen den Variablen zu beschreiben und zu modellieren, um Vorhersagen über eine der Variablen zu treffen, basierend auf bekannten Werten der anderen Variable.

Die Korrelation wird durch den Korrelationskoeffizienten gemessen, der Werte zwischen -1 und 1 annehmen kann. Ein Wert von -1 bedeutet, dass die Variablen perfekt negativ korreliert sind, das heißt, wenn der Wert einer Variable zunimmt, nimmt der Wert der anderen Variable ab. Ein Wert von 1 bedeutet, dass die Variablen perfekt positiv korreliert sind, das heißt, wenn der Wert einer Variable zunimmt, nimmt auch der Wert der anderen Variable zu. Ein Wert von 0 bedeutet, dass keine Korrelation zwischen den Variablen besteht.

Die Regression hingegen versucht, die Beziehung zwischen den Variablen durch eine gerade Regressionslinie zu modellieren. Die Steigung der Regressionslinie gibt an, wie sich die abhängige Variable ändert, wenn sich die unabhängige Variable ändert, und der y-Achsenabschnitt gibt den Wert der abhängigen Variable an, wenn die unabhängige Variable 0 ist. Die Regression kann auch verwendet werden, um Vorhersagen über die abhängige Variable zu treffen, basierend auf bekannten Werten der unabhängigen Variable.

Wann ist eine Regression nicht linear?

Eine Regression ist dann nicht linear, wenn die Beziehung zwischen den Variablen, die das Modell beschreibt, nicht durch eine gerade Linie dargestellt werden kann. Stattdessen könnte die Beziehung zwischen den Variablen durch eine Kurve oder eine andere Funktion dargestellt werden.

Es gibt mehrere Anzeichen dafür, dass eine Regression nicht linear ist:

– Nicht-lineare Korrelation: Wenn die Korrelation zwischen den Variablen nicht linear ist, könnte das bedeuten, dass die Regression nicht linear ist. Eine Möglichkeit, um die Korrelation zu prüfen, ist die Berechnung von Korrelationen und die Visualisierung der Daten mithilfe von Streudiagrammen.

– Nicht-konstante Varianz: Wenn die Varianz der abhängigen Variable nicht konstant ist, könnte das bedeuten, dass die Regression nicht linear ist. Eine Möglichkeit, um die Varianz zu prüfen, ist die Visualisierung der Residuen mithilfe von Histogrammen oder Streudiagrammen.

– Nicht-NormalverteilungNormalverteilung Die Normalverteilung, auch Gauss-Verteilung genannt, ist eine Art von Verteilung, bei der die Werte einer Variablen symmetrisch um den Mittelwert angeordnet sind und die Wahrscheinlichkeit, dass Werte in bestimmten Bereichen auftreten, durch eine Glockenkurve dargestellt wird. der Residuen: Wenn die Residuen der Regression nicht normalverteilt sind, könnte das bedeuten, dass die Regression nicht linear ist. Eine Möglichkeit, um die Verteilung der Residuen zu prüfen, ist die Verwendung von Normalfit-Plots oder Anderson-Darling-Tests.

Es ist wichtig zu beachten, dass diese Anzeichen nicht zwangsläufig bedeuten, dass die Regression nicht linear ist. Es gibt auch andere Gründe, warum diese Anzeichen auftreten könnten. Es ist wichtig, die spezifischen Eigenschaften der Daten und die Fragestellung zu berücksichtigen, wenn man entscheidet, ob und wie man die Linearität der Regression prüft.

Welche Arten von Regressionen gibt es?

Es gibt verschiedene Arten von Regressionen, die je nach der Art der abhängigen und unabhängigen Variablen und der Form der Beziehung zwischen ihnen verwendet werden. Hier sind einige Beispiele für verschiedene Arten von Regressionen:

Lineare Regression: Die lineare Regression wird verwendet, um die lineare Beziehung zwischen einer abhängigen und einer unabhängigen Variablen zu beschreiben. Das Modell besteht aus einer geraden Regressionslinie, die die Beziehung zwischen den Variablen darstellt.

– Multiple lineare Regression: Die multiple lineare Regression wird verwendet, wenn es mehrere unabhängige Variablen gibt, die die abhängige Variable erklären sollen.

Polynomiale Regression: Die polynomiale Regression wird verwendet, wenn die Beziehung zwischen den Variablen durch eine Kurve und nicht durch eine gerade Linie beschrieben werden kann.

Logistische Regression: Die logistische Regression wird verwendet, wenn die abhängige Variable binär ist, das heißt, sie kann nur zwei mögliche Werte annehmen (z.B. „ja“ oder „nein“). Sie wird häufig verwendet, um Vorhersagen über die Wahrscheinlichkeit von Ereignissen zu treffen.

Es gibt noch weitere Regressionen wie die multinominale Regression, auf die wir hier nicht weiter eingehen möchten.

Was bedeutet R2 bei Regressionen?

Der R2 (auch bekannt als „R²“, „Koeffizient der Determinations-Koeffizient“) ist ein Maß dafür, wie gut ein Regressionsmodell die Variabilität der abhängigen Variable erklärt. Er wird berechnet, indem man den Anteil der Varianz der abhängigen Variable, der durch das Regressionsmodell erklärt wird, durch die Gesamtvarianz der abhängigen Variable teilt.

Der R2 nimmt Werte zwischen 0 und 1 an, wobei ein höherer Wert bedeutet, dass das Regressionsmodell eine bessere Erklärung der Variabilität der abhängigen Variable liefert. Ein R2-Wert von 0 bedeutet, dass das Regressionsmodell keine Erklärung für die Variabilität der abhängigen Variable liefert, während ein R2-Wert von 1 bedeutet, dass das Regressionsmodell die Variabilität der abhängigen Variable vollständig erklärt.

Es ist wichtig zu beachten, dass der R2 nicht immer ein zuverlässiges Maß für die Vorhersagegenauigkeit eines Regressionsmodells ist, insbesondere wenn das Modell auf neuen Daten getestet wird.

Wie viele Beobachtungen braucht man für eine Regression?

Es gibt keine feste Regel, wie viele Beobachtungen man für eine Regression benötigt. Die Anzahl der Beobachtungen, die benötigt werden, hängt von verschiedenen Faktoren ab, wie der Anzahl der unabhängigen Variablen, der Komplexität des Regressionsmodells und der Stärke der Beziehung zwischen den Variablen.

In der Regel sollte man jedoch genügend Beobachtungen haben, um ein repräsentatives Muster der Daten zu erhalten und um sicherzustellen, dass das Modell ausreichend gut an die Daten angepasst wird. Als allgemeine Regel gilt, dass man für jede unabhängige Variable, die man ins Modell einführt, mindestens 10 Beobachtungen haben sollte. Wenn das Modell jedoch sehr komplex ist oder wenn die Beziehung zwischen den Variablen sehr schwach ist, könnten mehr Beobachtungen erforderlich sein.

Es ist wichtig zu beachten, dass man nicht immer so viele Beobachtungen wie möglich haben sollte. In manchen Fällen könnte es sinnvoller sein, weniger Beobachtungen zu haben, aber diese sorgfältig auszuwählen, um sicherzustellen, dass sie relevant und repräsentativ für die Population sind, auf die man sich beziehen möchte.

Über mich: Dr. Peter Merdian

Experte für Neuromarketing und Data Science

Hi, ich bin Peter Merdian und Statistic Hero ist mein Herzensprojekt um Menschen zu helfen, einen einfachen Einstieg in die Statistik zu finden. Ich hoffe, dir gefallen die Anleitungen und du findest nützliche Informationen! Ich selbst habe in Neuromarketing promoviert und liebe datengetriebene Analysen. Vor allem mit komplexen Zahlen. Ich kenne aus eigener Erfahrung all die Probleme, die man als Student im Studium hat. Aus diesem Grund sind dieAnleitungen möglichst praxisorientiert und einfach gehalten. Fühl dich frei, mit deinen eigenen Datensätzen die Anleitungen zu nutzen und spannende Ergebnisse zu berechnen. Ich wünsche dir Erfolg in deinem Studium, deiner Forschung oder auf der Arbeit.
Willst du mir Feedback geben oder mich erreichen? Bitte hier: Dr. Peter Merdian LInkedIn