VARIANCE - Excel & Google Tabellen

Dieses Tutorial zeigt, wie Sie das Excel VARIANCE-Funktion in Excel, um die Varianz basierend auf einer bestimmten Stichprobe zu schätzen.

VARIANCE-Funktionsübersicht

Die Funktion VARIANCE Berechnet die Schätzungsvarianz basierend auf einer gegebenen Stichprobe.

Um die Excel-Arbeitsblattfunktion VARIANCE zu verwenden, wählen Sie eine Zelle aus und geben Sie Folgendes ein:

(Beachten Sie, wie die Formeleingaben angezeigt werden)

VARIANCE-Funktion Syntax und Eingaben:

1 =VAR(Zahl1,[Zahl2],…)

Zahlen- Werte, um die Varianz zu erhalten

So berechnen Sie die Abweichung in Excel

Die Varianz gibt an, wie weit die Werte in einem Datensatz vom Mittelwert abweichen. Mathematisch gesehen ist die Varianz der Durchschnitt der quadrierten Differenz jeder Punktzahl vom Mittelwert (aber dazu kommen wir gleich).

Excel bietet Ihnen eine Reihe von Funktionen zur Berechnung der Varianz - VAR.S, VAR.P, VARA, VARPA und zwei ältere Funktionen, VAR und VARP.

Bevor wir uns mit diesen Funktionen befassen und lernen, wie man sie verwendet, sprechen wir über die Varianz und wie sie berechnet wird.

Was ist die Varianz?

Bei der Analyse von Daten besteht ein üblicher erster Schritt darin, den Mittelwert zu berechnen. Dies ist natürlich eine nützliche Statistik zum Berechnen, aber sie gibt Ihnen kein vollständiges Bild davon, was mit Ihren Daten vor sich geht.

Nehmen Sie den folgenden Datensatz, der eine Gruppe von Testergebnissen mit einer Punktzahl von 100 sein könnte:

1 48,49,50,51,52

Der Mittelwert dieses Bereichs beträgt 50 (summiere die Zahlen und dividiere durch n, wobei n die Anzahl der Werte ist).

Nehmen Sie als Nächstes die folgenden Testergebnisse:

1 10,25,50,75,90

Der Mittelwert dieses Bereichs ist Auch 50 - aber offensichtlich haben wir hier zwei sehr unterschiedliche Datenbereiche.

Der Mittelwert allein kann Ihnen nichts darüber sagen, wie verteilt die Werte sind. Es sagt Ihnen nicht, ob die Werte alle wie in den ersten Beispielen gebündelt oder wie im zweiten weit auseinander liegen. Die Varianz kann Ihnen dabei helfen, dies zu lernen.

Die Varianz wird auch als Basis für eine Reihe komplexerer statistischer Verfahren verwendet.

Wie die Varianz berechnet wird

Lassen Sie uns ein einfaches Beispiel durcharbeiten und die Varianz von Hand berechnen. Auf diese Weise wissen Sie, was hinter den Kulissen vor sich geht, wenn Sie die Varianzfunktionen von Excel tatsächlich in die Tat umsetzen.

Angenommen, wir haben einen Datensatz, der drei Spielkarten repräsentiert, eine 4, eine 6 und 8.

Um die Varianz zu berechnen, gehen Sie wie folgt vor:

1) Berechnen Sie den Mittelwert

Zuerst berechnen wir den Mittelwert. Wir wissen, dass unser Datenbereich 4, 6, 8 beträgt, also wird der Mittelwert sein:

1 (6 + 4 + 8) / 3 = 6

Ich habe dies unten mit der Excel-AVERAGE-Funktion <> bestätigt:

1 =MITTEL(C4:C6)

2) Subtrahiere den Mittelwert von jedem Wert im Datensatz

Als nächstes ziehen wir den Mittelwert von jedem unserer Werte ab.

Ich habe das mit folgender Formel gemacht:

1 =C4-$H$4

Der Mittelwert wird in H4 gespeichert, also subtrahiere ich ihn einfach von jedem Wert in der Tabelle. Die Dollarzeichen hier "sperren" einfach diesen Zellbezug auf H4, so dass er beim Kopieren in die Spalte gleich bleibt.

Die Ergebnisse:

Wir haben:

123 4 - 6 = -26 - 6 = 08 - 6 = 2

Wir müssen den Durchschnitt dieser Differenzen aus dem Mittelwert ermitteln, aber der Mittelwert dieser drei Werte ist Null! Wir müssen also die Unterschiede hervorheben, was wir tun, indem wir sie quadrieren.

3) Quadrieren Sie die Unterschiede

Fügen wir eine neue Spalte hinzu und quadrieren die Zahlen in der Spalte D:

1 =D4*D4

Gut, das ist besser. Da sich die Differenzen nun nicht zu Null ausmitteln, können wir die Varianz berechnen.

4) Berechnen Sie den Durchschnitt der quadrierten Differenzen

Hier treffen wir auf eine Weggabelung. Es gibt zwei Möglichkeiten, die Varianz zu berechnen, und die von Ihnen verwendete hängt von der Art der Daten ab, die Sie haben.

  • Wenn Sie verwenden Bevölkerungsdaten, du nimmst einfach den Mittelwert wie gewohnt (summiere die Werte und dividiere durch n)
  • Wenn Sie verwenden Beispieldaten, summiere die Werte und dividiere durch n-1

Bevölkerungsdaten bedeuten, dass Sie über die Gesamtheit der benötigten Daten verfügen. Wenn Sie beispielsweise das Durchschnittsalter der Lehrer an einer bestimmten Schule und die Altersdaten für jeden einzelnen Lehrer an dieser Schule haben möchten, haben Sie Bevölkerungsdaten.

Stichprobendaten bedeuten, dass Sie nicht alle Ihre Daten haben, sondern nur eine Stichprobe aus einer größeren Population. Wenn Sie also das Durchschnittsalter der Lehrer im ganzen Land ermitteln möchten und nur Daten zu Lehrern an einer Schule haben, haben Sie Beispieldaten.

In unserem Beispiel haben wir Bevölkerungsdaten. Wir interessieren uns nur für unsere drei Karten – das ist die Bevölkerung, und wir haben keine Stichprobe von ihnen genommen. Wir können also einfach den Durchschnitt der quadrierten Differenzen auf normale Weise nehmen:

1 =MITTEL(E4:E8)

Die Varianz unserer Population beträgt also 2,666.

Wenn das war Beispieldaten (vielleicht hatten wir diese drei Karten aus einem größeren Set gezogen), würden wir den Durchschnitt wie folgt berechnen:

1 Stichprobenvarianz = (4 + 0 + 4) / (3 - 1)

Oder:

1 Stichprobenvarianz = 8 / 2 = 4

Warum mit Beispieldaten durch n-1 dividieren, anstatt nur durch n?

Die kurze Antwort auf diese Frage lautet: „Weil es die richtige Antwort gibt“. Aber ich kann mir vorstellen, dass du ein bisschen mehr willst! Dies ist ein komplexes Thema, daher gebe ich hier nur einen kurzen Überblick.

Stellen Sie sich das so vor: Wenn Sie eine Stichprobe von Daten aus einer Grundgesamtheit ziehen, liegen diese Werte tendenziell näher am Mittelwert der Stichprobe als sie im Durchschnitt sind Population.

Das heißt, wenn Sie nur durch n dividieren, unterschätzen Sie die Populationsvarianz ein wenig. Eine Division durch n-1 korrigiert dies ein wenig.

Mit unserem Set von drei Karten sind wir an einem guten Ort, um diese Theorie zu testen. Da es nur drei Karten gibt, können wir möglicherweise eine kleine Anzahl von Proben nehmen.

Nehmen wir Proben von zwei Karten. Wir wählen eine Karte aus, legen sie zurück, mischen und wählen dann eine andere Karte. Das bedeutet, dass wir neun Kombinationen von zwei Karten auswählen können.

Mit nur neun möglichen Stichproben können wir jede mögliche Stichprobenvarianz mit beiden Methoden (dividieren durch n und dividieren durch n-1) berechnen, den Durchschnitt daraus bilden und sehen, welche uns die richtige Antwort gibt.

In der Tabelle unten habe ich alles aufgelistet. Jede Reihe der Tabelle ist eine andere Stichprobe, und die Spalten B und C zeigen die beiden Karten, die in jeder Stichprobe gezogen wurden. Dann habe ich zwei weitere Spalten hinzugefügt: eine, in der ich die Varianz dieser Stichprobe von zwei Karten berechnet habe, indem ich durch n geteilt habe, und eine andere, in der ich durch n - 1 geteilt habe.

Schau mal:

Rechts neben der Tabelle habe ich die Mittelwerte der Spalten D und E angezeigt.

Der Durchschnitt von Spalte D ergibt bei Division durch n eine Varianz von 1,333.

Der Durchschnitt von Spalte E ergibt bei Division durch n-1 eine Varianz von 2,666.

Aus unserem vorherigen Beispiel wissen wir bereits, dass die Varianz der Grundgesamtheit 2,666 beträgt. Die Division durch n-1 bei der Verwendung von Stichprobendaten gibt uns also genauere Schätzungen.

Die Excel-Funktionen zur Berechnung der Varianz

Nachdem Sie nun ein Beispiel für die Berechnung der Varianz gesehen haben, gehen wir zu den Excel-Funktionen über.

Hier haben Sie mehrere Möglichkeiten:

  • P gibt die Varianz für Bevölkerungsdaten zurück (mit der Methode "Divide by n")
  • S gibt die Varianz für Beispieldaten zurück (dividiert durch n-1)
  • VAR ist eine ältere Funktion, die genauso funktioniert wie VAR.S
  • VARA ist identisch mit VAR.S, enthält jedoch Textzellen und boolesche Werte
  • VARPA ist identisch mit VAR.P, enthält jedoch Textzellen und boolesche Werte

Lassen Sie uns diese einzeln durchgehen.

Die Excel VAR.P-Funktion

VAR.P berechnet die Varianz für Bevölkerungsdaten (unter Verwendung der Methode der Division durch n). Verwenden Sie es so:

1 =VAR.P(C4:C6)

In VAR.P definieren Sie nur ein Argument: den Datenbereich, für den Sie die Varianz berechnen möchten. In unserem Fall sind das die Kartenwerte in C4:C6.

Wie Sie oben sehen, gibt VAR.P 2,666 für unser Set aus drei Karten zurück. Dies ist derselbe Wert, den wir zuvor von Hand berechnet haben.

Beachten Sie, dass VAR.P Zellen vollständig ignoriert, die Text oder boolesche Werte (TRUE/FALSE) enthalten. Wenn Sie diese einschließen müssen, verwenden Sie stattdessen VARPA.

Die Excel VAR.S-Funktion

VAR.S berechnet die Varianz für Stichprobendaten (dividiert durch n-1). Sie verwenden es so:

1 =VAR.S(C4:C6)

Auch hier gibt es nur ein Argument - Ihren Datenbereich.

In diesem Fall gibt VAR.S 4 zurück. Den gleichen Wert haben wir in Schritt 4 erhalten, als wir die obige manuelle Berechnung durchgeführt haben.

VAR.S ignoriert Zellen vollständig, die Text oder boolesche Werte (TRUE/FALSE) enthalten. Wenn Sie diese einschließen müssen, verwenden Sie stattdessen VARA.

Die Excel-VAR-Funktion

VAR ist völlig äquivalent zu VAR.S: Es berechnet die Varianzen für Stichprobendaten (unter Verwendung der n-1-Methode). So verwenden Sie es:

1 =VAR(C4:C6)

VAR ist eine „Kompatibilitätsfunktion“. Dies bedeutet, dass Microsoft gerade dabei ist, diese Funktion aus Excel zu entfernen. Im Moment ist es noch verfügbar, aber Sie sollten stattdessen VAR.S verwenden, damit Ihre Tabellenkalkulationen mit zukünftigen Versionen von Excel kompatibel bleiben.

Die Excel VARA-Funktion

VARA gibt auch die Varianz von Stichprobendaten zurück, weist jedoch einige wesentliche Unterschiede zu VAR und VAR.S auf. Es bezieht nämlich Boolesche und Textwerte in seine Berechnung mit ein:

  • TRUE-Werte werden als 1 . gezählt
  • FALSE-Werte werden als 0 gezählt
  • Textstrings werden als 0 gezählt

So verwenden Sie es:

1 =VARA(C4:C11)

Wir haben der Tabelle fünf weitere Zeilen hinzugefügt: J, Q, K, TRUE und FALSE. Spalte D zeigt, wie VARA diese Werte interpretiert.

Da wir jetzt eine neue Charge niedriger Werte in unserer Tabelle haben, hat sich die Varianz auf 10,268 erhöht.

Die Excel-VARPA-Funktion

VARPA berechnet die Varianz für Bevölkerungsdaten. Es ist ähnlich wie VAR.P, außer dass es auch boolesche Werte und Textzeichenfolgen in die Berechnung einbezieht:

  • TRUE-Werte werden als 1 . gezählt
  • FALSE-Werte werden als 0 gezählt
  • Textstrings werden als 0 gezählt

Sie verwenden es so:

1 =VARPA(C4:C12)

Wir haben der Tabelle fünf weitere Zeilen hinzugefügt: J, Q, K, TRUE und FALSE. Spalte D zeigt, wie VARPA diese Werte interpretiert.

Durch das Hinzufügen dieser Gruppe niedrigerer Werte zu den Daten hat sich die Varianz auf 8,984 erhöht.

VARIANCE-Funktion in Google Tabellen

Die CORREL-Funktion funktioniert in Google Sheets genauso wie in Excel:

Sie werden die Entwicklung der Website helfen, die Seite mit Ihren Freunden teilen

wave wave wave wave wave