Statistik: Definition, Arten und Bedeutung

Statistik ist die Erfassung, Beschreibung, Analyse und Ableitung von Schlussfolgerungen aus quantitativen Daten. Menschen, die sich mit Statistik beschäftigen, werden als Statistiker bezeichnet.
Statistik: Definition, Arten und Bedeutung

Inhaltsverzeichnis

Was ist Statistik?

Statistik ist ein Teilgebiet der angewandten Mathematik, das sich mit der Erfassung, Beschreibung, Analyse und Ableitung von Schlussfolgerungen aus quantitativen Daten befasst. Die mathematischen Theorien, die der Statistik zugrunde liegen, stützen sich stark auf die Differential- und Integralrechnung, die lineare Algebra und die Wahrscheinlichkeitsrechnung.

 

Menschen, die sich mit Statistik beschäftigen, werden als Statistiker bezeichnet. Sie befassen sich insbesondere mit der Frage, wie man aus dem Verhalten und anderen beobachtbaren Merkmalen kleiner Stichproben zuverlässige Schlussfolgerungen über große Gruppen und allgemeine Ereignisse ziehen kann. Diese kleinen Stichproben repräsentieren einen Teil der großen Gruppe oder eine begrenzte Anzahl von Fällen eines allgemeinen Phänomens.

 

SCHLUSSFOLGERUNGEN

  • Statistik ist die Untersuchung und Bearbeitung von Daten, einschließlich der Methoden zur Erfassung, Überprüfung, Analyse und Auswertung von Daten.
  • Die beiden Hauptbereiche der Statistik sind die deskriptive und die inferentielle Statistik.
  • Statistiken können auf verschiedenen Ebenen kommuniziert werden, von nicht-numerischen Deskriptoren (Nominal-Ebene) bis hin zu numerischen Werten mit Bezug auf einen Nullpunkt (Verhältnis-Ebene).
  • Für die Erhebung statistischer Daten können verschiedene Stichprobenverfahren verwendet werden, darunter einfache Zufallsstichproben, systematische Stichproben, geschichtete Stichproben oder Gruppenstichproben.
  • Statistiken sind in fast allen Abteilungen eines jeden Unternehmens zu finden und ein fester Bestandteil von Investitionen.

Statistik verstehen

Statistiken werden in praktisch allen wissenschaftlichen Disziplinen eingesetzt, z. B. in den Natur- und Sozialwissenschaften sowie in der Wirtschaft, den Geisteswissenschaften, der Verwaltung und der Produktion. Die Statistik ist im Grunde ein Zweig der angewandten Mathematik, der sich aus der Anwendung mathematischer Werkzeuge, einschließlich Kalkül und linearer Algebra, auf die Wahrscheinlichkeitstheorie entwickelt hat.

 

In der Praxis bedeutet Statistik, dass wir etwas über die Eigenschaften großer Mengen von Objekten oder Ereignissen (a Population) erfahren können, indem wir die Merkmale einer kleineren Anzahl ähnlicher Objekte oder Ereignisse (a Stichprobe) untersuchen. Die Erhebung umfassender Daten über eine gesamte Population ist in vielen Fällen zu kostspielig, schwierig oder unmöglich, daher beginnt die Statistik mit einer Stichprobe, die bequem oder kostengünstig beobachtet werden kann.

 

Statistiker messen und sammeln Daten über die Individuen oder Elemente einer Stichprobe und analysieren diese Daten dann, um beschreibende Statistiken zu erstellen. Anschließend können sie diese beobachteten Merkmale der Stichprobendaten, die korrekt als «Statistiken» bezeichnet werden, verwenden, um Rückschlüsse oder fundierte Vermutungen über die nicht gemessenen Merkmale der breiteren Population, die als Parameter bezeichnet werden, anzustellen.

Die informelle Statistik reicht Jahrhunderte zurück. Eine frühe Aufzeichnung des Briefwechsels zwischen den französischen Mathematikern Pierre de Fermat und Blaise Pascal aus dem Jahr 1654 wird oft als frühes Beispiel für die statistische Wahrscheinlichkeitsanalyse angeführt.

Deskriptive und inferentielle Statistik

Die beiden Hauptbereiche der Statistik sind die deskriptive Statistik, die die Eigenschaften von Stichproben- und Populationsdaten beschreibt, und die inferenzstatistische Statistik, die diese Eigenschaften nutzt, um Hypothesen zu testen und Schlussfolgerungen zu ziehen. Zu den deskriptiven Statistiken gehören Mittelwert (Durchschnitt), Varianz, Schiefe und Kurtosis. Zur Inferenzstatistik gehören lineare Regressionsanalysen, Varianzanalysen (ANOVA), Logit/Probit-Modelle und Nullhypothesentests.

 

Deskriptive Statistik

Die deskriptive Statistik befasst sich hauptsächlich mit der zentralen Tendenz, der Variabilität und der Verteilung von Stichprobendaten. Die zentrale Tendenz ist die Schätzung der Merkmale, ein typisches Element einer Stichprobe oder Grundgesamtheit. Sie umfasst deskriptive Statistiken wie Mittelwert, Median, und Modus.

 

Die Variabilität bezieht sich auf eine Reihe von Statistiken, die zeigen, wie groß die Unterschiede zwischen den Elementen einer Stichprobe oder Grundgesamtheit in Bezug auf die gemessenen Merkmale sind. Sie umfasst Metriken wie Bereich, Varianz und Standardabweichung.

 

Die Verteilung bezieht sich auf die allgemeine «Form» der Daten, die in einem Diagramm wie einem Histogramm oder einem Punktdiagramm dargestellt werden kann, und umfasst Eigenschaften wie die Wahrscheinlichkeitsverteilungsfunktion, Schiefe und Kurtosis. Deskriptive Statistiken können auch Unterschiede zwischen den beobachteten Merkmalen der Elemente eines Datensatzes beschreiben. Sie können uns helfen, die kollektiven Eigenschaften der Elemente einer Datenstichprobe zu verstehen, und bilden die Grundlage für das Testen von Hypothesen und das Treffen von Vorhersagen mithilfe der Inferenzstatistik.

 

Inferentielle Statistik

Die Inferenzstatistik ist ein Instrument, das Statistiker verwenden, um aus den Merkmalen einer Stichprobe Schlussfolgerungen über die Merkmale einer Grundgesamtheit zu ziehen und zu bestimmen, wie sicher sie sich der Zuverlässigkeit dieser Schlussfolgerungen sein können. Auf der Grundlage des Stichprobenumfangs und der Verteilung können Statistiker die Wahrscheinlichkeit berechnen, dass Statistiken, die die zentrale Tendenz, die Variabilität, die Verteilung und die Beziehungen zwischen Merkmalen innerhalb einer Datenstichprobe messen, ein genaues Bild der entsprechenden Parameter der Gesamtpopulation, aus der die Stichprobe gezogen wurde, vermitteln.

 

Inferenzstatistiken werden verwendet, um Verallgemeinerungen über große Gruppen zu treffen, wie z. B. die Schätzung der durchschnittlichen Nachfrage nach einem Produkt durch die Erhebung der Kaufgewohnheiten einer Stichprobe von Verbrauchern oder der Versuch, zukünftige Ereignisse vorherzusagen. Dies kann bedeuten, dass die zukünftige Rendite eines Wertpapiers oder einer Anlageklasse auf der Grundlage der Renditen in einem Stichprobenzeitraum prognostiziert wird.

 

Die Regressionsanalyse ist eine weit verbreitete Technik der statistischen Schlussfolgerung, mit der die Stärke und die Art der Beziehung (die Korrelation) zwischen einer abhängigen Variablen und einer oder mehreren erklärenden (unabhängigen) Variablen bestimmt werden kann. Das Ergebnis eines Regressionsmodells wird häufig auf statistische Signifikanz untersucht, d. h. auf die Behauptung, dass ein durch Tests oder Experimente gewonnenes Ergebnis wahrscheinlich nicht zufällig oder durch Zufall entstanden ist. Es ist wahrscheinlich auf eine bestimmte Ursache zurückzuführen, die aus den Daten hervorgeht.

Statistische Signifikanz ist wichtig für akademische Disziplinen oder Praktiker, die stark auf die Analyse von Daten und Forschung angewiesen sind.

Mittelwert, Median und Modus

Die Begriffe «Mittelwert», «Median» und «Modus» fallen unter den Begriff «zentrale Tendenz». Sie beschreiben ein Element, das in einer bestimmten Stichprobengruppe typisch ist. Sie können den mittleren Deskriptor finden, indem Sie die Zahlen in der Gruppe addieren und das Ergebnis durch die Anzahl der Beobachtungen des Datensatzes teilen.

 

Die mittlere Zahl in der Menge ist der Median. Die Hälfte aller enthaltenen Zahlen ist höher als der Median, die andere Hälfte ist niedriger. Der Medianwert eines Hauses in einem Viertel wäre 350.000 $, wenn dort fünf Häuser mit einem Wert von 500.000 $, 400.000 $, 350.000 $, 325.000 $ und 300.000 $ stehen würden. Zwei Werte sind höher und zwei sind niedriger.

 

Der Modus gibt die Zahl an, die zwischen dem höchsten und dem niedrigsten Wert liegt. Sie kommt im Datensatz am häufigsten vor.

 

Statistische Daten verstehen

Der Ursprung der Statistik liegt in den Variablen. Eine Variable ist ein Datensatz, der gezählt werden kann und ein Merkmal oder eine Eigenschaft eines Artikels kennzeichnet. Ein Auto kann zum Beispiel Variablen wie Marke, Modell, Baujahr, Kilometerstand, Farbe oder Zustand haben. Durch die Kombination der Variablen in einem Datensatz, z. B. die Farben aller Autos auf einem bestimmten Parkplatz, ermöglicht uns die Statistik, Trends und Ergebnisse besser zu verstehen.

 

Es gibt zwei Haupttypen von Variablen:

 

Erstens handelt es sich bei qualitativen Variablen um spezifische Attribute, die häufig nicht nummerisch sind. Viele der im Auto-Beispiel genannten Beispiele sind qualitativ. Andere Beispiele für qualitative Variablen in der Statistik sind das Geschlecht, die Augenfarbe oder der Geburtsort. Qualitative Daten werden meist verwendet, um zu bestimmen, wie viel Prozent eines Ergebnisses bei einer bestimmten qualitativen Variablen auftreten. Wenn man zum Beispiel herausfinden will, wie viel Prozent der Frauen ein Unternehmen besitzen, werden qualitative Daten analysiert.

 

Die zweite Art von Variablen in der Statistik sind quantitative Variablen. Quantitative Variablen werden numerisch untersucht und haben nur dann Gewicht, wenn es sich um einen nicht-numerischen Deskriptor handelt. Ähnlich wie bei der quantitativen Analyse sind diese Informationen in Zahlen verwurzelt. Im obigen Beispiel mit dem Auto ist der Kilometerstand eine quantitative Variable, aber die Zahl 60.000 hat keinen Wert, es sei denn, man versteht, dass es sich um die Gesamtzahl der gefahrenen Kilometer handelt.

 

Quantitative Variablen können in zwei weitere Kategorien unterteilt werden. Erstens haben diskrete Variablen in der Statistik ihre Grenzen und lassen darauf schließen, dass es Lücken zwischen potenziellen diskreten Variablenwerten gibt. Die Anzahl der in einem Fußballspiel erzielten Punkte ist eine diskrete Variable, weil:

 
  1. Es darf keine Dezimalstellen geben.
  2. Es ist unmöglich, dass eine Mannschaft nur einen Punkt erzielt.
 

In der Statistik werden auch kontinuierliche quantitative Variablen verwendet. Diese Werte verlaufen entlang einer Skala. Diskrete Werte haben ihre Grenzen, aber kontinuierliche Variablen werden oft in Dezimalwerten gemessen. Bei der Messung der Körpergröße von Fußballspielern kann jeder Wert innerhalb der möglichen Grenzen ermittelt werden, und die Körpergröße kann bis auf 1/16 Zoll genau gemessen werden, wenn nicht sogar noch weiter.

 

Statistiker können verschiedene Titel und Positionen innerhalb eines Unternehmens bekleiden. Die durchschnittliche Gesamtvergütung für einen Statistiker mit ein bis drei Jahren Erfahrung betrug im Dezember 2023 81.885 $. Mit 15 Jahren Erfahrung stieg sie auf 109.288 $.

Statistische Ebenen der Messung

Nach der Analyse von Variablen und Ergebnissen ergeben sich mehrere Ebenen der Messung. Die Statistik kann Ergebnisse auf vier Arten quantifizieren.

 

Messung auf Nominalniveau

Es gibt keinen numerischen oder quantitativen Wert, und die Qualitäten werden nicht geordnet. Messungen auf Nennebene sind stattdessen einfach Bezeichnungen oder Kategorien, die anderen Variablen zugewiesen werden. Am einfachsten ist es, sich Messungen auf Nennebene als nicht-numerische Fakten über eine Variable vorzustellen.

 

Beispiel: Der Name des im Jahr 2020 gewählten Präsidenten war Joseph Robinette Biden Jr.

 

Messung auf Ordnungsebene

Die Ergebnisse können in einer Reihenfolge angeordnet werden, aber alle Datenwerte haben den gleichen Wert oder die gleiche Gewichtung. Obwohl sie numerisch sind, können Messungen auf Ordnungsebene in der Statistik nicht gegeneinander abgewogen werden, da nur die Position des Datenpunktes zählt. Ordinale Ebenen werden häufig in nichtparametrische Statistiken aufgenommen und mit der gesamten Variablengruppe verglichen.

 

Beispiel: Der Amerikaner Fred Kerley war bei den Olympischen Spielen 2020 in Tokio der zweitschnellste Mann, gemessen an der 100-Meter-Sprintzeit.

 

Messung auf Intervall-Ebene

Die Ergebnisse können in einer bestimmten Reihenfolge angeordnet werden, aber die Unterschiede zwischen den Datenwerten können nun eine Bedeutung haben. Zwei Datenpunkte werden häufig zum Vergleich des Zeitablaufs oder der sich ändernden Bedingungen innerhalb eines Datensatzes verwendet. Oft gibt es keinen «Ausgangspunkt» für den Bereich der Datenwerte, und Kalenderdaten oder Temperaturen haben möglicherweise keinen aussagekräftigen inneren Nullwert.

 

Beispiel: Die Inflation erreichte im Mai 2022 8,6%. Das letzte Mal, dass die Inflation so hoch war, war im Dezember 1981.

 

Messung auf Ratio-Ebene

Die Ergebnisse können geordnet werden, und die Unterschiede zwischen den Datenwerten haben nun eine Bedeutung. Es gibt jedoch einen Ausgangspunkt oder «Nullwert», der verwendet werden kann, um einem statistischen Wert einen weiteren Wert zu verleihen. Das Verhältnis zwischen den Datenwerten hat eine Bedeutung, einschließlich des Abstands zum Nullwert.

 

Beispiel: Die niedrigste meteorologische Temperatur, die in der Antarktis gemessen wurde, lag bei -128,6 Grad Celsius.

 

Statistik Stichprobentechniken

Oft wäre es nicht möglich, Daten von jedem Datenpunkt innerhalb einer Population zu sammeln, um statistische Informationen zu erhalten. Die Statistik stützt sich stattdessen auf verschiedene Stichprobenverfahren, um eine repräsentative Teilmenge der Grundgesamtheit zu erstellen, die leichter zu analysieren ist. In der Statistik gibt es mehrere Hauptarten von Stichproben.

 

Einfache Zufallsstichprobe

Bei der einfachen Zufallsstichprobe hat jedes Mitglied der Grundgesamtheit die gleiche Chance, für die Analyse ausgewählt zu werden. Die gesamte Grundgesamtheit wird als Grundlage für die Stichprobenziehung verwendet, und jeder Zufallsgenerator, der auf dem Zufallsprinzip beruht, kann die Stichprobenelemente auswählen. Zum Beispiel werden 100 Personen in einer Reihe aufgestellt und 10 nach dem Zufallsprinzip ausgewählt.

 

Systemische Probenahme

Die systematische Stichprobe erfordert ebenfalls eine Zufallsstichprobe, deren Technik jedoch leicht modifiziert ist, um sie einfacher durchzuführen. Es wird eine einzige Zufallszahl generiert, und die Personen werden dann in einem bestimmten regelmäßigen Abstand ausgewählt, bis der Stichprobenumfang vollständig ist. Zum Beispiel werden 100 Personen in einer Reihe aufgestellt und nummeriert. Das siebte Individuum wird für die Stichprobe ausgewählt, gefolgt von jedem weiteren neunten Individuum, bis 10 Stichprobenelemente ausgewählt worden sind.

 

Stratifizierte Stichproben

Die geschichtete Stichprobenziehung erfordert eine bessere Kontrolle über Ihre Stichprobe. Die Grundgesamtheit wird auf der Grundlage ähnlicher Merkmale in Untergruppen unterteilt. Anschließend wird berechnet, wie viele Personen aus jeder Untergruppe die Gesamtpopulation repräsentieren würden. Zum Beispiel werden 100 Personen nach Geschlecht und Rasse gruppiert. Dann wird aus jeder Untergruppe eine Stichprobe entnommen, die im Verhältnis dazu steht, wie repräsentativ diese Untergruppe für die Grundgesamtheit ist.

 

Cluster-Stichproben

Auch bei der Klumpenstichprobe werden Untergruppen gebildet, die jedoch für die Grundgesamtheit repräsentativ sein sollten. Die gesamte Untergruppe wird nach dem Zufallsprinzip ausgewählt, anstatt einzelne Personen innerhalb einer Untergruppe nach dem Zufallsprinzip auszuwählen.

Sie sind sich nicht sicher, welcher Spieler der Major League Baseball im vergangenen Jahr den Preis für den wertvollsten Spieler hätte erhalten sollen? Bei der Verleihung des Preises für den besten Spieler werden häufig Statistiken herangezogen, um den Wert zu bestimmen. Statistiken können den Schlagdurchschnitt, die Anzahl der getroffenen Homeruns und gestohlene Bases umfassen.

Verwendung der Statistik

Statistiken spielen eine wichtige Rolle im Finanzwesen, bei Investitionen, im Geschäftsleben und in der Welt. Viele der Informationen, die Sie sehen, und der Daten, die Sie erhalten, stammen aus Statistiken, die in allen Bereichen eines Unternehmens verwendet werden.

 
  • Zu den statistischen Daten gehören das durchschnittliche Handelsvolumen, das 52-Wochen-Tief, das 52-Wochen-Hoch, das Beta und die Korrelation zwischen Anlageklassen oder Wertpapieren.
  • Zu den Wirtschaftsstatistiken gehören das Bruttoinlandsprodukt (BIP), die Arbeitslosigkeit, die Verbraucherpreise, die Inflation und andere Messgrößen für das Wirtschaftswachstum.
  • Zu den Marketingstatistiken gehören Konversionsraten, Klickraten, Suchmengen und Metriken für soziale Medien.
  • Zu den Statistiken im Rechnungswesen gehören Liquiditäts-, Solvenz- und Rentabilitätskennzahlen im Zeitverlauf.
  • Zu den Statistiken in der Informationstechnologie gehören die Bandbreite, die Netzkapazitäten und die Hardware-Logistik.
  • Zu den Statistiken im Personalwesen gehören die Mitarbeiterfluktuation, die Mitarbeiterzufriedenheit und die durchschnittliche Vergütung im Vergleich zum Markt.

Warum ist Statistik wichtig?

Statistiken liefern die Informationen, um zu erklären, wie Dinge funktionieren. Sie werden verwendet, um Forschung zu betreiben, Ergebnisse zu bewerten, kritisches Denken zu entwickeln und fundierte Entscheidungen zu treffen. Mit Hilfe der Statistik kann man in fast jedem Studienbereich untersuchen, warum etwas passiert, wann es passiert und ob eine Wiederholung vorhersehbar ist.

Was ist der Unterschied zwischen deskriptiver und inferentieller Statistik?

Deskriptive Statistiken werden verwendet, um die Merkmale einer Stichprobe oder eines Datensatzes zu beschreiben oder zusammenzufassen, z. B. den Mittelwert, die Standardabweichung oder die Häufigkeit einer Variablen. In der Inferenzstatistik wird eine beliebige Anzahl von Techniken eingesetzt, um Variablen in einem Datensatz miteinander in Beziehung zu setzen. Ein Beispiel wäre die Korrelations- oder Regressionsanalyse. Diese können dann zur Schätzung von Prognosen oder zur Ableitung von Kausalität verwendet werden.

Wer nutzt die Statistik?

Statistiken werden in einer Vielzahl von Anwendungen und Berufen eingesetzt. Statistiken werden immer dann erstellt, wenn Daten gesammelt und analysiert werden. Das kann von Regierungsbehörden über akademische Forschung bis hin zur Analyse von Investitionen reichen.

Wie werden Statistiken in Wirtschaft und Finanzen verwendet?

Wirtschaftswissenschaftler sammeln und untersuchen alle möglichen Daten, von Verbraucherausgaben über Wohnungsbau bis hin zu Inflation und BIP-Wachstum. Im Finanzbereich erheben Analysten und Investoren Daten über Unternehmen, Branchen, Stimmungen und Marktdaten zu Preisen und Volumen. Die Verwendung von Schlussfolgerungsstatistiken in diesen Bereichen wird als Ökonometrie bezeichnet. Mehrere wichtige Finanzmodelle, vom CAPM (Capital Asset Pricing Model) bis zur modernen Portfoliotheorie (MPT) und dem Optionspreismodell von Black-Scholes, beruhen auf statistischen Schlussfolgerungen.

 

Die Quintessenz

Statistik ist die Praxis der Analyse von Informationen, die auf den ersten Blick widersprüchlich oder unzusammenhängend erscheinen mögen. Sie kann zu einer soliden Karriere als Statistikerin oder Statistiker führen, aber sie kann auch im Alltag eine nützliche Messgröße sein – zum Beispiel, wenn Sie die Gewinnchancen Ihrer Lieblingsmannschaft beim Super Bowl analysieren, bevor Sie eine Wette abschließen, die Rentabilität einer Investition einschätzen oder feststellen, ob Ihnen für ein Produkt oder eine Dienstleistung zu viel berechnet wird.