Rozdział 2 Rozkład empiryczny cech

2.1 Szeregi statystyczne

Dane statystyczne przedstawione w formie tabelarycznej (lub w formie tekstu) nazywa się po polsku często szeregiem statystycznym.

2.1.1 Szereg szczegółowy

Kiedy przedstawiamy wszystkie zebrane informacje bez grupowania, np. w formie kolumny w tabeli lub listy oddzielonej przecinkami mówimy o szeregu szczegółowym. Inna nazwa tego szeregu to szereg wyliczający. Często też mówi się w tym kontekście o „danych surowych”.

Szereg szczegółowy może dotyczyć zarówno danych jakościowych, jak i ilościowych.

2.1.2 Szereg rozdzielczy punktowy

Szereg rozdzielczy to dane pogrupowane. Szereg rozdzielczy punktowy polega na przedstawieniu wszystkich możliwych wartości zmiennej wraz z liczebnością (tzn. informacją, ile razy dana wartość wystąpiła).

Szereg rozdzielczy punktowy może dotyczyć zarówno cech jakościowych, jak i ilościowych dyskretnych.

W przypadku szeregu rozdzielczego nie następuje utrata informacji, tzn. jesteśmy w stanie odtworzyć szereg szczegółowy.

Przykład:

Tabela 2.1: Obwód klatki piersiowej 5738 szkockich żołnierzy. Dane zebrane przez Adolphe'a Queteleta w 1848 r.
Obwód klatki piersiowej w calach Liczba obserwacji
33 3
34 18
35 81
36 185
37 420
38 749
39 1073
40 1079
41 934
42 658
43 370
44 92
45 50
46 21
47 4
48 1

2.1.3 Szereg rozdzielczy przedziałowy

Szereg rozdzielczy przedziałowy to przedstawienie przedziałów wartości wraz z podaną liczebnością.

W przypadku szeregu rozdzielczego przedziałowego następuje utrata informacji; nie jesteśmy w stanie odtworzyć szeregu szczegółowego z szeregu przedziałowego. Szereg rozdzielczy można sporządzać dla cech ilościowych.

Na podstawie szeregu rozdzielczego przedziałowego można stworzyć histogram.

Przykład:

Tabela 2.2: Czas trwania postępowania w I instancji w sądach okręgowych i rejonowych z wyłączeniem spraw wieczystoksięgowych, KRS i Rejestru Zastawów. Dane dotyczą I kwartału 2022 i pochodzą ze strony internetowej https://isws.ms.gov.pl/pl/baza-statystyczna/opracowania-wieloletnie/
Przedział Liczba spraw
do 15 dni 161 328
powyżej 15 dni do 1 mies. 118 435
powyżej 1 do 2 mies. 265 533
powyżej 2 do 3 mies. 263 151
powyżej 3 do 6 miesięcy 309 985
powyżej 6 do 12 miesięcy 141 561
powyżej 12 miesięcy do 2 lat 68 070
powyżej 2 do 3 lat 23 978
powyżej 3 do 5 lat 11 973
powyżej 5 do 8 lat 3 911
ponad 8 lat 2 305

2.2 Wizualizacja cech jakościowych

2.2.1 Wykresy słupkowe

2.2.2 Skumulowane wykresy słupkowe

2.2.3 Wykresy kołowe

2.2.4 Inne wykresy

2.3 Histogram – wizualizacja rozkładu cechy ilościowej

Histogram to wykres, który pozwala poznać kształt rozkładu cechy ilościowej. Stworzenie histogramu wymaga wcześniejszego pogrupowania obserwacji w przedziały klasowe (czyli przygotowania szeregu rozdzielczego przedziałowego). Przedziały zaznacza się na osi X. Dla tak utworzonych przedziałów wyznacza się liczebność obserwacji w poszczególnych przedziałach.

Przedziały są zwykle równej szerokości, jednak jest możliwe przygotowanie przedziałów, których szerokości będą się różnić.

2.3.1 Co jest na osi Y?

W histogramie znaczenie mają pola prostokątów, z których się składa, a ich wysokość jest kwestią wtórną. Jeżeli szerokości przedziałów klasowych są równe, na osi Y mogą znaleźć się po prostu liczebności (w sytuacji równych szerokości przedziałów pola prostokątów są wprost proporcjonalne do ich wysokości) lub udziały w łącznej liczebności zbiorowości (wyrażone jako ułamek lub procent). Jeżeli szerokości przedziałów klasowych histogramu nie są równe, na osi Y nie mogą znaleźć się liczebności, w takiej sytuacji tzw. gęstość częstości (ang. frequency density).

2.3.2 Kształty histogramów

Typowe kształty histogramów:

  • rozkład (w przybliżeniu) symetryczny, jednomodalny

  • rozkład prawostronnie skośny

  • rozkład skrajnie (prawostronnie) asymetryczny

  • rozkład lewostronnie skośny

  • rozkład dwumodalny

  • rozkład równomierny (jednostajny)

2.3.3 Liczba przedziałów klasowych

Istnieją różne reguły dotyczące liczby przedziałów klasowych lub (co jest ściśle powiązane) ich szerokości.

Najważniejszą regułą jest jednak reguła "wzrokowa". Histogram musi dobrze wyglądać: przedziały nie mogą być ani za szerokie (będzie ich wtedy zbyt mało), ani za wąskie (zbyt liczne).

2.3.4 Jądrowy estymator gęstości

2.3.5 Wykres skrzypcowy

2.4 Dystrybuanta empiryczna

2.5 Zadania

Zadanie 2.1 Wykorzystując dane z pliku SpeedRadarData.csv sporządź histogram przedstawiający prędność jednośladów w okolicach radaru. Z czego może wynikać kształt histogramu? Jak się nazywa taki kształt rozkładu?

2.6 Linki

Wizualizacja frakcji (rozkład zmiennych nominalnych)

Histogram — jak liczba/szerokość przedziałów klasowych wpływa na histogram? Symulacja internetowa: https://college.cengage.com/nextbook/statistics/utts_13540/student/html/simulation2_1.html