19 Тесты хи-квадрат

Автор

И.С. Поздняков

Тесты хи-квадрат – это целый набор статистических методов для исследования связи между переменными. Значения делятся по группам

\[\chi^2 = \sum^n_{i = 1} \frac{{(O_i - E_i)^2}}{{E_i}}\] \(E_i\) – ожидаемая частота, \(O_i\) – наблюдаемая частота.

Соответственно, чем больше расхождения между ожидаемым распределением по группам и реальным, тем больше статистика \(\chi^2\) и тем меньше p-value.

19.0.1 Тест хи-квадрат Пирсона на независимость

Тест хи-квадрат Пирсона на независимость – это статистический метод, используемый для определения того, есть ли статистическая связь между категориальными переменными.

Например, с помощью этого теста мы можем посмотреть, различается ли распределение по полу супергероев у двух основных издателей супергероики – Marvel Comics и DC Comics.

library(tidyverse)

heroes <- read_csv("https://raw.githubusercontent.com/Pozdniakov/tidy_stats/master/data/heroes_information.csv",
                   na = c("-", "-99", "NA", " "))

Warning: One or more parsing issues, call `problems()` on your data frame for details,
e.g.:
  dat <- vroom(...)
  problems(dat)

Для начала нам нужно создать таблицу сопряженности (contingency table) для двух переменных с помощью встроенной функции table(). Эта функция похожа на count() из пакета {dplyr}.

gender_publisher <- heroes %>%
  drop_na(Gender) %>%
  filter(Publisher %in% c("Marvel Comics", "DC Comics")) %>%
  select(Gender, Publisher)

gender_publisher

# A tibble: 577 × 2
   Gender Publisher    
   <chr>  <chr>        
 1 Male   Marvel Comics
 2 Male   DC Comics    
 3 Male   Marvel Comics
 4 Male   Marvel Comics
 5 Male   Marvel Comics
 6 Male   DC Comics    
 7 Female Marvel Comics
 8 Male   Marvel Comics
 9 Male   Marvel Comics
10 Male   Marvel Comics
# ℹ 567 more rows

table(gender_publisher)

        Publisher
Gender   DC Comics Marvel Comics
  Female        61           111
  Male         153           252

С помощью дженерик-функции summary() примененной на построенной таблице сопряженности можно посчитать тест на независимость хи-квадрат.

summary(table(gender_publisher))

Number of cases in table: 577 
Number of factors: 2 
Test for independence of all factors:
    Chisq = 0.27673, df = 1, p-value = 0.5988

То же самое можно сделать и с помощью специальной функции chisq.test():

chisq.test(table(gender_publisher))


    Pearson's Chi-squared test with Yates' continuity correction

data:  table(gender_publisher)
X-squared = 0.18649, df = 1, p-value = 0.6659

Как можно заметить, в этом случае p-value несколько отличается. Дело в том, что p-value для хи-квадрат рассчитывается по непрерывному хи-квадрат распределению, тогда как хи-квадрат статистики распределены таким образом только в случае достаточно большой выборке. Чтобы скорретировать на малый размер групп используется поправка на непрерывность Йейтса.

chisq.test(table(gender_publisher), correct = FALSE)


    Pearson's Chi-squared test

data:  table(gender_publisher)
X-squared = 0.27673, df = 1, p-value = 0.5988

Другой подход для более точного подсчета p-value – это использование точного теста Фишера:

fisher.test(table(gender_publisher))


    Fisher's Exact Test for Count Data

data:  table(gender_publisher)
p-value = 0.6381
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
 0.6120819 1.3321610
sample estimates:
odds ratio 
 0.9053112