Статистика — раздел математики, занимающийся сбором, анализом, интерпретацией и представлением данных. Это мощный инструмент для понимания окружающего нас мира, помогающий принимать решения на основе данных, а не предположений.
Существует два основных раздела статистики: описательная статистика и выводная статистика .
Меры центральной тенденции используются для суммирования набора данных путем определения центральной позиции в этом наборе данных. Наиболее распространенными мерами являются среднее значение, медиана и мода.
Меры вариации описывают, как данные рассеиваются или распространяются. Наиболее распространенными мерами являются диапазон, дисперсия и стандартное отклонение.
Выводная статистика делает выводы из данных, которые подвержены случайным вариациям. Это включает в себя ошибки наблюдения, вариацию выборки и т. д. Речь идет о выводах о популяции на основе выборки.
Проверка гипотез — это метод статистического вывода. Он используется для определения того, подтверждают ли данные определенную гипотезу или нет. Это включает сравнение p-значения или наблюдаемой значимости с заранее определенным уровнем значимости, часто 0,05.
Доверительные интервалы — это диапазон значений, полученных из данных выборки, которые, как полагают, содержат значение неизвестного параметра популяции на определенном уровне достоверности. Например, 95% доверительный интервал для среднего значения будет означать, что если бы одна и та же популяция была выбрана несколько раз и интервалы были рассчитаны, то приблизительно 95% этих интервалов содержали бы истинное среднее значение популяции.
Регрессионный анализ — это статистический метод, который исследует взаимосвязь между двумя или более переменными. Например, линейная регрессия может использоваться для прогнозирования значения одной переменной на основе значения другой. Уравнение для простой линейной линии регрессии имеет вид \(y = \beta_0 + \beta_1x\) , где \(y\) — зависимая переменная, \(x\) — независимая переменная, а \(\beta_0\) и \(\beta_1\) — коэффициенты, представляющие y-пересечение и наклон линии соответственно.
Сбор данных является важнейшим этапом в процессе статистического анализа. Данные должны быть собраны надлежащим образом, чтобы гарантировать, что результаты являются достоверными и надежными. Распространенные методы включают опросы, эксперименты и наблюдательные исследования.
Вероятность играет основополагающую роль в статистике, поскольку она позволяет количественно оценить неопределенность. Вероятность можно рассматривать как вероятность того, что событие произойдет, и она варьируется от 0 (невозможно) до 1 (определенно).
Основная формула вероятности : P(A) = Количество благоприятных исходов ∕ Общее количество возможных исходов.
Где:
Одним из важных правил является Правило сложения , которое гласит, что вероятность наступления любого из двух или более взаимоисключающих событий равна сумме их индивидуальных вероятностей. Формула имеет \(P(A \textrm{ или } B) = P(A) + P(B)\) , предполагая, что \(A\) и \(B\) являются взаимоисключающими.
Другим важным понятием является Правило умножения , используемое при вычислении вероятности двух или более независимых событий, происходящих вместе. Формула имеет \(P(A \textrm{ и } B) = P(A) \times P(B)\) .
Понимание этих концепций и инструментов статистики может дать людям возможность принимать обоснованные решения на основе данных, а не предположений. Это закладывает основу для анализа сложных наборов данных, внося значительный вклад в достижения в различных областях, таких как экономика, наука и общественное здравоохранение.