С помощью чего можно проверить гипотезу
Интуитивное объяснение проверки гипотез и p-значение
Привет, Хабр! Представляю вашему вниманию перевод статьи «An intuitive explanation of Hypothesis Testing and P-Values» автора Joos Korstanje.
Несколько лет назад я делал свою первую фриланс-работу по статистике для компании по доставке фруктов и овощей. Двадцать четыре часа в день поступающие продукты от фермеров до того, как были отправлены в супермаркеты, проходили через отдел по контролю за качеством. Выбор продуктов осуществлялся случайно работниками данного отдела.
В годовом отчёте они заметили, что качество в этом году ниже, чем качество в прошлом: разница составила примерно половину пункта по шкале от 1 до 10.
Потом пригласили меня. Я должен был ответить на вопрос:
Являются ли эти 0,5 пунктов существенной разницей?
Если вы не знаете статистику, то этот вопрос может показаться вам странным. Но не беспокойтесь: цель этой статьи показать вам как можно ответить на этот вопрос, используя проверку гипотез, также называемое статистическим выводом.
Игра в числа: вклад одного яблока
Представьте себе, что вы проверяете яблоко на предмет хорошее оно или плохое, используя случайную выборку яблок из очень большой коробки с яблоками. В изображении ниже мы видим реальный эффект размера выборки на измерения: эффект одного яблока очень существенен для маленьких выборок и становится менее и менее значимым, чем больше размер выборки.
Вклад одного яблока зависит от размера выборки.
Понимание влияния размера выборки — это первый базис для понимания проверки гипотез. Мы можем начать утверждать, что 0.5 на 2 яблоках будет как разница в 1 яблоко, очень маленькая. Но на 100 яблоках, 0.5 будет представлять собой разницу в 50 яблок: очень большая разница!
На малых выборках 0.5 пункта это небольшая разница, но на больших выборках 0.5 это разница большая.
Насколько большая должна быть выборка: проверка гипотез и значимость как ответ
Есть несколько способов, чтобы ответить на данный вопрос, но в этой статье я собираюсь погрузиться в статистический вывод или проверку гипотез.
Проверка гипотез — это семейство статистических методов используемых, чтобы понять, как выборка наблюдаемых объектов может использоваться, чтобы принять или отвергнуть заранее поставленную гипотезу. Проверка гипотез используется для решения многих задач, в основном в научных исследованиях и как ключевой метод в онлайн маркетинге (А\Б тестирование).
Математики разработали проверку гипотез таким образом, что существует определённая процедура для поиска истины.
Проверка гипотез позволяет только проверить гипотезы, но не разработать их.
Из коробки, в которой 100 яблок (назовём её генеральной совокупностью), мы возьмём выборку из 8 яблок. В этом году из 8 яблок 5 оказались гнилыми (62%), а в выборке прошлого года из 8 яблок было только 4 гнилых (50%). Мы хотим использовать проверку гипотез, чтобы определить стал ли процент гнилых яблок в этом году больше, чем в прошлом.
Проверка гипотез — это математическая альтернатива для измерения генеральной совокупности. Благодаря этим вычислениям мы можем обобщить измерения небольшой выборки на большую генеральную совокупность. Так мы проделываем меньше работы.
Случайно набранная выборка имеет такой же процент гнилых яблок, как и генеральная совокупность, при условии, что набранная выборка достаточно велика.
Математики придумали способ, как обобщить вывод, основанный на выборке, на генеральную совокупность.
Этот способ начинается с формулировки чёткой исследовательской гипотезы. К сожалению, математика работает только в том случае, если у нас уже есть представление о том, что мы хотим проверить.
Основная гипотеза для нашего примера:
Процент гнилых яблок в генеральной совокупности в этом году, больше чем в прошлом.
Фактическая проверка гипотезы
Математика проверки гипотез образует баланс между результатом измерений выборки с числом наблюдений. Результатом будет p-значение.
Эти вычисления проходят через использование распределений: почти для каждой воображаемой ситуации был выведен математический закон, который описывает ожидаемый результат.
Для вопросов вида «да/нет», таких как вопрос о наших гнилых яблоках (гнилые/не гнилые), применяется закон подбрасывания монетки. Это самый простой пример математического закона: 50% выпадения решки, 50% орла.
Также очень просто это может быть представлено, как стандартное математическое распределение, которое скажет нам о вероятности наблюдений. Для примера, 7 орлов выпало из 10 подбрасываний монетки. Это называется биноминальным распределением и может быть изображено так:
биноминальное распределение 10 подбрасываний монетки.
В этой статье я буду далек от тяжёлой математики, но важно знать, что мы можем использовать математические формулы для оценки того, является ли наблюдаемый процент далеким от ожидаемого процента.
В конце этой статьи я дам вам список часто используемых формул проверки гипотез для различных случаев и после объясню, как их использовать. Но сначала я объясню интерпретацию проверки гипотез.
Результат проверки гипотез: p-value
За проверкой гипотез есть математический баланс между наблюдаемыми значениями и размером выборки. В конце вычислений каждый существующий вариант тестирования гипотез выдаст стандартизированную оценку, которая позволит сравнить результат, даже когда математика не совсем одинакова.
P-value это стандартный способ, чтобы сформулировать результат проверки гипотез и использовать его в любых других тестах.
P-value это число между 0 и 1, которое говорит нам, если разница между нашим наблюдениями выборок, и наши гипотезы сильно различаются. Опорное значение – это 0.05.
Разница статистически значима, если p-value меньше 0.05.
И разница статистически не значима, если p-value больше 0.05.
Мы сделали 10 подбрасываний монетки.
Наша гипотеза: мы ожидаем 5 решек.
Наши наблюдения: мы получили 6 решек.
Вычисление p-value дало 0.518, что больше, чем 0.05.
Наш вывод: разница статистически не значима.
Наша интерпретация: результат соответствует гипотезе.
Мы сделали 10 подбрасываний монетки
Наша гипотеза: мы ожидаем 5 решек.
Наш результат: мы получили 10 решек.
Наше p-value — 0.0, что меньше чем 0.05.
Наше заключение: разница статистически значима
Наша интерпретация: результат не соответствует гипотезе.
Мы проверили 10 яблок.
Наша гипотеза: мы ожидаем 1 гнилое яблоко.
Наш результат: мы получили 1 гнилых яблок.
Наше p-value — 1.0 что больше, чем 0.05.
Наше заключение: разница статистически не значима
Наша интерпретация: результат соответствует гипотезе.
Мы проверили 10 яблок.
Наша гипотеза: мы ожидаем 1 гнилое яблоко.
Наш результат: мы получили 5 гнилых яблок.
Наше p-value — 0.0114 что меньше, чем 0.05.
Наше заключение: разница статистически значима
Наша интерпретация: результат не соответствует гипотезе.
Заключение
В этой статье я дал интуитивную интерпретацию общей структуры статистических погрешностей или проверки гипотез. Я надеюсь, что теперь вы лучше понимаете проверку гипотез, и чем она может быть вам полезна.
Я не уходил глубоко в математические доказательства и в специфичные детали. В таблице ниже приведен список самых частых проверок гипотез, которые я рекомендую для дальнейшего изучения.
Название теста | Альтернативная гипотезе |
Тест одной выборки | Значение пременной отлично от ожидаемого значения |
Тест двух выборок | Значение двух групп различно |
ANOVA | Значение больше чем двух групп различно |
Пропорциональная z проверка | Процент успеха переменной из двух возможных вариантов отлично от ожидаемого значения |
Двухпропарциаоная z-проверка | Процент успеха переменной с двумя исходами различно между двумя группами |
Список с альтернативными гипотезами для некоторых проверок гипотез.
Я надеюсь эта статья будет полезна для вас, и желаю вам удачи в дальнейших исследованиях проверки гипотез.
Мир статистических гипотез
В современном мире мы обладаем все большим и большим объемом данных о событиях, происходящих вокруг. Зачастую у нас появляются вопросы, на которые хотелось бы быстро ответить на основе имеющейся информации, для этого как нельзя лучше подходит процесс, связанный с проверкой статистических гипотез. Однако, многие считают, что это занятие подразумевает под собой большое число вычислений и в принципе довольно сложно для понимания. На самом деле, алгоритм проверки гипотез достаточно прост, а для осуществления расчетов с каждым годом появляется все больше и больше готовых инструментальных средств, не требующих от человека глубоких познаний в области. Далее я попытаюсь показать, что мало того, что процесс проверки гипотез может быть полезным, так и осуществляется достаточно быстро и без серьезных усилий.
Статистические гипотезы и области их применения
Проверка статистических гипотез является важнейшим классом задач математической статистики. С помощью данного инструмента можно подтвердить или отвергнуть предположение о свойствах случайной величины путем применения методов статистического анализа для элементов выборки. Если в предыдущем предложении какие-либо термины являются не совсем понятными, ниже можно найти пояснение на простом языке.
Для проверки статистических гипотез зачастую применяются статистические тесты, о которых будет рассказано далее.
Алгоритм проверки статистической гипотезы
В обобщенном виде алгоритм выглядит таким образом:
Формулировка основной (H0) и альтернативной (H1) гипотез
Выбор уровня значимости
Выбор статистического критерия
Определения правила принятия решения
Итоговое принятие решения на основе исходной выборки данных
Данные шаги являются унифицированными и схему можно использовать почти во всех случаях. Далее подробнее рассмотрим пример работы данного алгоритма на конкретных данных.
Пример проверки статистической гипотезы
Итак, как вы, наверное, догадались по вышеприведенным примерам, будем проверять гипотезу о том, что имеется существенное различие между числом созданных европейских AI-стартапов в 2019-м и 2020-м годах. Пример достаточно простой, чтобы было проще разобраться в ходе работы алгоритма.
Проверка гипотезы о законе распределения
Для данных 2019-го года проверим нормальность распределения.
H0: случайная величина распределена нормально
H1: случайная величина не распределена нормально
Пусть уровень значимости alpha = 0.05 (как и в 95-ти процентах статистических тестов). Определение уровня значимости достойно отдельного поста, так что не будем заострять на нем внимание.
Будет использован критерий Шапиро-Уилка.
,
,
,
;
Можно сравнить статистику W с критическим значением Wкрит. Критическое значение чаще всего приведено в готовых таблицах (по строкам/столбцам там отмечен объем выборки и уровень значимости, а на пересечении как раз-таки и лежит Wкрит.). Если W>Wкрит., то не отвергаем H0 и наоборот. Но это не очень удобно, поэтому чаще используется второй способ.
Разнообразие статистических критериев
Как мы увидели на примере, важным шагом в проверке статистической гипотезы является выбор критерия. В примере выше я использовала лишь два статистических критерия, но по факту их гораздо больше, так сказать, на все случаи жизни. Данные критерии важно знать и четко нужно осознавать, когда и какой можно применить. Многие из них направлены на сравнение центров распределений случайных величин, например, сравнение средних, медиан, равенство параметра распределения какому-либо числу и т. д. В основном они делятся на параметрические (знаем закон распределения случайной величины) и непараметрические.
Для вашего удобства внизу (рис. 3) приведена таблица с основными, с моей точки зрения, критериями сравнения центров распределения и их классификацией. Надеюсь, она будет вам полезна, ее можно дополнять и расширять по вашему желанию.
12. Проверка статистических гипотез
Продолжаем проверять статистические гипотезы – всё новые и новые, новые и новые, до полного насыщения! Исправляя оплошность (запамятовал), хочу порекомендовать эту увлекательную тему в качестве основного или дополнительного материала для вашего научного проекта (курсовика, диплома, диссертации) или прикладного исследования. Причём, самому широкому кругу читателей, в том числе экономистам, социологам, психологам – всем, кто работает со статистическими данными. Здесь и научная новизна, и практическая значимость, и широкий простор для творчества! И несложные вычисления, что немаловажно.
Как вы знаете (а если нет, то ссылка выше), все статистические гипотезы делятся на два вида:
I) Гипотеза о законе распределения статистической совокупности. Этому виду гипотез посвящен следующий урок – Критерий согласия Пирсона.
II) Вторая большая группа гипотез касается числовых характеристик стат. совокупностей, закон распределения которых уже известен:
Существуют и другие статистические гипотезы, с которыми можно ознакомиться, например, в учебном пособии В. Е. Гмурмана (поздние издания). Кроме того, в рамках сайта я рассмотрю статистическую гипотезу о значимости коэффициента корреляции и не только – со временем добавлю их в этот список.
Вникаем, решаем и получаем удовольствие!
Гипотеза о равенстве генеральных средних двух распределений
Постановка задачи: из двух генеральных совокупностей извлечены выборки объёмов и
и найдены их выборочные средние:
и
соответственно. Требуется на уровне значимости
проверить гипотезу
о равенстве генеральных средних против одной из следующих конкурирующих гипотез:
,
или
. Как и в гипотезе о значении генеральной средней, в первом случае строится левосторонняя критическая область, во втором – правосторонняя и в третьем – двусторонняя.
При этом возможны следующие вариации задачи:
а) выборки независимы, генеральные совокупности распределены нормально и известны их дисперсии
.
Тогда для проверки нулевой гипотезы используют статистический критерий , где
– случайные значения выборочных средних
Критическая область однозначно определяется критическим значением , которое отыскивается из соотношения
для односторонней области и
– для двусторонней, где
– выбранный уровень значимости, а
– функция Лапласа. Не поленюсь и снова нарисую все три случая, критическая область изображена красным цветом:
Далее на основании выборочных данных рассчитывается наблюдаемое значение критерия:
Если в критическую область НЕ попадает, то гипотезу
на уровне значимости
принимаем. Если же попадает, то нулевая гипотеза отвергается в пользу альтернативной гипотезы
.
По выборке объема найден средний вес изделий
г изделий, изготовленных на первом станке; по выборке объема
найден средний вес изделий
г изделий, изготовленных на втором станке. Известны генеральные дисперсии
. Требуется на уровне значимости 0,01 проверить нулевую гипотезу
против конкурирующей гипотезы
. Предполагается, что генеральные совокупности распределены нормально, а выборки независимы.
. я, конечно, не знаю, у каких современных станков могут быть такие конские дисперсии, тут, скорее, речь о двух бабулях, которые пекут одинаковые пирожки дедовским методом 🙂 И нужно выяснить, одинаковый ли у них выхлоп или первая бабушка более щедрая.
Решаем: по условию, известны генеральные дисперсии, поэтому для проверки гипотезы о равенстве генеральных средних используем критерий .
Для конкурирующей гипотезы строится правостороння критическая область. Критическое значение найдём из соотношения
. По условию,
:
По таблице значений функции Лапласа или с помощью Калькулятора (Пункт 5*) определяем, что этому значению функции соответствует аргумент . Таким образом, при
нулевая гипотеза принимается, а при
отвергается:
На чистовике эти чертежи выполнять не обязательно – они нужны, чтобы вы лучше видели ситуацию.
По выборочным данным вычислим наблюдаемое значение критерия:
, поэтому на уровне значимости 0,01 гипотезу
отвергаем. Иными словами, выборочные средние
статистически значимо отличаются друг от друга, и это отличие вряд ли объяснимо случайными факторами. А объяснимо оно именно различием генеральных средних.
Но это ещё не значит, что нужно покупать пирожки у «иксовой» бабули, они ведь могут оказаться менее вкусными 🙂
Ответ: на уровне значимости 0,01 нулевую гипотезу отвергаем.
И еще раз повторим, что это значит. Это значит, что с вероятностью 1% мы совершили ошибку первого рода (отвергли правильную гипотезу).
Следующая задача для самостоятельного решения:
Из продукции двух автоматических линий извлечены по 50 гвоздей и вычислены их выборочные средние длины и
мм. Нормативная погрешность линий есть нормальная случайная величина с дисперсией
. На уровне значимости 0,05 проверить гипотезу о равенстве генеральных средних
против конкурирующих гипотез: а)
, б)
.
Краткое решение и ответ в конце урока, особую аккуратность проявите в обозначениях – в аналогичных задачах они бывают разными.
Та же гипотеза, другая ситуация:
б) независимые выборки достаточно большие
, генеральные дисперсии неизвестны, причём ген. совокупности могут иметь и другое распределение (не нормальное)
Условие , к слову, желательно и в предыдущем пункте.
В этом случае можно использовать похожий, но приближенный критерий , где
– случайные значения выборочных средних, а
– соответствующие выборочные дисперсии.
Исправлением дисперсий тут можно пренебречь (т.к. выборки большие), но лично я бы исправил. Впрочем, результаты такой проверки всё равно будут менее «авторитетными».
Ситуация более тяжелая:
в) это малые независимые выборки
, ген. совокупности распределены нормально и дисперсии их не известны
В этом случае выборочные дисперсии дают плохую оценку генеральных дисперсий, поэтому критерий предыдущего пункта не годится. Но если предположить или доказать, что генеральные дисперсии одинаковы (хотя и не известны), то для проверки гипотезы можно использовать следующий критерий:
, где
– случайные значения выборочных средних, а
– соответствующие исправленные выборочные дисперсии. Эта случайная величина распределена по закону Стьюдента с
степенями свободы.
Из двух партий деталей, изготовленных одинаковыми станками, извлечены выборки объемами и
деталей. По результатам исследования найдены
мм,
мм и
мм,
мм. Предполагая, что погрешность изготовления есть нормальная случайная величина, проверить на уровне значимости
гипотезу
против конкурирующей гипотезы
.
В этом тяжелом случае нам удалось раздобыть всего лишь 10 и 15 гвоздей, но ситуацию спасает то, что станки одинаковые, поэтому можно смело допустить, что их погрешности (ген. дисперсии) одинаковы. Кроме того, можно проверить гипотезу о равенстве генеральных дисперсий, до которой мы ещё доберёмся.
Решение: полагая, что генеральные дисперсии одинаковы, используем критерий .
Поскольку конкурирующая гипотеза имеет вид , то критическая область двусторонняя. Найдём критическое значение. Для уровня значимости
и числа степеней свободы
по таблице или с помощью Калькулятора (Пункт 10в) определяем:
При нулевая гипотеза принимается, а вне этого интервала – отвергается:
Вычислим наблюдаемое значение критерия:
– полученное значение попало в область принятия гипотезы.
Таким различие выборочных средних статистически не значимо и объяснимо влиянием случайных факторов (погрешностью станков и тем, что в саму выборку попали случайные гвозди).
Ответ: на уровне значимости 0,05 гипотезу принимаем.
Задача для самостоятельного решения будет в параграфе Гипотеза о равенстве двух генеральных дисперсий, поскольку для того, чтобы пользоваться равенством ген. дисперсий, строго говоря и по меньшей мере, его нужно ещё проверить статистически.
И ещё один случай:
г) ген. совокупности распределены нормально, ген. дисперсии неизвестны, выборки зависимы
Здесь рассматриваются выборки одинакового объёма, варианты которых попарно зависимы. Что это значит? Пример: возьмём 50 помидоров и измерим их диаметр линейкой: . Затем в том же порядке – штангенциркулем:
. Совершенно понятно, что соответствующие результаты будут хоть чуть-чуть, но различны:
, следовательно, выборочные средние – тоже:
. И возникает вопрос: значимо или незначимо это отличие?
В случае зависимых выборок гипотеза о равенстве генеральных средних сводится к уже разобранной гипотезе о значении генеральной средней. Представим, что описанные выше попарные опыты проводятся много-много раз. Тогда речь заходит о случайной величине – случайной разнице между случайными значениями
выборочных средних. И мы проверяем гипотезу о том, что генеральная средняя (матожидание) этой разницы равна нулю
против очевидной альтернативы
или
либо
.
Технику решения рассмотрим на конкретном примере, социологическая задача, и никаких гвоздей:
Физическая подготовка 9 спортсменов была проведена при поступлении в спортивную школу, а затем после недели тренировок. Итоги проверки в баллах оказались следующими:
(в 1-й строке число баллов при поступлении, во 2-й – после недели тренировок)
Требуется на уровне значимости 0,05 установить, значимо или незначимо улучшилась физическая подготовка спортсменов, в предположении, что число баллов распределено нормально.
И предположение это небезосновательно, т. к. человеческие характеристики, как правило, распределены нормально.
Решение: проверим гипотезу о том, что матожидание случайной величины (разницы между случайными средними) равно нулю
против конкурирующей гипотезы
(т.к. улучшение физической формы выражается бОльшим «игрековым» значением и отрицательной разностью).
Так как генеральная дисперсия этой случайной величины не известна, то используем знакомый критерий , где
– случайная разница между выборочными средними и
– соответствующее исправленное стандартное отклонение. Напоминаю, что этот критерий имеет распределение Стьюдента с количеством степеней свободы
.
Для уровня значимости и
найдём критическое значение левосторонней критической области (по нижней строке таблицы или на Калькуляторе — Пункт 10в):
При нулевую гипотезу принимаем, а при
– отвергаем:
Для нахождения наблюдаемого значения критерия нужно рассчитать выборочные характеристики. Вычислим разности между вариантами
, их квадраты
и суммы:
Вычислим выборочную среднюю разницу:
Вычислим исправленное стандартное отклонение, не сторонник я «ускоренных» формул, но здесь она удобна:
Таким образом: , поэтому на уровне значимости 0,05 нет оснований отвергать гипотезу
.
В данном случае это более удачная формулировка, нежели «гипотезу принимаем».
Таким образом, средняя разница между вариантами
(физ. форма до тренировки) и соответствующими вариантами
(физ. форма после тренировки) статистически незначима.
Ответ: на уровне значимости 0,05 нет оснований утверждать, что после недельной тренировки физическая форма спортсменов значимо улучшилась.
Продолжаем тему самостоятельно:
Две химические лаборатории исследовали 8 проб на допинг одним и тем же методом. Получены следующие результаты (процент содержания некоторого вещества в соответствующих пробах):
Требуется на уровне значимости 0,05 определить, значимо или незначимо различаются средние результаты анализов, в предположении, что они распределены нормально.
Иными словами, определите, не занесли ли в какую-нибудь лабораторию деньги 🙂
Как обычно, все числа уже в Экселе; продублирую также ссылки на таблицу критических точек распределению Стьюдента и Калькулятор (Пункт 10в).
С другими гипотезами всё проще:
Гипотеза о генеральной дисперсии нормального распределения
Она по своей сути похожа на гипотезу о генеральной средней: есть основания полагать, что генеральная дисперсия нормальной совокупности равна некоторому значению
. По результатам выборки объёма
найдена исправленная выборочная дисперсия
и возникает вопрос: она значимо отличается от
или нет? Таким образом, на уровне значимости
требуется проверить гипотезу
– о том, что генеральная дисперсия действительно равна своему гипотетическому значению.
Для проверки этой гипотезы использует критерий , где
– случайное значение исправленной дисперсии. Данная случайная величина имеет распределение хи-квадрат с количеством степеней свободы
и принимает лишь неотрицательные значения.
Критическая область зависит от вида конкурирующей гипотезы, а критические значения можно определить по соответствующей таблице либо с помощью Калькулятора (Пункт 11б).
1) Для гипотезы строится левосторонняя область, критическое значение равно
.
2) Для гипотезы строится правосторонняя область, критическое значение равно
.
3) И для гипотезы строится двусторонняя критическая область, левая и правая критические точки определяются по формулам
,
Если наблюдаемое значение критерия попадает в критическую область, то гипотеза
на уровне значимости
отвергается.
Классическая задача по теме – это задача о точности какого-нибудь прибора, станка или метода измерения:
Допустимая погрешность измерительного прибора по паспорту составляет . В результате 10 измерений найдено фактическое значение погрешности
. Требуется на уровне значимости 0,05 проверить, соответствуют ли экспериментальный результат заявленной точности прибора.
Или, попросту говоря, не лажает ли этот прибор.
Решение: полагая, что погрешность измерений распределена нормально, проверим гипотезу о том, что генеральная дисперсия действительно равна против конкурирующей гипотезы
. Это, кстати, самый популярный вид альтернативной гипотезы – когда есть превышение нормы, и требуется проверить, случайно оно или нет.
Используем критерий , где
– случайное значение исправленной дисперсии.
Найдём правостороннюю критическую область. Для уровня значимости и количества степеней свободы
по таблице критических точек распределения хи-квадрат или с помощью Калькулятора (Пункт 11б) определяем критическое значение:
При нулевая гипотеза принимается, а при
– отвергается:
Вычислим наблюдаемое значение критерия: , поэтому на уровне значимости 0,05 нет оснований отвергать гипотезу
. Таким образом, выборочный более высокий результат
с большой вероятностью обусловлен случайностью.
Возможно, у вас сложилось впечатление, что значения 5 и 6,2 различаются существенно, но это иллюзия – ведь дисперсия имеет квадратичную размерность, и стандартные отклонения действительно довольно близкИ друг к другу: .
Ответ: на уровне значимости 0,05 точность прибора соответствует норме.
Партия изделий принимается, если дисперсия контролируемого размера значимо не превышает 0,2. Исправленная выборочная дисперсия, найденная по выборке объема , оказалась равной
. Можно ли принять партию на уровне значимости 0,05?
Таблица здесь не годится, поэтому пользуемся Калькулятором (Пункт 11б). За неимением Экселя используйте приближенную формулу Уилсона-Гильферти: , где
отыскивается из соотношения
.
Сейчас для интереса проверил – погрешность составила всего одну сотую!
Гипотеза о равенстве генеральных дисперсий двух нормальных распределений
Две средние мы уже сравнивали, очередь за дисперсиями. Из двух нормальных ген. совокупностей извлечены независимые выборки объёмом и
и найдены их исправленные дисперсии:
и
соответственно. Совершенно понятно, что эти значения случайны и отличны друг от друга. Но возникает вопрос: значимо или незначимо это отличие? Для ответа на этот вопрос на уровне значимости
проверяется гипотеза о равенстве генеральных дисперсий
. Если она будет принята, то различие между выборочными значениями
объяснимо случайными факторами.
Для проверки этой гипотезы используют критерий , где
– бОльшая исправленная дисперсия, а
– мЕньшая.
Данная случайная величина имеет распределение Фишера-Снедекора (так называемое F-распределение) со степенями свободы , если
или
, если
. То есть, степень свободы
соответствует выборке с бОльшей исправленной дисперсией.
В качестве альтернативы рассматривают одну из следующих гипотез:
1) (если
) либо
(если
). Для этой гипотезы строят правостороннюю критическую область:
Критическое значение можно найти по таблице критических значений F-распределения, а ещё лучше – с помощью стандартной функции Экселя, используйте тот же Калькулятор (Пункт 12).
2) – для этой гипотезы строится двусторонняя критическая область:
Однако для решения нашей задачи достаточно найти лишь правое критическое значение .
Дело в том, что , и поэтому случайное значение
(бОльшее единицы) заведомо не может попасть в левый кусок критической области.
Далее на основании выборочных данных рассчитывается наблюдаемое значение критерия , и если оно попадает в критическую область (
для обоих случаев), то гипотеза
отвергается. Если
, то принимается.
Рассматриваемая гипотеза часто возникает, когда требуется сравнить точность двух приборов, инструментов, станков, двух методов исследования. И сейчас мы разберём эту стандартную задачу:
Некоторая физическая величина измерена и
раз двумя различными способами. По результатам измерений найдены соответствующие погрешности
. Требуется на уровне значимости 0,05 проверить, одинаковую ли точность обеспечивают эти способы измерений.
Ситуации тут могут быть разные: это измерение двумя однотипными инструментами (например, двумя линейками), или инструментами разными (например, линейкой и штангенциркулем), или речь вообще идёт о двух методах измерения (например, с зажмуренным левым и правым глазом).
И возникает вопрос: различие между случайно или обусловлено тем, что какой-то способ точнее?
Решение: полагая, что погрешности измерений распределены нормально, проверим гипотезу о том, что точность двух способов одинакова против конкурирующей гипотезы
(она правдоподобнее, нежели
).
Для проверки гипотезы используем критерий , где
– бОльшая исправленная дисперсия, а
– мЕньшая.
Найдём критическое значение . Степень свободы
должна соответствовать выборке с бОльшей дисперсией, следовательно,
и
. По соответствующей таблице либо с помощью Калькулятора (Пункт 12) находим:
При нулевая гипотеза принимается, а при
(в критической области) – отвергается.
Вычислим наблюдаемое значение критерия: , поэтому на уровне значимости 0,05 нет оснований отвергать гипотезу
. Иными словами, различие выборочных значений
обусловлено случайными факторами, но прежде всего, малым количеством опытов.
Так, если бы было проведено в 10 раз больше измерений и получены те же самые погрешности, то
, и гипотеза о равенстве ген. дисперсий уже отвергается. То есть здесь расхождение между
уже нельзя объяснить случайностью, а объяснимо оно именно тем, что второй способ менее точный (справедлива гипотеза
).
Ответ: на уровне значимости 0,05 точность способов измерения одинакова.
Творческая задача для самостоятельного решения, случай из жизни:
Две группы студентов-первокурсников написали контрольную по математическому анализу со следующими результатами:
Предполагая, что успеваемость студентов распределена нормально, на уровне значимости 0,1:
1) Проверить гипотезу – о том, что группы однородны по составу (в плане соотношения лучше и хуже успевающих студентов) против конкурирующей гипотезы
,
и в случае однородности групп обещанный пунктик:
2) Проверить гипотезу – об одинаковой успеваемости групп против гипотезы о том, что одна из групп более слабая.
Вспоминаем, что такое дискретный вариационный ряд и как рассчитываются его характеристики. Не позволяй душе лениться! – в жизни пригодится, все числа уже в Экселе.
Ну что, порешаем ещё задачки? …конечно, порешаем! – ведь я маньяк в лучшем смысле этого слова:
Гипотеза о вероятности события
Пусть в достаточно большом количестве независимых испытаний некоторое случайное событие появилось
раз, и есть основание полагать, что вероятность
появления этого события (в каждом испытании) равна некоторому значению
. Возникает вопрос: значимо или незначимо отличается относительная частота
от этого гипотетического значения?
Для проверки гипотезы используют критерий
, где
, а
– случайное количество испытаний, в которых событие появилось. При этом для качественного результата должно выполняться неравенство
.
Далее технически всё похоже на гипотезу о генеральной средней. Для конкурирующей гипотезы строится левосторонняя критическая область, для
– правосторонняя и для
– двусторонняя:
Критическое значение отыскивается из соотношения для односторонней области и
– для двусторонней, где
– выбранный уровень значимости, а
– функция Лапласа.
Если наблюдаемое значение критерия попадает в критическую область, то гипотеза
отвергается.
В результате длительных наблюдений установлено, что вероятность полного выздоровления больного, принимавшего лекарство , равна 0,8. Новое лекарство
назначено 800 больным, причём 660 из них полностью выздоровели. Можно ли считать новое лекарство значимо эффективнее лекарства
на пятипроцентном уровне значимости?
Итак, в результате использования нового лекарство получена относительная частота полного выздоровления и возникает вопрос: этот результат случаен или лекарство
действительно эффективнее? Проясним эту ситуацию статистическим методом:
Решение: на уровне значимости проверим гипотезу
о том, что новое лекарство имеет такую же эффективность против конкурирующей гипотезы
, что оно более эффективно. Используем критерий
, где
– случайное количество пациентов из
, которые полностью выздоровеют.
Критическое значение правосторонней критической области найдём из соотношения , в данном случае
По таблице значений функции Лапласа или с помощью Калькулятора (Пункт 5*), определяем, что этому значению функции соответствует аргумент .
При нулевая гипотеза принимает, а при
– отвергается:
Вычислим и наблюдаемое значение критерия:
, поэтому на уровне значимости 0,05 гипотезу
отвергаем в пользу конкурирующей гипотезы
. Таким образом, выборочный результат
вряд ли объясним случайностью.
Ответ: на пятипроцентном уровне значимости новое лекарство эффективнее лекарства .
Завод рассылает рекламные каталоги возможным заказчикам. Как показал опыт, вероятность того, что организация, получившая каталог, закажет рекламируемое изделие, равна 0,08. Завод разослал 1000 каталогов новой улучшенной формы и получил 98 заказов. Можно ли считать, что новая форма рекламы значимо эффективнее?
Примите уровень значимости и проверьте это предположение.
И заключительный параграф этой интереснейшей статьи:
Сравнение вероятностей двух биномиальных распределений
На самом деле о вероятности биномиального распределения речь уже шла в предыдущей гипотезе, и теперь перед нами стоит задача сравнить вероятности двух биномиальных распределений.
Пусть в двух генеральных совокупностях проводятся независимые испытания, в каждом из которых событие может появиться – с неизвестной вероятностью
в первой совокупности и с неизвестной вероятностью
– во второй. По выборочным сериям испытаний объёмами
и
найдены соответствующие относительные частоты:
, где
– фактическое число появлений события
в 1-й и во 2-й выборке.
Требуется оценить, значимо или незначимо отличаются друг от друга относительные частоты. Незначимое отличие объяснимо случайными факторами и справедливостью гипотезы .
Для проверки этой гипотезы используют критерий: , где
– случайное количество появлений события
в 1-й и во 2-й выборке соответственно.
В качестве альтернативы рассматривают гипотезу либо
. Критические области строятся точно так же, как и в предыдущем пункте! Кстати, почему здесь можно использовать лапласовские соотношения? А дело в том (кто помнит), что при достаточно большой выборке биномиальное распределение близкО к нормальному.
Возвращаемся к нашим помидорам:
От двух поставщиков в магазин поступило и
однотипных изделий. В первой партии оказалось
бракованных изделий, а во второй –
. Требуется на уровне значимости 0,05 оценить, одинаково ли хороши поставщики.
Очевидно, что здесь существуют вполне конкретные вероятности – того, что магазин получит бракованное изделие от 1-го и 2-го поставщика соответственно. И эти вероятности нам не известны. Однако в нашем распоряжении есть выборочные данные – относительные частоты:
И возникает вопрос: эта разница случайна или нет?
Решение: на уровне значимости проверим гипотезу
о том, что поставщики равноценны против конкурирующей гипотезы
.
Критическое значение двусторонней критической области найдём из соотношения . В данном случае:
По таблице значений функции Лапласа или с помощью Калькулятора (Пункт 5*) определяем . При
нулевая гипотеза принимается, а при
– отвергается:
Вычислим наблюдаемое значение критерия:
– полученное значение попало в область принятия гипотезы
, таким образом, различие относительных частот
, скорее всего, случайно.
Ответ: на уровне значимости 0,05 нет оснований отдавать предпочтение какому-то одному из поставщиков
Как говорится, что там помидоры, что там.
И почётное право завершить этот урок предоставляется героям, которые помогали нам на протяжении всего курса тервера, ну а может и некоторые читатели уже взялись за оружие:))
Два стрелка совершили по 50 выстрелов в цель. Первый стрелок поразил цель 41 раз, а второй – 36. Можно ли на уровне значимости 0,1 утверждать, что первый стрелок более меткий?
Решение и ответ совсем близко.
Но и это ещё не всё! На очереди важнейшая и очень распространённая гипотеза о законе распределения генеральной совокупности.
Пример 41. Решение: по условию, известны генеральные дисперсии, поэтому для проверки гипотезы используем критерий .
а) Для гипотезы строим левостороннюю критическую область. Критическое значение найдём из соотношения
. Для уровня значимости
:
По таблице значений функции Лапласа определяем . Таким образом, при
нулевую гипотезу принимаем, а при
(в критической области) – отвергаем:
Вычислим наблюдаемое значение критерия:
, поэтому на уровне значимости 0,05 нулевую гипотезу принимаем.
б) Для гипотезы строим двустороннюю критическую область:
Критическое значение найдём из соотношения :
Наблюдаемое значение критерия попало в область принятия гипотезы
, поэтому на уровне значимости 0,05 нулевую гипотезу принимаем.
Ответ: в обоих случаях гипотезу принимаем.
Напоминаю, что это не 100%-ное доказательство гипотезы, т.к. существует -вероятность того, что мы приняли неверную гипотезу (совершили ошибку второго рода).
Пример 44. Решение: рассмотрим случайную величину , где
– случайные значения выборочных средних, и проверим гипотезу
против конкурирующей гипотезы
. Поскольку генеральная дисперсия этой случайной величины не известна, то используем критерий
, распределённый по закону Стьюдента с количеством степеней свободы
.
Для уровня значимости и
по таблице критических точек распределения Стьюдента находим критическое значение для двусторонней критической области:
Таким образом, при нулевую гипотезу принимаем, и вне этого интервала (в критической области) отвергаем:
Найдём наблюдаемое значение критерия. Для этого нужно вычислить выборочную среднюю разницу между выборочными средними
и
и соответствующую дисперсию
. Заполним расчётную таблицу:
Таким образом:
Наблюдаемое значение критерия:
– полученное значение попало в критическую область, поэтому на уровне значимости 0,05 гипотезу
отвергаем.
Ответ: на уровне значимости 0,05 результаты лабораторий отличны друг от друга.
Пример 46. Решение: полагая, что погрешности размера выпускаемых изделий распределены нормально, проверим гипотезу против конкурирующей гипотезы
. Используем критерий
.
Так как в конкурирующей гипотезе речь идёт о бОльших значениях дисперсии, то критическая область будет правосторонней. Найдём критическое значение. Для уровня значимости и количества степеней свободы
с помощью MS Excel находим критическое значение:
При нулевая гипотеза принимается, а при
– отвергается.
Вычислим наблюдаемое значение критерия: , поэтому на уровне значимости 0,05 гипотезу
отвергаем.
Иными словами, выборочный результат статистически значимо отличается от нормативного значения 0,2, и оборудование, на котором производятся изделия, нуждается в регулировке. Скорее всего.
Ответ: на уровне значимости 0,05 партию изделий принять нельзя.
Пример 48. Решение: Заполним расчётную таблицу:
Вычислим выборочные характеристики. Средний балл:
Выборочные дисперсии:
Исправленные дисперсии:
1) На уровне значимости 0,1 проверим гипотезу против конкурирующей гипотезы
. Используем критерий
, где
– бОльшая исправленная дисперсия, а
– меньшая.
Найдём правое критическое значение двусторонней критической области. Для уровня значимости и числа степеней свободы
с помощью MS Excel находим:
Вычислим наблюдаемое значение критерия: , поэтому на уровне значимости 0,1 гипотезу
принимаем. Таким образом, группы однородны (в плане соотношения лучше и хуже успевающих студентов).
Замечание: здесь, конечно, речь идёт не о строгом, а о примерном равенстве генеральных дисперсий.
2) На уровне значимости 0,1 проверим гипотезу против гипотезы
о том, что 1-я группа учится слабее. Исследуемые совокупности достаточно малы
и их генеральные дисперсии неизвестны, но в предыдущем пункте статистически обосновано незначимое различие ген. дисперсий. Поэтому для проверки гипотезы можно использовать критерий
, где
– случайные значения выборочных средних, а
– соответствующие исправленные выборочные дисперсии.
При нулевая гипотеза отвергается, а при
– принимается:
Вычислим наблюдаемое значение критерия:
, поэтому на уровне значимости 0,1 нет оснований отвергать гипотезу
.
Таким образом, по результатам контрольной работы нельзя утверждать, что различие между средними оценками обусловлено тем, что 1-я группа более слабая. Для проверки этого предположения требуется дальнейший мониторинг за успеваемостью.
Ответ: на уровне значимости 0,1 нет оснований отвергнуть нулевые гипотезы.
Пример 50. Решение: на уровне значимости проверим гипотезу
о том, новая рекламная кампания имеет такую же эффективность против конкурирующей гипотезы
. Используем критерий
, где
, а
– случайное кол-во заказов, которое может поступить в результате рассылки 1000 новых каталогов.
Найдём критическое значение правосторонней критической области: , по таблице значений функции Лапласа определяем
. При
нулевую гипотезу принимаем, а при
– отвергаем.
Вычислим наблюдаемое значение критерия:
, поэтому на уровне значимости
гипотезу
отвергаем.
Ответ: на уровне значимости 0,05 новая форма рекламы значимо эффективнее.
Пример 52. Решение: на уровне значимости проверим гипотезу
против гипотезы
о том, что 1-й стрелок стреляет точнее.
Найдём критическое значение правосторонней критической области:
При нулевую гипотезу принимаем, а при
– отвергаем.
Вычислим наблюдаемое значение критерия:
, следовательно, на уровне значимости 0,1 нет оснований отвергать гипотезу
.
Ответ: на уровне значимости 0,1 нет оснований считать, что 1-й стрелок более меткий.
Автор: Емелин Александр
(Переход на главную страницу)
Zaochnik.com – профессиональная помощь студентам