Статистические гипотезы.

В результате изучения данной главы студент должен:

знать

  • что такое статистическая гипотеза;
  • соотношение теоретических, экспериментальных и статистических гипотез;
  • различия между нулевой и альтернативной гипотезами;
  • логику оценки, принятия и отвержения статистических гипотез;
  • понятия ошибки первого и второго рода, статистической значимости (надежности);
  • различия между параметрической и непараметрической статистикой, возможности и ограничения этих двух видов статистических критериев;

уметь

  • проверять простейшие гипотезы о среднем с помощью t -теста Стьюдента для парных (связных) и непарных (независимых) выборок;
  • оценивать две выборки на однородность с помощью t -теста Стьюдента и F -теста Фишера;
  • строить доверительные интервалы для оцениваемых параметров;

владеть

  • методическим аппаратом и базовыми навыками выдвижения и проверки статистических гипотез;
  • навыками оценки статистических гипотез и построения доверительных интервалов.

Общая стратегия

Вы уже знаете, что в статистическом анализе принято различать понятия "параметр" и "статистика". Эти различия подробно обсуждались в гл. 1; в табл. 2.1 резюмируется состоявшееся обсуждение.

Вспомним, что всякое распределение может быть охарактеризовано теми или иными теоретическими параметрами. Математическое ожидание, дисперсия, асимметрия, эксцесс представляют собой примеры таких параметров распределения случайной величины в генеральной совокупности. Все они, отметим еще раз этот важный факт, представляют собой теоретические величины, которые почти никогда не бывают известны на практике. В практической деятельности исследователя их можно лишь оценить с той или иной степенью точности путем вычисления различных статистических величин, которые не всегда оказываются равными теоретическим величинам параметров, а также и друг другу, в чем мы уже убедились в параграфе 1.4, рассматривая практические примеры оценки различных параметров распределения такого свойства личности, как феминность – маскулинность.

Таблица 2.1

Соотношение параметров и статистики

И это неудивительно: ведь статистика отражает поведение случайных величин лишь в сформированной экспериментатором выборке, а не в самой генеральной совокупности. Поэтому у экспериментатора может возникнуть вопрос, каким образом вычисленные статистики соотносятся с теоретическими параметрами распределения. Иными словами, экспериментатор может заинтересоваться тем, действительно ли имеющиеся у него в распоряжении выборочные данные извлечены из генеральной совокупности, характеризующейся предполагаемыми в теории параметрами распределения. Чтобы ответить на этот вопрос, экспериментатор выдвигает и проверяет статистические гипотезы.

Статистическими гипотезами называют предположения о возможных значениях параметров распределения случайной величины в генеральной совокупности. Проверка и анализ статистических гипотез осуществляются в результате сбора и построения статистики. Инструментом в такой работе выступают статистические тесты, или критерии, каждый из которых представляет собой некоторый набор стандартизированных правил. На основе этих правил принимается решение об истинности или ложности статистической гипотезы.

Рассмотрим еще раз пример с подбрасыванием монеты. Можно предполагать, что вероятность выпадения "орла" при бросании нормальной, нефальшивой и неповрежденной, монеты равна 50%. Это значит, что математическое ожидание такого события при 100-кратном бросании монеты окажется равным 50. Проверка этой гипотезы будет состоять в том, чтобы провести подобного рода испытание, оценить в результате этого интересующий нас параметр путем вычисления соответствующей статистики и с помощью этой статистики проверить достоверность выдвинутой гипотезы. Например, проведя 100 испытаний монеты, мы можем убедиться в том, что каждая сторона действительно выпала по 50 раз. Однако вероятно, что результат такого испытания все же будет несколько отличаться от теоретически предполагаемого. Иными словами, даже если "орел" выпадет немного меньше или немного больше 50 раз, мы вряд ли будем иметь основания полагать, что монета фальшивая. Подозрительной будет ситуация, когда такое отклонение от теоретически предполагаемых величин достигнет бо́льших значений, например, когда "орел" при 100 испытаниях монеты не выпадет ни разу. Такой расклад, по-видимому, представляется маловероятным при условии, что с монетой все в порядке.

Итак, ясно, что если в ходе 100-кратного бросания монеты "орел" выпал ровно 50 раз, с монетой все в порядке. Если "орел" не выпал ни разу, есть основания предполагать, что с монетой что-то не то. Но где та грань, которая отделяет положительные и отрицательные выводы? Этот вопрос имеет отношение к выбираемому критерию принятия решения. Именно такими критериями и выступают разработанные в математической статистике для проверки статистических гипотез статистические тесты, которые поэтому часто называют статистическими критериями.

Таким образом, проверка статистических гипотез осуществляется в результате оценки вероятности случайного события, в качестве которого рассматривается величина статистики. Если эта вероятность оказывается очень незначительной при условии истинности выдвинутой гипотезы, проверяемая статистическая гипотеза отвергается, в противном случае гипотеза принимается.

Трудность этой процедуры, однако, может состоять в том, что мы можем заранее не знать конкретного значения параметра распределения анализируемой случайной величины. Например, в случае с монетой можно предположить, что монета фальшивая, и, следовательно, вероятность выпадения "орла" в той или иной степени отличается от 50%-ного. В этом случае, проведя серию испытаний, мы не сможем оценить степень отличия полученной статистики, характеризующей величину математического ожидания анализируемого события, от действительного его значения. И тогда проверка статистической гипотезы может показаться невозможной. Выход из этой ситуации может, однако, состоять в том, чтобы оценить вероятность гипотезы, противоположной выдвинутой. Иными словами, в данном случае можно, например, выдвинуть гипотезу о равенстве теоретической вероятности 50%. Если эта гипотеза оказывается неверной, принимается альтернативная гипотеза.

Действительно, при проверке статистических гипотез исследователь всегда имеет дело не с одной, а с двумя гипотезами, которые обозначаются как Н 0 и Н 1. Одна из этих гипотез называется нулевой, другая – альтернативной, т.е. опровергающей нулевую.

Нулевая гипотеза Н 0 всегда конкретна. Она всегда утверждает какое-то конкретное значение параметра распределения. Например, гипотеза, касающаяся математического ожидания, может формулироваться следующим образом: μ = А, где А – некоторое конкретное значение μ, а гипотеза, касающаяся равенства двух величии дисперсии, – σ1 = σ2.

Альтернативная гипотеза Н 1 формулируется всегда менее конкретно, например: μ > А ; * σ2 и т.п. Но, как правило, оказывается так, что экспериментатора интересует не конкретная нулевая гипотеза Н 0, а как раз менее конкретная альтернативная гипотеза Н 1, так как именно она в большей степени соответствует проверяемой им в эксперименте научной гипотезе.

Проводя эмпирическую оценку теоретического параметра, экспериментатор определяет статистическую значимость полученного результата, принимая за основу предположение об истинности Н 0. Статистическая значимость представляет собой вероятность того, что в бесконечном числе экспериментов, полностью воспроизводящих условия проведенного эксперимента, мы получим то же или еще большее значение построенной статистики. Если вероятность получить такое и еще большее значение статистики в бесконечном числе экспериментов с теми же условиями при том, что нулевая гипотеза истинна, оказывается небольшой, экспериментатор отказывается от нулевой гипотезы в пользу альтернативной.

Наглядно описанная логика представлена на рис. 2.1. Как очевидно, здесь выдвигаются две альтернативных гипотезы. Одна из них конкретная и предполагает равенство математического ожидания нулю. Эта гипотеза обозначена как Н 0. Соответствующая ей кривая описывает распределение случайной величины Ζ, предсказываемое этой гипотезой. Вторая гипотеза, обозначенная как Н 1, менее конкретная. Она лишь утверждает, что величина математического ожидания должна превышать нулевое значение. В принципе существует бесконечное множество кривых, описывающих распределения, соответствующие этой гипотезе. Приведенная кривая представляет собой одну из возможных. Величина Ζ эксп характеризует значение статистики, оценивающей теоретический параметр μ в эксперименте. Это то, что экспериментатор имеет в своем распоряжении, то, что ему удалось получить, проведя сбор эмпирических данных. Например, это может быть величина среднего арифметического по выборке. Тогда проверка выдвинутых статистических гипотез должна состоять в том, чтобы попытаться оценить, насколько вероятно в другом таком же эксперименте получить ту же величину Zэксп или даже еще бо́льшую при условии истинности нулевой гипотезы. Очевидно, что эта вероятность равна площади под кривой распределения, предполагаемой этой гипотезой. Эта площадь слева ограничена вычисленной статистикой, справа – не ограничена. Такая площадь, как мы помним (см. параграф 1.2), называется квантилем распределения. Она может быть определена следующим образом:

Рис. 2.1.

Необходимая для принятия или отвержения гипотезы величина квантиля р в этом уравнении представляет собой так называемый уровень значимости вычисленной статистики Zэксп. Чем больше эта величина, тем с большей вероятностью полученные в эксперименте данные описываются распределением f Ho(Z ), т.е. распределением, предсказанным гипотезой Н 0. Напротив, чем меньше значение р, тем меньше вероятность того, что эмпирические данные действительно соответствуют распределению f H0(Z), и тем больше вероятность того, что они описываются распределением, предполагающим более высокое значение μ. Таким образом, оценивая значение р, можно принять решение в пользу одной из двух выдвинутых гипотез.

Гипотеза Н 0 может быть принята, если величина квантиля, определяющего статистическую значимость эмпирического значения X, оказывается достаточно большой. Альтернативная гипотеза Н 1, принимается, если величина квантиля, который задает статистическую значимость полученного в эксперименте результата, оказывается пренебрежительно малой. Проблема, однако, состоит в том, какую величину квантиля, задающего статистическую значимость, считать достаточно большой, какую – пренебрежительно малой. Чтобы решить эту проблему, рассмотрим подробнее, какие возможности имеются у экспериментатора, оценивающего статистические гипотезы (табл. 2.2).

Понятно, что выдвинутые статистические гипотезы могут быть либо верными, либо неверными. Поскольку гипотезы Н 0 и Н 1 являются альтернативными, т.е. они исключают друг друга, имеют место лишь два гипотетических случая, характеризующих истинность или ложность рассматриваемых гипотез: либо Н 0 окажется верной, а Н 1 соответственно неверной, либо наоборот. Поскольку экспериментатор, оценивающий гипотезы, никогда не знает, какая из гипотез верна, сто решение принять или отвергнут гипотезу Н 0 никак не связано с ее истинностью или ложностью – ведь именно их он и пытается установить. Таким образом, в ходе проверки статистических гипотез возможно четыре исхода, благоприятными из которых для экспериментатора могут считаться лишь два, независимо от того, какую из гипотез на самом деле хочет доказать исследователь.

Таблица 2.2

Матрица исходов в оценке статистических гипотез

Если гипотеза Н 0 верна и она принимается в результате статистического анализа, экспериментатор не совершает ошибки. И это благоприятный исход для исследователя, даже если он хотел бы принять альтернативную гипотезу. Также экспериментатор нс совершает ошибки, когда он отвергает гипотезу Н 0, которая на самом деле является неверной. Однако может случиться так, что нулевая гипотеза в действительности верна, а экспериментатор ее все же отвергает. В этом случае он совершает ошибку, которую принято называть ошибкой первого рода или α(альфа )-ошибкой. Ошибкой второго рода, или β(бета )-ошибкой, называется исход, при котором экспериментатор принимает нулевую гипотезу, которая на самом деле оказывается неверной.

Ясно, что чем больше вероятность, определяющая статистическую значимость полученного в эксперименте результата, при которой экспериментатор готов отказаться от нулевой гипотезы в пользу альтернативной, тем больше вероятность ошибки первого рода и меньше вероятность ошибки второго рода (рис. 2.2). Напротив, уменьшая значение вероятности, при которой экспериментатор отказывается от нулевой гипотезы, он тем самым рискует с большей вероятностью совершить ошибку второго рода, но тем самым в большей степени ограждает себя от ошибки первого рода. Таким образом, вопрос о том, при каком уровне значимости гипотеза Н 0 может быть отвергнута или принята, связан на самом деле с тем, какая из двух возможных ошибок менее важна для экспериментатора. Применяя более консервативную стратегию проверки статистической гипотезы, экспериментатор пренебрегает опасностью ошибки второго рода. Применяя более радикальный вариант действия, экспериментатор как бы забывает об ошибке первого рода.

Рис. 2.2.

Если принятие статистической гипотезы подразумевает какие-либо важные социальные последствия, можно применить более консервативную стратегию ее оценки. Если серьезные последствия могут наступить вследствие неприятия статистической гипотезы, можно действовать менее консервативно.

Например, пусть рассматривается вопрос об определении умственной отсталости конкретного ребенка. В ходе психологического обследования установлено, что его коэффициент интеллекта ниже среднего значения для данной популяции испытуемых. Таким образом, возникло предположении о недостаточном интеллектуальном развитии этого ребенка и необходимости в связи с этим направления его в специальный интернат для умственно отсталых. Для проверки этой гипотезы были сформулированы две альтернативные статистические гипотезы, одна из которых предполагает, что полученные при обследовании данные характеризуют обычное популяционное распределение с математическим ожиданием, равным границе, определяющей умственную отсталость, скажем, 75 баллам (гипотеза Н 0), а вторая предполагает более низкое значение математического ожидания, т.е. математическое ожидание меньше заданной границы (гипотеза Н 1). Далее предположим, что в ходе оценки статистической значимости эмпирического показателя интеллектуального развития ребенка выяснилось, что вероятность получить при другом случайном испытании тот же результат или даже еще более низкий составляет не более одного шанса из 20. Возникает вопрос: можно ли на основании данного результата судить о недостаточной эмпирической обоснованности нулевой гипотезы и, следовательно, отказаться от нее в пользу альтернативной гипотезы Н 1? Ясно, что ответ на этот вопрос в значительной степени будет зависеть от того, какого рода ошибочные действия можно считать более приемлемыми. Если мы убеждены в том, что пребывание нормального ребенка хоть и с низкими умственными способностями в интернате для умственно отсталых лучше, чем обучение умственно отсталого в нормальной школе, мы можем принять одно решение, касающееся установления границ уровня значимости, если мы считаем по-другому, необходимо принять другое решение.

К счастью, исследователь, как правило, избавлен от необходимости разрешать проблему такого рода. Дело в том, что статистически невозможно обосновать оптимальный уровень значимости, который можно бы было принять в качестве эталонного при выборе статистических гипотез. Вместе с тем существуют некоторые квазистатистические соглашения, принимаемые по умолчанию (табл. 2.3). Эмпирический результат считается статистически значимым для отказа от нулевой гипотезы, если вероятность получить такой же или больший (меньший) результат при другом случайном испытании составляет менее одного шанса из 20, т.е. тогда, когда значение р оказывается меньше 0,05. Если значение р оказывается меньше 0,01, то полученный результат считается высокозначимым для отказа от нулевой гипотезы. В случае, когда значение р превышает 0,10, считается, что в эксперименте не установлены статистически значимые отличия от теоретического параметра, предполагаемого нулевой гипотезой. Если полученное значение р оказывается между величиной 0,10 и 0,05, результат считается неопределенным. Говорят, что он находится на границе уровней значимости. По-другому такой результат называют маргиналъно значимым.

Таблица 2.3

Стандартные величины квантилей, определяющее принятие статистического решения

Описанная стратегия проверки и принятия гипотез является универсальной и наиболее распространенной. Более консервативная стратегия может состоять в том, чтобы в качестве надежного и высоконадежного уровней принять значения вероятностей соответственно 0,01 и 0,001, а для ненадежного уровня значение вероятности установить в 0,05 (О. Ю. Ермолаев, ). Тогда маргинально значимым результатом окажется тот, который находится в диапазоне от 0,01 до 0,05. Однако такая стратегия в психологических исследованиях применяется все же редко.

В любом случае необходимо иметь в виду, что результаты анализа статистических гипотез не могут считаться достаточными для оценки экспериментальных гипотез, если они берутся сами но себе, вне связи со всей экспериментальной ситуацией.

Статистические гипотезы нельзя путать с экспериментальными и теоретическими гипотезами. Теоретические гипотезы отражают характер связей и закономерностей исследуемых явлений. Экспериментальные гипотезы выдвигаются на основе изучения таких теоретических знаний в данной области и конкретизируют таким образом сами теоретические гипотезы. Так же как и статистические гипотезы, они предполагают одновременную формулировку конкурирующих гипотез как отрицания существования предполагаемой каузальной зависимости. Благодаря этому факту исследуемая эмпирическая закономерность может допускать разные причинные интерпретации, называемые конкурирующими гипотезами.

В отличие от экспериментальных, статистические гипотезы являются лишь инструментом оценки собранных в ходе эксперимента данных и не предполагают изначально какой-либо эмпирической закономерности. Результат их проверки носит лишь статистический характер и поэтому не предполагает автоматического принятия или отвержения как экспериментальных, так и тем более теоретических гипотез.

Формулирование гипотез систематизирует предположения исследователя и представляет их в четком, лаконичном виде. Решение, которое требуется принять исследователю, касается истинности или ложности статистической гипотезы. Различают два вида гипотез: научные и статистические. Научная гипотеза – это предполагаемое решение проблемы (формулируется как теорема). Статистическая гипотеза – просто утверждение относительно неизвестного параметра генеральной совокупности (свойстве случайной величины или событии), которое формулируется для проверки надежности связи и которое можно проверить по известным выборочным статистикам (результатам исследования, имеющимся эмпирическим данным) .

Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные. Нулевая гипотеза (Н 0) это гипотеза об отсутствии различий, отсутствие влияния фактора, отсутствие эффекта и т.п . Это то, что предполагается опровергнуть, если перед нами стоит задача доказать значимость различий. Альтернативная гипотеза (Н 1) это гипотеза о значимости различий. Это то, что предполагается доказать, поэтому ее иногда называют экспериментальной или рабочей гипотезой.

Сама же процедура обработки полученных количественных данных, заключающаяся в вычислении некоторых статистических характеристик и оценок, позволяющих проверить нулевую гипотезу называется статистическим анализом .

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными. Гипотеза называется направленной , если она содержит указание на направление отличий. Такие гипотезы следует формулировать, например, в том случае, если в одной из групп индивидуальные значения испытуемых по какому-либо признаку выше, а в другой ниже, или необходимо доказать, что в одной из групп под влиянием каких-либо экспериментальных воздействий произошли более выраженные изменения, чем в другой группе. Гипотеза называется ненаправленной , если ее формулировка предполагает лишь определение отличий или не отличий (без указания направления отличий). Например, если необходимо доказать, в двух разных группах различаются формы распределения признака.

Примеры формулирования гипотез.

Метод, который используется для принятия решения относительно справедливости статистической гипотезы, называется проверкой гипотезы . Основной принцип проверки гипотезы состоит в том, что выдвигается нулевая гипотеза Н 0 , с тем, чтобы попытаться опровергнуть ее и тем самым подтвердить альтернативную гипотезу Н 1 .

При проверке любой статистической гипотезы решение исследователя никогда не принимается с уверенностью, поскольку всегда остается риск принятия неправильного решения.

Обычно используемые выборки невелики, и в этих случаях вероятность ошибки может быть значительной. Существует так называемый уровень достоверности (уровень значимости) различия. Это вероятность того, что различия считаются существенными, а они на самом деле случайны. То есть это вероятность отклонения нулевой гипотезы, в то время как она верна.

Когда указывается, что различия достоверны на 5%-ном уровне значимости, или при p£0,05, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,05 (низший уровень статистической значимости). Если указывается, что различия достоверны на 1%-ном уровне значимости, или при p£0,01, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,01 (достаточный уровень статистической значимости). Если указывается, что различия достоверны на 0,1%-ном уровне значимости, или при p£0,001, то имеется в виду, что вероятность того, что они все-таки недостоверны, составляет 0,001 (высший уровень статистической значимости).

Правило отклонения Н 0 и принятия Н 1:

Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,05 или превышает его, то Н 0 отклоняется, но еще нельзя определенно принять Н 1 .

Если эмпирическое значение критерия равняется критическому значению, соответствующему p£0,01 или превышает его, то Н 0 отклоняется принимается Н 1 .

Для наглядности правила принятия решения можно использовать так называемую «ось значимости».

Если уровень достоверности не превышен, то можно считать вероятным, что выявленная разница действительно отражает положение дел в популяции. Для каждого статистического метода этот уровень можно узнать из таблиц распределения критических значений соответствующих критериев.

T – критерий Стьюдента

Это параметрический метод, используемый для проверки гипотез о достоверности разницы средних при анализе количественных данных в популяциях с нормальным распределением и с одинаковой дисперсией. Он хорошо применим в случае сравнения величин средних случайных значений измеряемого признака в контрольной и экспериментальной группах, в различных половозрастных группах, группах, имеющих другие различные признаки.

Обязательным условием применимости параметрических методов, в том числе и t‑критерия Стьюдента, для доказательства статистических гипотез является подчинение эмпирического распределения исследуемого признака закону нормального распределения .

Метод Стьюдента различен для независимых и зависимых выборок.

Независимые выборки получаются при исследовании двух различных групп испытуемых (например, контрольной и опытной групп). К зависимым выборкам относятся, например, результаты одной и той же группы испытуемых до и после воздействия независимой переменной.

Проверяемая гипотеза Н 0 состоит в том, что разность между средними значениями двух выборок равна нулю ( = 0), другими словами это гипотеза о равенстве средних (). Альтернативная гипотеза Н 1 состоит в том, что эта разность отлична от нуля ( ¹ 0) или же существует отличие выборочных средних ().

В случае независимых выборок для анализа разницы средних применяют формулу: при n 1 , n 2 > 30

и формулу при n 1 , n 2 < 30, где

Среднее арифметическое значение первой выборки;

Среднее арифметической значение второй выборки;

s 1 – стандартное отклонение для первой выборки;

s 2 – стандартное отклонение для второй выборки;

n 1 и n 2 – число элементов в первой и второй выборках.

Для нахождения критического значения t определим число степеней свободы:

n = n 1 - 1 + n 2 - 1 = (n 1 + n 2) – 2 = n - 2.

Если |t эмп | > t кр, то нулевую гипотезу отбрасываем и принимаем альтернативную, то есть считаем разницу средних достоверной. Если |t эмп | < t кр, то разница средних недостоверна.

В случае зависимых выборок для определения достоверности разницы средних применяется следующая формула: , где

d – разность между результатами в каждой паре (х i – y i);

åd – сумма этих частных разностей;

åd 2 – сумма квадратов частных разностей;

n – число пар данных.

Число степеней свободы в случае зависимых выборок для определения t критерия будет равно n = n - 1.

Существуют и другие статистические критерии проверки гипотез, как параметрические, так и непараметрические. Например, математико-статистический критерий, позволяющий судить о сходстве и различиях в дисперсиях случайных величин, называется критерием Фишера.

Корреляционный анализ

В самом общем виде под значением «корреляция» понимается взаимная связь. Хотя, говоря о корреляции, используют также термины «корреляционная связь» и «корреляционная зависимость», которые часто используются как синонимы.

Под корреляционной связью понимают согласованные изменения двух или большего количества признаков, т.е. изменчивость одного признака находится в некотором соответствии с изменчивостью другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Таким образом, согласованные изменения признаков и отражающая это корреляционная связь между ними может свидетельствовать не о зависимости этих признаков между собой, а о зависимости обоих этих признаков от какого-то третьего признака или сочетания признаков, не рассматриваемых в исследовании.

СТАТИСТИЧЕСКИЕ ГИПОТЕЗЫ

Полученные в экспериментах выборочные данные всегда ограничены и носят в значительной мере случайный характер. Именно поэтому для анализа таких данных и используется мате­матическая статистика, позволяющая обобщать закономерности, полученные на выборке, и распространять их на всю генераль­ную совокупность.

Полученные в результате экспери­мента на какой-либо выборке данные служат основанием для суждения о генеральной совокупности. Однако в силу действия случайных вероятностных причин оценка параметров генераль­ной совокупности, сделанная на основании экспериментальных (выборочных) данных, всегда будет сопровождаться погрешнос­тью, и поэтому подобного рода оценки должны рассматриваться как предположительные, а не как окончательные утверждения. Подобные предположения о свойствах и параметрах генеральной совокупности получили название статистических гипотез . Как указывает Г.В. Суходольский: «Под статистической гипотезой обычно понимают формальное предположение о том, что сход­ство (или различие) некоторых параметрических или функцио­нальных характеристик случайно или, наоборот, неслучайно» .

Сущность проверки статистической гипотезы заключается в том, чтобы установить, согласуются ли экспериментальные дан­ные и выдвинутая гипотеза, допустимо ли отнести расхождение между гипотезой и результатом статистического анализа экспериментальных данных за счет случайных причин. Таким образом, статистическая гипотеза – это научная гипотеза, допускающая статистическую проверку, а математическая статистика – это научная дисциплина, задачей которой является научно обосно­ванная проверка статистических гипотез.

Статистические гипотезы подразделяются на нулевые и альтернативные, направленные и ненаправленные.

Нулевая гипотеза (H 0 ) – это гипотеза об отсутствии различий. Если мы хотим доказать значимость различий, то нулевую гипотезу требуется опровергнуть , иначе требуется подтвердить .

Альтернатив­ная гипотеза (Н 1 ) – гипотеза о значимости различий. Это то, что мы хотим до­казать, поэтому иногда ее называют экспериментальной гипотезой.

Бывают задачи, когда мы хотим доказать как раз незначимость различий, то есть подтвердить нулевую гипотезу. Например, если нам нужно убедиться, что разные испытуемые получают хотя и различные, но уравновешенные по трудности заданияили что экспериментальная и контрольная выборки не различаются между собой по каким-то значи­мым характеристикам. Однако чаще нам все-таки требуется доказать значимость различий, ибо они более информативны для нас в поиске нового.

Нулевая и альтернативная гипотезы могут быть направленными и ненаправленными.

Направленные гипотезы – если предполагается в одной группе значения признака выше, а в другой ниже:

Н 0: Х 1 не превышает Х 2 ,

Н 1: Х 1 превышает Х 2 .

Ненаправленные гипотезы – если предполагается что различаются формы распределения признака в группах:

Н 0: Х 1 не отличается от Х 2 ,

Н 1: Х 1 отличается Х 2 .

Если мы заметили, что в одной из групп индивидуальные значения испытуемых по какому-либо признаку, например по социальной активности, выше, а в другой ниже, то для проверки значимости этих различий нам необходимо сформулировать направленные гипотезы.

Если мы хотим доказать, что в группе А под влиянием каких-то экспериментальных воздействий произошли более выраженные изменения, чем в группе Б , то нам тоже необходимо сформулировать направленные гипотезы.

Если же мы хотим доказать, что различаются формы распределения признака в группах А и Б , то формулируются ненаправленные гипотезы.

Проверка гипотез осуществляется с помощью критериев статистической оценки различий.

Принимаемый вывод носит название статистического решения. Подчеркнем, что такое решение всегда вероятностно. При проверке гипотезы экспериментальные данные могут противоречить гипотезе Н 0 , тогда эта гипотеза отклоняется. В противном случае, т.е. если экспериментальные данные согласуются с гипотезой Н 0 , она не отклоняется. Часто в таких случаях говорят, что гипотеза Н 0 принимается. Отсюда видно, что статистическая проверка гипотез, основанная на экспериментальных выборочных данных, неизбежно связана с риском (вероятностью) принять ложное решение. При этом возможны ошибки двух родов. Ошибка первого рода произойдет, когда будет принято решение отклонить гипотезу Н 0 , хотя в действительности она оказывается верной. Ошибка второго рода произойдет, когда будет принято решение не отклонять гипотезу Н 0 , хотя в действительности она будет неверна. Очевидно, что и правильные выводы могут быть приняты также в двух случаях. В таблице 7.1 обобщено вышесказанное.

Таблица 7.1

Не исключено, что психолог может ошибиться в своем статистическом решении; как видим из таблицы 7.1, эти ошибки могут быть только двух родов. Поскольку исключить ошибки при принятии статистических гипотез невозможно, то необходимо минимизировать возможные последствия, т.е. принятие неверной статистической гипотезы. В большинстве случаев единственный путь минимизации ошибок заключается в увеличении объема выборки.

СТАТИСТИЧЕСКИЕ КРИТЕРИИ

Статистический критерий – это решающее правило, обеспечиваю­щее надежное поведение, то есть принятие истинной и отклонение ложной гипотезы с высокой вероятностью .

Статистические критерии обозначают также метод расчета опре­деленного числа и само это число.

Когда мы говорим, что достоверность различий определялась по критерию j * (критерий – угловое преобразование Фишера), то имеем в виду, что использовали метод j * для расчета определенного числа.

По соотношению эмпирического и критического значений крите­рия мы можем судить о том, подтверждается ли или опровергается нулевая гипотеза.

В большинстве случаев для того, чтобы мы признали различия значимыми, необходимо, чтобы эмпирическое значение критерия пре­вышало критическое, хотя есть критерии (например, критерий Манна-Уитни или критерий знаков), в которых мы должны придерживаться противоположного правила.

В некоторых случаях расчетная формула критерия включает в се­бя количество наблюдений в исследуемой выборке, обозначаемое как n . В этом случае эмпирическое значение критерия одновременно является тестом для проверки статистических гипотез. По специальной таблице мы определяем, какому уровню статистической значимости различий соответствует данная эмпирическая величина. Примером такого крите­рия является критерий j * , вычисляемый на основе углового преобразо­вания Фишера.

В большинстве случаев, однако, одно и то же эмпирическое зна­чение критерия может оказаться значимым или незначимым в зависи­мости от количества наблюдений в исследуемой выборке (n ) или от так называемого количества степеней свободы, которое обозначается как v или как df.

Число степеней свободы v равно числу классов вариационного ряда минус число условий, при которых он был сформирован. К числу таких условий относятся объем выборки (n ), средние и дисперсии.

Допустим, группу из 50 человек разделили на три класса по принципу:

Умеет работать на компьютере;

Умеет выполнять лишь определенные опера­ции;

Не умеет работать на компьютере.

В первую и вторую группы попало по 20 человек, в третью – 10.

Мы ограничены одним условием – объемом выборки. Поэтому, даже если мы потеряли данные о том, сколько человек не умеют рабо­тать на компьютере, мы можем определить это, зная, что в первом и втором классах – по 20 испытуемых. Мы не свободны в определении количества испытуемых в третьем разряде, «свобода» простирается только на первые две ячейки классификации:

Поскольку статистика как метод исследования имеет дело с данным, в которых интересующиеисследователязакономерностиискажены различными случайными факторами, большинство статистических вычислений сопровождается проверкой некоторых предположений или гипотез об источнике этих данных.

Педагогическая гипотеза (научное предположен ие о преимуществе того или иного метода) в процессе статистического анализа переводится на язык статисти­ческой науки и заново формулируется, по меньшей мере, в виде двух статистических гипотез.

Возможны два типа гипотез: первый тип - описа­тельные гипотезы, в которых описываются причины и возможные следствия. Второй тип - объяснительные : в них дается объяснение возможным следствиям из опре­деленных причин, а также характеризуются условия, при которых эти следствия обязательно последуют, т. е. объяс­няется, в силу каких факторов и условий будет данное следствие. Описательные гипотезы не обладают предвидением, а объяснительные обладают таким свойством. Объясни­тельные гипотезы выводят исследователей на предпо­ложения о существовании определенных закономерных связеймежду явлениями, факторами и условиями.

Гипотезы в педагогических иссле­дованиях могут предполагать, что одно из средств (или группа их) будет более эффективным, чем другие средства. Здесьгипотетическивысказываетсяпредположение о сравнительной эффективности средств, способов, методов, форм обучения.

Более высокий уровень гипотетического предсказания состоит в том, что автор исследования высказывает гипотезу о том, что какая-то система мер будет не только лучше другой, ноиизрядавозможных систем она кажется оптимальной с точки зрения определенных критериев. Такая гипотеза нуждаетсявещеболеестрогомиоттого более развернутом доказательстве.

Кулаичев А.П. Методы и средства анализа данных в среде Windows. Изд. 3-е, перераб. и доп. - М: ИнКо, 1999, стр. 129-131

Психолого-педагогический словарь для учителей и руководителей общеобразовательных учреждений. – Ростов-н/ Д: Феникс, 1998, стр. 92

СТАТИСТИЧЕСКАЯ ПРОВЕРКА СТАТИСТИЧЕСКИХ

Понятие статистической гипотезы.

Виды гипотез. Ошибки первого и второго рода

Гипотеза - это предположение о некоторых свойствах изучаемых явлений. Под статистической гипотезой понимают всякое высказывание о генеральной совокупности, которое можно проверить статистически, то есть опираясь на результаты наблюдений в случайной выборке. Рассматривают два вида статистических гипотез: гипотезы о законах распределения генеральной совокупности и гипотезы о параметрах известных распределений.

Так, гипотеза о том, что затраты времени на сборку узла машины в группе механических цехов, выпускающих продукцию одного наименования и имеющих примерно одинаковые технико-экономические условия производства, распределяются по нормальному закону, является гипотезой о законе распределения. А гипотеза о том, что производительность труда рабочих в двух бригадах, выполняющих одну и ту же работу в одинаковых условиях, не различается (при этом производительность труда рабочих каждой бригады имеет нормальный закон распределения), является гипотезой о параметрах распределения.

Подлежащая проверке гипотеза называется нулевой, или основной, и обозначается Н 0 . Нулевой гипотезе противопоставляют конкурирующую, или альтернативную, гипотезу, которую обозначают Н 1 . Как правило, конкурирующая гипотеза Н 1 является логическим отрицанием основной гипотезы Н 0.

Примером нулевой гипотезы может быть следующая: средние двух нормально распределенных генеральных совокупностей равны, тогда конкурирующая гипотеза может состоять из предположения, что средние не равны. Символически это записывается так:

Н 0: М (Х ) = М (Y ); Н 1: М (Х ) М (Y ) .

Если нулевая (выдвинутая) гипотеза будет отвергнута, то имеет место конкурирующая гипотеза.

Различают гипотезы простые и сложные. Если гипотеза содержит только одно предположение, то это - простая гипотеза. Сложная гипотеза состоит из конечного или бесконечного числа простых гипотез.

Например, гипотеза Н 0: p = p 0 (неизвестная вероятность p равна гипотетической вероятности p 0 ) - простая, а гипотеза Н 0: p < p 0 - сложная, она состоит из бесчисленного множества простых гипотез вида Н 0: p = p i , где p i - любое число, меньше p 0 .

Выдвигаемая статистическая гипотеза может быть правильной или неправильной, поэтому необходимо ее проверить , опираясь на результаты наблюдений в случайной выборке; проверку производят статистическими методами , поэтому ее называют статистической.

При проверке статистической гипотезы пользуются специально составленной случайной величиной, называемой статистическим критерием (или статистикой ). Принимаемое заключение о правильности (или неправильности) гипотезы основывается на изучении распределения этой случайной величины по данным выборки. Поэтому статистическая проверка гипотез имеет вероятностный характер: всегда существует риск допустить ошибку при принятии (отклонении) гипотезы. При этом возможны ошибки двух родов.

Ошибка первого рода состоит в том, что будет отвергнута нулевая гипотеза, хотя на самом деле она верна.

Ошибка второго рода состоит в том, что будет принята нулевая гипотеза, хотя в действительности верна конкурирующая.

В большинстве случаев последствия указанных ошибок неравнозначны. Что лучше или хуже - зависит от конкретной постановки задачи и содержания нулевой гипотезы. Рассмотрим примеры. Допустим, что на предприятии о качестве продукции судят по результатам выборочного контроля. Если выборочная доля брака не превышает заранее установленной величины p 0 , то партия принимается. Другими словами, выдвигается нулевая гипотеза: Н 0: p p 0 . Если при проверке этой гипотезы допущена ошибка первого рода, то мы забракуем годную продукцию. Если же совершена ошибка второго рода, то потребителю будет отправлен брак. Очевидно, что последствия ошибки второго рода могут быть значительно более серьезными.

Другой пример можно привести из области юриспруденции. Будем рассматривать работу судей как действия по проверке презумпции невиновности подсудимого. В качестве основной проверяемой гипотезы следует рассмотреть гипотезу Н 0 : подсудимый невиновен. Тогда альтернативной гипотезой Н 1 является гипотеза: обвиняемый виновен в совершении преступления. Очевидно, что суд может совершить ошибки первого или второго рода при вынесении приговора подсудимому. Если допущена ошибка первого рода, то это означает, что суд наказал невиновного: подсудимому был вынесен обвинительный приговор, когда на самом деле он не совершал преступления. Если же судьи допустили ошибку второго рода, то это значит, что суд вынес оправдательный приговор, когда на самом деле обвиняемый виновен в совершении преступления. Очевидно, что последствия ошибки первого рода для обвиняемого будут значительно более серьезными, в то время как для общества наиболее опасными являются последствия ошибки второго рода.

Вероятность совершить ошибку первого рода называют уровнем значимости критерия и обозначают .

В большинстве случаев уровень значимости критерия принимают равным 0,01 или 0,05. Если, например, уровень значимости принят равным 0,01, то это означает, что в одном случае из ста имеется риск допустить ошибку первого рода (то есть отвергнуть правильную нулевую гипотезу).

Вероятность совершить ошибку второго рода обозначают . Вероятность
не совершить ошибку второго рода, то есть отвергнуть нулевую гипотезу, когда она неверна, называется мощностью критерия.

Статистический критерий.

Критические области

Статистическую гипотезу проверяют с помощью специально подобранной случайной величины, точное или приближенное распределение которой известно (обозначим ее К ). Эту случайную величину называют статистическим критерием (или просто критерием ).

Существуют различные статистические критерии, применяемые на практике: U - и Z -критерии (эти случайные величины имеют нормальное распределение); F -критерий (случайная величина распределена по закону Фишера - Снедекора); t -критерий (по закону Стьюдента); -критерий (по закону "хи-квадрат") и др.

Множество всех возможных значений критерия можно разбить на два непересекающихся подмножества: одно из них содержит значения критерия, при которых нулевая гипотеза принимается, а другое - при которых она отвергается.

Множество значений критерия, при которых нулевая гипотеза отвергается, называется критической областью . Будем обозначать критическую область через W .

Множество значений критерия, при которых нулевая гипотеза принимается, называется областью принятия гипотезы (или областью допустимых значений критерия ). Будем обозначать эту область как .

Для проверки справедливости нулевой гипотезы по данным выборок вычисляют наблюдаемое значение критерия . Будем обозначать его К набл.

Основной принцип проверки статистических гипотез можно сформулировать так: если наблюдаемое значение критерия попало в критическую область (то есть
), то нулевую гипотезу отвергают; если же наблюдаемое значение критерия попало в область принятия гипотезы (то есть
), то нет оснований отвергать нулевую гипотезу.

Какими принципами следует руководствоваться при построении критической области W ?

Допустим, что гипотеза Н 0 на самом деле верна. Тогда попадание критерия
в критическую область в силу основного принципа проверки статистических гипотез влечет за собой отклонение верной гипотезы Н 0 , а значит, совершение ошибки первого рода. Поэтому вероятность попадания
в область W при справедливости гипотезы Н 0 должна быть равна уровню значимости критерия, то есть

.

Заметим, что вероятность совершить ошибку первого рода выбирается достаточно малой (как правило,
). Тогда попадание критерия
в критическую область W при справедливости гипотезы Н 0 можно считать практически невозможным событием. Если по данным выборочного наблюдения событие
все же наступило, то его можно считать несовместимым с гипотезой Н 0 (которая в результате и отвергается), но совместимым с гипотезой Н 1 (которая в результате принимается).

Предположим теперь, что верна гипотеза Н 1 . Тогда попадание критерия
в область принятия гипотезы влечет за собой принятие неверной гипотезы Н 0 , что означает совершение ошибки второго рода. Поэтому
.

Так как события
и
являются взаимно противоположными, то вероятность попадания критерия
в критическую область W будет равна мощности критерия, если гипотеза Н 1 верна, то есть

.

Очевидно, что критическую область следует выбирать так, чтобы при заданном уровне значимости мощность критерия
была максимальной. Максимизация мощности критерия обеспечит минимум вероятности допустить ошибку второго рода.

Следует отметить, что как бы ни было мало значение уровня значимости , попадание критерия в критическую область есть только маловероятное, но не абсолютно невозможное событие. Поэтому не исключено, что при верной нулевой гипотезе значение критерия, вычисленное по данным выборки, все же окажется в критической области. Отклоняя в этом случае гипотезу Н 0 , мы допускаем ошибку первого рода с вероятностью . Чем меньше , тем менее вероятно допустить ошибку первого рода. Однако с уменьшением уменьшается критическая область, а значит, становится менее возможным попадание в нее наблюдаемого значения К набл, даже когда гипотеза Н 0 неверна. При =0 гипотеза Н 0 всегда будет приниматься независимо от результатов выборки. Поэтому уменьшение влечет за собой увеличение вероятности принять неверную нулевую гипотезу, то есть совершить ошибку второго рода. В этом смысле ошибки первого и второго рода являются конкурирующими.

Так как исключить ошибки первого и второго рода невозможно, необходимо хотя бы стремиться в каждом конкретном случае свести к минимуму потери от этих ошибок. Конечно, желательно уменьшить обе ошибки одновременно, но так как они являются конкурирующими, то уменьшение вероятности допустить одну из них влечет увеличение вероятности допустить другую. Единственный путь одновременного уменьшения риска ошибок заключается в увеличении объема выборки .

В зависимости от вида конкурирующей гипотезы Н 1 строят одностороннюю (правостороннюю и левостороннюю) и двустороннюю критические области. Точки, отделяющие критическую область
от области принятия гипотезы , называют критическими точками и обозначают k крит. Для отыскания критической области необходимо знать критические точки.

Правосторонняя критическая область может быть описана неравенством
К >k крит. пр, где предполагается, что правая критическая точка k крит. пр >0. Такая область состоит из точек, находящихся по правую сторону от критической точки k крит. пр, то есть она содержит множество положительных и достаточно больших значений критерия К. Для нахождения k крит. пр задают сначала уровень значимости критерия . Далее правую критическую точку k крит. пр находят из условия . Почему именно это требование определяет правостороннюю критическую область? Так как вероятность события >k крит. пр ) мала, то, в силу принципа практической невозможности маловероятных событий, это событие при справедливости нулевой гипотезы в единичном испытании не должно наступить. Если все же оно наступило, то есть вычисленное по данным выборок наблюдаемое значение критерия
оказалось больше k крит. пр, то это можно объяснить тем, что нулевая гипотеза не согласуется с данными наблюдения и поэтому должна быть отвергнута. Таким образом, требование
определяет такие значения критерия, при которых нулевая гипотеза отвергается, а они и составляют правостороннюю критическую область.

Если же
попало в область допустимых значений критерия , то есть
< k крит. пр, то основная гипотеза не отвергается, ибо она совместима с данными наблюдения. Заметим, что вероятность попадания критерия
в область допустимых значений при справедливости нулевой гипотезы равна (1-) и близка к 1.

Необходимо помнить, что попадание значений критерия
в область допустимых значений не является строгим доказательством справедливости нулевой гипотезы. Оно лишь указывает, что между выдвигаемой гипотезой и результатами выборки нет существенного расхождения. Поэтому в таких случаях говорят, что данные наблюдений согласуются с нулевой гипотезой и нет оснований отвергать ее.

Аналогично проводится построение и других критических областей.

Так, л евосторонняя критическая область описывается неравенством
К <k крит. л, где k крит.л <0. Такая область состоит из точек, находящихся по левую сторону от левой критической точки k крит.л, то есть она представляет собой множество отрицательных, но достаточно больших по модулю значений критерия. Критическую точку k крит.л находят из условия
(К <k крит. л)
, то есть вероятность того, что критерий принимает значение, меньшее k крит.л, равна принятому уровню значимости , если нулевая гипотеза верна.

Двусторонняя критическая область
описывается следующими неравенствами: (К< k крит.л или К >k крит. пр), где предполагается, что k крит.л <0 и k крит. пр >0. Такая область представляет собой множество достаточно больших по модулю значений критерия. Критические точки находят из требования: сумма вероятностей того, что критерий примет значение, меньшее k крит. л или больше k крит. пр, должна быть равна принятому уровню значимости при справедливости нулевой гипотезы, то есть

(К< k крит. л )+
>k крит. пр )= .

Если распределение критерия К симметрично относительно начала координат, то критические точки будут располагаться симметрично относительно нуля, поэтому k крит. л = - k крит. пр. Тогда двусторонняя критическая область становится симметричной и может быть описана следующим неравенством: > k крит. дв, где k крит. дв = k крит. пр Критическую точку k крит. дв можно найти из условия

Р(К< -k крит. дв )=Р(К >k крит. дв )= .

Замечание 1. Для каждого критерия К критические точки при заданном уровне значимости
могут быть найдены из условия
только численно. Результаты численных вычислений k крит приведены в соответствующих таблицах (см., например, прил. 4 – 6 в файле «Приложения»).

Замечание 2. Описанный выше принцип проверки статистической гипотезы не доказывает еще ее истинность или неистинность. Принятие гипотезы Н 0 в сравнении с альтернативной гипотезой Н 1 не означает, что мы уверены в абсолютной правильности гипотезы Н 0 - просто гипотеза Н 0 согласуется с имеющимися у нас данными наблюдения, то есть является достаточно правдоподобным, не противоречащим опыту утверждением. Возможно, что с увеличением объема выборки n гипотеза Н 0 будет отвергнута.