Меню

Что называется мощностью критерия вероятность

Что называется мощностью критерия вероятность

Мощность статистических критериев

Мощность статистического критерия представляет собой вероятность отвержения нулевой гипотезы, когда она фактически неверна. Иными словами, мощность говорит нам о том, насколько вероятно в данном исследовании получить статистически значимый результат, если искомая закономерность действительно имеет место в генеральной совокупности. Из этого определения следует, что любой исследователь кровно заинтересован в высоком значении мощности используемого статистического критерия.

Мощность критерия является функцией трех вещей: 1) степени, в которой проявляет себя искомая закономерность («величина эффекта»), 2) избранного исследователем уровня статистической значимости (альфа, вероятность ошибочного отбрасывания нулевой гипотезы), 3) объема выборки из генеральной совокупности.

Каждую из этих четырех величин можно выразить через три оставшиеся. Джейкоб Коэн, энтузиаст анализа мощности в психологических исследованиях, в своей монографии [1] приводит огромное количество таблиц, с помощью которых можно определять мощность и необходимый объем выборки, не прибегая к трудоемким вычислениям. По мнению Коэна, трудности, которые возникают у исследователей при анализе мощности, частично объясняются тем, что в психологии в целом отсутствует четкое представление о степени выраженности исследуемых феноменов. Поэтому еще одним немаловажным достоинством его работы является разработка показателей величины эффекта и операционализация понятий «слабый», «средний» и «выраженный» эффект для наиболее распространенных статистических критериев.

К настоящему времени разработано большое количество статистических программ, предназначенных для анализа мощности. Данное сообщение посвящено пакету pwr, которым можно воспользоваться в рамках среды R.

Рассмотрим для примера работу с функцией pwr.r.test, предназначенной для анализа мощности коэффициента корреляции Пирсона, одного из наиболее распространенных в психологии показателей величины эффекта. Дж. Коэн предложил для коэффициента корреляции такие операциональные определения величины эффекта: 0.1 — слабая корреляция, 0.3 — средняя корреляция, 0.5 — значительная корреляция (замечу, что его классификация существенно отличается от того, что можно встретить в пособиях по анализу данных. Так, в [2] величина корреляции до 0.5 включительно рассматривается как слабая).

Аргументами этой функции являются:
n — объем выборки;
r — значение коэффициента корреляции;
sig.level — уровень статистической значимости;
power — мощность критерия;
alternative — строка, указывающая на тип альтернативной гипотезы: «two.sided» (ненаправленная), «greater», «less» (направленные).

Читайте также:  Насос отбора мощности скания

При вызове функции только один из аргументов n, r, sig.level или power должен быть опущен, чтобы его можно было вычислить на основании оставшихся. Исключение составляет лишь аргумент sig.level, имеющий значение по умолчанию 0.05, поэтому ему передают значение NULL, если функция должна вычислить уровень значимости.

Рассмотрим такую задачу. Пускай предполагаемая исследователем сила связи в генеральной совокупности описывается как средняя, при этом он хочет обеспечить вероятность обнаружения этой зависимости на уровне 0.8, уровень статистической значимости установлен им в 0.05 и альтернативная гипотеза является ненаправленной:

Таким образом, чтобы с высокой вероятностью обнаруживать среднюю по величине связь, нужно иметь не менее 85 испытуемых. Если повысить уровень статистической значимости до 0.01, то объем выборки возрастет до 125 человек. Если связь между переменными предполагается слабой (самый распространенный в психологии вариант вследствие невысокой валидности измерения и комплексного характера взаимосвязей), то понадобится 1163 испытуемых. Используя рассмотренные вычисления на этапе планирования исследования, ученый может составить четкое представление о том, какой объем выборки ему может понадобиться, чтобы обнаруживать искомую закономерность с заданной величиной эффекта. Важно подчеркнуть, что необходимость представлять себе величину эффекта перед началом исследования существенно меняет акценты по сравнению с обычной практикой.

Рассматриваемая функция помогает отвечать и на другие вопросы. Например: если я располагаю выборкой в 30 человек и собираюсь обнаружить связь средней силы при установленном уровне значимости в 0.01, то какой будет мощность критерия? Оказывается, она в этом случае составит всего 0.156, т.е. существует крайне незначительная вероятность обнаружения данной закономерности.

Еще один пример. Какого рода эффекты я смогу обнаруживать с вероятностью 0.8, на уровне статистической значимости 0.01, если объем выборки составляет 100 человек? Ответ — 0.334, т.е. среднюю по величине зависимость.

Помимо функции pwr.r.test, в пакете pwr имеется богатый набор инструментов для работы с наиболее распространенными статистическими критериями:

pwr.p.test: критерий для одной доли
pwr.2p.test, pwr.2p2n.test: критерий значимости различия двух долей
pwr.t.test, pwr.t2n.test: критерий Стььюдента
pwr.anova.test: однофакторный дисперсионный анализ для сбалансированных планов
pwr.chisq.test: критерий хи-квадрат
pwr.f2.test: регрессионный анализ
Ряд функций предназначен для вычисления величины эффекта: ES.h (доли), ES.w1 (критерий согласия), ES.w2 (меры связи). Функция cohen.ES дает возможность вывести величину эффекта для заданного критерия и уровня.

Читайте также:  Формула расчета мощности электронагревателя

1. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum
2. Бююль А., Цефель П. SPSS: искусство обработки информации, изд-во DiaSoft, 2005 Метки: pwr, величина эффекта, мощность

Источник



Мощность критериев.

Как правило, вспоминают о мощности критерия, когда различия не выявлены, т.е. при проверке гипотезы получен результат, что нулевую гипотезу нельзя отвергнуть. Напоминаем, что чувствительность или мощность критерия это вероятность найти различия там, где они действительно есть. Поэтому если мы не нашли различия, желательно оценить мощность критерия в данном случае. Если она высокая (более 75%), то, скорее всего, различий действительно нет. Однозначный такой вывод можно сформулировать, только если мощность равна 100%. Если же мощность критерия мала, то различия возможно на самом деле есть, но мы не смогли их доказать.

На мощность критерия влияет:

— уровень значимости (чем с меньшей вероятностью ошибки мы хотим доказать различия, тем с большей вероятностью мы не найдём их там, где они действительно есть);

— величина различий (разница между сравниваемыми параметрами);

— разброс значений (среднее квадратическое отклонение);

Для оценки мощности критерия Стьюдента можно воспользоваться диаграммами чувствительности (рис.1). На них мощность определяется как функция параметра нецентральности при заданном объёме выборки (численности сравниваемых групп) и заданном уровне значимости (обычно минимальный a=0,05).

Параметр нецентральности j определяется как отношение разницы сравниваемых средних d к среднему квадратическому отклонению изучаемого параметра в генеральной совокупности s: .

В качестве s при расчётах берётся объединённая оценка среднего квадратического ототклонения: .

Пример:

В примере, рассмотренном при сравнении групп больных по частоте пульса с помощью критерия Стьюдента мы не выявили различий. Оценим мощность критерия при этих данных.

Измерения пульса 10 больных, проведенные после некоторой процедуры, и 12 больных контрольной группы дали следующие результаты: для I группы = 70 уд/мин, для II группы = 68 уд/мин; оценки дисперсий соответственно равны: = 9 (уд/мин)², и = 4 (уд/мин)².

Читайте также:  Что такое номинальная мощность обогрева кондиционера

Разница средних: (уд/мин).

Рис. 1. Чувствительность (мощность) критерия Стьюдента как функция от параметра нецентральности j при уровне значимости a = 0,05 для разных объёмов выборок n.

Объединённая оценка среднего квадратического отклонения:

При уровне значимости a=0,05 и численности групп 10 (при неодинаковой численности берётся меньшее значение) мощность критерия Стьюдента по диаграмме (рис.1) составляет 40%. Мощность недостаточно высокая, можно утверждать, что на самом деле процедура оказывает действие на пульс, просто мы этого не выявили. Для доказательства эффективности процедуры можно попытаться проверить гипотезу непараметрическим методом или, что гораздо лучше, увеличить численность групп и заново провести сравнение. Например, если мы увеличим численность сравниваемых групп до 20 человек, то при тех же остальных параметрах мощность составит уже 75%, т.е. гораздо более вероятнее сумеем найти различия.

Для оценки мощности дисперсионного анализа также можно воспользоваться диаграммами [Гланц С., приложение Б]. Параметр нецентральности в этом случае можно рассчитать двумя способами:

где k – количество сравниваемых групп;

n – численность каждой из групп (если неодинаковы, то берём наименьшее значение);

s – среднее квадратическое отклонение в совокупности, в качестве которой берём объединённую оценку , ni – численность i-ой группы; si – среднее квадратическое отклонение в i-ой группе, — общая численность обследованных;

где – среднее в i-ой группе;

— среднее по всем группам.

Мощность критерия можно использовать при планировании эксперимента, т.е. предварительного определения необходимой численности групп. В этом случае мы задаёмся достаточной мощностью и примерно оценив параметр нецентральности, например, по данным литературы или по предварительному исследованию, определяем необходимую численность группы. Это может быть очень полезно, чтобы не проводить заведомо несостоятельные исследования.

Оценка чувствительности довольно сложная задача, особенно при сравнении качественных признаков. Для формулирования вывода при не отвержении нулевой гипотезы, действительно нет различий или мы их просто не нашли можно воспользоваться доверительными интервалами для разницы сравниваемых величин. С помощью доверительных интервалов можно и вообще проверять нулевую гипотезу.

Дата добавления: 2016-02-04 ; просмотров: 1516 ; ЗАКАЗАТЬ НАПИСАНИЕ РАБОТЫ

Источник