какие существуют этапы расчета критерия соответствия
ТЕМА 5. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ ДОСТОВЕРНОСТИ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ. КРИТЕРИЙ СООТВЕТСТВИЯ (хи-квадрат)
ЦЕЛЬ ЗАНЯТИЯ: Освоить методику вычисления и использования критерия соответствия для определения достоверности расхождения между несколькими сравниваемыми группами изучаемых явлений.
Методика проведения занятия: Студенты самостоятельно готовятся к практическому занятию по рекомендованной литературе и выполняют индивидуальное домашнее задание. Преподаватель в течение 10 минут проверяет правильность выполнения домашнего задания и указывает на допущенные ошибки, проверяет степень подготовки с использованием тестирования и устного опроса. Затем студенты самостоятельно вычисляют критерий соответствия для определения достоверности расхождения между несколькими сравниваемыми группами изучаемых явлений, оценивают полученные данные и формулируют заключение. В конце занятия преподаватель проверяет самостоятельную работу студентов.
КОНТРОЛЬНЫЕ ВОПРОСЫ:
КРАТКОЕ СОДЕРЖАНИЕ ТЕМЫ:
Непараметрическими являются количественные методы статистической обработки данных, применение которых не требует знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров.
Описанные выше статистические критерии достоверности (критерий Стьюдента t, критерий Фишера F и др.) относятся к параметрическим, т. к. используют стандартные параметры распределений (М, Р, m, n). Они связаны с законом нормального распределения и применяются для оценки расхождения между генеральными параметрами по выборочным показателям сравниваемых совокупностей. Существенным достоинством параметрических критериев служит их большая статистическая мощность, т. е. широкие разрешающие возможности, а недостатком – трудоемкость расчетов, неприменимость к распределениям, сильно отклоняющимся от нормального, а также при исследовании качественных признаков.
Наряду с параметрическими критериями для ориентировочной оценки расхождений между выборками (особенно небольшими) применяются так называемые непараметрические критерии, что позволяет сравнивать выборки как по количественным, так и по качественным признакам, значения которых не имеют числового представления, но которые можно ранжировать. Конструкции непараметрических критериев отличаются простотой.
В медицине для доказательства некоторого утверждения часто применяют метод, известный в математике как «доказательство от противного». Для этого в качестве рабочего инструмента используют так называемую «нулевую гипотезу». Гипотеза, в соответствии с которой отсутствуют различия между различными совокупностями, называется нулевой гипотезой.
Например, если надо показать, что заболеваемость в целом ниже у лиц, занимающихся физкультурой и спортом, чем у ведущих малоподвижный образ жизни, то выдвинем гипотезу об отсутствии различий в их состоянии здоровья. Затем попробуем отвергнуть эту гипотезу.
«Нулевая гипотеза» широко используется при оценке достоверности различия сравниваемых групп по критерию соответствия (хи-квадрат).
Критерий соответствия χ 2 применяется для статистической оценки закона распределения эмпирических вариационных рядов и для доказательства достоверности различий между двумя или несколькими выборочными совокупностями. Критерий соответствия применяется, когда результаты исследования представлены абсолютными величинами, и результат исхода имеет много градаций (выздоровел, состояние улучшилось, ухудшилось, умер), а также, если в подлежащем имеется несколько признаков (несколько возрастных групп, несколько методов лечения, кормления и т.д.). Критерий основан на предположении (нулевой гипотезе) об отсутствии разницы между величинами, полученными в результате выборочного наблюдения и теоретически вычисленными. Чем больше фактические величины отличаются от ожидаемых, тем больше уверенность, что изучаемый фактор оказывает существенное влияние.
Вычисляется критерий соответствия по формуле χ 2 =
Первым этапом в вычислении критерия соответствия являются формулировка нулевой гипотезы и исчисление ожидаемых величин. При определении ожидаемых чисел рекомендуется для большей точности расчета χ 2 вычислять их до десятых. На следующем этапе определяется разность между фактическими и ожидаемыми числами по всем группам (φ – φ1). Затем определяют квадрат разностей (φ – φ1) 2 и делят его на ожидаемое число в каждой группе . Критерий соответствия определяется путем суммирования всех предыдущих результатов по всем группам. Полученную величину χ 2 оцениваем по таблице критических значений (приложение 3), для чего определяют число степеней свободы n = (S – 1)(R – 1), где S – число строк, R – число рядов. Нулевая гипотеза подтверждается, если χ 2 меньше критического (табличного значения), и опровергается, если полученная величина χ 2 равна или больше табличного значения (приложение, табл. 4).
Пример расчета критерия соответствия (табл. 4).
1 этап – формулируем нулевую гипотезу – введение противогриппозной вакцины не повлияло на заболеваемость гриппом. В этом случае распределение на заболевших и не заболевших в двух группах наблюдения должно быть одинаковым и соответствовать итоговому распределению. Из 94 человек не заболел 61, а из 73 вакцинированных сколько могло быть не заболевших, если бы вакцинация не влияла на заболеваемость?
=47,4
Ожидаемое число заболевших среди вакцинированных будет определяться по пропорции:
=
=25,6
Так же вычисляются ожидаемые величины для заболевших и не заболевших гриппом из числа не вакцинированных.
=
= 13,6
=
= 7,4
ТЕМА 5. НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ ОЦЕНКИ ДОСТОВЕРНОСТИ РЕЗУЛЬТАТОВ СТАТИСТИЧЕСКОГО ИССЛЕДОВАНИЯ. КРИТЕРИЙ СООТВЕТСТВИЯ (хи-квадрат)
ЦЕЛЬ ЗАНЯТИЯ: Освоить методику вычисления и использования критерия соответствия для определения достоверности расхождения между несколькими сравниваемыми группами изучаемых явлений.
Методика проведения занятия: Студенты самостоятельно готовятся к практическому занятию по рекомендованной литературе и выполняют индивидуальное домашнее задание. Преподаватель в течение 10 минут проверяет правильность выполнения домашнего задания и указывает на допущенные ошибки, проверяет степень подготовки с использованием тестирования и устного опроса. Затем студенты самостоятельно вычисляют критерий соответствия для определения достоверности расхождения между несколькими сравниваемыми группами изучаемых явлений, оценивают полученные данные и формулируют заключение. В конце занятия преподаватель проверяет самостоятельную работу студентов.
КОНТРОЛЬНЫЕ ВОПРОСЫ:
КРАТКОЕ СОДЕРЖАНИЕ ТЕМЫ:
Непараметрическими являются количественные методы статистической обработки данных, применение которых не требует знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров.
Описанные выше статистические критерии достоверности (критерий Стьюдента t, критерий Фишера F и др.) относятся к параметрическим, т. к. используют стандартные параметры распределений (М, Р, m, n). Они связаны с законом нормального распределения и применяются для оценки расхождения между генеральными параметрами по выборочным показателям сравниваемых совокупностей. Существенным достоинством параметрических критериев служит их большая статистическая мощность, т. е. широкие разрешающие возможности, а недостатком – трудоемкость расчетов, неприменимость к распределениям, сильно отклоняющимся от нормального, а также при исследовании качественных признаков.
Наряду с параметрическими критериями для ориентировочной оценки расхождений между выборками (особенно небольшими) применяются так называемые непараметрические критерии, что позволяет сравнивать выборки как по количественным, так и по качественным признакам, значения которых не имеют числового представления, но которые можно ранжировать. Конструкции непараметрических критериев отличаются простотой.
В медицине для доказательства некоторого утверждения часто применяют метод, известный в математике как «доказательство от противного». Для этого в качестве рабочего инструмента используют так называемую «нулевую гипотезу». Гипотеза, в соответствии с которой отсутствуют различия между различными совокупностями, называется нулевой гипотезой.
Например, если надо показать, что заболеваемость в целом ниже у лиц, занимающихся физкультурой и спортом, чем у ведущих малоподвижный образ жизни, то выдвинем гипотезу об отсутствии различий в их состоянии здоровья. Затем попробуем отвергнуть эту гипотезу.
«Нулевая гипотеза» широко используется при оценке достоверности различия сравниваемых групп по критерию соответствия (хи-квадрат).
Критерий соответствия χ 2 применяется для статистической оценки закона распределения эмпирических вариационных рядов и для доказательства достоверности различий между двумя или несколькими выборочными совокупностями. Критерий соответствия применяется, когда результаты исследования представлены абсолютными величинами, и результат исхода имеет много градаций (выздоровел, состояние улучшилось, ухудшилось, умер), а также, если в подлежащем имеется несколько признаков (несколько возрастных групп, несколько методов лечения, кормления и т.д.). Критерий основан на предположении (нулевой гипотезе) об отсутствии разницы между величинами, полученными в результате выборочного наблюдения и теоретически вычисленными. Чем больше фактические величины отличаются от ожидаемых, тем больше уверенность, что изучаемый фактор оказывает существенное влияние.
Вычисляется критерий соответствия по формуле χ 2 =
Первым этапом в вычислении критерия соответствия являются формулировка нулевой гипотезы и исчисление ожидаемых величин. При определении ожидаемых чисел рекомендуется для большей точности расчета χ 2 вычислять их до десятых. На следующем этапе определяется разность между фактическими и ожидаемыми числами по всем группам (φ – φ1). Затем определяют квадрат разностей (φ – φ1) 2 и делят его на ожидаемое число в каждой группе . Критерий соответствия определяется путем суммирования всех предыдущих результатов по всем группам. Полученную величину χ 2 оцениваем по таблице критических значений (приложение 3), для чего определяют число степеней свободы n = (S – 1)(R – 1), где S – число строк, R – число рядов. Нулевая гипотеза подтверждается, если χ 2 меньше критического (табличного значения), и опровергается, если полученная величина χ 2 равна или больше табличного значения (приложение, табл. 4).
Пример расчета критерия соответствия (табл. 4).
1 этап – формулируем нулевую гипотезу – введение противогриппозной вакцины не повлияло на заболеваемость гриппом. В этом случае распределение на заболевших и не заболевших в двух группах наблюдения должно быть одинаковым и соответствовать итоговому распределению. Из 94 человек не заболел 61, а из 73 вакцинированных сколько могло быть не заболевших, если бы вакцинация не влияла на заболеваемость?
=47,4
Ожидаемое число заболевших среди вакцинированных будет определяться по пропорции:
=
=25,6
Так же вычисляются ожидаемые величины для заболевших и не заболевших гриппом из числа не вакцинированных.
=
= 13,6
=
= 7,4
Критерий соответствия
Смотреть что такое «Критерий соответствия» в других словарях:
критерий соответствия — (напр. принятого решения, кривой по экспериментальным точкам и др.) [А.С.Гольдберг. Англо русский энергетический словарь. 2006 г.] Тематики энергетика в целом EN fitting criterion … Справочник технического переводчика
критерий соответствия — 3.8 критерий соответствия: Установленное настоящим стандартом требование, которому должен удовлетворять стандартный полифракционный (монофракционный) песок для подтверждения соответствия эталонному полифракционному (монофракционному) песку.… … Словарь-справочник терминов нормативно-технической документации
критерий соответствия — atitikties kriterijus statusas T sritis augalininkystė apibrėžtis Biometrinis rodiklis, kuriuo apibūdinamas atitikimo laipsnis tarp teoriškai laukiamų ir empiriškai gautų duomenų. Skaičiuojamas pagal formulę χ² = Σ (Q – q)²/q, kur Q – empiriniai… … Žemės ūkio augalų selekcijos ir sėklininkystės terminų žodynas
Критерий — признак, на основе которого производится оценка состояния ядерной и радиационной безопасности ядерных установок судов и иных плавсредств. Источник … Словарь-справочник терминов нормативно-технической документации
критерий сглаживания — критерий согласования критерий соответствия — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом Синонимы критерий согласованиякритерий соответствия EN fitting… … Справочник технического переводчика
Критерий смыслового соответствия — формальное правило, по которому поисковые образы документа и запроса считаются совпадающими или несовпадающими. См. также: Релевантность Финансовый словарь Финам … Финансовый словарь
Критерий выдачи — совокупность признаков, по которым: 1 определяется степень соответствия поискового образа документа поисковому предписанию; и 2 принимается решение о выдаче или невыдаче того или иного документа в ответ на информационный запрос. По английски:… … Финансовый словарь
критерий выдачи — Совокупность признаков, по которым определяется степень соответствия поискового образа документа поисковому предписанию и принимается решение о выдаче или невыдаче данного документа в ответ на информационный запрос. [ГОСТ 7.73 96 ] Тематики поиск … Справочник технического переводчика
критерий радиационной стойкости изделия — Признак или граничное условие, связанное с определяющими радиационную стойкость параметрами, используемые при оценке соответствия изделия заданным требованиям по радиационной стойкости изделия. [ГОСТ 18298 79] Тематики стойкость радиационная … Справочник технического переводчика
критерий релевантности — Показатель, используемый для оценки степени соответствия найденных данных условиям поиска, указанным в запросе пользователя. Позволяет поисковой системе выдавать отобранные документы в порядке убывания степени близости семантической информации… … Справочник технического переводчика
Оценка достоверности различия сравниваемых групп по критерию соответствия (хи-квадрат).
При определении характера связи между изучаемыми факторами или явлениями одна из важнейших задач математической статистики заключается в оценке достоверности полученных результатов. Достоверность различий можно оценить по t-критерию, но этот критерий характеризует различия только между двумя совокупностями. При сравнении трех и более совокупностей оценка достоверности при помощи t-критерия затруднительна, так как попарное сравнение не позволяет дать общей оценки различий. Кроме того, сравниваемые группы могут иметь не два результата (да, нет), а несколько. Для решения этой задачи используется критерий «хи-квадрат», разработанный К. Пирсоном. Он же называется коэффициентом согласия и коэффициентом соответствия, «хи-критерием». Он служит для оценки различий в нескольких сравниваемых группах и при нескольких результатах с определенной степенью достоверности (например: оценка различий в распределении детей по частоте заболеваний в районах с разными уровнями загрязнения атмосферного воздуха); определения связи между двумя факторами (результат и зависимый признак). Например, имеется ли связь между жилищными условиями, материальным обеспечением семьи и т. д. и частотой заболеваний, госпитализацией; связь между состоянием физического развития и тяжестью отдельных заболеваний и т. д.; определения идентичности распределения частот двух и более вариационных рядов (коэффициент согласия). Например, одинаково ли распределение частот (детей) по содержанию гемоглобина, количеству эритроцитов, белков крови в двух совокупностях (живущих в зоне загрязнения и «чистой» зоне).
Из приведенных примеров видно, что «хи-квадрат» используется для анализа данных, характеризующих распределение, а не средние величины. Исходный материал для вычислений дается в абсолютных числах по наблюдениям в группах.
Сущность метода «хи-квадрат» заключается в определении достоверности различий между фактическими и теоретическими («ожидаемыми») данными, полученными при условии, что сравниваемые совокупности одинаковы по своему распределению («нулевая гипотеза»). После определения «нулевой гипотезы» на основании этого предположения определяются «ожидаемые» данные, которые сопоставляются с фактическими. Если различий между фактическими и теоретическими числами нет, то нулевая гипотеза подтвердилась и действительно различий в сравниваемых группах нет. Если фактические данные будут отличаться от теоретических, полученных при условии отсутствия различий в распределении, то сравниваемые группы имеют разное распределение и результаты в этих группах статистически достоверно различны.
Таким образом, если Р— фактические данные, P1 — теоретически исчисленные при нулевой гипотезе, то критерий может быть выражен формулой:
Оценка величины χ 2 проводится по специальной таблице. Различия считаются достоверными. в том случае, когда величина хи-квадрат соответствует вероятности, меньшей 5% (0,05). Это вероятность подтверждения нулевой гипотезы, т. е. предположения, что различия в сравниваемых группах отсутствуют (связи между факторами нет).
Рассмотрим технику вычисления критерия на примере распределения детей по частоте заболеваний в трех зонах проживания.
Фактические данные (р) представлены в таблице
Распределение детей трех районов по частоте заболеваний
1. Определяем рабочую (нулевую) гипотезу. Предполагается, что в любом месте проживания распределение детей по частоте заболевания будет одинаково. Это распределение вычисляется по итоговой строчке (нулевая гипотеза).
Всего детей | Не болели | Эпизодически болели | Часто болели |
100% | 6,7 | 46,0 | 47,3 |
2. В соответствии с нулевой гипотезой вычисляются новые «ожидаемые» данные. Если бы распределение детей по частоте заболевания было бы одинаковым во всех зонах проживания, то число не болевших, эпизодически и часто болевших детей в первой, второй и третьей зонах было бы следующим:
В зоне химического комбината | В первом контрольном районе |
Всего 390 детей | 410детей |
Не болели 6,7 – 100 | 6,7 – 100 |
х – 390 | х – 410 |
Эпизодически болели 46 – 100 | 46 – 100 |
х – 390 | х – 410 |
Часто болели 47,3 – 100 | 47,3 – 100 |
х – 390 | х – 410 |
«Ожидаемые» результаты (теоретические числа)
Район проживания | «Ожидаемые» числа р, | Разница фактических и «ожидаемых» чисел р – р1 | |||
не болели | эпизодически болели | часто болели | не болели | эпизодически болели | часто болели |
Зона химического комбината Контрольный район № 1 Контрольный район № 2 | – 13 +3 + 10 | –96 +55 +40 | + 109 –58 –50 |
3. Вычисляется разница фактических и «ожидаемых» чисел, представленная в таблице. Так, при нулевой гипотезе мы ожидали, что в зоне химического комбината число не болевших детей составит 26, эпизодически болевших 179, часто болевших 185. Фактически они составили соответственно: 13, 83, 294.
Различия фактических и «ожидаемых» чисел обусловлены несовпадением нулевой гипотезы и фактического состояния.
4. Различия возводят в квадрат.
5. Вычисляют различия на единицу ожидаемых наблюдений, т. е. квадрат разницы делят на число «ожидаемых» единиц:
Зоны проживания | (р – р1) 2 | (р – р1) 2 | |||
р1 | |||||
Не болели | Эпизодически болели | Часто болели | Не болели | Эпизодически болели | Часто болели |
Зона химического комбината | 6,5 | 51,5 | 64,2 | ||
Контрольный район № 1 | 0,3 | 16,1 | 17,3 | ||
Контрольный район № 2 | 8,7 | 8,7 | 13,2 |
Суммируют результаты последнего этапа — расчета: 6,5 + 0,3 + 3,7 + 51,5 + 16,8 и т. д. Сумма составляет—181,5. Это и есть критерий соответствия (χ 2 ).
6. Оценку величины χ 2 производим по таблице.
Вероятность подтверждения нулевой гипотезы (хи-квадрат) | |||||||
n’ | 0,05=5% | 0,01=1 % | 0,002=0,2% | n’ | 0,05=5 % | 0,01=1% | 0,002=0,2 % |
I | 3,8 | 6,6 | 9,5 | 21,0 | 26,2 | 31,0 | |
6,0 | 9,2 | 12,4 | 22,4 | 27,7 | 32,5 | ||
7,8 | 11,3 | 14,8 | 23,7 | 29,1 | 34,0 | ||
9,5 | 13,3 | 16,9 | 25,0 | 30,6 | 35,5 | ||
11,1 | 15,1 | 18,9 | 26,3 | 32,0 | 37,0 | ||
12,6 | 16,8 | 20,7 | 27,6 | 33,4 | 38,5 | ||
14,1 | 18,5 | 22,6 | 28,9 | 34,8 | 40,0 | ||
15,5 | 20,1 | 24,3 | 30,1 | 36,2 | 41,5 | ||
16,9 | 21,7 | 26,1 | 31,4 | 37,6 | 43,0 | ||
18,3 | 23,2 | 27,7 | 32,7 | 38,9 | 44,5 | ||
19,7 | 24,7 | 29,4 | 33,9 | 40,3 | 46,0 |
Оценим полученный результат в нашем примере.
Число степеней свободы определяется по формуле:
где: S — число сравниваемых групп (строк), r — число групп (граф) результатов.
В нашем исследовании S (число групп детей, проживающих в различных районах загрязнения воздуха) — 3, r (число рассматриваемых параметров их здоровья) — 3 (не болели, эпизодически болели, часто болели),
В нашем примере вероятность нулевой гипотезы менее 0,2%, отсюда связь между загрязнением атмосферного воздуха и частотой заболеваний детей имеется и она доказывается с достаточно большой надежностью.