3.4. Использование методов математической статистики для анализа данных
В учебном издании по медицинской информатике было бы излишне приводить подробные описания методов математической статистики, тем более что в последние годы вышло достаточно большое количество специальной литературы, рассчитанной на практикующего врача, с описанием как наиболее часто использующихся методов, так и работы со статистическими пакетами.
Поэтому здесь мы ограничимся лишь краткими сведениями, полезными для клинициста, но не достаточными для приобретения реальных знаний по математической статистике.Сравнение двух независимых групп по одному параметру. t-Критерий Стьюдента для независимых выборок (групп) является наиболее популярным методом решения этой задачи, суть которой сводится к проверке того, различаются ли средние значения параметра в сравниваемых группах. Критерий корректно использовать только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений параметров в группах.
Суть применения t-критерия Стьюдента для независимых выборок заключается в проверке нулевой гипотезы о том, что средние значения параметра в группах не различаются. Если нулевая гипотеза по результатам анализа отклоняется (р < 0,05), принимается альтернативная гипотеза о том, что средние значения параметров в группах различаются.
Правомочно использовать t-критерий Стьюдента для независимых выборок лишь при достаточно большом объеме выборок, что в клинической медицине бывает редко.
Кроме «классического» t-критерия Стьюдента существует его модификация, не требующая равенства дисперсий распределений параметров в группах.
В настоящее время, когда врачи становятся более сведущими в математической статистике, критерий Манна-Уитни (Мапп — Whitney U-test) используют почти так же часто, как t-критерий. Его применяют для сравнения выборок по количественным параметрам в случаях, когда хотя бы одна из сопоставляемых выборок имеет распределение, отличное от нормального, или если характер распределения параметра неизвестен (проверка на нормальность не проводилась).
Суть метода заключается в проверке нулевой гипотезы о равенстве средних рангов в группах, т.е. до проверки гипотезы осуществляется ранжирование значений параметра в каждой группе. Если нулевая гипотеза отклоняется, принимается альтернативная гипотеза о том, что между рангами групп есть различия.
Сравнение двух зависимых групп по одному параметру. t-Критерий Стьюдента для зависимых выборок, так же как и t-критерий Стьюдента для независимых выборок, можно применять только при условии нормального распределения параметров в каждой группе и равенства дисперсий распределений параметров в группах. В большинстве случаев на реальных клинических данных эти условия не выполняются, поэтому применение метода не правомочно.
Критерий Вилкоксона (Wilcoxon matched pairs test) — один из самых мощных непараметрических критериев. Его используют для парного сравнения выборок количественных (или качественных порядковых) параметров в тех случаях, когда хотя бы в одной из анализируемых выборок распределение величин параметра не является нормальным.
При применении критерия Вилкоксона проверяется нулевая гипотеза об отсутствии различий выборок. Если она отклоняется (р < 0,05), принимается альтернативная — об их наличии.
Анализ взаимосвязи двух параметров. Общепринятым способом выявления взаимосвязи между переменными является расчет корреляции.
Следует подчеркнуть, что обнаружение корреляции между двумя переменными не свидетельствует о существовании причинной связи между ними, а лишь указывает на возможность таковой (или фактора, определяющего изменение обеих переменных).
Обычно при использовании методов корреляции перед исследователем возникает вопрос о тесноте связи (степени сопряженности) переменных. Если каждому заданному значению одной переменной соответствуют близкие друг к другу, тесно расположенные около средней величины значения другой переменной, то связь является более тесной; если эти значения сильно варьируют, связь менее тесная. Таким образом, мера корреляции (значение коэффициента корреляции г) указывает, насколько тесно связаны между собой параметры.
Чем больше коэффициент корреляции, тем с большей степенью уверенности можно говорить о наличии линейной зависимости между параметрами.Условно выделяют следующие уровни корреляционной связи: слабая — около 0,3; умеренная — от 0,31 до 0,5; заметная — от 0,51 до 0,7; высокая — 0,71 и более.
По форме корреляция бывает прямой (при увеличении значений первой переменной значения второй также увеличиваются) и обратной (при увеличении значений первой переменной значения второй убывают). Коэффициент корреляции г принимает значения от -1 до +1. Обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима (р < 0,05). Отсутствие линейной корреляции не означает, что параметры независимы: связь между ними может быть нелинейной.
Наиболее часто применяемыми в настоящее время методами исследования корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену.
Корреляционный анализ по Пирсону используется при решении задачи исследования линейной связи двух нормально распределенных параметров. Проверяется нулевая гипотеза об отсутствии связи между параметрами, т.е. что г- 0. Кроме проверки на нормальность распределения каждого параметра до проведения корреляционного анализа рекомендуется строить график в координатах оцениваемых параметров, чтобы визуально определить характер зависимости. Если нулевая гипотеза отклоняется (р < 0,05), можно говорить о наличии значимой взаимосвязи между параметрами.
Корреляционный анализ по Спирмену применяется для исследования взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального. Проверяется нулевая гипотеза о том, что коэффициент корреляции равен нулю. Если нулевая гипотеза отклоняется (р < 0,05), взаимосвязь между параметрами есть.
Одновременный анализ трех и более параметров. Наряду с методами одномерного и двухмерного анализа существует большое количество методов многомерного (многофакторного) анализа данных.
Они дают возможность одновременно анализировать три и более переменные. К наиболее используемым методам многомерного анализа относятся: регрессионный анализ, дискриминантный анализ, кластерный анализ, дисперсионный анализ, анализ главных компонентов, факторный анализ.В клинических работах методы многофакторного анализа используются гораздо реже, чем описательная статистика, методы сравнения двух групп по параметру и корреляционный анализ, I хотя в последние годы наметилась тенденция к более широкому 1 применению регрессионного анализа.
Регрессионный анализ представляет собой метод статистического анализа, позволяющий исследовать вид зависимости одного параметра от нескольких других. Наряду с дискриминантным и кластерным он является одним из методов статистического моделирования. Моделью при этом является получаемое уравнение регрессии. С помощью рассчитываемых в ходе peгрессионного анализа константы и коэффициентов можно прогнозировать величину исследуемого параметра в зависимости от значений других переменных. В отличие от корреляционного анализа, который лишь дает возможность установления факта взаимосвязи параметров, он описывает вид зависимости переменных.
Регрессионный анализ подразделяют на однофакторный (один независимый параметр) и многофакторный (два и более независимых параметра), а также линейный и нелинейный.
Линейный регрессионный анализ используется в тех случаях, когда все задействованные в нем параметры являются нормально распределенными, количество значений параметров намного превышает количество самих параметров и т.д. Число ограничений на корректное проведение регрессионного анализа достаточно велико.
Самым употребляемым видом нелинейного регрессионного анализа в настоящее время является логистический. Главными условиями его применения является возможность принятия зависимым параметром только двух значений (например, есть заболевание — единица, нет заболевания — нуль). Все остальные параметры, задействованные в анализе, должны быть независимыми, при этом они могут быть любыми по типу — как количественными, так и качественными.
Дискриминантный анализ — это один из методов решения задачи классификации — разработки правила отнесения исследуемого объекта к одной из нескольких групп на основании величин выделенных параметров.
Кластерный анализ является методом статистической группировки объектов или параметров исследования в кластеры (от англ. cluster — гроздь, скопление) — подмножества исследуемой выборки.
Использование в практической деятельности врача методов многофакторного статистического анализа выходит за рамки необходимых знаний и навыков, которыми он должен владеть. Их применение требует глубоких знаний математической статистики, определенного опыта работы с медицинскими данными, а порой — даже искусства. I
Еще по теме 3.4. Использование методов математической статистики для анализа данных:
- 2. Задачи математической статистики
- 3.3. Подготовка, предварительный анализ информации и выбор методов обработки данных
- 3.1. Программные средства математической статистики
- §1.1 Основные дискретные модели математической статистики
- Никитина Н.Ш.. Математическая статистика для экономистов: Учеб. пособие. - 2-е изд., перераб. и доп.- М.: ИНФРА-М; Новосибирск: Изд-во НГТУ,2001. - 170 с., 2001
- Теория вероятностей и математическая статистика. Шпаргалка, 2017
- 3.4. Пример использования функционально-стоимостного анализа для стратегического управления
- Статистика и статистический анализ
- Связь с анализом многомерных данных
- Определение. Трансакционный анализ - психодинамический метод, центрированный на анализе личности, межличностного конфликта, анализе взаимодействия и человеческой судьбы.
- ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ДАННЫХ. СТАТИСТИЧЕСКИЕ КРИТЕРИИ ПРОВЕРКИ ГИПОТЕЗ
- Анализ внутренней среды ЛПУ количественным методом SWOT-анализа
- Анализ данных рентгенологического исследования.
- Анализ внутренней среды ЛПУ качественным методом SWOT-анализа
- Введение в математический анализ.