Что определяют методом корреляции в медицине
Библиотека постов MEDSTATISTIC об анализе медицинских данных
Ещё больше полезной информации в нашем блоге в Инстаграм @medstatistic
Критерии и методы
КРИТЕРИЙ КОРРЕЛЯЦИИ ПИРСОНА
– это метод параметрической статистики, позволяющий определить наличие или отсутствие линейной связи между двумя количественными показателями, а также оценить ее тесноту и статистическую значимость. Другими словами, критерий корреляции Пирсона позволяет определить, изменяется ли (возрастает или уменьшается) один показатель в ответ на изменения другого? В статистических расчетах и выводах коэффициент корреляции обычно обозначается как rxy или Rxy.
1. История разработки критерия корреляции
Критерий корреляции Пирсона был разработан командой британских ученых во главе с Карлом Пирсоном (1857-1936) в 90-х годах 19-го века, для упрощения анализа ковариации двух случайных величин. Помимо Карла Пирсона над критерием корреляции Пирсона работали также Фрэнсис Эджуорт и Рафаэль Уэлдон.
2. Для чего используется критерий корреляции Пирсона?
Критерий корреляции Пирсона позволяет определить, какова теснота (или сила) корреляционной связи между двумя показателями, измеренными в количественной шкале. При помощи дополнительных расчетов можно также определить, насколько статистически значима выявленная связь.
Например, при помощи критерия корреляции Пирсона можно ответить на вопрос о наличии связи между температурой тела и содержанием лейкоцитов в крови при острых респираторных инфекциях, между ростом и весом пациента, между содержанием в питьевой воде фтора и заболеваемостью населения кариесом.
3. Условия и ограничения применения критерия хи-квадрат Пирсона
Например, рост ребенка зависит от его возраста, то есть чем старше ребенок, тем он выше. Если мы возьмем двух детей разного возраста, то с высокой долей вероятности рост старшего ребенка будет больше, чем у младшего. Данное явление и называется зависимостью, подразумевающей причинно-следственную связь между показателями. Разумеется, между ними имеется и корреляционная связь, означающая, что изменения одного показателя сопровождаются изменениями другого показателя.
В другой ситуации рассмотрим связь роста ребенка и частоты сердечных сокращений (ЧСС). Как известно, обе эти величины напрямую зависят от возраста, поэтому в большинстве случаев дети большего роста (а значит и более старшего возраста) будут иметь меньшие значения ЧСС. То есть, корреляционная связь будет наблюдаться и может иметь достаточно высокую тесноту. Однако, если мы возьмем детей одного возраста, но разного роста, то, скорее всего, ЧСС у них будет различаться несущественно, в связи с чем можно сделать вывод о независимости ЧСС от роста.
Приведенный пример показывает, как важно различать фундаментальные в статистике понятия связи и зависимости показателей для построения верных выводов.
4. Как рассчитать коэффициента корреляции Пирсона?
Расчет коэффициента корреляции Пирсона производится по следующей формуле:
5. Как интерпретировать значение коэффициента корреляции Пирсона?
Более точную оценку силы корреляционной связи можно получить, если воспользоваться таблицей Чеддока:
Абсолютное значение rxy | Теснота (сила) корреляционной связи |
менее 0.3 | слабая |
от 0.3 до 0.5 | умеренная |
от 0.5 до 0.7 | заметная |
от 0.7 до 0.9 | высокая |
более 0.9 | весьма высокая |
Оценка статистической значимости коэффициента корреляции rxy осуществляется при помощи t-критерия, рассчитываемого по следующей формуле:
Полученное значение tr сравнивается с критическим значением при определенном уровне значимости и числе степеней свободы n-2. Если tr превышает tкрит, то делается вывод о статистической значимости выявленной корреляционной связи.
6. Пример расчета коэффициента корреляции Пирсона
Целью исследования явилось выявление, определение тесноты и статистической значимости корреляционной связи между двумя количественными показателями: уровнем тестостерона в крови (X) и процентом мышечной массы в теле (Y). Исходные данные для выборки, состоящей из 5 исследуемых (n = 5), сведены в таблице:
Σ(X) = 951 + 874 + 957 + 1084 + 903 = 4769
Σ(Y) = 83 + 76 + 84 + 89 + 79 = 441
Mx = Σ(X) / n = 4769 / 5 = 953.8
My = Σ(Y) / n = 441 / 5 = 82.2
Статистические методы анализа в клинической практике. Часть I. Одномерный статистический анализ
Полный текст:
Аннотация
Ключевые слова
Для цитирования:
Румянцев П.О., Саенко У.В., Румянцева У.В. Статистические методы анализа в клинической практике. Часть I. Одномерный статистический анализ. Проблемы Эндокринологии. 2009;55(5):48-55. https://doi.org/10.14341/probl200955548-55
For citation:
Rumyantsev P.O., Saenko U.V., Rumyantseva U.V. Statistical methods for the analyses in clinical practice. Part 1. Univariate statistical analysis. Problems of Endocrinology. 2009;55(5):48-55. (In Russ.) https://doi.org/10.14341/probl200955548-55
На протяжении всей своей истории медицина искала пути повышения эффективности результатов диагностики и лечения. Начиная с интуитивных обобщений, методом проб и ошибок, через осмысление разрозненного эмпирического опыта, она
вступила в эпоху доказательности. В настоящее время каждый вывод, предлагаемый специалистам и общественности, основывается на убедительных аргументах, а данные, из которых этот вывод вытекает, должны быть получены в ходе четко спланированного исследования, использующего адекватные методы статистического анализа.
Любое исследование начинается с определения его цели. Таковой, например, может быть изучение эффективности фармакологического препарата или новой процедуры в лечении заболевания. В протоколе будущего исследования четко указываются все данные, которые должны быть собраны в ходе его выполнения, методика получения каждого результата, а также, подчеркнем, заранее определяются методы статистической обработки. Производится предварительная оценка необходимой мощности исследования, также основывающаяся на статистических методах. Только при соблюдении такой методологии протокола результаты исследования могут считаться доказательными.
Ввиду того, что объемы данных и размеры групп (выборок) могут сильно варьировать, а данные могут быть весьма разнообразными, возникает необходимость использования методов статистического анализа, адекватных задаче. Расчет статистических показателей, которые позволяют оценить достоверность различия, корреляцию и взаимное влияние анализируемых факторов, происходит по определенной технологии с использованием математических функций и создания моделей. Назначение статистического анализа состоит в объективизации суждений о результатах исследования и обеспечении доказательствами правомочности сформулированных выводов.
Целью данного обзора является попытка донести до клини- к истов в упрощенной и доступной для понимания форме логику методологию современной аналитической статистики, применяемой в мировой медицине. Хотелось бы надеяться, что это поможет врачам взвешенно осуществлять планирование (дизайн) исследования, корректно анализировать полученные дан- :ые и верно интерпретировать результаты анализа. В этой ра- 1 эте мы намеренно не углубляемся в математические расчеты и пассматриваем базисные концепции наиболее востребованных медицине методов статистического анализа.
1. Формирование статистической гипотезы
Переходя от общей постановки проблемы и дизайна иссле- дзвания к расчетам, необходимо прежде всего сформулировать статистическую гипотезу. Она служит своеобразным связующим звеном между данными и возможностью применения ста- ‘истических методов анализа, формулируя вероятностный закон разброса данных.
Выдвинутая статистическая гипотеза дает описание ожидае- ых результатов исследования, с которыми сравниваются наблюдаемые. Если гипотеза верна, наблюдаемое отличается от ожидаемого лишь случайным образом, а именно — в соответствии с вероятностным законом этой гипотезы. Нулевая гипотеза (обозначается Но) предполагает отсутствие различий (корреляции, связи) между сравниваемыми выборками. В качестве контрольной выборки чаще всего выступает общепринятый стандарт (метод, подход). Если же нулевая гипотеза отвергается, то принимается альтернативная гипотеза (На) о наличии различия между группами.
Отличие наблюдаемого от ожидаемого измеряется вероятностной мерой. Если отличия между наблюдаемым и ожидаемым настолько велики, что вероятность того, что они являются случайными мала, — можно отвергнуть выдвинутую гипотезу как неверную. Обычно она отвергается, если вероятностная мера оказалась меньше или равна заранее установленному уровню значимости (см. раздел 5).
Во многих случаях исследователь интуитивно ставит перед собой задачу доказать, что «новый метод лучше старого», т. е. подтвердить альтернативную гипотезу. Это достаточно распространенное заблуждение относительно порядка применения статистических методов.
Типы данных, их независимость и распределение
Для правильного выбора статистического теста необходимо учитывать характер данных, включаемых в анализ: типы переменных, возможные зависимости между ними и формы их распределений.
Первая попытка классификации переменных в статистике, сохранившая свое значение до настоящего времени, была предпринята в 1946 г. Стэнли Смитом Стивенсом (Stanley Smith Stevens). Схема классификации была основана на типах операций, допустимых для данной переменной. Например, для переменных, обозначающих пол или религию, допустимы только сравнения типа равно — не равно, а сравнения типа больше — меньше или арифметические операции недопустимы; как следствие, для этих переменных может быть определена такая статистика, как мода (наиболее вероятное значение), и не может быть определено математическое ожидание (среднее значение).
В порядке возрастания числа допустимых операций С. Стивенс ввел следующие уровни классификации переменных: номинальный (nominal), порядковый (ordinal) и непрерывный (continuous), причем последний делился на подуровни: интервальный (interval) и относительный (ratio).
Дискуссия о «правильной» классификации переменных в статистике продолжается до сих пор. На сегодняшний день согласия в этом вопросе не достигнуто, и некоторые статистические компьютерные программы требуют определения типа переменных (например, PSPP). Пользователь должен тщательно следить по документации за схемой классификации, использующейся в компьютерной программе, чтобы гарантировать корректный выбор вычисляемых статистик и тестов.
Для простоты мы примем за основу 3 типа переменных: непрерывные, дискретные и категориальные (номинальные). Непрерывные переменные (continuous variables) могут принимать любые численные значения, которые естественным образом упорядочены на числовой оси (например, рост, масса тела, артериальное давление (АД), СОЭ).
Дискретные переменные (discrete variables) способны принимать счетное множество упорядоченных значений, которые могут просто обозначать целочисленные данные или ранжировать данные по степени проявления на упорядоченной ранговой шкале (клиническая стадия опухоли, тяжесть состояния пациента). Категориальные переменные (categorial variables) являются неупорядоченными и используются для качественной классификации (пол, цвет глаз, место жительства); в частности, они могут быть бинарными (дихотомическими) и иметь категорические значения: 1/0, да/нет, имеется/отсутствует.
Форма плотности распределения (distribution density) — для непрерывных переменных, или форма весовой функции (probability mass function) — для дискретных переменных, может выражаться эмпирической гистограммой, показывая, с какой частотой значения переменной попадают в определенные интервалы или принимают определенные значения.
Нормальное (или гауссово) распределение имеет колоколообразную форму, абсолютно симметричную относительно оси, проходящей через среднее значение (рис. 1) и математически описывается формулой, включающей 2 параметра — среднее и стандартное отклонение (см. раздел 3).
Оценка соответствия распределения данных гауссову выполняется в статистических программах с помощью критериев нормальности (например, Колмогорова—Смирнова). Визуальная проверка с помощью гистограммы также весьма наглядна. В тех случаях, когда данные не распределены нормально, но подчиняются другому распределению (что может быть определено с помощью статистических программ), приведение к нормальности может быть сделано путем математических операций, например, логарифмирования, извлечения квадратного корня или обращения.
Независимость (англ, independence) данных предполагает, что значения переменных в одной выборке не связаны со значениями переменных в другой, с которой производится сравнение. Примером независимых выборок могут быть показатели АД в группе мужчин по сравнению с группой женщин: АД у мужчин не зависит от аналогичного показателя у женщин. Примером зависимых выборок являются показатели АД, измеренного у пациентов в 9 ч утра и измеренного у них же в 5 ч вечера. Результаты этих измерений для каждого человека и в целом между выборками скорее всего будут коррелировать, поэтому они считаются парными и оцениваются как зависимые.
Описательная статистика
Для составления представления о выборке в целом существует ряд показателей, объединяемых понятием «описательная статистика». Каждому исследователю известен такой показатель как среднее (mean), который вычисляется путем деления суммы значений переменной на количество значений и характеризует «центральное положение» количественной переменной. Показатель среднего сильно зависит от разброса данных (т. е. наличия экстремально больших и малых значений) и размера выборки. Из-за того, что значения суммируются и делятся на количество случаев (наблюдений), очень высокие или низкие значения переменных (выбросы, англ, outlier) в малых выборках могут существенно влиять на значение среднего. По мере того, как выборка количественно увеличивается в размере, влияние экстремальных значений на среднее снижается.
Медиана (median) — значение, которое занимает среднее положение среди точек данных, разбивая выборку на две равные части. Половина значений переменной лежит по одну сторону значения медианы, и половина — по другую. Очевидно, что выбросы, т. е. экстремальные значения переменной оказывают на медиану гораздо меньшее воздействие, чем на среднее (сами значения, но не их количество). В связи с этим медиану часто используют для описания, например, среднего роста или массы тела в группах.
Стандартное отклонение (standard deviation, SD) отражает изменчивость (разброс, вариацию) значений переменной и оценивает степень их отличия от среднего. Оно рассчитывается на основании вычисленного показателя рассеяния данных, называемого дисперсией (variance), путем извлечения из него квадратного корня, в связи с чем в отечественной литературе его также называют «среднеквадратичным отклонением» и обозначают греческим символом о (сигма). Стандартное отклонение может меняться непредсказуемо, т. е. расти или уменьшаться с увеличением размера выборки, однако обычно не слишком сильно. Наверняка многие исследователи слышали о так называемом правиле трех сигм. Оно гласит, что практически все наблюдения укладываются в интервал «среднее ± Зо». Действительно, в интервал «±3о» попадают 99,7% наблюдений, «±2а» включает 95,4% всех наблюдений, а «±1о — всего 68,3. Это правило подходит для различных распределений, включая нормальное.
Стандартная ошибка (среднего) (англ, standard error SE, иногда standard error mean, SEM) является оценкой возможного отличия между значением среднего в анализируемой выборке, и истинным средним для всей популяции (которое на самом деле не может быть определено без анализа бесконечно большого числа наблюдений). Стандартную ошибку рассчитывают путем деления стандартного отклонения на квадратный корень из числа наблюдений в выборке и, следовательно, ее значение уменьшается с ростом размера выборки. Это уменьшение является естественным, поскольку чем больше имеется наблюдений, тем выше вероятность, что рассчитанное среднее приближается к истинному.
Доверительный интервал (англ, confidence interval, CI) — диапазон значений, область, в которой с определенным уровнем надежности (или доверия) содержится истинное значение параметра (например, среднего). 90% доверительный интервал означает, что истинное значение величины попадет в рассчитанный интервал с вероятностью 90%. В биомедицинских исследованиях доверительный интервал среднего обычно устанавливается на уровне 95% и определяется как ±1,96 стандартной ошибки (коэффициент 1,96 вытекает из предположения о нормальности распределения значения переменной при условии, что выборка достаточно велика). Для примера, если значение среднего систолического АД в исследованной группе составляет 125 мм рт. ст., а стандартная ошибка — 5 мм рт. ст., то при 95% доверительном интервале границы диапазона значений среднего будут
У исследователей часто возникает вопрос, какие описательные статистические характеристики изучаемой выборки нужно указывать в тексте: среднее или медиану ± стандартное отклонение или стандартную ошибку? Это зависит от того, разброс чего — исходной случайной величины или оценки ее среднего значения (медианы) — изучает исследователь. Если непрерывные переменные распределены нормально (или близко к таковому) и разброс данных обусловлен естественными причинами (люди разного роста, массы тела и т. п.), то принято указывать среднее ± стандартное отклонение. Если же рассеяние связано с неточностью измерения (например, техническое ограничение или погрешность прибора), то рекомендуется приводить среднее ± (95%) доверительный интервал или стандартная ошибка. Во всяком случае необходимо указать, какие именно характеристики представлены. Когда непрерывные данные не подчиняются нормальному распределению, для их описания обычно используют медиану и (95%) доверительный интервал. На графиках при этом рекомендуется указать весь интервал значений и обозначить границы 25, 50% (собственно медиану) и 75% квартилей. Для описания дискретных данных, которые по определению принимают лишь ограниченное число значений и не подчиняются нормальному распределению, используется представление в виде пропорций (процента, доли) или таблиц сопряжения.
Размер выборки и статистическая мощность
На стадии планирования исследования очень важно определить, какое минимальное число наблюдений необходимо включить в изучаемую группу, чтобы результаты тестирования гипотезы оказались правомочными. Для ответа на этот вопрос необходимо понимать, что такое статистическая мощность и разбираться в сути ошибок 1-го и 2-го типа.
Статистическая достоверность
При сравнении групп мы изначально исходим из того, что : ни не различаются (это — Но). Если вероятность того, что вы- •зленные различия являются случайным результатом весьма ала, тогда правомочным будет отвергнуть нулевую гипотезу и заключить, что различие действительно имеется (верна На). Податель достоверности различий обозначается р (probability, в 1 пглоязычной литературе встречается обозначение Р или Р). Ветчиной р (или «пи-величина», англ. P-value) для конкретной сборки называют вероятность получения по крайне мере таких или еще больших отличий наблюдаемого от ожидаемого, чем панной конкретной выборке, при условии, что выдвинутая гипотеза верна. Величина р меняется от выборки к выборке, т. е. зляется случайной на множестве выборок (причем с равномерным распределением на интервале 0—1).
С помощью статистических расчетов вычисляют значение р, которое затем сравнивают с заранее выбранным уровнем значимости, часто обозначаемым греческой буквой а (не путать с ошибкой 1-го типа). Обычно в биомедицинских исследованиях уровень значимости устанавливается на уровне а 0,05, не дают оснований для того, чтобы ее отвергнуть. Величину уровня значимости следует понимать так: мы задаем, что не более чем в 5% попыток сравнения (какого-либо параметра в разных группах) обнаруженная разница может быть обусловлена чистой случайностью, а не ее реальным существованием. Иными словами, мы задаем вероятность ложного отказа от гипотезы Но (стандартной) в пользу гипотезы Но (изучаемой). В итоге, повторимся, если статистический анализ показывает, что р 2 ) теста (англ, chi-square test; или «хи-квадрат Пирсона», англ. Pearson’s chi-square).
Выбор остается за исследователем, необходимо всегда указывать, какой из методов использовался.
Пример данных, организованных в таблицу сопряжения гззмерностью 2×2, приведен в табл. 2, В ней рассматривается г’страктная ситуация возникновения побочного эффекта (на- “7 г’мер, тахикардии) после применения какого-либо препарата.
Расчеты, проведенные с помощью точного теста Фишера и /-теста, в рассматриваемом случае возвращают значения р, равные 0,80 и 0,87 соответственно. Это говорит о том, что связь побочного эффекта с применением данного препарата недостоверна.
Из таблицы сопряжения также можно рассчитать еще один важный статистический показатель. Он называется «отношение шансов» (англ, odds ratio, OR) и вычисляется как (А* Г)/(Б• В). Отношение шансов используется, чтобы оценить, насколько ве- глки шансы положительных и отрицательных исходов (например, развитие нежелательного побочного эффекта после применения препарата, как показано в примере выше). Если OR = 1 или очень близко к 1), то это означает, что шансы события в : бе их группах практически совпадают.
Для данных, приведенных в табл. 3, отношение шансов составляет 0,93, а 95% доверительный интервал от 0,56 до 1,53. В зчглоязычной литературе показатель часто записывается в таком виде: 0,93 [0,56—15,3] (т. е. OR [95% CI]). Из значения отношения шансов (0,93), которое меньше 1, можно составить тредставление о том, что побочный эффект в группе, принимавшей препарат, наблюдался несколько реже, чем в контрольной группе (соответственно 60 и 65%). Однако поскольку доверительный интервал включает значение 1, различие недостоверно.
Преимущества и недостатки непараметрических методов
К преимуществам непараметрических методов можно отнести следующие:
Корреляционный и регрессионный анализ
На практике часто возникают задачи, когда нужно проверить взаимосвязь между какими-либо непрерывными данными, например, между АД и массой тела. В этих случаях используют, корреляционный и регрессионный анализ. Корреляционный анализ определяет характер взаимосвязи переменных (прямой или обратный), а регрессионный — форму зависимости (насколько сильно изменяется одна переменная в ответ на изменение другой).
Корреляционный анализ
Корреляционный анализ является методом оценки линейных связей (общей пропорциональности) между переменными, т. е. определяет, насколько согласованно они меняются. В англоязычной литературе часто употребляется термин «линейная корреляция Пирсона». Корреляция Пирсона (обычно просто «корреляция”) между переменными может быть положительной, отрицательной или вовсе отсутствовать.
Две переменные коррелируются положительно, если большие значения одной переменной имеют тенденцию к ассоциации с большими значениями другой переменной, как показано на рис. 3.
Напротив, если большие значения одной переменной ассоциированы с меньшими значениями другой, говорят об отрицательной корреляции, как показано на рис. 4.
При отсутствии корреляции нет никакой закономерности взаимосвязи одних показателей с другими, как показано на рис. 5.
Показателем согласованности между значениями двух переменных служит коэффициент корреляции (correlation coefficient). Этот коэффициент является количественным, обозначается г (Pearson г) и имеет область значений от —1 до +1.
г — 1 означает максимально сильную положительную линейную взаимосвязь между X и Y;
г = 0 означает отсутствие линейной взаимосвязи между X и Y.
Для оценки того, насколько сильно линейно связаны две переменные, рекомендуется использовать коэффициент детерминации, который представляет собой квадрат коэффициента корреляции Пирсона г2). Очевидно, что чем больше коэффициент корреляции отклоняется от 1 или — 1 (т. е. чем больше степень рассеяния точек от линии на рис. 3—5), тем меньше будет значение коэффициента детерминации и тем слабее будут две переменные коррелировать между собой.
Заметим, что корреляция Пирсона основывается на предположении о том, что значения переменных распределены нормально или близко к нормальному. Если распределение значений отличается от нормального или в силу каких-то причин это невозможно оценить, то можно воспользоваться непараметрической корреляцией Спирмана, с помощью которой также можно рассчитать коэффициент корреляции г (англ. Spearman г). Статистические программы также оценивают достоверность (значение р) отличия коэффициента гот 0, т. е. определяют, является ли оценка корреляции достоверной. Если выборки достаточно велики (приближаются к 100 наблюдениям), форма распределения не оказывает большого воздействия на результат корреляционного анализа. Выполняется ли он с использованием стандартного (корреляция Пирсона) или непараметрического (корреляция Спирмана) метода — уже не имеет большого значения.
Необходимо иметь в виду, что наличие в выборке выбросов может сильно повысить или понизить коэффициент корреляции. Выбросы несложно обнаружить при визуализации данных на простом графике Х-Y. Они представляют собой точки, далеко выступающие по одной или по обеим координатам от основного кластера, если таковой имеется. К выбросам следует относиться осторожно: они могут как обоснованно, так и необоснованно поддерживать или нарушать общую тенденцию («случайность — это непознанная закономерность»). Во всяком случае каждый выброс рекомендуется проверить на предмет правильности записи исходных данных и исключить возможность случайной ошибки.
Линейный регрессионный анализ
Линейная регрессия и линейная корреляция — сходные, но не идентичные методы анализа. С помощью линейного регрессионного анализа определяются параметры прямой, которая наилучшим способом предсказывает значение одной переменной на основании значения другой согласно формуле
где у — значение одной переменной, а — точка пересечения прямой с осью ординат (вертикальная ось, ось Y), b задает наклон линии, а х — значение другой переменной.
Линейный регрессионный анализ проводится, если корреляционный анализ выявил взаимосвязь между переменными.
Статистические программы, помимо коэффициента корреляции г, коэффициента детерминации г2, коэффициентов а и b регрессионной прямой, рассчитывают достоверность (значение р) отклонения наклона регрессионной прямой от 0, что также является оценкой наличия значимой корреляции между двумя переменными. Некоторые программы дополнительно оценивают вероятность того, что данные отклоняются от линейного взаимоотношения. В случае, если достоверность такого отклонения оказывается высокой (т. е. получено малое значение р для этого параметра), необходимо отказаться от линейного регрессионного анализа «сырых данных» и подумать над возможностью приведения их к линейности путем преобразования (например, извлечение квадратного корня, возведение в степень, логарифмирование или описание более сложной функцией). После этого в ряде случаев линейный регрессионный анализ становится вновь возможным.
Чувствительность, специфичность и точность
Способом оценить информативность и разрешающую способность диагностического метода является оценка его чувствительности, специфичности и точности. Эти показатели отражают шансы поставить правильный диагноз заболевания у больных и здоровых людей. Их сравнивают с аналогичными показателями общепринятого («золотого») стандарта диагностического теста.
Чувствительность определяется как доля пациентов, действительно имеющих заболевание, среди тех, у кого тест был положительным. Специфичность определяется как доля людей, не имеющих заболевания, среди всех, у кого тест оказался отрицательным. Точность показывает долю «правильных срабатываний теста» среди всех обследованных и является совокупным показателем информативности теста. Модель таблицы сопряжения для проведения расчетов представлена в табл. 2. По существу, она отражает соотношение между ошибками 1-го и 2-го типа (см. раздел 4).
Высокочувствительный диагностический тест — тот, который дает наибольшее число положительных результатов при фактическом наличии заболевания. С клинической точки зрения, нужно понимать, что высокочувствительный тест может отличаться гипердиагностикой, зато позволяет минимизировать риск пропустить заболевание. Это важно, например, при выявлении инфицированных людей при скрининге опасного инфекционного заболевания ввиду угрозы эпидемии. С другой стороны, высокоспецифичный тест дает отрицательные результаты при фактическом отсутствии заболевания с большей вероятностью. К примеру, это важно в случаях, когда дорогостоящее лечение связано с серьезными побочными эффектами и, следовательно, гипердиагностика крайне нежелательна.
Исходя из значений чувствительности и специфичности, рекомендуется построение характеристической кривой (ROC-кри- вая; англ. Receiver Operating Characteristic (ROC) curve), которая показывает зависимость количества верно диагностированных положительных случаев от количества неверно диагностированных отрицательных случаев (ось X — специфичность, ось Y — чувствительность). Идеальный диагностический тест должен иметь Г-образную форму характеристической кривой, проходящей через верхний левый угол, в котором доля истинно положительных случаев 100% (или 1), а доля ложноположительных случаев равна 0. Чем ближе проходит характеристическая кривая к значению 0;1 (идеальная чувствительность), тем выше эффективность теста. Наоборот, чем меньше кривая напоминает форму буквы «Г», т. е. чем ближе она проходит к диагонали графика («бесполезный тест»), тем эффективность теста меньше (рис. 6).
Количественную оценку характеристической кривой можно провести, рассчитав площадь под ней (англ. Area Under Curve, AUC). Приблизительная шкала значений AUC, отражающая качество диагностического теста, такова:
AUC = 0,8—0,9 — высокое качество;
AUC = 0,7—0,8 — хорошее качество;
AUC = 0,6—0,7 — среднее качество;
AUC = 0,5—0,6 — плохое (неудовлетворительное) качество.
Для того чтобы новый диагностический метод заслужил признание, он должен продемонстрировать более высокие, чем золотой стандарт, значения чувствительности и специфичности.
Алгоритм построения характеристических кривых реализован во многих статистических программах, в интернете имеется большой выбор онлайн ROC-калькуляторов. На рис. 6 для примера показаны реальные расчетные характеристические кривые. Многие статистические программы способны генерировать сглаженные кривые и возвращать необходимые статистические оценки. В рассмотренном примере «новый» тест имеет достоверно лучшие характеристики по сравнению со «старым».
Заключение
Вышеизложенные методы описательной и одномерной статистики являются базовыми, с них рекомендуется начинать статистический анализ. Самостоятельное выполнение этих процедур вполне по силам исследователю, не имеющему специальной подготовки в математической статистике. С их помощью осуществляется первичная обработка и одномерный анализ имеющихся данных.
Во второй части обзора будут рассмотрены принципы анализа выживаемости и методы многомерной статистики.
Авторский коллектив выражает благодарность С. Ю. Чекину (МРНЦ РАМН) за конструктивную помощь и критические замечания при подготовке данной работы.