КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

Министерство здравоохранения Российской Федерации

Государственное бюджетное образовательное учреждение
высшего профессионального образования
«Северо-Западный государственный медицинский университет
имени И.И. Мечникова»
Министерства здравоохранения Российской Федерации



Кафедра общественного здоровья и здравоохранения







ОСНОВЫ КОРРЕЛЯЦИОННОГО АНАЛИЗА
ПРИ КОМПЛЕКСНОЙ ОЦЕНКЕ ЗДОРОВЬЯ НАСЕЛЕНИЯ

под ред. з.д.н. РФ, проф. В.С. Лучкевича




Учебно-методическое пособие














Санкт-Петербург
2015 г.
УДК 614.1:614.2 (07)

Основы корреляционного анализа при комплексной оценке здоровья населения / под ред. проф. В.С. Лучкевича: учебно-методическое пособие. – СПб: Изд-во СЗГМУ им. И. И. Мечникова, 2015. – 52 с.

Авторский коллектив: В.С. Лучкевич, А. Н. Пивоваров, Г. М. Пивоварова, П.Н. Морозько, И.Л. Самодова, Е.А. Абумуслимова, Т.В. Самсонова, С.Н. Носков, Д.С. Тягунов.

Рецензент: зав. кафедрой социальной гигиены, управления и экономики здравоохранения ГБОУ ВПО СЗГМУ им. И.И. Мечникова, доктор медицинских наук, профессор Филатов Владимир Николаевич

В учебно-методическом пособии изложены основные методики использования коэффициентов корреляции в практической деятельности врача, представлены методики использования рангового метода Спирмена, коэффициента корреляции рангов Кендэла, коэффициента ассоциации и сопряженности (контингенции), коэффициента корреляции Пирсона. В учебно-методическом пособии даны методики регрессионного анализа, методики измерения связи между признаками с помощью корреляционной решетки.
Учебно-методическое пособие содержит образцы решения ситуационных задач, вопросы для самоподготовки, тестовые задания и списки литературы.
Учебно-методическое пособие предназначено для студентов лечебного, медико-профилактического и стоматологического факультетов медицинских вузов.


Утверждено
в качестве учебно-методического пособия методическим советом ГБОУ ВПО СЗГМУ
им. И.И.Мечникова Минздрава России
протокол № ____ от « » 2015 г.

© В.С. Лучкевич (коллектив авторов), 2015 г


ТЕМА: Основы корреляционного анализа при комплексной оценке здоровья населения.

КОНТИНГЕНТ УЧАЩИХСЯ - студенты лечебного, медико-профилактического и стоматологического факультетов медицинских вузов.

ПРОДОЛЖИТЕЛЬНОСТЬ ПРАКТИЧЕСКОГО ЗАНЯТИЯ – 4 часа (в академических часах).

СТРУКТУРА ЗАНЯТИЯ:

Использование коэффициентов корреляции в практической деятельности врача
- ранговый метод Спирмена
- коэффициент корреляции рангов Кендэла
- коэффициенты ассоциации и сопряженности (контингенции)
- коэффициент корреляции Пирсона
- регрессионный анализ
- измерение связи между признаками с помощью корреляционной решетки
Решение заданий студентами самостоятельно
Решение тестовых заданий студентами
ИСПОЛЬЗОВАНИЕ КОЭФФИЦИЕНТОВ КОРРЕЛЯЦИИ В ПРАКТИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ ВРАЧА

Все существующие в природе связи между признаками и различными явлениями можно подразделить на функциональные и корреляционные.
Функциональные связи - это такой вид зависимости между двумя переменными величинами (количественными признаками), когда имеется строгая зависимость одной величины только от одного признака (площадь квадрата зависит от величины стороны квадрата, площадь круга – от радиуса и т.д.). Эти связи постоянны, т.е. проявляются всегда, даже в единичных наблюдениях, изучаются математическими науками и измеряются в соответствии с законами физики.
Корреляционные связи. Однако большая группа связей характеризуется такой зависимостью, когда значение одной величины изучаемых явлений (уровень смертности, средняя масса тела, длина тела и др.) определяется влиянием не одного, а многих факторов. Эти связи проявляются только при большом числе наблюдений, так как при единичных они могут не наблюдаться (при большем росте масса тела у отдельных лиц может быть меньше). Эти связи не постоянны, колеблются от нуля до единицы. Ноль означает отсутствие зависимости между признаками, а единица – полную или функциональную связь, когда имеется зависимость только от одного признака.
Указанные особенности зависимостей между признаками обусловливают необходимость различных методических подходов к их изучению. Там, где связи постоянны и проявляются всегда, они подлежат изучению точными науками, а там, где наблюдается колеблемость зависимостей между признаками, они становятся предметом изучения статистики. Поэтому корреляционные связи называются также статистическими (например, зависимость уровня заболеваемости (смертности) от возраста населения). Мерой измерения статистической зависимости служат различные коэффициенты корреляции. Оценка этих связей проводится в соответствии с данными, приведенными в табл. 1.
Таблица 1
Оценка статистических связей по коэффициентам корреляции
Сила связи
Прямая (положительная) связь
Обратная (отрицательная) связь

Полная (функциональная)
1
-1

Сильная (большая)
от 1,0 до 0,71
от -1,0 до -0,71

Средняя (умеренная)
от 0,7 до 0,31
от -0,7 до -0,31

Слабая (малая)
от 0,3 до 0,01
от -0,3 до -0,01

Отсутствует
0
0


Как видно из табл. 1, корреляционные связи могут быть прямыми (положительными) и обратными (отрицательными), в зависимости от того, какая имеется зависимость между признаками.
Прямо пропорциональной называется связь, когда при уменьшении одной величины (признака) другая будет увеличиваться, и наоборот, увеличение одной величины (признака) ведет к уменьшению другой.
По форме (или направленности) корреляционные связи подразделяются на прямолинейные, когда наблюдается пропорциональное изменение одного признака в зависимости от изменения другого (графически эти связи изображаются в виде прямой линии или близкой к ней), и криволинейные, когда одна величина признака изменяется не пропорционально изменению другой (на графике эти связи имеют вид параболы или иной кривой линии).
Таким образом, корреляционные связи различаются по характеру (прямые и обратные), по форме (прямолинейные и криволинейные), по силе (сильная, средняя, слабая) и по достоверности (статистически значимые с высокой вероятностью достоверного прогноза минимум на 95%, максимум – 99% и выше; статистически не значимые, когда достоверность ниже 95%).
Существует 3 основных способа представления корреляционных связей: таблицы, графики и коэффициенты корреляции. Наиболее точным, доступным и распространенным способом определения степени параллелизма двух рядов сравниваемых данных является оценка при помощи коэффициентов корреляции.
Прежде чем измерить величину корреляционной связи, необходимо определить наличие причинно- следственной связи между изучаемыми явлениями, так как параллельное изменение статистических показателей еще не говорит о наличии связи, так как оно может быть обусловлено случайным совпадением многих обстоятельств, не связанных друг с другом. Цифровые данные, подвергающиеся корреляционному анализу, должны быть сгруппированы с учетом особенностей изучаемых явлений. В противном случае значение полученного коэффициента будет заведомо ошибочным. Подбирать метод определения связи следует с учетом природы или содержания изучаемой статистической информации (схемы 1 и 2).

Ранговый метод Спирмена
Наиболее простыми и экономичными способами определения корреляции являются непараметрические методы статистического изучения связи между признаками. В то же время они менее точны, применяются при небольшом числе сравниваемых пар (до 30), дают приближенное представление о характере и тесноте связи, поэтому используются для ориентировочной оценки полученных результатов. При этом чаще применяют ранговый коэффициент корреляции Спирмена, который обозначается греческой буквой
· (“ро”).
Этот коэффициент целесообразно использовать: при наличии небольшого числа наблюдений; при сопоставлении как количественных, так и качественных (атрибутивных или описательных) признаков; в случаях, когда сопоставляемые данные носят приближенный характер.

Этапы вычисления рангового коэффициента корреляции Спирмена

Определение порядковых номеров – рангов (R) изучаемых данных: сначала для
одного ряда показателей x, затем в соответствии с проведенной ранжировкой Rx определяются ранговые места (Ry ) для второго показателя y.
Порядок ранжирования должен быть выбран один и тот же для ряда x и для ряда y. Он может быть возрастающим, когда ранг № 1 присваивается наименьшему показателю, или убывающим, когда первое место присваивается самому большому показателю, а последнее - самому маленькому.
При наличии нескольких равных по величине показателей их порядковые номера (ранги) суммируются, сумма делится на число одинаковых показателей и полученный результат в виде ранга присваивается каждому из определяемых показателей.
Вычисление разности d между рангами для каждой пары сравниваемых данных
(d= Rx – Ry).
Возведение в квадрат каждой разницы d между рангами и определение суммы
найденных значений:
· (Rx – Ry)2 =
·d2.
Расчет коэффициента ранговой корреляции по формуле:

· = 1 – 13 EMBED Equation.3 1415
где
· – коэффициент ранговой корреляции; n – число пар коррелируемых рядов;

·d2 – сумма квадратов разностей между рангами двух коррелируемых рядов;
6 – постоянный коэффициент.
ОБРАЗЕЦ РЕШЕНИЯ ЗАДАЧИ

Исходные данные и вычисленные параметры для определения
коэффициента ранговой корреляции Спирмена
Заболеваемость населения брюшным тифом, %оо
x
Охват населения прививками, %
y
Ранги
Разность рангов

d=Rx-Ry
Квадрат разности

d2



Rx
Ry



1,4
1,4
2,3
2,1
6,2
6,9
8,6
10,8
11,0
14,7
13,4
9,6
8,1
5,5
5,2
4,4
4,4
4,0
1,5
1,5
4
3
5
6
7
8
9
9
8
7
6
5
4
2,5
2,5
1
-7,5
-6,5
-3
-3
0
2
4,5
5,5
8
56,25
42,25
9,0
9
0
4
20,25
30,25
64,0

n=9




·d2=235,0


В формулу из п.4 подставляем вычисленные параметры из задачи:

· = 1- 13 EMBED Equation.3 1415
Оценку достоверности полученного показателя можно проводить по формуле, а для более точной оценки – по специальной таблице критических значений коэффициентов корреляции Спирмена (см. приложение 1). Так, по таблице при n, равном 9, вероятность 0,05 соответствует коэффициенту 0,6, а вероятность 0,01 соответствует коэффициенту 0,783.
В данном случае коэффициент равен 0,96, что позволяет сделать вывод, что между процентом охвата населения прививками и уровнем заболеваемости населения брюшным тифом при наличии соответствующей эпидемической обстановки существует сильная обратная связь с вероятностью безошибочного прогноза
·<0,01, т.е. связь статистически значима.


ОПРЕДЕЛЕНИЕ СВЯЗЕЙ
















Парная связь

Множественная связь









Анализ формы связи

Анализ степени тесноты связи









Линейные связи







Нелинейные связи



Коэффициент
детерминации







Индекс
детерминации









Коэффициент корреляции







Индекс корреляции










Парный












Множественный












Частный





Схема 1. Анализ определения связей количественными признаками



АНАЛИЗ СВЯЗЕЙ МЕЖДУ
КАЧЕСТВЕННЫМИ ПРИЗНАКАМИ















Парная связь

Множественная связь









Альтернативные значения
признаков

Порядковая шкала
признаков (ранги)










Коэффициент
ассоциации

Коэффициент
конкордации










Коэффициент
контингенции












Порядковая шкала
признаков (рангов)













Коэффициент
корреляции рангов






Схема 2. Выбор связей между качественными признаками
Коэффициент корреляции рангов Кендэла

При проведении углубленных исследований рекомендуется поменять более сложный критерий оценки, который является более чувствительным и при добавлении новой пары наблюдений не требует переранжировки рядов.

Алгоритм вычисления коэффициента Кендэла
По общим правилам определяют порядковые ранги для каждого варианта ряда x и y.
Для каждого ранга второго ряда определяют число последующих рангов, больших по величине, и суммируются полученные числа, определяя величину P.
Для каждого ранга второго ряда находят число последующих рангов, которые по величине меньше, чем взятый ранг; найденные величины суммируются и получают величину Q, которая всегда является отрицательным показателем соответствия между рядами рангов и поэтому берется со знаком минус.
Вычисляют сумму полученных величин: S= P+Q.
Определяют коэффициент Кендэла по формуле, дают ему оценку достоверности:
13 EMBED Equation.3 1415

Образец решения задачи
Исходные данные и параметры для расчета коэффициента корреляции рангов Кендэла
5- летние девочки
Ранги

Рост, см
x
Масса тела, кг
y
Rx
Ry

87
89
91
91
95
96
96
97
102
13
12
14
14
16
15
17
18
20
1
2
3,5
3,5
5
6,5
6,5
8
9
2
1
3,5
3,5
6
5
7
8
9

n=9




В соответствии с указанным алгоритмом вычисления для ряда Ry определяют:
P = 7 + 7 + 5 + 5 + 4 + 3 + 2 + 1 = 34
Q = 1 + 0 + 0 + 0 +1 + 0 + 0 + 0 = -2
S = P + Q = 34 + (- 2) = 32.

Полученную величину S и значение n подставляем в формулу:

· =13 EMBED Equation.3 141513 EMBED Equation.3 1415
По специальной таблице (обычно имеющейся в специальной литературе) значений вероятностей для оценки коэффициентов корреляции рангов Кендэла определяем вероятность
·, которая должна при достоверной связи быть меньше 0,05. При n=9 и S=32 вероятность соответствует 0,0001 и коэффициент корреляции (
· = 0,89) признается значимым, т.е. между ростом 5-летних девочек и массой тела существует прямая, сильная и достоверная зависимость. Таблица рассчитана для числа наблюдений от 4 до 10, если число наблюдений больше, то оценку значимости коэффициента Кендэла лучше проводить по формуле:

t =13 EMBED Equation.3 1415

где t – доверительный критерий.
Для вычисления коэффициентов ранговой корреляции рациональнее использовать программируемые микрокалькуляторы или специальные компьютерные программы определения коэффициентов на языке Бейсик.

Коэффициенты ассоциации и сопряженности (контингенции)
При изучении зависимости качественных признаков, когда имеют место так называемые альтернативные признаки, т.е. вариация двух противоположных возможностей (“заболел – не заболел” или “привит – не привит” и др.), измерение связи может быть проведено в четырехпольной таблице путем вычисления коэффициентов ассоциации и сопряженности (контингенции). Когда получены статистические данные, характеризующие связь между двумя альтернативными признаками, то используются четырехклеточные таблицы сопряженности двух дихотомических признаков (разделенных надвое) с альтернативными значениями (“+”, “-”) (табл. 2).
Таблица 2
Таблица сопряженности признаков
Значение признака
В (да)
В (нет)
Суммарные значения

А (да)
А (нет)
a
c
b
d
a + b
c + d

Итого
a + c
b + d
a + b + c + d


Коэффициент ассоциации является показателем оценки тесноты связи между двумя альтернативными признаками и вычисляется по формуле:

Q =13 EMBED Equation.3 1415

Коэффициент сопряженности (современное название – коэффициент контингенции) вычисляется по формуле:
C1 =13 EMBED Equation.3 1415
Если известен критерий согласия
·2 (хи- квадрат), то при небольшом числе (до 100 единиц) наблюдений коэффициент контингенции можно определить по формуле:
C1 =13 EMBED Equation.3 1415

Образец решения задачи
Значение признака
Заболели гриппом
Не заболели
Всего рабочих

Иммунизированы
Не иммунизированы
32
82
a
c
1388
1088
b
d
1420
1170
a + b
c + d

Итого
114
a + c
2476
b + d
2590
a+b+c+d


Q =13 EMBED Equation.3 1415

C13 EMBED Equation.3 14151 =13 EMBED Equation.3 1415

При
·2, равном 34,4, получаем:
C13 EMBED Equation.3 14151 =13 EMBED Equation.3 1415
Коэффициент контингенции всегда имеет меньшее значение, чем коэффициент ассоциации; если он не менее 0,3, то это свидетельствует о наличии связи между качественными признаками.
Коэффициенты сопряженности и ассоциации оцениваются аналогично коэффициенту корреляции (от +1 до - 1). Рассчитанные в задаче коэффициенты свидетельствуют о наличии связи между рассматриваемыми признаками, т.е. прививки против гриппа влияют на заболеваемость. Знак «минус» указывает на обратную связь.

Коэффициент корреляции Пирсона
При наличии прямолинейной связи между взаимосвязанными количественными признаками, особенно при большом числе наблюдений, рациональнее прибегать к параметрическим методам оценки, которые требуют вычисления определенных параметров: средней величины, средне-квадратического отклонения (13 EMBED Equation.3 1415), средней ошибки. При этом вычисление связи проводится по методу квадратов на основании корреляционной решетки (таблицы сопряженности), если имеется большое число наблюдений. При числе наблюдений менее 30 сравниваемых пар коэффициент линейной корреляции К. Пирсона определяется по формуле:
rxy =13 EMBED Equation.3 1415
где rxy - коэффициент линейной корреляции между двумя признаками x и y; d - отклонения от средних арифметических данных ряда x и ряда y.

Образец решения задачи
Исходные данные и параметры расчета коэффициента линейной корреляции
Номера
региона
Охват населения прививками,% x
Заболеваемость на 10 000 человек
населения
y
dx
dy
dx2
dy2
dxdy

1
2
3
4
5
15,0
20,0
25,0
30,0
35,0
22,0
28,0
18,0
14,0
10,0
10
5
0
- 5
- 10
- 3,6
- 9,6
0,4
4,4
8,4
100,0
25,0
0
25,0
100,0
12,96
92,16
0,16
19,36
70,56
- 36
- 48
0
- 22
- 84

Всего
25,0
18,4


250
195,2
- 190


Порядок вычисления
Находят усредненные данные для обоих рядов (x и y), т.е. средние
величины по формуле (для коэффициентов определяют общие коэффициенты):
М =13 EMBED Equation.3 1415
2. Определяют отклонения от этих усредненных величин (dx = Mx – x,
dy = My -y) с обозначением соответствующего отрицательного знака. В данном случае: dx 13 EMBED Equation.3 1415= 25 - 15 =10; dx13 EMBED Equation.3 1415= 25 -20 =5 и т.д. Для ряда y : dy 13 EMBED Equation.3 1415=18,4 – 22,0 = - 3,6; dy13 EMBED Equation.3 1415 = 18,4 – 28 = - 9,6 и т.д.
3. Возводят полученные результаты в квадрат и получают суммы этих квадратов
(13 EMBED Equation.3 141513 EMBED Equation.3 1415 и 13 EMBED Equation.3 1415dy13 EMBED Equation.3 1415).
4. Находят произведения каждого dx на dy и получают их сумму (13 EMBED Equation.3 1415).
5. Подставляют полученные данные в формулу:
rxy =13 EMBED Equation.3 1415
При определении коэффициента линейной корреляции Пирсона на программируемых калькуляторах надо иметь два основных документа: специальную программу вычисления и инструкцию по ее применению. Для персональных компьютеров разработаны также специальные программы вычисления на языке Бейсик.
Так как полученные коэффициенты определяются, как правило, на материалах выборочного исследования, то всегда необходимо убеждаться в степени их надежности. Представительность (репрезентативность) коэффициента линейности корреляции также может определяться по специальным таблицам (приложение 2) или ориентировочно – по средним ошибкам, которые должны для обоснования значимости связи быть в 3 раза меньше своего коэффициента корреляции. Коэффициент считается представительным, если полученная величина его превышает критическое значение при p< 0,05 и заданном числе степеней свободы n13 EMBED Equation.3 1415, которое равняется n – 2. Полученная в задаче величина 0,86 превышает критический уровень 0,75 при n13 EMBED Equation.3 1415 = 5 и p< 0,05.
При отсутствии таблицы критических значений коэффициентов корреляции представительность коэффициента может быть определена по величине средней ошибки m (при числе парных наблюдений менее 100):
mr13 EMBED Equation.3 1415 =13 EMBED Equation.3 1415
Можно для определения средней ошибки использовать и более упрощенную формулу:
mr13 EMBED Equation.3 1415=13 EMBED Equation.3 1415
Коэффициент корреляции будет достоверен лишь в том случае, когда он превышает свою ошибку в 3 – 4 раза. Оценку значимости проводят и по t- критерию, его величину определяют по формуле:
t =r13 EMBED Equation.3 141513 EMBED Equation.3 1415 при n<100.13 EMBED Equation.3 1415
Для нашей задачи:
t = 0,8613 EMBED Equation.3 1415
Так как t > 2, то это говорит о достаточной достоверности влияния прививок на уровень заболеваемости и о значимости полученных результатов. Оценку критерия t можно давать и по специальным оценочным таблицам, в Соответствии с которыми при уровне значимости p , равном 0,05 (5%), и числе степеней свободы 4 и 5 этот критерий должен равняться соответственно 2,776 или 2,571. В данном случае доверительный критерий t больше указанных табличных значений, следовательно, получены хорошие результаты. Достоверность корреляции доказана, нулевая гипотеза предусматривает отсутствие корреляционной связи. Если полученный коэффициент корреляции не удовлетворяет принятому уровню значимости, т.е. его вероятность ниже 0,95, то это является основанием для признания нулевой гипотезы правильной.
Правильная трактовка коэффициентов корреляции предполагает нормальное распределение сопряженных величин коррелируемых рядов x и y. Однако при малом числе наблюдений и сравнительно сильной корреляции вычисленный коэффициент корреляции не всегда будет точной оценкой для генеральной совокупности. В этих случаях коэффициент r13 EMBED Equation.3 1415 целесообразно заменить преобразованной величиной Z (преобразование Фишера).
Форма распределения величины Z почти не отличается от формы нормального распределения, так как мало зависит от численности выборки и значения r13 EMBED Equation.3 1415 в генеральной совокупности. Только с помощью величины Z можно определить достоверность различий между двумя коэффициентами корреляции, а также объединить данные по нескольким корреляциям. Преобразование r13 EMBED Equation.3 1415 в Z проводится по специальным таблицам, имеющимся в различных пособиях по статистике.
В заключение следует обратить внимание на возможность пользования следующих наиболее доступных и простых формул определения средних ошибок коэффициентов корреляции.
Ошибка коэффициента корреляции, вычисленного по методу Спирмена:
m13 EMBED Equation.3 1415= 13 EMBED Equation.3 1415
Ошибка коэффициента корреляции, вычисленного обычным методом Пирсона:
mr13 EMBED Equation.3 1415=13 EMBED Equation.3 1415

Регрессионный анализ

Иногда при анализе корреляционных связей важно установить, как количественно меняется один признак по мере изменения другого на единицу. В этих случаях регрессионный анализ осуществляется на основании вычисления и оценки коэффициентов регрессии (R). Поскольку изменчивых величин две (x и y) и регрессия является двусторонней, то соответственно будут и два коэффициента Rxy и Ryx , которые вычисляются по формулам:
Rx/y = rxy13 EMBED Equation.3 1415 и Ry/x = rxy13 EMBED Equation.3 1415.
Как видно, для определения значения коэффициента регрессии необходимо вычислить среднее квадратическое отклонение, т.е. знать: сигму ряда x (13 EMBED Equation.3 1415); сигму ряда y (13 EMBED Equation.3 1415) ; величину коэффициента линейной корреляции (rxy) .
Образец решения задачи
Вычисление коэффициентов регрессии
Девочки 5 лет
Отклонения от М
Квадраты отклонений
dxdy

Рост, см
x
Масса тела, кг
y
dx= x-Mx
dy= y-My
dx2
dy2


87
89
91
91
95
96
96
97
102
13
12
14
14
16
15
17
18
20
-6,8
-4,8
-2,8
-2,8
1,2
2,2
2,2
3,2
8,2
-2,4
-3,4
-1,4
-1,4
0,6
-0,4
1,6
2,6
4,6
46,24
23,04
7,84
7,94
1,44
4,84
4,84
10,24
67,24
5,76
11,56
1,96
1,96
0,36
0,16
2,56
6,76
21,16
16,32
16,31
3,92
3,92
0,72
-0,88
3,52
8,32
37,72


·x= 844
Мx= 93,77 см

·y= 139
Мy = 15,44 кг



·dx2
= 173,56

·dy2
= 52,24

·= 90,76

n= 9







Расчет средних величин Мx и Мy проводят по общепринятой формуле (M = 13 EMBED Equation.3 1415), а отклонений – по формуле d =M-V. Полученные данные (из таблицы задачи) подставляют в формулу:
rxy=13 EMBED Equation.3 1415
Далее определяют среднюю ошибку коэффициента и критерий t :
mr13 EMBED Equation.3 1415=13 EMBED Equation.3 1415
t=0,9513 EMBED Equation.3 1415.
По таблице значений t-критерия при p <0,005 и числе степеней свободы 7 доверительный критерий должен быть равен 2,37, а при решении данной задачи получен большее значение. Следовательно, нулевая гипотеза отвергается, т.е. связь между ростом и массой тела сильная, прямая, достоверная.
Величины коэффициентов регрессии в этой задаче могут быть вычислены и без определения средних квадратических отклонений и коэффициента линейной корреляции (rxy) по формулам:
Rx/y=13 EMBED Equation.3 1415
Ry/x=13 EMBED Equation.3 1415
Для оценки репрезентативности данных, полученных в результате выборочных исследований, необходимо сначала определить сначала ошибку для коэффициента регрессии по формуле:
m Rx/y=13 EMBED Equation.3 141513 EMBED Equation.3 1415
Степень представительности устанавливается по t-критерию при n13 EMBED Equation.3 1415= - 2 и уровне значимости 0,05:
txy=13 EMBED Equation.3 141513 EMBED Equation.3 1415
Поскольку полученное значение t равно 2,54, т.е. превышает критическую величину 2,365 при p<0,005 (определяемую по специальной таблице) и числе степеней свободы, равному 7 (n13 EMBED Equation.3 1415=9–2=7), выборка признается репрезентативной. Это дает основание считать, что увеличение роста на 1 см приводит к увеличению массы тела на 1,74 кг у девочек в возрасте 5 лет. Коэффициент регрессии, равный 0,523 см, говорит о том, что увеличение массы тела на 1 кг происходит при увеличении роста на 0,523 см.
Коэффициент регрессии характеризует только линейную зависимость и имеет знак «плюс» при положительной или знак «минус» - при отрицательной связи.
В медицинской практике регрессионный анализ находит применение в случае, когда надо оценить количественное изменение одного показателя по мере изменения количественной характеристики другого, в то время как коэффициент корреляции служит общим критерием оценки сопряженности признаков.
Между коэффициентами корреляции и регрессии имеется определенная связь, выражающаяся формулой:

r13 EMBED Equation.3 1415=13 EMBED Equation.3 1415
Зная коэффициенты регрессии, можно легко определить коэффициенты корреляции:
r13 EMBED Equation.3 1415=13 EMBED Equation.3 1415.

Измерение связи между признаками с помощью корреляционной решетки

Коэффициент линейной корреляции Пирсона наиболее быстро определяется по вышеприведенной формуле на небольшом числе наблюдений по данным, которые представлены в виде простых вариационных рядов, где частоты, как известно, равны единице. Прямой путь вычисления коэффициента корреляции при парной связи осуществляется при небольшом числе наблюдений на основе использования средних величин и отклонений от них. Однако когда имеется большое число наблюдений и данные сгруппированы с определенным интервалом, т.е. представлены в виде взвешенных сгруппированных вариационных рядов, вычисление производится по другой формуле и является более трудоемким. Техника вычисления осуществляется непрямым способом на основе метода Бравэ.
Для вычисления коэффициента корреляции при этих условиях необходимо строить корреляционную решетку, или таблицу сопряженности. Такие условия на практике чаще всего встречаются при изучении и оценке физического развития отдельных групп населения.
Рассмотрим методику вычисления коэффициента корреляции на примере определения связи между ростом и массой тела у 8-летних девочек (см. образец решения задачи). Результаты исследования в таблице сопряженности могут быть представлены в одинаковом числе групп для подлежащего и сказуемого таблицы. В данной задаче сведения, приведенные в подлежащем, распределены по росту на 11 групп, а данные, содержащиеся в сказуемом, разделены по массе тела на 9 групп. Можно выделить следующие этапы вычисления.
Сначала полученные в исследовании результаты записывают по общепринятым правилам в виде двух сопряженных сгруппированных рядов:
по росту – 106-107,9 см ит.д.;
по массе тела – 16-16,9 кг, 17-17,9 кг и т.д.
Затем для каждой группы определяют середину интервала (V1). В случае
непрерывных вариационных рядов середина интервала определяется как полусумма начальных вариантов двух соседних групп. Так, в ряду x для первой группы (строки подлежащего) V13 EMBED Equation.3 1415=13 EMBED Equation.3 1415 для следующей группы V13 EMBED Equation.3 1415=13 EMBED Equation.3 1415 и т.д.

Образец решения задачи

Приложенные файлы

  • doc 346691
    Размер файла: 707 kB Загрузок: 0

Добавить комментарий