7_Вероятностные зависимости между случайными величинами. Корреляционный анализ. Основные характеристики


Теория вероятностей. Зависимые и независимые случайные величины
Зависимые и независимые случайные величины
При изучении систем случайных величин всегда следует обращать внимание на степень и характер их зависимости. Эта зависимость может быть более или менее ярко выраженной, более или менее тесной. В некоторых случаях зависимость между случайными величинами может быть настолько тесной, что, зная значение одной случайной величины, можно в точности указать значение другой. В другом крайнем случае зависимость между случайными величинами является настолько слабой и отдаленной, что их можно практически считать независимыми.
Понятие о независимых случайных величинах — одно из важных понятий теории вероятностей.
Случайная величина Y называется независимой от случайной величины X, если закон распределения величины Y не зависит от того, какое значение приняла величина X.
Для непрерывных случайных величин условие независимости Y от X может быть записано в виде:

при любом у .
Напротив, в случае, если Y зависит от X, то

Докажем, что зависимость или независимость случайных величин всегда взаимны: если величина Y не зависит от X, то и величина X не зависит от Y.
Действительно, пусть Y не зависит от X:

имеем:

откуда, получим:

что и требовалось доказать.
Так как зависимость и независимость случайных величин всегда взаимны, можно дать новое определение независимых случайных величин.
Случайные величины X и Y называются независимыми, если закон распределения каждой из них не зависит от того, какое значение приняла другая. В противном случае величины X и Y называются зависимыми.
Для независимых непрерывных случайных величин теорема умножения законов распределения принимает вид:

т. е. плотность распределения системы независимых случайных величин равна произведению плотностей распределения отдельных величин, входящих в систему.
Часто по самому виду функции f(xу) можно заключить, что случайные величины XY являются независимыми, а именно, если плотность распределения f(xу) распадается на произведение двух функций, из которых одна зависит только от х , другая — только от у , то случайные величины независимы.



корреляционный анализ
Корреляционный анализ - метод, позволяющий обнаружить зависимость между несколькими случайными величинами.
Допустим, проводится независимое измерение различных параметров у одного типа объектов. Из этих данных можно получить качественно новую информацию - о взаимосвязи этих параметров.
Например, измеряем рост и вес человека, каждое измерение представлено точкой в двумерном пространстве:

Несмотря на то, что величины носят случайный характер, в общем наблюдается некоторая зависимость - величины коррелируют.
В данном случае это положительная корреляция (при увеличении одного параметра второй тоже увеличивается). Возможны также такие случаи:
Отрицательная корреляция:
Отсутствие корреляции:

Взаимосвязь между переменными необходимо охарактеризовать численно, чтобы, например, различать такие случаи:

Для этого вводится коэффициент корреляции. Он рассчитывается следующим образом:
Есть массив из n точек {x1,i, x2,i}
Рассчитываются средние значения для каждого параметра: 
И коэффициент корреляции: 
r изменяется в пределах от -1 до 1. В данном случае это линейный коэффициент корреляции, он показывает линейную взаимосвязь между x1и x2: r равен 1 (или -1), если связь линейна.
Коэффициент r является случайной величиной, поскольку вычисляется из случайных величин. Для него можно выдвигать и проверять следующие гипотезы:
1. Коэффициент корреляции значимо отличается от нуля (т.е. есть взаимосвязь между величинами):
Тестовая статистика вычисляется по формуле:

и сравнивается с табличным значением коэффициента Стьюдента t(p = 0.95, f = ) = 1.96
Если тестовая статистика больше табличного значения, то коэффициент значимо отличается от нуля. По формуле видно, что чем больше измерений n, тем лучше (больше тестовая статистика, вероятнее, что коэффициент значимо отличается от нуля)
2. Отличие между двумя коэффициентами корреляции значимо:
Тестовая статистика:

Также сравнивается с табличным значением t(p,)
Методами корреляционного анализа решаются следующие задачи:
1) Взаимосвязь. Есть ли взаимосвязь между параметрами?
2) Прогнозирование. Если известно поведение одного параметра, то можно предсказать поведение другого параметра, коррелирующего с первым.
3) Классификация и идентификация объектов. Корреляционный анализ помогает подобрать набор независимых признаков для классификации.
Основные характеристики
Корреляционный анализ фиксирует две характеристики статистической взаимосвязи между переменными:
• направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);
• интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной переменной на основании значений другой.

Приложенные файлы

  • docx 3600696
    Размер файла: 66 kB Загрузок: 0

Добавить комментарий