[personal profile] prepod

Вопрос о необычных корреляциях при рассмотрении социально-экономических явлений периодически всплывает в публикациях  https://pikabu.ru/story/lozhnyie_korrelyatsii_2287154

Мне показалось странным, что не всплывает подробное и толковое объяснение этому явлению. Ну, по крайней мере, мне до сих пор не встречалось. Поэтому постараюсь восполнить пробел и подробно разъяснить суть происходящего. 

Итак, мы исследуем зависимость двух рядов данных

Т

t1

t2

t3

У

у1

у2

у3

Х

х1

х2

х3

 

Здесь T- переменная времени; У и Х – это изучаемые величины.

Возьмём пример с сайта «Пикабу»:

У – число разводов в штате Мэн, Х – потребление маргарина.

Коэффициент корреляции 0,99.

Судя по всему, маргарин в этом штате употребляют в качестве антидепрессанта.

А если серьёзно, в чём причина? Вопрос не праздный. Коэффициент корреляции широко используется для нахождения зависимостей динамических рядов, и именно по нему чаще всего определяют причинно-следственную связь.

Давайте разбираться по существу. Для этого нам придётся ввести очень важное понятие теории вероятностей: понятие «случайной величины». Это числовая величина, значения которой заранее не известны и определяются в результате наблюдения.

В данном случае речь идёт о наблюдении, проводимом статистическими органами, случайная величина Х  – объём потребления маргарина в данном году, случайная величина У – число разводов в том же году. Заранее эти величины не известны, поэтому вроде бы они действительно являются случайными, но,  как ни странно,  теория вероятностей не относит их к «случайным величинам».

Дело в том, что условия наблюдения должны быть неизменными. Это обязательное требование для «случайных величин». Неизменным должен быть весь комплекс условий: экономические, социальные, политические, климатические, производственные, финансовые, … В данном примере с течением времени эти условия меняются, поэтому Х и У – это не «случайные величины». А что тогда?

Это «случайные процессы», то есть «случайные величины», зависящие от времени: Х(t) и У(t). Если значение t зафиксировать, то «случайный процесс» превращается в «случайную величину».

Прояснив этот важный момент, займёмся коэффициентом корреляции. По определению, коэффициент корреляции r(X,Y) рассчитывается для двух «случайных величин» и характеризует степень линейной взаимосвязи между ними. Выделим две особенности коэффициента корреляции.

Первая: он рассчитывается только для «случайных величин», а не для «случайных процессов». Вторая: он симметричен, т.е. не меняется от перестановки Х и У.  А значит, он показывает не зависимость У от Х или Х от У, а так называемую «статистическую взаимосвязь», т.е. насколько сильно меняется одна величина в ответ на изменение другой.

Итак, суть проблемы в том, что для случайных процессов Х(t) и У(t) коэффициент корреляции просто не существует. То есть формула есть, а использовать её в данном случае нельзя. Вот поэтому и получились такие странные корреляции на сайте Пикабу.

Но тогда как быть? Большинство данных в статистике это именно динамические ряды, т.е. значения, зависящие от времени. Как тогда характеризовать их взаимосвязь?

С точки зрения теории для этого нужно найти коэффициенты корреляции  r(Х(t),У(t)) для каждого фиксированного значения t. То есть если в вашем ряду двадцать значений переменной времени, то и коэффициентов корреляции должно быть двадцать. При изменении переменной времени эти коэффициенты будут меняться, и вы получите так называемую «корреляционную функцию».

Но это всё теория, а на практике для фиксированного t вы ничего не посчитаете, поскольку у вас нет данных для этого – всего одно значение Х и одно значение У. Что делать?

Есть разные околонаучные способы справиться с этой проблемой, почти все они не обоснованы теоретически. Поэтому остановимся на самом предпочтительном с моей точки зрения способе.

В исходном временном ряду выбираем «стационарные» интервалы, т.е. те участки времени, на которых условия наблюдения можно считать почти что неизменными. Ряды Х(t) и У(t) внутри этих интервалов не должны иметь выраженной динамики. Как правило, на этих интервалах имеется немного данных, но иногда достаточно даже пяти (на все вопросы и возражения могу ответить в отдельных комментариях). Для каждого такого интервала рассчитываем свой коэффициент корреляции. Полученные значения соотносим с серединой интервала, помещаем на график и соединяем линией. Корреляционная функция готова.

Корреляционная функция показывает, как меняется коэффициент корреляции со временем. Но здесь нужно обязательно иметь в виду, что и коэффициент корреляции, и корреляционная функция показывают не причинно-следственную взаимосвязь, а «статистическую взаимосвязь», т.е. способность одной величины меняться в ответ на изменение другой.

Самый тяжёлый случай – когда стационарные интервалы выделить нельзя. Это бывает, если у рядов очень сильная динамика. Но и тут выход есть. В этой ситуации придётся призвать на помощь предметную область, т.е. хорошо изучить исследуемые явления. Если исходя из социально-экономической сущности явлений можно заключить, что Х является причиной У, то можно смело находить «коэффициент корреляции» динамических рядов по всем исходным данным. Он покажет, насколько синхронно изменяются ряды. Но уже не будет показывать статистическую взаимосвязь! То есть в этом случае «коэффициент корреляции» изменит свой смысл.

Давайте вернёмся к маргарину.  Все понимают, что он никак не влияет на разводы, но коэффициент корреляции оказался очень большим, равным 0,99. Это означает только то, что ряды меняются синхронно, и не потому, что они взаимосвязаны, а по каким-то другим причинам.

Нам придётся обратиться к предметной области и выяснить, что же это за причина, которая двигает в одном направлении разводы и маргарин. После недолгого раздумья мы эту причину легко обнаружим – это численность населения. Изменение численности населения приводит к пропорциональному изменению разводов и потребления маргарина. А если учесть, что численность населения может динамично меняться из-за миграции и демографических волн, всё вообще становится предельно понятно.

Вот такой маргарин!

This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting
Page generated Dec. 26th, 2025 03:02 am
Powered by Dreamwidth Studios