[personal profile] prepod

Вопрос о необычных корреляциях при рассмотрении социально-экономических явлений периодически всплывает в публикациях  https://pikabu.ru/story/lozhnyie_korrelyatsii_2287154

Мне показалось странным, что не всплывает подробное и толковое объяснение этому явлению. Ну, по крайней мере, мне до сих пор не встречалось. Поэтому постараюсь восполнить пробел и подробно разъяснить суть происходящего. 

Итак, мы исследуем зависимость двух рядов данных

Т

t1

t2

t3

У

у1

у2

у3

Х

х1

х2

х3

 

Здесь T- переменная времени; У и Х – это изучаемые величины.

Возьмём пример с сайта «Пикабу»:

У – число разводов в штате Мэн, Х – потребление маргарина.

Коэффициент корреляции 0,99.

Судя по всему, маргарин в этом штате употребляют в качестве антидепрессанта.

А если серьёзно, в чём причина? Вопрос не праздный. Коэффициент корреляции широко используется для нахождения зависимостей динамических рядов, и именно по нему чаще всего определяют причинно-следственную связь.

Давайте разбираться по существу. Для этого нам придётся ввести очень важное понятие теории вероятностей: понятие «случайной величины». Это числовая величина, значения которой заранее не известны и определяются в результате наблюдения.

В данном случае речь идёт о наблюдении, проводимом статистическими органами, случайная величина Х  – объём потребления маргарина в данном году, случайная величина У – число разводов в том же году. Заранее эти величины не известны, поэтому вроде бы они действительно являются случайными, но,  как ни странно,  теория вероятностей не относит их к «случайным величинам».

Дело в том, что условия наблюдения должны быть неизменными. Это обязательное требование для «случайных величин». Неизменным должен быть весь комплекс условий: экономические, социальные, политические, климатические, производственные, финансовые, … В данном примере с течением времени эти условия меняются, поэтому Х и У – это не «случайные величины». А что тогда?

Это «случайные процессы», то есть «случайные величины», зависящие от времени: Х(t) и У(t). Если значение t зафиксировать, то «случайный процесс» превращается в «случайную величину».

Прояснив этот важный момент, займёмся коэффициентом корреляции. По определению, коэффициент корреляции r(X,Y) рассчитывается для двух «случайных величин» и характеризует степень линейной взаимосвязи между ними. Выделим две особенности коэффициента корреляции.

Первая: он рассчитывается только для «случайных величин», а не для «случайных процессов». Вторая: он симметричен, т.е. не меняется от перестановки Х и У.  А значит, он показывает не зависимость У от Х или Х от У, а так называемую «статистическую взаимосвязь», т.е. насколько сильно меняется одна величина в ответ на изменение другой.

Итак, суть проблемы в том, что для случайных процессов Х(t) и У(t) коэффициент корреляции просто не существует. То есть формула есть, а использовать её в данном случае нельзя. Вот поэтому и получились такие странные корреляции на сайте Пикабу.

Но тогда как быть? Большинство данных в статистике это именно динамические ряды, т.е. значения, зависящие от времени. Как тогда характеризовать их взаимосвязь?

С точки зрения теории для этого нужно найти коэффициенты корреляции  r(Х(t),У(t)) для каждого фиксированного значения t. То есть если в вашем ряду двадцать значений переменной времени, то и коэффициентов корреляции должно быть двадцать. При изменении переменной времени эти коэффициенты будут меняться, и вы получите так называемую «корреляционную функцию».

Но это всё теория, а на практике для фиксированного t вы ничего не посчитаете, поскольку у вас нет данных для этого – всего одно значение Х и одно значение У. Что делать?

Есть разные околонаучные способы справиться с этой проблемой, почти все они не обоснованы теоретически. Поэтому остановимся на самом предпочтительном с моей точки зрения способе.

В исходном временном ряду выбираем «стационарные» интервалы, т.е. те участки времени, на которых условия наблюдения можно считать почти что неизменными. Ряды Х(t) и У(t) внутри этих интервалов не должны иметь выраженной динамики. Как правило, на этих интервалах имеется немного данных, но иногда достаточно даже пяти (на все вопросы и возражения могу ответить в отдельных комментариях). Для каждого такого интервала рассчитываем свой коэффициент корреляции. Полученные значения соотносим с серединой интервала, помещаем на график и соединяем линией. Корреляционная функция готова.

Корреляционная функция показывает, как меняется коэффициент корреляции со временем. Но здесь нужно обязательно иметь в виду, что и коэффициент корреляции, и корреляционная функция показывают не причинно-следственную взаимосвязь, а «статистическую взаимосвязь», т.е. способность одной величины меняться в ответ на изменение другой.

Самый тяжёлый случай – когда стационарные интервалы выделить нельзя. Это бывает, если у рядов очень сильная динамика. Но и тут выход есть. В этой ситуации придётся призвать на помощь предметную область, т.е. хорошо изучить исследуемые явления. Если исходя из социально-экономической сущности явлений можно заключить, что Х является причиной У, то можно смело находить «коэффициент корреляции» динамических рядов по всем исходным данным. Он покажет, насколько синхронно изменяются ряды. Но уже не будет показывать статистическую взаимосвязь! То есть в этом случае «коэффициент корреляции» изменит свой смысл.

Давайте вернёмся к маргарину.  Все понимают, что он никак не влияет на разводы, но коэффициент корреляции оказался очень большим, равным 0,99. Это означает только то, что ряды меняются синхронно, и не потому, что они взаимосвязаны, а по каким-то другим причинам.

Нам придётся обратиться к предметной области и выяснить, что же это за причина, которая двигает в одном направлении разводы и маргарин. После недолгого раздумья мы эту причину легко обнаружим – это численность населения. Изменение численности населения приводит к пропорциональному изменению разводов и потребления маргарина. А если учесть, что численность населения может динамично меняться из-за миграции и демографических волн, всё вообще становится предельно понятно.

Вот такой маргарин!

Per capita

Date: 2020-01-06 12:26 am (UTC)
kubkaramazoff: (Default)
From: [personal profile] kubkaramazoff
Логично. Но:

Потребление маргарина дано "Per capita" - "на душу" по-нашему.

Следовательно, прямая связь "маргарина на душу" с числом населения неочевидна, как очевидна связь числа разводов.

Тем не менее, если, и скорее всего, основные прирост/убыль населения штата связаны с нижними децилями по достатку, то маргарин "на душу" логично связывается с числом населения. И то при условии, что в Штатах, так же как у нас, маргарин больше потребляют нижние децили. Не знаю, как там сейчас обстоит борьба с холестерином - может и богатые им продолжают травиться.
_________________

Вы мощно поработали - столько статей написано, а я только сейчас обнаружил.

Репостну избранное в ТопК.
kubkaramazoff: (Default)
From: [personal profile] kubkaramazoff
Разумеется. Тут незачем ликбез. Не значит, что в остальном ликбез не требуется.


/// О существенной линейной связи говорит значение к. корр. > 0,7.

- И более 0,9 для стабильного прогноза. И более 0,96 для совершения уверенного прогноза. Он у меня твердо есть на сорокалетнем периоде R>0,96 и на столетнем ~0,8 - надо копать ряды, но частота выборки глубже в историю снижается.

К слову, про ряды Фурье наглядная гифка:
https://commons.wikimedia.org/wiki/File:Synthesis_square.gif?uselang=ru
_______________
Аще нужно отбраковывать показатели как заведомо или предполагаемо ложные.
Page generated Dec. 25th, 2025 09:54 pm
Powered by Dreamwidth Studios