Вопрос о необычных корреляциях при рассмотрении социально-экономических явлений периодически всплывает в публикациях https://pikabu.ru/story/lozhnyie_korrelyatsii_2287154
Мне показалось странным, что не всплывает подробное и толковое объяснение этому явлению. Ну, по крайней мере, мне до сих пор не встречалось. Поэтому постараюсь восполнить пробел и подробно разъяснить суть происходящего.
Итак, мы исследуем зависимость двух рядов данных
Т | t1 | t2 | t3 | … |
У | у1 | у2 | у3 | … |
Х | х1 | х2 | х3 | … |
Здесь T- переменная времени; У и Х – это изучаемые величины.
Возьмём пример с сайта «Пикабу»:
У – число разводов в штате Мэн, Х – потребление маргарина.
Коэффициент корреляции 0,99.
Судя по всему, маргарин в этом штате употребляют в качестве антидепрессанта.
А если серьёзно, в чём причина? Вопрос не праздный. Коэффициент корреляции широко используется для нахождения зависимостей динамических рядов, и именно по нему чаще всего определяют причинно-следственную связь.
Давайте разбираться по существу. Для этого нам придётся ввести очень важное понятие теории вероятностей: понятие «случайной величины». Это числовая величина, значения которой заранее не известны и определяются в результате наблюдения.
В данном случае речь идёт о наблюдении, проводимом статистическими органами, случайная величина Х – объём потребления маргарина в данном году, случайная величина У – число разводов в том же году. Заранее эти величины не известны, поэтому вроде бы они действительно являются случайными, но, как ни странно, теория вероятностей не относит их к «случайным величинам».
Дело в том, что условия наблюдения должны быть неизменными. Это обязательное требование для «случайных величин». Неизменным должен быть весь комплекс условий: экономические, социальные, политические, климатические, производственные, финансовые, … В данном примере с течением времени эти условия меняются, поэтому Х и У – это не «случайные величины». А что тогда?
Это «случайные процессы», то есть «случайные величины», зависящие от времени: Х(t) и У(t). Если значение t зафиксировать, то «случайный процесс» превращается в «случайную величину».
Прояснив этот важный момент, займёмся коэффициентом корреляции. По определению, коэффициент корреляции r(X,Y) рассчитывается для двух «случайных величин» и характеризует степень линейной взаимосвязи между ними. Выделим две особенности коэффициента корреляции.
Первая: он рассчитывается только для «случайных величин», а не для «случайных процессов». Вторая: он симметричен, т.е. не меняется от перестановки Х и У. А значит, он показывает не зависимость У от Х или Х от У, а так называемую «статистическую взаимосвязь», т.е. насколько сильно меняется одна величина в ответ на изменение другой.
Итак, суть проблемы в том, что для случайных процессов Х(t) и У(t) коэффициент корреляции просто не существует. То есть формула есть, а использовать её в данном случае нельзя. Вот поэтому и получились такие странные корреляции на сайте Пикабу.
Но тогда как быть? Большинство данных в статистике это именно динамические ряды, т.е. значения, зависящие от времени. Как тогда характеризовать их взаимосвязь?
С точки зрения теории для этого нужно найти коэффициенты корреляции r(Х(t),У(t)) для каждого фиксированного значения t. То есть если в вашем ряду двадцать значений переменной времени, то и коэффициентов корреляции должно быть двадцать. При изменении переменной времени эти коэффициенты будут меняться, и вы получите так называемую «корреляционную функцию».
Но это всё теория, а на практике для фиксированного t вы ничего не посчитаете, поскольку у вас нет данных для этого – всего одно значение Х и одно значение У. Что делать?
Есть разные околонаучные способы справиться с этой проблемой, почти все они не обоснованы теоретически. Поэтому остановимся на самом предпочтительном с моей точки зрения способе.
В исходном временном ряду выбираем «стационарные» интервалы, т.е. те участки времени, на которых условия наблюдения можно считать почти что неизменными. Ряды Х(t) и У(t) внутри этих интервалов не должны иметь выраженной динамики. Как правило, на этих интервалах имеется немного данных, но иногда достаточно даже пяти (на все вопросы и возражения могу ответить в отдельных комментариях). Для каждого такого интервала рассчитываем свой коэффициент корреляции. Полученные значения соотносим с серединой интервала, помещаем на график и соединяем линией. Корреляционная функция готова.
Корреляционная функция показывает, как меняется коэффициент корреляции со временем. Но здесь нужно обязательно иметь в виду, что и коэффициент корреляции, и корреляционная функция показывают не причинно-следственную взаимосвязь, а «статистическую взаимосвязь», т.е. способность одной величины меняться в ответ на изменение другой.
Самый тяжёлый случай – когда стационарные интервалы выделить нельзя. Это бывает, если у рядов очень сильная динамика. Но и тут выход есть. В этой ситуации придётся призвать на помощь предметную область, т.е. хорошо изучить исследуемые явления. Если исходя из социально-экономической сущности явлений можно заключить, что Х является причиной У, то можно смело находить «коэффициент корреляции» динамических рядов по всем исходным данным. Он покажет, насколько синхронно изменяются ряды. Но уже не будет показывать статистическую взаимосвязь! То есть в этом случае «коэффициент корреляции» изменит свой смысл.
Давайте вернёмся к маргарину. Все понимают, что он никак не влияет на разводы, но коэффициент корреляции оказался очень большим, равным 0,99. Это означает только то, что ряды меняются синхронно, и не потому, что они взаимосвязаны, а по каким-то другим причинам.
Нам придётся обратиться к предметной области и выяснить, что же это за причина, которая двигает в одном направлении разводы и маргарин. После недолгого раздумья мы эту причину легко обнаружим – это численность населения. Изменение численности населения приводит к пропорциональному изменению разводов и потребления маргарина. А если учесть, что численность населения может динамично меняться из-за миграции и демографических волн, всё вообще становится предельно понятно.
Вот такой маргарин!
Re: Per capita
Date: 2020-01-08 07:29 am (UTC)_________________________
Статья, собственно, одна большая - что и где происходит, и когда (и чем) это кончится. А ещё кто виноват и что делать.