Обсуждение:Корреляция
![]() | Статья «Корреляция» входит в общий для всех языковых разделов Википедии расширенный список необходимых статей. Её развитие вплоть до статуса избранной является важным направлением работы русского раздела Википедии. |
Проект «Физика» (важность для проекта средняя)
Эта статья тематически связана с вики-проектом «Физика», цель которого — создание и улучшение статей по темам, связанным с физикой. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями. |
![]() | Эта статья выставлялась на удаление и была оставлена. Пояснение причин и соответствующее обсуждение вы можете найти на странице Википедия:К удалению/1 января 2008. Повторное выставление допустимо лишь при наличии аргументов, не рассмотренных в прошлых номинациях, при изменении обстоятельств вокруг предмета статьи или изменении правил Википедии, в противном случае повторная заявка будет быстро закрыта. |
Проект «Электроника» (уровень II)
Эта статья тематически связана с вики-проектом «Электроника», цель которого — создание и улучшение статей по темам, связанным с Электроникой. Вы можете её отредактировать, а также присоединиться к проекту, принять участие в его обсуждении и поработать над требуемыми статьями. |
Untitled
[править код]Вообще-то это disambig ... --Kaganer 10:24, 10 Фев 2005 (UTC)
Неверно утверждение, что сама корреляция может быть отрицателльной. Верно утверждение, что существуют коэффициенты корреляции, например, коэффициент корреляции Пирсона, которые могут принимать отрицательные значения. Но это не говорит об отрицательной корреляции, это говорит лишь о отношения порядка на множестве случайных событий. Поскольку гипотеза частичной упорядоченности есть независимая гепотеза, а введение понятия корреляции не нуждается в самом по себе введении отношения порядка, то говорить о том, что именно корреляция может быть отрицательной - неверно. --Марк Болдырев 10:31, 7 июля 2009 (UTC)
Не хватает примеров
[править код]Не хватает примеров применения, одни общие слова.
- мягко выражаясь копипаста из учебника статистики для спецкурсов. Сам автор не понимает что он накопипастил, или не может этого обьяснить читателю. Практическая ценность - отрицательная, читатель не получает ответов, тратит время и вынужден искать далее. Статью удалить, или полностью переработать.
Ложная корреляция
[править код]Возможно, имеет смысл вынести раздел "Ложная корреляция" в отдельную статью? Assargadon 18:11, 29 июля 2010 (UTC)
- Статья не столь уж большая. По-моему, данный термин является следствием рассмотрения корреляции, а не самостоятельным явлением. Без насущной необходимости вычленение его в отдельную статью обязательно приведет к дублированию существенных объемов текста и будет противоречить ВП:Ответвление мнений. KLIP game 18:45, 29 июля 2010 (UTC)
Отдельные предложения из ложной корреляции
[править код]"Например, существует корреляция между размером обуви и средним доходом человека" Забавное утверждение без пруфлинка Nlubchenko 15:36, 12 октября 2010 (UTC)
Выкидывание значительной части информации из раздела "ложная корелляция"
[править код]Вот эти изменения меня смущают. С одной стороны, значительная часть информации выкинута. С другой стороны, введено предложение об "обязательном наличии связи, хотя и не обязательно причинно-следственной" - это утверждение, на мой взгляд...методически неверное, что ли. Являясь формально правильным, оно приведёт к тому, что значительная часть людей вынесет из статьи совсем не то, что там записано. Assargadon 17:30, 13 февраля 2011 (UTC)
- Там надо просто подправить о статистическом характере связи. KLIP game 19:18, 13 февраля 2011 (UTC)
Количество степеней свободы для хи-квадрат в коэффициенте конкордации Кендалла
[править код]Точно ли ? Или же, все таки, ?
128.69.219.113 21:02, 18 мая 2013 (UTC) chi square
формула
[править код]
42.115.19.251 11:12, 20 октября 2017 (UTC)
Ложные корреляции: важное упущение
[править код]Добрый день всем!
По-моему, в разделе "Ограничения корреляционного анализа" есть очень важное упущение. А именно, там присутствует пункт 2, где говорится про требование нормальности. Но ничего не сказано о том, что все сказанное в статье относится исключительно к случайным величинам. Однако на практике в 99% случаев корреляционные методы используются для анализа случайных процессов! Которые не только не эргодичны, а просто нестационарны. Понятно, что это может приводить к катастрофическому (на порядки!) завышению значимости и, соответственно к появлению "сверхвысокозначимых" ложных корреляций.
Когда мы говорим про случайные величины, то проверка на нормальность важна, однако если исследователь об этом "забудет", то скорее всего он ошибется не очень сильно. Дело в том, что в практической жизни распределения с тяжелыми хвостами встречаются не так уж часто, а если даже и встретились, то такие выбросы принято вычищать. Если же окажется, что вместо нормального распределения мы имеем, например, равномерное, то это исказит уровни значимости, рассчитанные по стандартным формулам, не очень сильно - максимум в разы. Но никак не на порядки.
Но если мы попытаемся применить наши формулы для анализа случайных процессов, то ошибки могут стать просто катастрофическими. Но именно это мы и делаем, когда анализируем экспериментальные временные ряды! В некоторых предметных областях именно такой способ ошибиться при корреляционном анализе - взять случайные процессы вместо случайных величин - является общепринятым ;-)
Поэтому для практической жизни гораздо важнее проверить на данные стационарность, а не заморачиваться с распределением. В противном случае есть не просто риск, а практически гарантия ошибиться со значимостью на порядки (если ряд достаточно длинный, конечно).
Именно эта ошибка приводит к огромной массе недоразумений, вплоть до дискредитации корреляционных методов в глазах тех, кто с таким артефактом столкнулся.
Я написал об этом отдельную статью на Хабре. Я думаю, что некоторые ее положения в сжатом виде вполне уместно привести и здесь тоже. И/или можно дать отсюда ссылку на Хабр.
Но я сам в редактировании Википедии никогда не участвовал, и поэтому я не берусь предложить конкретный формат таких правок. Поэтому у меня большая просьба к участникам обсуждения: пожалуйста, посмотрите упомянутую выше статью, и скажите свое резюме.
P.S. Вдогонку: кстати, для непараметрических корреляций функция распределения некритична, а вот нестационарность сигнала точно так же фатальна! Об этом тоже надо сказать в статье. Так как очень многие уверены, что при использовании, например, ранговой корреляции о свойствах исходных данных задумываться вообще не нужно. Хотя самый обычный линейный тренд вдребезги разбивает все построения. Просто изначально вся теория строилась для случайных величин, а там тренда в принципе быть не может (у нас же одна и та же генеральная совокупность). Поэтому математики об этом и не упоминают - для них это абсолютно очевидно. Но в википедию-то за советом не математики ходят! Для них все это надо сказать прямым текстом...
P.P.S. Вдогонку-2. Сейчас измерил температуру, у меня уже 39, и это точно ковид (знаю, от кого заразился, у них все подтверждено анализами). Поэтому не уверен, что смогу поучаствовать в обсуждении поднятого вопроса в ближайшие дни (мне уже 60). Короче, если решите править статью - это можно делать без меня ;-) Хотя я конечно надеюсь вернуться ;-)) A. Deshere (обс.) 22:28, 18 февраля 2021 (UTC)
- Проблема в том, что редакторы Википедии часто не являются специалистами в том предмете, о каком редактируемая статья. ВП:САМИЗДАТ запрещено использовать в качестве АИ, кроме случаев, когда его автор широко известный профильный специалист. Кроме того, есть прямой запрет использовать оригинальные исследования. Если Ваши подходы опубликованы в научных изданиях, тогда можно использовать ссылки на эти публикации, а Хабр указать как их популярное изложение. Но ссылаться только на Хабр как на первоисточник концепции правила Википедии не позволяют. KLIP game (обс.) 16:53, 19 февраля 2021 (UTC)
- Дело совершенно не в том, чтобы сослаться именно на Хабр. Важна не ссылка, а исправление упущения (я бы даже сказал, ошибки) в статье Википедии. Пожалуй, что отсутствие указания на принципиальную разницу между случайной величиной и случайным процессом в указанном контексте - это именно ошибка.
Приведу аналогию: если в некоторой статье написано, что все нечетные числа - простые, то для опровержения этой ошибки достаточно привести в качестве примера числа 9, 15, 21. Либо дать ссылку на таблицу с множителями: 9=3*3, 15=5*3, 21=7*3. И в этом случае совершенно не важно, опубликована ли эта таблица в научном издании или это просто "обои" на сайте с котиками. Важно не место публикации таблицы, а неопровержимые факты, опровергающие ложное утверждение. Я вхожу в редколлегию одного из известных российских научных журналов, и буквально каждые несколько месяцев мне приходится рассматривать статьи, в которых сделана именно такая ошибка: автор считает корреляцию между нестационарными временными рядами, но вычисляет доверительные интервалы по формулам для случайных величин. В результате все его корреляции оказываются не просто значимыми, а высоко достоверными. И каждый раз приходится мучительно объяснять, что он совершает подмену понятий и на самом деле значимость его корреляций просто никакая. Это не просто частая ошибка, она действительно массовая. Ее совершают авторы БОЛЬШЕЙ части поступающих к нам в журнал статей, в которых ведется корреляционный анализ геофизических и многих других временных рядов. И это - научные статьи, представляемые в рецензируемые журналы! Что уж говорить о менее искушенной публике. Я думаю, что отсутствие в Википедии (да и вообще в Сети) хотя бы минимальных разъяснений и предостережений по этому поводу - это одна из важных причин, провоцирующих такие ошибки. Фактически тут не с чем спорить. Если посмотреть в любую нормальную книжку, то там всегда поясняется, что корреляция вводится именно для случайных величин. Вычисляя корреляцию для нестационарного временного ряда (=неэргодического случайного процесса), мы заведомо нарушаем условия применимости метода. Это очевидная ошибка. Это то же самое, как вычислять арксинус 13. Если наш калькулятор выдает в ответ какие-то цифры, то это не значит, что мы совершаем корректное вычисление. А авторы таких "корреляций" делают именно это! Проблема с корреляцией в том, что типичные формулы вполне допускают подстановку туда некорректных исходных данных. А пользователи-нематематики не читают пояснения на первой странице толстого учебника; они всегда сразу лезут на сотую страницу с формулами для вычисления коэффициента корреляции и его доверительных границ. Поэтому важно не то, будет ли в статье ссылка на Хабр, или же вместо нее будет ссылка на справочник по математике. Важно, чтобы читатели статьи не совершали эту ошибку.
Я вполне согласен, что запрет на использование авторских материалов - обоснованный и необходимый. Но математики никогда не напишут такую статью, на которую можно было бы сослаться в данном случае. Это то же самое, как публиковать статью, что вычислять арксинус 13 нельзя. Так как это утверждение совершенно тривиально и очевидно, оно не может быть предметом научной статьи. Проблема в том, что ошибка с корреляциями стала массовой, хотя по сути это тот же арксинус 13. Даже в рецензируемых публикациях их авторы сплошь и рядом обсуждают "физические следствия" из расчетов, основным содержанием которых является взятие арксинуса от 13. И что прикажете делать в такой ситуации?
Именно поэтому я написал про корреляции научно-популярную статью, разъясняющую эту проблему. В рецензируемый журнал такое писать просто стыдно. Хотя эта тема настолько острая, что она все-таки затрагивается в нескольких наших статьях (например, вот тут https://www.elibrary.ru/item.asp?id=17340234 или вот тут: https://www.elibrary.ru/item.asp?id=30570694). Но мы - геофизики, а не математики. Поэтому несмотря на наличие пары сотен научных публикаций, я вряд ли могу считать себя авторитетным профильным специалистом.
На самом деле, мы сейчас пытаемся вывести формулы для оценки функции распределения статистики Rxy для фликкер-шумовых сигналов. Если у нас получится их вывести, а также подтвердить результаты численным моделированием, то это будет не просто указание на ошибку, а прямая рекомендация, как ее исправить. Такую статью уже вполне можно будет опубликовать в рецензируемом журнале. Но это в любом случае дело будущего. А исправлять ошибку в Википедии надо уже сейчас. Вопрос только в том, как правильно это сделать. Возможно, в качестве первого шага стоит добавить в статью формулы для функции распределения коэффициента корреляции для случая нормально распределенных случайных величин, и перейти от них к доверительным интервалам (с помощью которых оценивается значимость корреляций)? А затем подчеркнуть, что данные формулы годятся строго для оговоренного случая (нормально распределенные случайные величины), и что их категорически нельзя применять при оценке значимости корреляций между временными рядами?
217.73.198.56 10:24, 1 марта 2021 (UTC)
Ограничения корреляционного анализа (было: Ложные корреляции: важное упущение)
[править код]В продолжение разговора про ограничения корреляционного анализа.
Поскольку Хабр не является "авторитетным источником", я хочу добавить к обсуждению две мои публикации, вышедшие в прошлом (2024) году в рецензируемых научных журналах: 1) Геофизические процессы и биосфера (ссылка) и 2) Сейсмические приборы (ссылка), в которых кратко изложены основные тезисы моего предыдущего сообщения. (PDF-файлы этих статей можно взять здесь; в elibrary они за пейволом). Надеюсь, что эти журналы (оба входят в ядро РИНЦ) могут считаться "авторитетным источником"? В этих публикациях я повторил основные тезисы своей упомянутой выше хабростатьи, и привел пару примеров, их иллюстрирующих. (Но хабростатья просто в силу формата "научпоп" гораздо подробнее и понятнее для неспециалиста, естественно).
Надеюсь, что вопрос о ложных корреляциях этого типа теперь можно закрыть окончательно. Кратко сформулирую еще раз: иллюзия о значимости таких корреляций возникает из-за использования обычных статистических критериев (построенных для случайных величин) при анализе данных, которые случайными величинами не являются. Такая подмена понятий (когда мы изучаем случайный процесс, но делаем вид, что работаем со случайной величиной) неизбежно приведет к совершенно катастрофическим ошибкам в оценках. Которые, как заметил еще В.Ю.Урбах [1963] особенно опасны потому, что имеют видимость математической точности и строгости.
Учитывая массовость этой ошибки, я предлагаю добавить в основную статью, в раздел "Ограничения корреляционного анализа", дополнительный подраздел про временные ряды (что все сказанное в статье к ним не относится!), и уточнить, что причина появления многих (если не большинства) ложных корреляций - это применение описанных в статье инструментов вне их области применимости. Ведь динамика глобального потепления, изменения количества пиратов, абсолютно любые эконометрические или медицинские статистики, социология, и т.д. и т.п. - это случайные ПРОЦЕССЫ, а не случайные величины.
Если не добавить в статью такой акцент, то она будет верной и точной по форме, но по существу - просто ОБМАНЕТ половину читателей! Ведь среди "областей применения" перечислены и экономика, и социология, и другие сферы, где существенная (если не важнейшая!) часть данных представлена именно временными рядами.
Конкретные предложения по улучшению статьи:
1) В преамбулу (где сказано, что речь идет про случайные величины, либо величины, которые "можно с некоторой допустимой степенью точности считать таковыми") предлагаю добавить дополнительное примечание, в котором пояснить, что ПРАКТИЧЕСКИ ВСЕ реальные временные ряды - это НЕ случайные величины! По умолчанию, их нельзя считать таковыми ни в каком приближении. Исключения есть, но правомочность такого допущения (что их "можно с некоторой допустимой степенью точности считать таковыми") надо доказывать отдельно в каждом конкретном случае.
Да, формально такая сноска избыточна. Но целевая аудитория статьи - это не математики, которые вдумываются в точный смысл каждой буквы! Для многих "обычных" читателей (=нормальных людей) такое уточнение будет очень полезным и убережет их от весьма неприятных ошибок. К примеру, даже малейшие признаки нестационарности временного ряда катастрофически искажают уровни значимости корреляций, если ряд достаточно длинный. Для подавляющего большинства людей это совершенно не очевидно.
2) В разделе "Корреляционный анализ" предлагаю уточнить, что связь между переменными может быть тесной, но статистически не значимой, а может быть очень слабой, но значимой. И что для проверки значимости (=наличия) такой связи необходимо использовать специальные критерии значимости [со ссылкой на Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1965. 475с. и Корн Г.А., Корн Т.М. Справочник по математике для научных работников и инженеров. М.: Наука, 1984, 831с.]. Анализ коэффициента детерминации - это лишь один из возможных методов, но совершенно не единственный, и даже не основной.
3) В раздел "Ограничения корреляционного анализа" предлагаю добавить отдельным пунктом, что методы корреляционного анализа не следует напрямую использовать при работе с данными, которые не являются случайными величинами. В частности, при работе с подавляющим большинством временных рядов такой анализ будет бессодержательным (кстати, к коэффициенту детерминации это тоже относится!). Очень многие "ложные корреляции" были "обнаружены" именно таким способом: автору показалось, что корреляция между сигналами - значимая, хотя в действительности он просто ошибся при вычислении уровня значимости, использовав для этого заведомо непригодные формулы.
Подробнее об этом написано здесь.
P.S. Если подходить к статье строго формально, то прямых ошибок ней нет. Все мои дополнения не особо нужны, если точно прочитать фразу про взаимосвязь "..двух или более случайных величин". Однако на практике очень существенная часть читателей имеют дело (и будут анализировать) не случайные величины, а временные ряды. И большинству из тех, кто еще не съел собаку на этом поприще, крайне трудно представить, насколько малые отклонения от аксиоматики случайных величин могут полностью опровергнуть их итоговый результат.