Ранее я писал о конфаундерах и других конструкциях, искажающих причинно-следственные связи. Сейчас готовлю новый пост на эту тему.
А пока — пример коллайдера и того, как с ним (пока что) не справляется даже AI. Наткнулся на него на соседнем канале — делюсь:
А пока — пример коллайдера и того, как с ним (пока что) не справляется даже AI. Наткнулся на него на соседнем канале — делюсь:
❤6
Forwarded from ИНСАЙТ-АНАЛИТИКА “АЗИМУТ”
Заход к причинно-следственному анализу
Возвращаясь к вопросу для AI, который как новый тест Тьюринга, говорит о [не]понимании современным AI причинно-следственных связей.
Найди такую тройку переменных A, B и С, в которой:
— A скоррелировано с C;
— B скоррелировано с C;
— A и B не скоррелированы между собой.
Нынешняя версия ChatGPT отвечает:
Конечно! Один из простых примеров такой тройки — случай, когда A и B независимо друг от друга зависят от одной и той же скрытой (латентной) переменной C. Вот пример: (и дальше идет пример).
Уверенно отвечает, «конечно» ))) на самом деле, пример, который он приводит, когда A и B «независимо» зависят от C – это пример конфаундера, общей причины. И в этом случае, между A и B, безусловно, корреляция будет. То есть он неправильный пример привел. Можно вступить с ним в дискуссию, он примет аргументы, исправит пример, и приведет еще один такой же, ничем не лучше первого. Ну может быть, вместо «латентности» употребит другое умное слово.
Корректный ответ на этот вопрос – такая тройка переменных должна подразумевать, что A и B должны быть независимыми общими причинами для C. И тогда, да – будет примерно так:
Пусть есть школа актеров (C), куда принимают учеников либо с актерским талантом (A), либо внешне привлекательных (B). И тогда при отсутствии связи между талантом и привлекательностью (между А и B ) на всей популяции, между парами A-C и B-C такая связь будет.
Интересно еще то, что связь между А и B появится (и будет достаточно сильной), если наша выборка будет ограничена учениками из этой школы актеров (C). Это будет наш selection bias – если у нас нет других случаев, мы сделаем неверный вывод о наличии связи между талантом и привлекательностью. Это явление — классический пример «блуждающей корреляции» (spurious correlation), возникающей при выборке по «коллайдеру».
Причем здесь понимание причинности? А дело в том, что такой случай, когда между A и B нет безусловной связи, но есть условная (при фиксации третьей переменной C), позволяет нам сделать причинно-следственный вывод: нарисовать причинные стрелки на графе от A к C и от B к C! Иными словами, увидев такую картину, мы сможем подтвердить, что A и B являются причинами C. То есть даже если представители школы скажут, что принимают учеников исключительно на основе баллов аттестата, у нас будут все основания поверить им не до конца.
Такая структура – появление корреляции между двумя переменными при фиксации третьей, называется «коллайдером». Она доказывает причинно-следственное влияние (которое, все же, необходимо интерпретировать корректно – в нашем примере дело не обязательно в работе приемной комиссии). И она – один из самых чудесных источников инсайтов в наших исследованиях.
#статистика, #статистикапричин
Возвращаясь к вопросу для AI, который как новый тест Тьюринга, говорит о [не]понимании современным AI причинно-следственных связей.
Найди такую тройку переменных A, B и С, в которой:
— A скоррелировано с C;
— B скоррелировано с C;
— A и B не скоррелированы между собой.
Нынешняя версия ChatGPT отвечает:
Конечно! Один из простых примеров такой тройки — случай, когда A и B независимо друг от друга зависят от одной и той же скрытой (латентной) переменной C. Вот пример: (и дальше идет пример).
Уверенно отвечает, «конечно» ))) на самом деле, пример, который он приводит, когда A и B «независимо» зависят от C – это пример конфаундера, общей причины. И в этом случае, между A и B, безусловно, корреляция будет. То есть он неправильный пример привел. Можно вступить с ним в дискуссию, он примет аргументы, исправит пример, и приведет еще один такой же, ничем не лучше первого. Ну может быть, вместо «латентности» употребит другое умное слово.
Корректный ответ на этот вопрос – такая тройка переменных должна подразумевать, что A и B должны быть независимыми общими причинами для C. И тогда, да – будет примерно так:
Пусть есть школа актеров (C), куда принимают учеников либо с актерским талантом (A), либо внешне привлекательных (B). И тогда при отсутствии связи между талантом и привлекательностью (между А и B ) на всей популяции, между парами A-C и B-C такая связь будет.
Интересно еще то, что связь между А и B появится (и будет достаточно сильной), если наша выборка будет ограничена учениками из этой школы актеров (C). Это будет наш selection bias – если у нас нет других случаев, мы сделаем неверный вывод о наличии связи между талантом и привлекательностью. Это явление — классический пример «блуждающей корреляции» (spurious correlation), возникающей при выборке по «коллайдеру».
Причем здесь понимание причинности? А дело в том, что такой случай, когда между A и B нет безусловной связи, но есть условная (при фиксации третьей переменной C), позволяет нам сделать причинно-следственный вывод: нарисовать причинные стрелки на графе от A к C и от B к C! Иными словами, увидев такую картину, мы сможем подтвердить, что A и B являются причинами C. То есть даже если представители школы скажут, что принимают учеников исключительно на основе баллов аттестата, у нас будут все основания поверить им не до конца.
Такая структура – появление корреляции между двумя переменными при фиксации третьей, называется «коллайдером». Она доказывает причинно-следственное влияние (которое, все же, необходимо интерпретировать корректно – в нашем примере дело не обязательно в работе приемной комиссии). И она – один из самых чудесных источников инсайтов в наших исследованиях.
#статистика, #статистикапричин
❤7🔥5👍2
Четыре стихии конфаундинга
Я снова решил вернуться к теме конструкций, искажающих причинно-следственные выводы. Мой главный проводник в этом путешествии — Ричард МакЭлрит. На картинке — мой перевод слайда из одной из его выдающихся лекций [1], [2]:
В своей книге Statistical Rethinking (2-е издание, стр. 183) он даёт такое определение:
Более простыми словами конфаундинг — это что-то, что приводит к искажению причинности. Хотя классическим конфаундером (confounder) считается только вилка, остальные три конструкции он тоже объединяет в единую рамку конфаудинга (confounding) — и это, на мой взгляд, удобное дидактическое обобщение. Кит МакНалти, ссылаясь на МакЭлрита, называет их аккуратнее — ловушки (booby traps) [3]
На своём канале я уже приводил примеры таких структур в HR-аналитике (хотя раньше ошибочно называл все четыре конфаундерами — но суть работы с ними от этого не меняется):
🍴 Вилка (the fork)
🎺 Труба (the pipe, медиатор)
🥊 Коллайдер (the collider)
👶 Потомок (the descendant)
Для выявления этих структур и корректного анализа используется специальный фреймворк. Его основа — это направленные ациклические графы (Directed Acyclic Graphs, DAGs) и d-сепарация (d-separation). Как применять их на практике — поговорим в следующей статье.
#causality
Я снова решил вернуться к теме конструкций, искажающих причинно-следственные выводы. Мой главный проводник в этом путешествии — Ричард МакЭлрит. На картинке — мой перевод слайда из одной из его выдающихся лекций [1], [2]:
В своей книге Statistical Rethinking (2-е издание, стр. 183) он даёт такое определение:
Конфаундинг — это любая ситуация, при которой ассоциация между результирующей переменной Y и интересующим предиктором X отличается от той, которую мы бы наблюдали, если бы значения X были заданы экспериментально.
Более простыми словами конфаундинг — это что-то, что приводит к искажению причинности. Хотя классическим конфаундером (confounder) считается только вилка, остальные три конструкции он тоже объединяет в единую рамку конфаудинга (confounding) — и это, на мой взгляд, удобное дидактическое обобщение. Кит МакНалти, ссылаясь на МакЭлрита, называет их аккуратнее — ловушки (booby traps) [3]
На своём канале я уже приводил примеры таких структур в HR-аналитике (хотя раньше ошибочно называл все четыре конфаундерами — но суть работы с ними от этого не меняется):
X ← Z → Y - классический конфаундер, общая причина. Нужно обязательно включать в модель, чтобы избежать искажения и закрыть чёрный ход (backdoor path). [4]X → M → Y – если контролировать её без необходимости, можно получить ошибку из-за контроля после воздействия (post-treatment bias). Однако здесь всё сложнее, чем с вилкой: контроль за медиатором искажает общий эффект (total effect), но может быть уместен, если нас интересует прямой эффект (direct effect). [5]X → Z ← Y – источник ошибки отбора (selection bias). Никогда не контролируй коллайдер — и всё будет хорошо! [6] X → Z ← Y → D – особый случай, сочетающий черты трёх других. "Паразитирующий" тип искажения. Может открыть путь (то есть создать ложную зависимость), если он является потомком коллайдера, или унаследовать искажение от вилки или медиатора. [7]Для выявления этих структур и корректного анализа используется специальный фреймворк. Его основа — это направленные ациклические графы (Directed Acyclic Graphs, DAGs) и d-сепарация (d-separation). Как применять их на практике — поговорим в следующей статье.
#causality
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4🔥2❤🔥1
Конец работы
Пока я готовлю большую статью про конфаундинг, делюсь мощным текстом Дэниела Мисслера - о том, как мы неверно воспринимаем саму идею "работы" и что нас ждёт в наступающую эпоху AI.
Я нахожу в этой работе много философии, как с точки зрения технологического реализма, так и экзистенциализма. Люблю такое.
Как бы ни спорно ни звучали тезисы автора, мне кажется, это зрелое и честно размышление о сдвигах, которые происходят прямо сейчас. Вот ключевые идеи, которые он формулирует:
1️⃣ Идеальное количество сотрудников для компании равно нулю.
2️⃣ Причина, по которой компании имели сотрудников в прошлом, заключается ТОЛЬКО в том, что основатели не могли предоставлять свой продукт/услугу без работников.
3️⃣ Компании и общество как бы забыли об этом за последние десятилетия, и стало считаться, что все компании должны иметь такую большую рабочую силу, потому что задача компаний — предоставлять обществу хорошие рабочие места.
4️⃣ Это не работает для компаний, и теперь руководители компаний замечают, что они не получают той ценности, которую должны получать от большинства сотрудников и команд.
5️⃣ Так что это осознание уже проникает, и в то же самое время мы получаем ИИ.
6️⃣ Это означает, что в то самое время, когда руководители компаний очень скептически смотрят на свои расходы на человеческие ресурсы, им предлагают альтернативу.
Такой пессимизм (или реализм) автор разбавляет тремя пунктами надежды:
1️⃣ В любом случае, эти работы были отстойными. Многие из них не приносили смысла. Люди, как вид - достойны большего.
2️⃣ Даже быстрые изменения идут медленно. Есть время на адаптацию. Да, AI будет вытеснять, но он же и создаст новые виды деятельности - об этом говорят и другие исследователи.
3️⃣ То, что будет дальше, будет намного лучше. И наконец — и самое лучшее — то, что останется после этого, если мы выживем, будет гораздо лучшим способом жить.
Таким образом, по мнению автора ИИ не просто отнимает профессии — он подрывает саму концепцию «профессии». И в этом — и угроза, и шанс: стать не функцией в чужом бизнесе, а субъектом в своём развитии.
#разбоо_статьт #ai #философия #рынок_труда
Пока я готовлю большую статью про конфаундинг, делюсь мощным текстом Дэниела Мисслера - о том, как мы неверно воспринимаем саму идею "работы" и что нас ждёт в наступающую эпоху AI.
Я нахожу в этой работе много философии, как с точки зрения технологического реализма, так и экзистенциализма. Люблю такое.
Как бы ни спорно ни звучали тезисы автора, мне кажется, это зрелое и честно размышление о сдвигах, которые происходят прямо сейчас. Вот ключевые идеи, которые он формулирует:
Такой пессимизм (или реализм) автор разбавляет тремя пунктами надежды:
Таким образом, по мнению автора ИИ не просто отнимает профессии — он подрывает саму концепцию «профессии». И в этом — и угроза, и шанс: стать не функцией в чужом бизнесе, а субъектом в своём развитии.
#разбоо_статьт #ai #философия #рынок_труда
Please open Telegram to view this post
VIEW IN TELEGRAM
Danielmiessler
The End of Work
My big, depressing, and optimistic theory for why it's so hard to find and keep a job that makes you happy
👍11❤6🔥3
До 40% рабочего времени HR уходит на повторяющиеся задачи.
🧠 Сегодня выигрывают те, кто доверяет рутину автоматизации и ИИ — умные сервисы берут на себя всю “бумажную” работу и делают процессы проще и быстрее.
Чтобы вы могли работать с удовольствием и фокусироваться на главном, мы собрали для вас лучшие каналы про автоматизацию и HRTech.
Скачав подборку, вы сможете:
➤ Узнать о свежих сервисах для автоматизации подбора, обучения и адаптации
➤ Получить обзоры HRMS, ATS, LMS и других платформ, которые реально экономят время
➤ Следить за трендами: ИИ в рекрутинге, чат-боты, цифровой документооборот, HR-аналитика
➤ Находить практические кейсы и инструкции по внедрению автоматизации в компаниях
Работайте проще, а не больше — переходите по ссылке и забирайте подборку!
👉https://xn--r1a.website/addlist/C6gRgDRuF3A2NTli
🧠 Сегодня выигрывают те, кто доверяет рутину автоматизации и ИИ — умные сервисы берут на себя всю “бумажную” работу и делают процессы проще и быстрее.
Чтобы вы могли работать с удовольствием и фокусироваться на главном, мы собрали для вас лучшие каналы про автоматизацию и HRTech.
Скачав подборку, вы сможете:
➤ Узнать о свежих сервисах для автоматизации подбора, обучения и адаптации
➤ Получить обзоры HRMS, ATS, LMS и других платформ, которые реально экономят время
➤ Следить за трендами: ИИ в рекрутинге, чат-боты, цифровой документооборот, HR-аналитика
➤ Находить практические кейсы и инструкции по внедрению автоматизации в компаниях
Работайте проще, а не больше — переходите по ссылке и забирайте подборку!
👉https://xn--r1a.website/addlist/C6gRgDRuF3A2NTli
👍5❤1
Мои коллеги из TalentCode проводят исследование «AI в обучении сотрудников» и ищут ответы на следующие вопросы:
• Какие реальные эффекты уже достигнуты и подсчитаны по отдельным решениям?
• Что «не взлетело» и пока рано внедрять?
• Какие ресурсы требуются для внедрения AI в различных задачах?
• Какой технологический стек применим с учетом российских реалий?
Все участники получат отчет по итогам. Супер-точные цифры в такого рода исследовании получить сложно, но как минимум можно будет картировать решения и грубо оценить отдачу.
👉Подробнее тут
• Какие реальные эффекты уже достигнуты и подсчитаны по отдельным решениям?
• Что «не взлетело» и пока рано внедрять?
• Какие ресурсы требуются для внедрения AI в различных задачах?
• Какой технологический стек применим с учетом российских реалий?
Все участники получат отчет по итогам. Супер-точные цифры в такого рода исследовании получить сложно, но как минимум можно будет картировать решения и грубо оценить отдачу.
👉Подробнее тут
talentcode.ru
Как AI действительно работает в обучении
Первое в России практическое исследование: Как AI действительно работает в обучении
❤5❤🔥1🔥1
Конфаундинг, или как аналитику попасть в ловушку
Как вы знаете, последние несколько недель я активно работал над темой конфаундинга. На самом деле, я поднимал её и раньше — в заметках, кейсах и размышлениях. Писал об этом давно, но по частям.
✨ И вот, наконец, я собрал всё воедино — вышла моя дебютная статья на Хабре. Это важное событие для меня и моего канала!
В статье — теория, DAG, практический кейс и главное: почему конфаундинг — не просто термин из учебника, а реальная угроза для выводов и бизнес-решений.
P.S. Спасибо коллегам, кто дал ценные комментарии к черновику. 🙌
#causality #habr #r #лонгрид
Как вы знаете, последние несколько недель я активно работал над темой конфаундинга. На самом деле, я поднимал её и раньше — в заметках, кейсах и размышлениях. Писал об этом давно, но по частям.
В статье — теория, DAG, практический кейс и главное: почему конфаундинг — не просто термин из учебника, а реальная угроза для выводов и бизнес-решений.
P.S. Спасибо коллегам, кто дал ценные комментарии к черновику. 🙌
#causality #habr #r #лонгрид
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Конфаундинг, или как аналитику попасть в ловушку
Однажды к новоиспечённому аналитику компании «Линейные уравнения» обратились коллеги из HR-блока с просьбой проверить гипотезу: влияет ли запущенная ими программа обучения на эффективность...
❤27🔥13👍5❤🔥2👎1
H0H1: про HR-аналитику pinned «Конфаундинг, или как аналитику попасть в ловушку Как вы знаете, последние несколько недель я активно работал над темой конфаундинга. На самом деле, я поднимал её и раньше — в заметках, кейсах и размышлениях. Писал об этом давно, но по частям. ✨ И вот, наконец…»
Эффект: введение в дизайн исследований и каузальность
Продолжаем путешествие по миру причинно-следственного анализа. Сегодня — ещё одна важная книга: «Эффект: введение в дизайн исследований и каузальность» (The Effect: An Introduction to Research Design and Causality) Ника Хантингтона-Клейна.
Это фундаментальный учебник объёмом ~700 страниц. Не для пролистывания — для вдумчивого чтения, симуляций и повторения кода (на выбор: R, Python, Stata).
Что отличает эту книгу от других, которые я читал по каузальному анализу — и, на мой взгляд, делает её особенно полезной:
🟡 Полный охват исследовательского цикла и всех аспектов каузального анализа на наблюдаемых данных – от теории до практики.
🟡 Пошаговое объяснение процесса генерации данных — не просто упомянуто, а обучает, как размышлять об этом на практике.
🟡 Изложен плацебо-тест: если слышали про эффект плацебо, то здесь — методологический приём: проверка, не «находит» ли ваш метод эффект там, где его быть не должно.
🟡 Показаны симуляции для оценки мощности — наглядно и практически применимо.
🟡 Подробно разобраны инструментальные переменные.
🟡 Практические примеры по работе с DAG — от укрупнения переменных в кластера до осторожного захода на causal discovery - да, тот самый момент, когда DAG рисует не человек, а алгоритм.
🟡 Финальный блок — как и у Матеуса Факура — про новейшие подходы. Только без кода, исключительно теоретически.
На прошлой неделе вышел также разбор книги на канале This is Data — рекомендую как второе мнение.
#книги #causality
Продолжаем путешествие по миру причинно-следственного анализа. Сегодня — ещё одна важная книга: «Эффект: введение в дизайн исследований и каузальность» (The Effect: An Introduction to Research Design and Causality) Ника Хантингтона-Клейна.
Это фундаментальный учебник объёмом ~700 страниц. Не для пролистывания — для вдумчивого чтения, симуляций и повторения кода (на выбор: R, Python, Stata).
Что отличает эту книгу от других, которые я читал по каузальному анализу — и, на мой взгляд, делает её особенно полезной:
На прошлой неделе вышел также разбор книги на канале This is Data — рекомендую как второе мнение.
#книги #causality
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Лестница причинности
Читаю сейчас The Book of Why Джуды Перла — одного из отцов современного AI и ключевой фигуры в развитии каузального анализа. У него есть и более академичные работы, к примеру, Causality: Models, Reasoning, and Inference, но The Book of Why написана гораздо более доступно и предназначена для широкой аудитории.
Сегодня хочу поделиться с вами концептом «Лестницы причинности» из книги Перла, который я перевёл и адаптировал для канала. А чтобы не оставаться в теории, помещу её в контекст HR-аналитики.
📊 Первая ступень: связь
Мы видим, что опыт сотрудников положительно связан с их эффективностью. Но только на основе связи мы не можем утверждать, что именно опыт повышает эффективность. Возможно, менее эффективные сотрудники чаще уходят, поэтому их стаж не растёт. На этом уровне данных мы описываем наблюдаемые зависимости, но не можем говорить о причинности, что часто нарушается в реальности.
🔬Вторая ступень: интервенция
Мы запускаем новую программу обучения на одном из предприятий и сравниваем эффективность сотрудников до и после внедрения — или с аналогичными предприятиями, где программы не было. Здесь мы уже говорим о причинно-следственном эффекте: обучение → рост эффективности.
🚀 Третья ступень: контрфактический вывод
Несколько лет мы используем программу кадрового резерва для удержания и продвижения сотрудников. Контрфактический вопрос звучит так: а что было бы, если бы программы резерва у нас не было? Изменились бы показатели удержания и карьеры сотрудников? Это высший уровень причинного анализа — моделирование альтернативной истории.
К слову, именно отсутствие каузального мышления в современном AI Перл считает тупиком. На Хабре есть перевод его интервью 2018 года.
#книги #causality
Читаю сейчас The Book of Why Джуды Перла — одного из отцов современного AI и ключевой фигуры в развитии каузального анализа. У него есть и более академичные работы, к примеру, Causality: Models, Reasoning, and Inference, но The Book of Why написана гораздо более доступно и предназначена для широкой аудитории.
Сегодня хочу поделиться с вами концептом «Лестницы причинности» из книги Перла, который я перевёл и адаптировал для канала. А чтобы не оставаться в теории, помещу её в контекст HR-аналитики.
📊 Первая ступень: связь
Мы видим, что опыт сотрудников положительно связан с их эффективностью. Но только на основе связи мы не можем утверждать, что именно опыт повышает эффективность. Возможно, менее эффективные сотрудники чаще уходят, поэтому их стаж не растёт. На этом уровне данных мы описываем наблюдаемые зависимости, но не можем говорить о причинности, что часто нарушается в реальности.
🔬Вторая ступень: интервенция
Мы запускаем новую программу обучения на одном из предприятий и сравниваем эффективность сотрудников до и после внедрения — или с аналогичными предприятиями, где программы не было. Здесь мы уже говорим о причинно-следственном эффекте: обучение → рост эффективности.
🚀 Третья ступень: контрфактический вывод
Несколько лет мы используем программу кадрового резерва для удержания и продвижения сотрудников. Контрфактический вопрос звучит так: а что было бы, если бы программы резерва у нас не было? Изменились бы показатели удержания и карьеры сотрудников? Это высший уровень причинного анализа — моделирование альтернативной истории.
К слову, именно отсутствие каузального мышления в современном AI Перл считает тупиком. На Хабре есть перевод его интервью 2018 года.
#книги #causality
❤14👍5🤔1
Каузальный взгляд на парадоксы
Аналитики не понаслышке знакомы с парадоксами Монти Холла и Симпсона. Эти задачи регулярно звучат на собеседованиях — кандидатов просят объяснить их суть (я не исключение). Но пишу я не для того, чтобы в сотый раз пересказывать суть проблем и известные решения.
Читая The Book of Why Джуду Перла, я заново открыл для себя эти парадоксы — но уже через призму каузального анализа. Именно эта перспектива позволяет увидеть за привычными задачами глубинные механизмы и избавиться от кажущейся «магии».
🎲Парадокс Монти Холла
Представьте игровое шоу: за одной из трёх дверей стоит машина, за двумя другими — козы. Вы выбираете дверь №1. Ведущий, который знает, где машина, открывает дверь №3 с козой и предлагает вам переключиться на дверь №2. Стоит ли менять выбор?
Формально ответ таков: если остаться при своём выборе, шанс на выигрыш — 1/3, если сменить дверь — 2/3. И, если вас это смущает, не переживайте: когда Мэрилин вос Савант опубликовала этот ответ, с ней спорили даже учёные, математики и статистики с PhD.
Каузальный анализ даёт ключ к пониманию. Переменная «открытая дверь» — это коллайдер.
Как только ведущий открывает дверь с козой, все вероятности становятся обусловлены этим событием. Оно создаёт зависимость между выбором игрока и расположением машины, хотя изначально они были независимы. В результате вероятность смещается: остаётся 1/3 за вашей дверью и 2/3 — за другой закрытой.
Перл подчёркивает: если бы ведущий открывал дверь случайно, коллайдера не возникло бы — и тогда вероятность действительно была бы 1/2 для двух оставшихся дверей. Но в классическом шоу правила другие: ведущий всегда показывает козу.
📊 Парадокс Симпсона
Парадокс Симпсона — это ситуация, когда наблюдаемый тренд меняется на противоположный при разбиении данных на группы.
Классический пример, который описал Эдвард Симпсон в 1952 году: лекарство от сердечных приступов. В среднем оно полезно, но, если разделить пациентов по полу, окажется, что и для мужчин, и для женщин оно вредно.
Перл показывает, что за этим парадоксом могут скрываться разные каузальные структуры:
🟣 Конфаундер (вилка, общая причина). В примере с лекарством общий фактор — пол. Если учесть его (стратифицировать данные), парадокс исчезает.
🟣 Медиатор (труба). Если же переменная лежит на пути влияния (X → M → Y), ситуация трактуется иначе, и корректировка может исказить вывод.
Один и тот же статистический феномен может быть вызван: либо конфаундером, тогда контроль помогает, либо медиатором, тогда контроль вредит. И именно каузальное мышление позволяет отличить одно от другого.
#книги #causality
Аналитики не понаслышке знакомы с парадоксами Монти Холла и Симпсона. Эти задачи регулярно звучат на собеседованиях — кандидатов просят объяснить их суть (я не исключение). Но пишу я не для того, чтобы в сотый раз пересказывать суть проблем и известные решения.
Читая The Book of Why Джуду Перла, я заново открыл для себя эти парадоксы — но уже через призму каузального анализа. Именно эта перспектива позволяет увидеть за привычными задачами глубинные механизмы и избавиться от кажущейся «магии».
🎲Парадокс Монти Холла
Представьте игровое шоу: за одной из трёх дверей стоит машина, за двумя другими — козы. Вы выбираете дверь №1. Ведущий, который знает, где машина, открывает дверь №3 с козой и предлагает вам переключиться на дверь №2. Стоит ли менять выбор?
Формально ответ таков: если остаться при своём выборе, шанс на выигрыш — 1/3, если сменить дверь — 2/3. И, если вас это смущает, не переживайте: когда Мэрилин вос Савант опубликовала этот ответ, с ней спорили даже учёные, математики и статистики с PhD.
Каузальный анализ даёт ключ к пониманию. Переменная «открытая дверь» — это коллайдер.
Как только ведущий открывает дверь с козой, все вероятности становятся обусловлены этим событием. Оно создаёт зависимость между выбором игрока и расположением машины, хотя изначально они были независимы. В результате вероятность смещается: остаётся 1/3 за вашей дверью и 2/3 — за другой закрытой.
Перл подчёркивает: если бы ведущий открывал дверь случайно, коллайдера не возникло бы — и тогда вероятность действительно была бы 1/2 для двух оставшихся дверей. Но в классическом шоу правила другие: ведущий всегда показывает козу.
📊 Парадокс Симпсона
Парадокс Симпсона — это ситуация, когда наблюдаемый тренд меняется на противоположный при разбиении данных на группы.
Классический пример, который описал Эдвард Симпсон в 1952 году: лекарство от сердечных приступов. В среднем оно полезно, но, если разделить пациентов по полу, окажется, что и для мужчин, и для женщин оно вредно.
Перл показывает, что за этим парадоксом могут скрываться разные каузальные структуры:
Один и тот же статистический феномен может быть вызван: либо конфаундером, тогда контроль помогает, либо медиатором, тогда контроль вредит. И именно каузальное мышление позволяет отличить одно от другого.
#книги #causality
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8❤🔥3👍3🔥1
Шкала достоверности данных
Читаю Sex by Numbers Дэвида Шпигельхалтера. Книга напрямую не связана с HR-аналитикой — как понятно из названия. Однако, как вы, наверное, уже заметили, я люблю собирать методы из разных областей и применять их к нашему предмету.
В начале книги автор предлагает шкалу достоверности чисел, которая, на мой взгляд, заслуживает того, чтобы войти в инструментарий каждого аналитика. Она проста, и в то же время отлично показывает, насколько по-разному могут звучать цифры — в зависимости от их происхождения и основания.
🟠 🟠 (numbers that we can believe) — числа, которым можно доверять.
Пример: фактический уровень текучести X%, рассчитанный на основе данных кадровых систем.
🟠 🟠 (numbers that are reasonably accurate) — числа, которые достаточно точны.
Пример: оценка удовлетворённости сотрудников на основе опроса с репрезентативностью X%.
🟠 🟠 (numbers that could be out by quite a long way) — числа, которые могут существенно отличаться от реальности.
Пример: оценка эффективности обучения, основанная на самоотчётах участников.
🟠 🟠 (numbers that are unreliable) — ненадёжные числа.
Пример: X% сотрудников не читают корпоративную рассылку — без измерения.
🟠 🟠 (numbers that have just been made up) — просто выдуманные числа.
Пример: сотрудники на удалёнке менее эффективны, чем офисные, на X% — на основе субъективных мнений руководителей.
Эта шкала — напоминание о том, что цифра не равна факту. Даже в аналитике цифры живут на разных уровнях уверенности: от твёрдых данных до риторических украшений и мнений людей.
#книги
Читаю Sex by Numbers Дэвида Шпигельхалтера. Книга напрямую не связана с HR-аналитикой — как понятно из названия. Однако, как вы, наверное, уже заметили, я люблю собирать методы из разных областей и применять их к нашему предмету.
В начале книги автор предлагает шкалу достоверности чисел, которая, на мой взгляд, заслуживает того, чтобы войти в инструментарий каждого аналитика. Она проста, и в то же время отлично показывает, насколько по-разному могут звучать цифры — в зависимости от их происхождения и основания.
Пример: фактический уровень текучести X%, рассчитанный на основе данных кадровых систем.
Пример: оценка удовлетворённости сотрудников на основе опроса с репрезентативностью X%.
Пример: оценка эффективности обучения, основанная на самоотчётах участников.
Пример: X% сотрудников не читают корпоративную рассылку — без измерения.
Пример: сотрудники на удалёнке менее эффективны, чем офисные, на X% — на основе субъективных мнений руководителей.
Эта шкала — напоминание о том, что цифра не равна факту. Даже в аналитике цифры живут на разных уровнях уверенности: от твёрдых данных до риторических украшений и мнений людей.
#книги
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥6❤4❤🔥2
Forwarded from Hello New Job! Найти работу в современных реалиях
This media is not supported in your browser
VIEW IN TELEGRAM
Ты аналитик? Работаешь с данными? Мы запускаем очередное исследование рынка твоей профессии и хотим узнать твоё мнение.
Мы в NEWHR исследуем рынок аналитиков с 2018 года!
Выясняем, как меняется профессия, чего хочет бизнес от аналитиков, чего хотят сами аналитики, сколько стоят аналитики и какими технологиями пользуются.
Вот несколько инсайтов из исследования 2024 года:➖ Зарплаты в 2024 году продолжали расти (и не зря — значимость хорошей зарплаты резко выросла по сравнению с 2023 годом)
Больше половины респондентов признались нам, что деньги для них — на первом месте. В 2023 году так считали всего 25%.➖ Аналитики стали реже менять работодателей
При этом снижение активности по смене работы не повлияло на интерес к собеседованиям — мониторить рынок остаётся стабильной потребностью.➖ Зарубежные компании уже не так привлекательны для аналитиков из России
Это слом тренда 2022−2023 годов. Наши респонденты стали больше ориентироваться на рынок, который ближе к ним: в России — на российский, за рубежом — на зарубежный.➖ 🤍 Авито — самая привлекательная компания-работодатель для аналитиков
На втором месте —❤️ Яндекс, на третьем —✈️ Авиасейлс.
Что поменялось за год? Помоги нам узнать, поучаствовав в новом исследовании!
Опрос займёт около 20 минут. Участники получат ранний доступ к результатам и приглашение на закрытый эфир с инсайтами исследования.
Если ты хочешь «копнуть глубже» — вот результаты наших прошлых исследований: 2019, 2020, 2022, 2023, 2024.
P. S. Пожалуйста, поделись ссылкой на опрос с коллегами-аналитиками! Чем больше участников, тем точнее и интереснее результаты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Ещё раз про стену Будро
Многие, конечно, наслышаны про «стену Будро» — концепцию, впервые появившуюся в книге Investing in People: Financial Impact of Human Resource Initiatives авторов Уэйна Касио и Джона Будро (2010). Признаем: всё ещё актуально.
Любопытно, что в оригинале она выглядела не так, как на картинке, которую я показываю. Этот визуальный вариант — адаптация от AIHR, а в России мы знаем его во многом благодаря популяризации Эдуарда Бабушкина.
Однако интереснее другое. На прошлой неделе я выступал перед HR-стажёрами Яндекса с лекцией по основам HR-аналитики. Фокус моего выступления был на каузальном аспекте современного анализа. И в момент подготовки я понял, что привычное изображение «стены Будро» устарело.
10–15 лет назад считалось, что вершина зрелости аналитики — это предсказания. Сегодня мы живём в эпоху продвинутых ML- и LLM-моделей, которые прогнозируют всё, что угодно — от увольнений до продуктивности. Но вместе с этим пришло понимание, что предсказание ≠ понимание. Поэтому многие уже наигрались с моделями прогнозирования увольнений. Дальше — вопрос «а что теперь?»
Понять, почему что-то происходит, оказалось сложнее и ценнее, чем просто угадать, что произойдёт. Поэтому сегодня настоящая «высшая точка» развития HR-аналитики — не за стеной Будро, а по другую сторону причинности.
Думаю, на знакомом изображении стены Будро по версии AIHR сегодня логичнее разместить причинность после предсказаний — именно там теперь проходит настоящая граница зрелости аналитики.
#causality #размышлизм
Многие, конечно, наслышаны про «стену Будро» — концепцию, впервые появившуюся в книге Investing in People: Financial Impact of Human Resource Initiatives авторов Уэйна Касио и Джона Будро (2010). Признаем: всё ещё актуально.
Любопытно, что в оригинале она выглядела не так, как на картинке, которую я показываю. Этот визуальный вариант — адаптация от AIHR, а в России мы знаем его во многом благодаря популяризации Эдуарда Бабушкина.
Однако интереснее другое. На прошлой неделе я выступал перед HR-стажёрами Яндекса с лекцией по основам HR-аналитики. Фокус моего выступления был на каузальном аспекте современного анализа. И в момент подготовки я понял, что привычное изображение «стены Будро» устарело.
10–15 лет назад считалось, что вершина зрелости аналитики — это предсказания. Сегодня мы живём в эпоху продвинутых ML- и LLM-моделей, которые прогнозируют всё, что угодно — от увольнений до продуктивности. Но вместе с этим пришло понимание, что предсказание ≠ понимание. Поэтому многие уже наигрались с моделями прогнозирования увольнений. Дальше — вопрос «а что теперь?»
Понять, почему что-то происходит, оказалось сложнее и ценнее, чем просто угадать, что произойдёт. Поэтому сегодня настоящая «высшая точка» развития HR-аналитики — не за стеной Будро, а по другую сторону причинности.
Думаю, на знакомом изображении стены Будро по версии AIHR сегодня логичнее разместить причинность после предсказаний — именно там теперь проходит настоящая граница зрелости аналитики.
#causality #размышлизм
👏10❤7👍6🔥6
Какие методы анализа персонала являются самыми передовыми? И что нужно, чтобы стать экспертом в HR-аналитике?
Наконец-то я добрался до выпуска подкаста Directionally Correct, где гостем был Людек Стехлик — человек, которого я считаю одной из важных фигур в нашей области.
Я, как известно, крайне скептичен к визионерам, футурологам и прочим «мыслителям», которые рассказывают, как должно быть устроено будущее HR-аналитики — при этом не умея построить элементарную регрессию.
В отличие от них, такие аналитики, как Людек, — мои ролевые модели.
Глубина, методичность, академичность, реальная практика, и — важный нюанс — способность объяснить сложное простыми словами.
И конечно же, Людек – как и я выходец их психологии, который, ко всему, совмещает академический опыт и работу в бизнесе.
🎓К слову, всех причастных с прошедшим 22 ноября Днём психолога!
Людек даёт очень интересный ответ на тему того, почему ему нравится делиться знаниями с окружающими, — и делает это с характерной психологической точностью, вплетая в рассказ многофакторную природу мотивации (психологи поймут) 😄 Часть его мотивов совпадает с тем, почему я веду этот канал.
Не обошлось и без разговора про причинно-следственный анализ и DAG. Людек справедливо замечает, что в психологии традиционно сильны экспериментальные дизайны, в то время как современная причинно-следственная аналитика гораздо лучше развита в эконометрической среде — с богатым инструментарием, строгими методами и сильной статистической культурой.
И нам в HR-аналитике есть, что оттуда заимствовать.
Поделился интересными примерами оценки эффекта (impact evaluation). Например, рассказал про кейс с платформой kudos/bravo и ощущением признания: они анализировали, влияет ли использование платформы на восприятие признания и справедливого вознаграждения.
Интересно, что смотрели не только на сам факт отправки благодарностей, но и на характеристики сообщений — какие из них дают наибольший эффект. Использовали регрессионный контроль, чтобы аккуратно отделить влияние платформы от других факторов.
И много других интересных вещей, поэтому очень рекомендую выпуск всем, кому HR-аналитика интересна всерьёз. А для лёгкого развлечения — там есть отличный момент про то, что американцы и правда плохо знают географию. Кто послушает — поймёт. 🙈😂
#разбор_видео
Наконец-то я добрался до выпуска подкаста Directionally Correct, где гостем был Людек Стехлик — человек, которого я считаю одной из важных фигур в нашей области.
Я, как известно, крайне скептичен к визионерам, футурологам и прочим «мыслителям», которые рассказывают, как должно быть устроено будущее HR-аналитики — при этом не умея построить элементарную регрессию.
В отличие от них, такие аналитики, как Людек, — мои ролевые модели.
Глубина, методичность, академичность, реальная практика, и — важный нюанс — способность объяснить сложное простыми словами.
И конечно же, Людек – как и я выходец их психологии, который, ко всему, совмещает академический опыт и работу в бизнесе.
🎓К слову, всех причастных с прошедшим 22 ноября Днём психолога!
Людек даёт очень интересный ответ на тему того, почему ему нравится делиться знаниями с окружающими, — и делает это с характерной психологической точностью, вплетая в рассказ многофакторную природу мотивации (психологи поймут) 😄 Часть его мотивов совпадает с тем, почему я веду этот канал.
Не обошлось и без разговора про причинно-следственный анализ и DAG. Людек справедливо замечает, что в психологии традиционно сильны экспериментальные дизайны, в то время как современная причинно-следственная аналитика гораздо лучше развита в эконометрической среде — с богатым инструментарием, строгими методами и сильной статистической культурой.
И нам в HR-аналитике есть, что оттуда заимствовать.
Поделился интересными примерами оценки эффекта (impact evaluation). Например, рассказал про кейс с платформой kudos/bravo и ощущением признания: они анализировали, влияет ли использование платформы на восприятие признания и справедливого вознаграждения.
Интересно, что смотрели не только на сам факт отправки благодарностей, но и на характеристики сообщений — какие из них дают наибольший эффект. Использовали регрессионный контроль, чтобы аккуратно отделить влияние платформы от других факторов.
И много других интересных вещей, поэтому очень рекомендую выпуск всем, кому HR-аналитика интересна всерьёз. А для лёгкого развлечения — там есть отличный момент про то, что американцы и правда плохо знают географию. Кто послушает — поймёт. 🙈😂
#разбор_видео
Substack
#146 - Ludek Stehlik - What are the most sophisticated methods in people analytics? And what does it take to be a people analytics…
Directionally Correct, The #1 People Analytics Substack
❤13👍2🔥2❤🔥1🤔1
Итоги 2025
Я редко делюсь здесь чем-то личным и рабочим, но сейчас момент подходящий.
2025 год для меня стал годом расширения горизонтов. Он начинался с ответственности за HR-аналитику Яндекс.Маркета, летом к этому добавилась Лавка, а ближе к концу года — аналитика по массовому персоналу всего Яндекса.😊
Для меня это новый масштаб задач: вдохновляющий, сложный и требующий большой отдачи и времени. Многое ещё только предстоит осмыслить и выстроить, поэтому в этом году меня было заметно меньше на канале.
Однако своим главным достижением я считаю статью о конфаундинге на Хабре. Если вы ещё не читали — новогодние каникулы подходят для этого идеально. Для меня это будет лучшим подарком на Новый год.😄
В январе 2026 каналу исполнится четыре года. И наступающий год будет первым, в который я захожу без чёткого плана его развития. Но мы остаёмся на связи: мир HR-аналитики по-прежнему захватывающий и увлекательный, и я буду делиться тем, что действительно зацепило, удивило или заставило задуматься.
Хочу сказать спасибо всем, кто прошёл этот непростой и насыщенный событиями год вместе со мной.
Моим близким и родным — за поддержку в сложные моменты, которых в этот раз было действительно много.
Моим руководителям, коллегам и команде — за вовлечённость, доверие и энтузиазм, которые делают работу не просто задачей, а делом, имеющим смысл.
Подписчикам канала — за интерес, внимание и диалог.
Всех с наступающим 2026 годом🎄
Я редко делюсь здесь чем-то личным и рабочим, но сейчас момент подходящий.
2025 год для меня стал годом расширения горизонтов. Он начинался с ответственности за HR-аналитику Яндекс.Маркета, летом к этому добавилась Лавка, а ближе к концу года — аналитика по массовому персоналу всего Яндекса.
Для меня это новый масштаб задач: вдохновляющий, сложный и требующий большой отдачи и времени. Многое ещё только предстоит осмыслить и выстроить, поэтому в этом году меня было заметно меньше на канале.
Однако своим главным достижением я считаю статью о конфаундинге на Хабре. Если вы ещё не читали — новогодние каникулы подходят для этого идеально. Для меня это будет лучшим подарком на Новый год.
В январе 2026 каналу исполнится четыре года. И наступающий год будет первым, в который я захожу без чёткого плана его развития. Но мы остаёмся на связи: мир HR-аналитики по-прежнему захватывающий и увлекательный, и я буду делиться тем, что действительно зацепило, удивило или заставило задуматься.
Хочу сказать спасибо всем, кто прошёл этот непростой и насыщенный событиями год вместе со мной.
Моим близким и родным — за поддержку в сложные моменты, которых в этот раз было действительно много.
Моим руководителям, коллегам и команде — за вовлечённость, доверие и энтузиазм, которые делают работу не просто задачей, а делом, имеющим смысл.
Подписчикам канала — за интерес, внимание и диалог.
Всех с наступающим 2026 годом
Please open Telegram to view this post
VIEW IN TELEGRAM
❤43❤🔥15👍11
Statistical Rethinking 2026
Год начался примечательно: после двухлетнего перерыва Ричард МакЭлрит вновь выкладывает свои лекции — теперь в рамках нового курса Statistical Rethinking 2026. В этот раз курс разбит на две секции: начальную (A) и для опытных (B).
Лекции выходят попеременно по секциям, и на текущий момент уже опубликовано по одной лекции в каждой. Формат записи изменился: лекции теперь записываются в аудитории, с включёнными вопросами студентов и без студийной пост-обработки.
Для меня вход в causal inference несколько лет назад начался именно с работ МакЭлрита. Я приходил за байесовской статистикой, а в итоге получил куда более глубокий сдвиг — переосмысление аналитического фреймворка. Моя статья о конфаундинге — по сути, прямое переложение и развитие его идей в прикладном HR-контексте. Поэтому я не перестаю рекомендовать Statistical Rethinking всем, кто интересуется причинно-следственным анализом.
Лично мне сейчас особенно любопытно посмотреть, как изменились лекции за эти два года.
И, как известно, repetitio est mater studiorum.
P.S. Из личных ожиданий на этот год: готовится третье издание книги Statistical Rethinking, а также второе издание Handbook of Regression Modeling in People Analytics от Кита МакНалти — в нём, как заявлено, появится отдельный блок про causal inference!
#causality #байес
Год начался примечательно: после двухлетнего перерыва Ричард МакЭлрит вновь выкладывает свои лекции — теперь в рамках нового курса Statistical Rethinking 2026. В этот раз курс разбит на две секции: начальную (A) и для опытных (B).
Лекции выходят попеременно по секциям, и на текущий момент уже опубликовано по одной лекции в каждой. Формат записи изменился: лекции теперь записываются в аудитории, с включёнными вопросами студентов и без студийной пост-обработки.
Для меня вход в causal inference несколько лет назад начался именно с работ МакЭлрита. Я приходил за байесовской статистикой, а в итоге получил куда более глубокий сдвиг — переосмысление аналитического фреймворка. Моя статья о конфаундинге — по сути, прямое переложение и развитие его идей в прикладном HR-контексте. Поэтому я не перестаю рекомендовать Statistical Rethinking всем, кто интересуется причинно-следственным анализом.
Лично мне сейчас особенно любопытно посмотреть, как изменились лекции за эти два года.
И, как известно, repetitio est mater studiorum.
P.S. Из личных ожиданий на этот год: готовится третье издание книги Statistical Rethinking, а также второе издание Handbook of Regression Modeling in People Analytics от Кита МакНалти — в нём, как заявлено, появится отдельный блок про causal inference!
#causality #байес
YouTube
Statistical Rethinking 2026 - Lecture A01 - Introduction to Bayesian Workflow
See https://github.com/rmcelreath/stat_rethinking_2026 for course description and additional materials
🔥8❤7🎉5👏2😁2👍1🤔1
Forwarded from People Analytics
Кит МакНалти анонсировал второе издание Handbook of Regression Modeling in People Analytics ("Руководство по регрессионному моделированию в People Analytics"). Первое издание рекомендовал ранее, во втором издании добавлено 5 новых глав, содержит множество улучшений и доработок. Печатная версия второго издания выйдет позже в этом году. А пока можно смело читать онлайн-версию.
#analytics #datascience #statistics #peopleanalytics #R
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥6❤3👍2🤔2
Forwarded from людмила
В 2025 году мы в NEWHR завершили сбор данных для нашего ежегодного исследования рынка аналитиков. Такие исследования позволяют в динамике наблюдать за тем, как меняется профессия, задачи, зарплаты аналитиков, их амбиции, желанные и нежеланные компании для работы и многое другое.
Сейчас мы обрабатываем результаты, и уже готовы поделиться с вами первыми инсайтами. А именно — рейтингом экспертов отрасли и каналами, которые читают и смотрят наши респонденты-аналитики. Выборка респондентов в этом году — 1493 человека!
Что вы найдёте на лендинге:
Они разделены специализациям: отдельно для продуктовых, маркетинговых, дата-, веб- и BI-аналитиков и отдельно для системных и бизнес-аналитиков — потому что предпочтения отличаются.
Telegram-каналы для удобства разделены по темам: аналитика, обучение и карьера, BI/UX/Data Viz, Data Engineering и разработка, ML/DS, Product Managment, продуктовая и HR аналитика.
Отдельно мы выделили блок экспертов, которых читаем сами — именно к ним мы обратились за информационной поддержкой. Благодарим всех, кто помог собрать такую выборку💙
Полные результаты исследования мы опубликуем весной, следите за обновлениями!
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4❤1