GPT-7 будет «Гений по требованию»
А после GPT-8 уже никто по нас скучать на Земле не будет
В пользу этого говорит частичное прохождение моделью GPT-5 «Теста Гёделя».
Заголовок и подзаголовок скомпилированы из названий двух интереснейших докладов на только что завершившемся воркшопе экономистов в Пало-Альто:
• Genius on Demand: The Value of Transformative Artificial Intelligence
• We Won't Be Missed: Work and Growth in the Era of AGI
В отличие от разработчиков ИИ и нейроученых, экономисты не стали заморачиваться ни с терминологией (что есть: AGI, ASI, Сильный ИИ, ИИ человеческого уровня и т.д.), ни с оценками вероятности и сроков появления того, что стоит за этими терминами.
Ответ на этот вопрос исследователей Универа Торонто и NBER обобщен заголовком их исследования:
• В краткосрочной перспективе человеческие гении специализируются на вопросах, наиболее удаленных от существующих знаний, где их сравнительное преимущество перед ИИ максимально.
• В долгосрочной перспективе обычные работники могут быть полностью вытеснены, если эффективность ИИ приблизится к эффективности человеческого гения.
Ответ по результатам моделирования появления «ЭТОГО», проведенного Йельским универом и NBER также обобщен в подзаголовке:
• Всю экономически ценную когнитивную, физическую и социальную работу будет выполнять «ЭТО»
• Немногие избранные будут заняты в искусстве и спорте
• Для всех остальных вспомогательный труд (не влияющий на рост экономики) обеспечит стабильные рабочие места, но не увеличит их заработную плату
Как я уже сказал, вопрос о том, насколько вероятно появление «Гениев по требованию», экономисты не рассматривали (откуда им знать?)
Зато в исследовании Универа Хайфы и Cisco Foundation AI «Godel Test: Can Large Language Models Solve Easy Conjectures?» - этот вопрос ключевой.
1. Ведь никто уже не спорит с тем, что уровень моделей достиг (по определению известного математика Terence Tao) «уровня некомпетентного аспиранта»: способного решать рутинные (уже решенные людьми) логические научные задачи.
2. Однако, вопрос о принципиальной возможности достижения «уровня гения» нет смысла рассматривать без достижения моделями хотя бы «уровня компетентного аспиранта» (способного к самостоятельному творческому синтезу знаний)
И вот тут то новая работа дает ответ – частичное прохождение моделью GPT-5 специально разработанного нового «Теста Гёделя» (для оценки способности LLM решать простые, ранее нерешенные научные гипотезы) говорит о возможном достижении следующим поколением модели (напр. GPT-6) «уровня компетентного аспиранта».
И тогда GPT-7 может стать уже «Гением по требованию». Ну а после GPT-8, как в модели Паскуаля Рестрэпо, «по нас скучать уже не будут».
#AGI #Вызовы21Века #FutureOfCivilization
А после GPT-8 уже никто по нас скучать на Земле не будет
В пользу этого говорит частичное прохождение моделью GPT-5 «Теста Гёделя».
Заголовок и подзаголовок скомпилированы из названий двух интереснейших докладов на только что завершившемся воркшопе экономистов в Пало-Альто:
• Genius on Demand: The Value of Transformative Artificial Intelligence
• We Won't Be Missed: Work and Growth in the Era of AGI
В отличие от разработчиков ИИ и нейроученых, экономисты не стали заморачиваться ни с терминологией (что есть: AGI, ASI, Сильный ИИ, ИИ человеческого уровня и т.д.), ни с оценками вероятности и сроков появления того, что стоит за этими терминами.
Логика экономистов – участников Economics of Transformative AI Workshop - Fall 2025, - была проста как редис.
• Допустим, «ЭТО» (какими терминами его ни называй, появилось
• Что произойдет тогда с рынком труда?
Ответ на этот вопрос исследователей Универа Торонто и NBER обобщен заголовком их исследования:
• В краткосрочной перспективе человеческие гении специализируются на вопросах, наиболее удаленных от существующих знаний, где их сравнительное преимущество перед ИИ максимально.
• В долгосрочной перспективе обычные работники могут быть полностью вытеснены, если эффективность ИИ приблизится к эффективности человеческого гения.
Ответ по результатам моделирования появления «ЭТОГО», проведенного Йельским универом и NBER также обобщен в подзаголовке:
• Всю экономически ценную когнитивную, физическую и социальную работу будет выполнять «ЭТО»
• Немногие избранные будут заняты в искусстве и спорте
• Для всех остальных вспомогательный труд (не влияющий на рост экономики) обеспечит стабильные рабочие места, но не увеличит их заработную плату
Как я уже сказал, вопрос о том, насколько вероятно появление «Гениев по требованию», экономисты не рассматривали (откуда им знать?)
Зато в исследовании Универа Хайфы и Cisco Foundation AI «Godel Test: Can Large Language Models Solve Easy Conjectures?» - этот вопрос ключевой.
1. Ведь никто уже не спорит с тем, что уровень моделей достиг (по определению известного математика Terence Tao) «уровня некомпетентного аспиранта»: способного решать рутинные (уже решенные людьми) логические научные задачи.
2. Однако, вопрос о принципиальной возможности достижения «уровня гения» нет смысла рассматривать без достижения моделями хотя бы «уровня компетентного аспиранта» (способного к самостоятельному творческому синтезу знаний)
И вот тут то новая работа дает ответ – частичное прохождение моделью GPT-5 специально разработанного нового «Теста Гёделя» (для оценки способности LLM решать простые, ранее нерешенные научные гипотезы) говорит о возможном достижении следующим поколением модели (напр. GPT-6) «уровня компетентного аспиранта».
И тогда GPT-7 может стать уже «Гением по требованию». Ну а после GPT-8, как в модели Паскуаля Рестрэпо, «по нас скучать уже не будут».
#AGI #Вызовы21Века #FutureOfCivilization
6🤔102👍49😱18👎9🤯2
100 лет до конца Homo sapiens
Футуроархеология нашего превращения в другой вид
Многие смеются над непониманием большими языковыми моделями элементарных вещей, понятных и ребенку. Но задумайтесь, ведь странно это как-то. Каким тогда образом эти, казалось бы, не понимающие мира «стохастические попугаи» совершают недоступные людям научные прорывы (как например, AlphaFold, что за 2 дня сделал работу, на которую человечеству нужны тысячелетия)?
Возможно, эту и подобные странности можно объяснить методом футуроархеологии. Этот метод, - не про «очередной революционный прорыв ИИ», а про раскопки в нас самих. Ведь не исключено, что странности нейросетей — не баги, а осколки будущего, каким-то образом выпавшие в настоящее.
Если смотреть на них с позиции футуроархеолога, то из шумных «аномалий» начинает проступать главное: у культуры появился второй носитель.
Мы называем это прогрессом инфотехнологий. Но первая стадия — инфорги — напоминает, скорее, атрофию: внутренние когнитивные «мышцы» сдают позиции, отдавая работу алгоритмам.
Масштаб последствий уже начавшейся атрофии и формирования новых «когнитивных гаджетов» людей трудновообразим, ибо он может превзойти даже появление языка и быть сопоставимым с эволюционным скачком с уровня «одноклеточных» к «многоклеточным». Например, AlphaFold за считанные дни сделал то, на что цивилизации нужны тысячелетия - и это лишь один из сигналов темпа изменений, недоступных для понимания человеческим разумом.
Поэтому самый острый аспект происходящего эволюционного «Большого перехода» - временной. Культурная эволюция ускорилась настолько, что преемник Homo sapiens может появиться в пределах 100 лет. Химеры, киборги, новые виды — это не сценарии фантастов, а траектории, которые уже просматриваются в «раскопах» артефактов сегодняшних моделей.
Вопрос, который уже стоит перед человечеством, прост и беспощаден:
Если хотите увидеть контуры ответа раньше остальных — вот 7-минутная видео-презентация «Футуроархеология эволюции».
А тут подробней - часовое видео моего разговора на тему «Футуроархеология, инфорги и алгокогнитивная культура» с Вячеславом Куневым.
#Футуроархеология #Инфорги #АлгокогнитивнаяКультура
Футуроархеология нашего превращения в другой вид
Многие смеются над непониманием большими языковыми моделями элементарных вещей, понятных и ребенку. Но задумайтесь, ведь странно это как-то. Каким тогда образом эти, казалось бы, не понимающие мира «стохастические попугаи» совершают недоступные людям научные прорывы (как например, AlphaFold, что за 2 дня сделал работу, на которую человечеству нужны тысячелетия)?
Возможно, эту и подобные странности можно объяснить методом футуроархеологии. Этот метод, - не про «очередной революционный прорыв ИИ», а про раскопки в нас самих. Ведь не исключено, что странности нейросетей — не баги, а осколки будущего, каким-то образом выпавшие в настоящее.
Если смотреть на них с позиции футуроархеолога, то из шумных «аномалий» начинает проступать главное: у культуры появился второй носитель.
Мы больше не монополисты. Уже начала формироваться алгокогнитивная культура — гибридный мегамеханизм, где человеческие биологические смыслы и алгоритмические машинные процессы теперь срастаются и уже перекодируют наши навыки, память, внимание.
Мы называем это прогрессом инфотехнологий. Но первая стадия — инфорги — напоминает, скорее, атрофию: внутренние когнитивные «мышцы» сдают позиции, отдавая работу алгоритмам.
Масштаб последствий уже начавшейся атрофии и формирования новых «когнитивных гаджетов» людей трудновообразим, ибо он может превзойти даже появление языка и быть сопоставимым с эволюционным скачком с уровня «одноклеточных» к «многоклеточным». Например, AlphaFold за считанные дни сделал то, на что цивилизации нужны тысячелетия - и это лишь один из сигналов темпа изменений, недоступных для понимания человеческим разумом.
Поэтому самый острый аспект происходящего эволюционного «Большого перехода» - временной. Культурная эволюция ускорилась настолько, что преемник Homo sapiens может появиться в пределах 100 лет. Химеры, киборги, новые виды — это не сценарии фантастов, а траектории, которые уже просматриваются в «раскопах» артефактов сегодняшних моделей.
Вопрос, который уже стоит перед человечеством, прост и беспощаден:
если эволюция идёт внутри нас, кем именно мы соглашаемся стать — пользователями, носителями или соавторами нового вида?
Если хотите увидеть контуры ответа раньше остальных — вот 7-минутная видео-презентация «Футуроархеология эволюции».
А тут подробней - часовое видео моего разговора на тему «Футуроархеология, инфорги и алгокогнитивная культура» с Вячеславом Куневым.
#Футуроархеология #Инфорги #АлгокогнитивнаяКультура
13👍110🤔38👎18
Сломанный компас в головах
Сетевые алгоритмы перенастроили эволюцию идей в пользу кликов, коалиций и кассы – и это путь к самоистреблению
Мы привыкли думать о человеческих убеждениях как о маленьких компасах в головах: показывают на «правду» — значит, помогают выживать. Но в цифровую эпоху эти компасы стали шалить, как в магнитных полях. Умные сетевые алгоритмы» (а теперь и ИИ) — те самые невидимые магниты — перенастраивают экологию культурной эволюции так, что отбор всё чаще предпочитает не точность, а вирусность, коалиционную полезность и монетизируемость идей. Как это происходит демонстрирует модель Сергея Гаврилеца и Пола Сибрайта: меняется не природа людей, меняется сама среда отбора [0].
У этой среды три «ручки» настройки.
• Первая — ассортативность: алгоритмы склеивают «похожих с похожими», превращая публичную сферу в мозаичный зал, где каждый смотрит в зеркало собственного лагеря.
• Вторая — конформизм: метрики одобрения, лайки и репосты выступают как мгновенная социальная мотивация (а то и санкции), подталкивая нас говорить то, что усиливает принадлежность, а не проверку реальностью.
• Третья — культурные авторитеты: соцсети, инфлюенсеры и политтехнологи, вооружённые алгоритмами и платформами онлайн-экспериментов, удешевили производство «убедительного» контента и научились точечно его встраивать в нервные узлы сообществ.
В прежних условиях реальность, как медленный, но суровый судья, со временем выталкивала менее точные картины мира. В новых условиях алгоритмической экологии судья потерял голос.
• Эхо-камеры ослабили перекрёстную валидацию фактов
• Конформизм переписал критерии успеха
• Авторитеты научились монетизировать трение между лагерями.
Яркий пример — США: общественное поле разошлось на две долины, и между ними пролегла сеть ущелий, где теряются общие смыслы и общие блага. Но это не американская специфика, это новый антропо-алгоритмический климат формирующейся алгокогнитивной культуры.
В нём национальные общества становятся менее кооперативными, а мировая система — более хрупкой. Коллективные задачи — климат, биориски, ядерное сдерживание, ИИ-безопасность — как никогда требуют согласования интересов, а мы переносим в эти зоны логику нуль-суммной войны мемов, оптимизированную на эмоции, клики и ренту внимания.
ИИ лишь ускоряет этот дрейф: дешевле убеждать, проще таргетировать, быстрее масштабировать.
Сигнал тонет, и лишь коалиционный маркер «свой» светит как маяк.
Мы стоим у края, где системные ошибки могут стать глобальными катастрофами. Разделённые долины видят в кооперации слабость, а в уступках — предательство.
Но физика риска равнодушна к нашим мифам: вирусу, атомной триаде и несогласованному ИИ не важны лайки.
Если мы не сменим критерии успеха - не переориентируем инфомедиа рынки на проверяемость, мосты и общие выгоды, - эволюция культурных идей продолжит отбирать не то, что верно, а то, что выгодно.
Как тут не вспомнить о «Великом фильтре» цивилизаций и прогнозе лауреата премий Эйнштейна и Фарадея, а также золотых медалей Ньютона и Брюса Мартина Риса [1, 2]:
#Раскол #Хриски
Сетевые алгоритмы перенастроили эволюцию идей в пользу кликов, коалиций и кассы – и это путь к самоистреблению
Мы привыкли думать о человеческих убеждениях как о маленьких компасах в головах: показывают на «правду» — значит, помогают выживать. Но в цифровую эпоху эти компасы стали шалить, как в магнитных полях. Умные сетевые алгоритмы» (а теперь и ИИ) — те самые невидимые магниты — перенастраивают экологию культурной эволюции так, что отбор всё чаще предпочитает не точность, а вирусность, коалиционную полезность и монетизируемость идей. Как это происходит демонстрирует модель Сергея Гаврилеца и Пола Сибрайта: меняется не природа людей, меняется сама среда отбора [0].
У этой среды три «ручки» настройки.
• Первая — ассортативность: алгоритмы склеивают «похожих с похожими», превращая публичную сферу в мозаичный зал, где каждый смотрит в зеркало собственного лагеря.
• Вторая — конформизм: метрики одобрения, лайки и репосты выступают как мгновенная социальная мотивация (а то и санкции), подталкивая нас говорить то, что усиливает принадлежность, а не проверку реальностью.
• Третья — культурные авторитеты: соцсети, инфлюенсеры и политтехнологи, вооружённые алгоритмами и платформами онлайн-экспериментов, удешевили производство «убедительного» контента и научились точечно его встраивать в нервные узлы сообществ.
Результат — мультистабильность: культура всё чаще застывает в двух устойчивых «долинах» мировоззрений.
▶️ Одна долина описывает мир как нуль-суммный: если кто-то выигрывает, значит, кто-то проигрывает.
▶️ Другая верит в положительную сумму: правильно устроенные правила делают пирог больше для всех.
В прежних условиях реальность, как медленный, но суровый судья, со временем выталкивала менее точные картины мира. В новых условиях алгоритмической экологии судья потерял голос.
• Эхо-камеры ослабили перекрёстную валидацию фактов
• Конформизм переписал критерии успеха
• Авторитеты научились монетизировать трение между лагерями.
В итоге побеждать стало то, что легче растёт, лучше мобилизует, выгоднее продаётся.
Яркий пример — США: общественное поле разошлось на две долины, и между ними пролегла сеть ущелий, где теряются общие смыслы и общие блага. Но это не американская специфика, это новый антропо-алгоритмический климат формирующейся алгокогнитивной культуры.
В нём национальные общества становятся менее кооперативными, а мировая система — более хрупкой. Коллективные задачи — климат, биориски, ядерное сдерживание, ИИ-безопасность — как никогда требуют согласования интересов, а мы переносим в эти зоны логику нуль-суммной войны мемов, оптимизированную на эмоции, клики и ренту внимания.
Так культурная эволюция, ещё вчера верившая в мягкую силу «правды», оказывается перекошенной в пользу «виральной пригодности».
ИИ лишь ускоряет этот дрейф: дешевле убеждать, проще таргетировать, быстрее масштабировать.
Парадокс, - но чем совершеннее становятся алгоритмы влияния, тем шумнее становится среда, в которой истина должна отбиваться.
Сигнал тонет, и лишь коалиционный маркер «свой» светит как маяк.
Мы стоим у края, где системные ошибки могут стать глобальными катастрофами. Разделённые долины видят в кооперации слабость, а в уступках — предательство.
Но физика риска равнодушна к нашим мифам: вирусу, атомной триаде и несогласованному ИИ не важны лайки.
Если мы не сменим критерии успеха - не переориентируем инфомедиа рынки на проверяемость, мосты и общие выгоды, - эволюция культурных идей продолжит отбирать не то, что верно, а то, что выгодно.
Как тут не вспомнить о «Великом фильтре» цивилизаций и прогнозе лауреата премий Эйнштейна и Фарадея, а также золотых медалей Ньютона и Брюса Мартина Риса [1, 2]:
Мы единственная высокоразвитая цивилизация во Вселенной, т.к. все другие уже самоистребились. И то же самое ждет земную цивилизацию. Ибо при достижении высокого технологического уровня, цивилизация подходит к порогу, после которого она не в состоянии справиться с экзистенциальными рисками, опережающими прогресс [3, 4].
#Раскол #Хриски
29👍131🤔51😱18🤯6👎3
В России ситуация с талантами в области ИИ похожа на ситуацию с «железом» - отставание от Китая и США в 20 – 30 раз
Россия катастрофически отстает от США и Китая по микросхемам для ИИ (в этом году отставание России от Китая – в 13 раз, а от США - в 33 раза).
О том, каковы могут быть последствия такого отставания по «железу» (оборудованию -HW) для конкурентности национальных ИИ-систем, я сформулировал еще в 2021: есть «железо» - участвуй в гонке; нет «железа» - кури в сторонке.
Но часто слышится возражение: зато у нас мозги у программистов и спецов по ИИ лучше. Тоже аргумент. Но как это проверить?
Например, так.
Есть такой влиятельный рейтинг CSRankings, на который ссылаются многие эксперты при анализе талантов в области исследований и разработки ИИ. Что важно: рейтинг американский (разработан профессором Массачусетского университета в Амхерсте Эмери Бергером), но и в Китае на него ориентируются.
И вот какова ситуация по этому рейтингу среди ведущих мировых университетов в области ИИ.
Среди ТОР 15 (по данным за 2024-2025): 9 китайских, 2 универа США, 2 Сингапура и по 1 универу Юж. Кореи и Гонконга.
N.B. Российский универ (НИУ ВШЭ – 3й по усреднению российских рейтингов топ-вузов для программистов и айтишников) на 276 месте с рейтингом 1.5.
Для сравнения Универ Шанхая (3й по рейтингам в Китае) имеет рейтинг 25.6 (2е место в CSRankings)
А Универ Мериленда (3й по рейтингам в США) имеет рейтинг 10.3 (19е место в CSRankings).
Однако, есть мнение, что китайцы в подобных рейтингах берут числом, а не умением.
Что ж, давайте проверим это. Возьмем в расчет не все скопом мировые конференции по ИИ, а лишь три самых влиятельных и престижных конференции по машинному обучению (ICLR, ICML и NeurIPS). Плюс к этому, возьмем данные за последние 5 лет, поскольку данные за 1 год могут искажать ситуацию. Результаты представлены на приложенном слайде.
Среди ТОР 15 (по данным за 2021-2025): 9 универов США, 3 китайских и по 1 универу Юж. Кореи, Сингапура и Швейцария.
N.B. Российский универ (НИУ ВШЭ – 3й по усреднению российских рейтингов топ-вузов для программистов и айтишников) на 213 месте с рейтингом 5.8.
Для сравнения Универ Шанхая (3й по рейтингам в Китае) имеет рейтинг 114 (8е место в CSRankings).
А Универ Калифорнии (3й по рейтингам в США) имеет рейтинг 153.7 (4е место в CSRankings).
#ИИ #Китай #США #Россия
Россия катастрофически отстает от США и Китая по микросхемам для ИИ (в этом году отставание России от Китая – в 13 раз, а от США - в 33 раза).
О том, каковы могут быть последствия такого отставания по «железу» (оборудованию -HW) для конкурентности национальных ИИ-систем, я сформулировал еще в 2021: есть «железо» - участвуй в гонке; нет «железа» - кури в сторонке.
Но часто слышится возражение: зато у нас мозги у программистов и спецов по ИИ лучше. Тоже аргумент. Но как это проверить?
Например, так.
Есть такой влиятельный рейтинг CSRankings, на который ссылаются многие эксперты при анализе талантов в области исследований и разработки ИИ. Что важно: рейтинг американский (разработан профессором Массачусетского университета в Амхерсте Эмери Бергером), но и в Китае на него ориентируются.
И вот какова ситуация по этому рейтингу среди ведущих мировых университетов в области ИИ.
Среди ТОР 15 (по данным за 2024-2025): 9 китайских, 2 универа США, 2 Сингапура и по 1 универу Юж. Кореи и Гонконга.
N.B. Российский универ (НИУ ВШЭ – 3й по усреднению российских рейтингов топ-вузов для программистов и айтишников) на 276 месте с рейтингом 1.5.
Для сравнения Универ Шанхая (3й по рейтингам в Китае) имеет рейтинг 25.6 (2е место в CSRankings)
А Универ Мериленда (3й по рейтингам в США) имеет рейтинг 10.3 (19е место в CSRankings).
Однако, есть мнение, что китайцы в подобных рейтингах берут числом, а не умением.
Что ж, давайте проверим это. Возьмем в расчет не все скопом мировые конференции по ИИ, а лишь три самых влиятельных и престижных конференции по машинному обучению (ICLR, ICML и NeurIPS). Плюс к этому, возьмем данные за последние 5 лет, поскольку данные за 1 год могут искажать ситуацию. Результаты представлены на приложенном слайде.
Среди ТОР 15 (по данным за 2021-2025): 9 универов США, 3 китайских и по 1 универу Юж. Кореи, Сингапура и Швейцария.
N.B. Российский универ (НИУ ВШЭ – 3й по усреднению российских рейтингов топ-вузов для программистов и айтишников) на 213 месте с рейтингом 5.8.
Для сравнения Универ Шанхая (3й по рейтингам в Китае) имеет рейтинг 114 (8е место в CSRankings).
А Универ Калифорнии (3й по рейтингам в США) имеет рейтинг 153.7 (4е место в CSRankings).
Отсюда вывод: в России ситуация с талантами в области ИИ похожа на ситуацию с «железом» - отставание от США и Китая в 20 – 30 раз.
#ИИ #Китай #США #Россия
1😱120👍88🤔33👎27🤯7
Picture1.png
466.1 KB
Кожаным мешкам приготовиться: ИИ приблизились по качеству работы к отраслевым экспертам
При этом ИИ могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики. Он измеряет эффективность модели при выполнении 1230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов (соответственно, 44 и 9 – см. картинку), вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми.
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными.
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет.
Результат сногсшибательный (см. рисунок).
1) ИИ работают уже почти на уровне экспертов – людей.
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы. Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47,6% по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38,8% и o3 high с 34,1%
2) ИИ несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты».
Самое важное.
Это всего лишь сегодняшние модели. Через год новые модели будут сильно умней и умелей экспертов людей. И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
#LLMvsHomo
При этом ИИ могут выполнять работу в 44 профессиях из 9 отраслей примерно в 100 раз быстрее и в 100 раз дешевле
OpenAI создала GDPval - бенчмарк моделей на реальных задачах экономики. Он измеряет эффективность модели при выполнении 1230 задач, взятых непосредственно из реальных знаний опытных специалистов из широкого спектра профессий и секторов (соответственно, 44 и 9 – см. картинку), вносящих наибольший вклад в ВВП США.
Бенчмарк предоставляет четкую картину того, как модели работают с экономически значимыми задачами по сравнению с экспертами – людьми.
Каждое задание основано на реальных результатах работы, таких как юридическое задание, инженерный проект, беседа со службой поддержки клиентов или план ухода за больными.
Все эти задания были тщательно разработаны и проверены опытными специалистами со средним опытом работы в этих областях более 14 лет.
Результат сногсшибательный (см. рисунок).
1) ИИ работают уже почти на уровне экспертов – людей.
«Мы обнаружили, что лучшие на сегодняшний день передовые модели уже приближаются по качеству к работе, выполненной отраслевыми экспертами», — пишут авторы. Claude Opus 4.1 занял первое место с общим процентом побед или ничьих 47,6% по сравнению с работой, выполненной человеком, за ним следуют GPT-5-high с 38,8% и o3 high с 34,1%
2) ИИ несравненно эффективней людей.
«Мы обнаружили, что передовые модели могут выполнять задачи GDPval примерно в 100 раз быстрее и в 100 раз дешевле, чем отраслевые эксперты».
Самое важное.
Это всего лишь сегодняшние модели. Через год новые модели будут сильно умней и умелей экспертов людей. И профессий будет уже не 44 в 9 отраслях, а много больше.
Подробней [1, 2]
#LLMvsHomo
2👍108🤔56🤯34👎21
Разоблачение фикции угрозы?
Почему такой вывод о влиянии ИИ на рынок труда - ошибка поспешного чтения
Скорость роста способностей ИИ - одна, скорость перестройки компаний - совсем другая. Именно вторая из скоростей объясняет «тишину» в статистике перекройки рынка труда.
Подобные заголовки превалируют в сети, анонсируя свежий отчёт The Budget Lab at Yale, как разоблачение фикции угрозы генеративного ИИ (ГенИИ) для рынка труда.
Но такое соблазнительное обобщение неверно: исследование фиксирует лишь то, что пока на рынке труда не произошло резкого слома. И это вовсе не опровержение колоссального потенциала влияния ИИ, а лишь снимок момента – текущего состояния рынка труда на ранней фазе внедрения ГенИИ. В самом отчёте говорится: «Рынок труда не испытал различимого потрясения с момента релиза ChatGPT 33 месяца назад». Но это исключительно про прошедшие 33 месяца, а не итоговый вердикт и даже не прогноз на завтра.
Способности растут быстрее, чем меняется занятость
За тот же период модели стали существенно сильнее в задачах, имеющих экономическую ценность. По внутреннему бенчмарку OpenAI (GDPval) переход с GPT-4o к GPT-5 дал 3+кратный прирост результатов за год – а это явный индикатор темпа прогресса способностей ГенИИ. Но GDPval - не термометр ВВП и не счётчик сокращённых вакансий. Это индикатор того, что уже можно поручать моделям, а не того, как быстро фирмы перестроят процессы. Непонимание принципиальной разницы двух показателей и лежит в основе «разоблачения фикции угрозы».
«Время предприятия»: почему тихо в макро-данных
Paul Hlivko в HBR устраивает холодный душ для ожидающих мгновенных изменений: ИИ-революция пойдёт со скоростью «хода времени предприятий» — дольше и с бОльшим трением, чем принято думать. После покупки модели ГенИИ главная отдача появляется только при комплементах (комплементарных вложениях: перепроектирование процессов, обучение, данные, ИТ-сопровождение, интеграция, безопасность, комплаенс). Пока всё это внедряется и выстраивается, заметная часть выигрышей не попадает в статистику производительности и занятости.
Экономика «J-кривой»: сначала инвестиции, потом урожай
И это не бином Ньютона: у технологий общего назначения (а именно таков ГенИИ) есть эффект «Productivity J-curve»: сначала годы недоучтённых комплементов, и лишь затем резкий подъём измеряемой продуктивности. И как результат, при внедрении ГенИИ сначала - годы невидимых в ВВП нематериальных вложений (процессы, данные, оргкапитал) и лишь затем - скачок отдачи. Этот механизм подробно описан Бриньолфссоном, Роком и Сайверсоном и прекрасно ложится на текущую фазу внедрения ГенИИ (по иронии совпадая аббревиатурой GPT с General Purpose Technology).
Базовый «скромный» сценарий не отменяет потенциала
Дарон Асемоглу показывает: если автоматизировать лишь те 5% задач, где выгода очевидно превосходит издержки (интеграция, перестройка ролей, вычислительные расходы), макроэффект может быть скромным — порядка +1% к ВВП США за десятилетие. Но это вовсе не предел возможностей ИИ, а реалистичная базовая оценка без агрессивных инвестиций в комплементы.
Итог
Делать вывод, что «угроза ГенИИ для рынка труда - фикция», - всё равно что объявлять, наблюдая за разгоном самолета по взлётной полосе, что он не полетит, т.к. увеличивая скорость, так и не отрывается от бетонной полосы. А на самом деле, нужно всего лишь подождать.
• Отчёт BudgetLab описывает отсутствие быстрого шока в занятости сейчас
• GDPval одновременно показывает взрывной рост способностей
• HBR и «J-кривая» объясняют, почему между этими фактами зияет лаг.
#LLMvsHomo #Экономика #РынокТруда
Почему такой вывод о влиянии ИИ на рынок труда - ошибка поспешного чтения
Скорость роста способностей ИИ - одна, скорость перестройки компаний - совсем другая. Именно вторая из скоростей объясняет «тишину» в статистике перекройки рынка труда.
• «Три года с ChatGPT - и ничего: главная экономическая угроза от ИИ оказалась фикцией»
• «Американское исследование показало, что ИИ не убивает рабочие места»
Подобные заголовки превалируют в сети, анонсируя свежий отчёт The Budget Lab at Yale, как разоблачение фикции угрозы генеративного ИИ (ГенИИ) для рынка труда.
Но такое соблазнительное обобщение неверно: исследование фиксирует лишь то, что пока на рынке труда не произошло резкого слома. И это вовсе не опровержение колоссального потенциала влияния ИИ, а лишь снимок момента – текущего состояния рынка труда на ранней фазе внедрения ГенИИ. В самом отчёте говорится: «Рынок труда не испытал различимого потрясения с момента релиза ChatGPT 33 месяца назад». Но это исключительно про прошедшие 33 месяца, а не итоговый вердикт и даже не прогноз на завтра.
Способности растут быстрее, чем меняется занятость
За тот же период модели стали существенно сильнее в задачах, имеющих экономическую ценность. По внутреннему бенчмарку OpenAI (GDPval) переход с GPT-4o к GPT-5 дал 3+кратный прирост результатов за год – а это явный индикатор темпа прогресса способностей ГенИИ. Но GDPval - не термометр ВВП и не счётчик сокращённых вакансий. Это индикатор того, что уже можно поручать моделям, а не того, как быстро фирмы перестроят процессы. Непонимание принципиальной разницы двух показателей и лежит в основе «разоблачения фикции угрозы».
«Время предприятия»: почему тихо в макро-данных
Paul Hlivko в HBR устраивает холодный душ для ожидающих мгновенных изменений: ИИ-революция пойдёт со скоростью «хода времени предприятий» — дольше и с бОльшим трением, чем принято думать. После покупки модели ГенИИ главная отдача появляется только при комплементах (комплементарных вложениях: перепроектирование процессов, обучение, данные, ИТ-сопровождение, интеграция, безопасность, комплаенс). Пока всё это внедряется и выстраивается, заметная часть выигрышей не попадает в статистику производительности и занятости.
Экономика «J-кривой»: сначала инвестиции, потом урожай
И это не бином Ньютона: у технологий общего назначения (а именно таков ГенИИ) есть эффект «Productivity J-curve»: сначала годы недоучтённых комплементов, и лишь затем резкий подъём измеряемой продуктивности. И как результат, при внедрении ГенИИ сначала - годы невидимых в ВВП нематериальных вложений (процессы, данные, оргкапитал) и лишь затем - скачок отдачи. Этот механизм подробно описан Бриньолфссоном, Роком и Сайверсоном и прекрасно ложится на текущую фазу внедрения ГенИИ (по иронии совпадая аббревиатурой GPT с General Purpose Technology).
Базовый «скромный» сценарий не отменяет потенциала
Дарон Асемоглу показывает: если автоматизировать лишь те 5% задач, где выгода очевидно превосходит издержки (интеграция, перестройка ролей, вычислительные расходы), макроэффект может быть скромным — порядка +1% к ВВП США за десятилетие. Но это вовсе не предел возможностей ИИ, а реалистичная базовая оценка без агрессивных инвестиций в комплементы.
Итог
Делать вывод, что «угроза ГенИИ для рынка труда - фикция», - всё равно что объявлять, наблюдая за разгоном самолета по взлётной полосе, что он не полетит, т.к. увеличивая скорость, так и не отрывается от бетонной полосы. А на самом деле, нужно всего лишь подождать.
• Отчёт BudgetLab описывает отсутствие быстрого шока в занятости сейчас
• GDPval одновременно показывает взрывной рост способностей
• HBR и «J-кривая» объясняют, почему между этими фактами зияет лаг.
Революция не отменяется — но она идёт в темпе «хода времени предприятий». И когда компании научатся быстро строить комплементы, сегодняшняя «тишина» статистики окажется всего лишь краткой паузой перед оглушительной канонадой взрывных изменений.
#LLMvsHomo #Экономика #РынокТруда
5👍83🤔15🤯7👎2
И как вам, если, действительно, почти треть американцев уже состояли в романтических отношениях с ИИ?
Это ли не очередной сюжет для новой антиутопии «Черного зеркала»?
Хотя какая тут антиутопия, — ведь это всего лишь наша новая, стремительно меняющаяся реальность.
Мы уже не первый год постепенно отдаем алгоритмам самое сокровенное — нашу способность любить.
✔️ Доверяемся алгоритмам при поиске и подборе партнера – ведь алгоритмические сводники лучше нас знают наши интимные пристрастия.
✔️ Всё чаще делаем выбор в пользу ИИ-партнеров - всегда доступных, понимающих и лишенных многих человеческих недостатков.
Так алгоритмы постепенно перенимают на себя функции и «романтических поверенных» (доверия к которым больше, чем к самому себе) и «романтических партнеров» (для многих становящихся привлекательнее живых людей).
Но какую цену мы платим за «идеальные» алго-рекомендации и «беспроблемные» алго-связи?
В новом эссе «Алгоритмическая любовь» я исследую:
• Почему в новости о 28% главное не цифра, а то, что данное исследование – своего рода, «культурный тест Роршаха»
• Что такое «закон Мура для души»
• Как «искусственная любовь» становится для мужчин побегом из эволюционной ловушки
• Как алгоритмы разрушают и пересобирают саму архитектуру любви
• Почему для нового поколения знакомство в офлайне — это кринж.
К худу или к добру, но мы уже стоим на пороге дивного нового мира, где отношения можно будет собирать из модулей, как конструктор.
✔️ Разучимся ли мы при этом любить по-старому (по-человечески)?
✔️ Утеряем ли эмпатию и человечность?
В качестве информации к размышлению ниже приложена 7-минутная видео-презентация резюме эссе «Алгоритмическая любовь».
Текст и аудио-файл эссе (9 мин), а также подкаст его довольно детального обсуждения (12 мин) привилегированные подписчики моих лонгридов найдут на 4-х платформах [1, 2, 3, 4] и 2-х ТГ-чатах: МИ чат и МИ Алмазный (где я приглашаю их к дискуссии).
#Любовь #ВыборПартнера #ВиртуальныеКомпаньоны #АлгокогнитивнаяКультура
👍47👎28🤔9😱7🤯3
Media is too big
VIEW IN TELEGRAM
7-минутная видео-презентация резюме эссе «Алгоритмическая любовь»
👍63🤔13👎10
Большую свару, вероятней всего, начнут США
Шансы превентивного военного удара США по Китаю из-за приближения к AGI растут
Такой удивительный вывод можно сделать из отчета RAND Corp «Evaluating the Risks of Preventive Attack in the Race for Advanced AI»
Уже 5 лет я использую для описания гонки США и Китая за первенство в ИИ метафору гонки собачьих упряжек [1, 2, 3]:
Новый отчет RAND Corp посвящен подобной «большой сваре».
В отчете анализируются и оцениваются:
1. Факторы, мотивирующие правительства стран лидеров в ИИ первым начать «большую свару», путем нанесения превентивного военного удара по сопернику в ИИ-гонке, где приз – AGI
2. Возможные сценарии того, когда и как может начаться такая «большая свара»
По вопросу 1 называются 4 ключевых фактора. 1й и самый весомый из них (необходимое, но не достаточное условие) – степень веры правящей элиты в близкий и трансформирующий AGI.
И если опираться на публичные заявления и открытые документы США и Китая (закрытые оценки могут отличаться, но открытая повестка — именно такая), американская элита (прежде всего индустрия) демонстрирует более сильную веру в близкий и трансформирующий AGI, чем китайское руководство и топ-менеджеры китайских ИИ-компаний.
• Китай говорит о достижении лидерства к 2030 и последующем «упорядоченном развитии»
• США — о риско-ориентированном управлении и активном ограничении доступа соперника к ключевым факторам AGI (чипы/веса), что имплицитно приписывает высокую трансформирующую силу в ближайшие годы. Если же учитывать и крупнейших частных акторов, то американская сторона явно чаще озвучивает более близкие сроки и переломный эффект AGI.
Т.е. следуя логике RAND, мотивация начать «большую свару» первым куда больше у США, чем у Китая.
Тогда 2-й вопрос: когда и как может начаться «большая свара»?
Согласно RAND, сценария три:
1. «Не допустить рывок» (один близок к AGI, второй отстаёт).
2. «Финишная дуэль» (оба почти у черты, удар, чтобы выиграть недели/месяцы).
3. «Защита монополии» (один уже получил AGI и бьёт, чтобы того же не достиз соперник).
И в этой связи вопрос - каков сейчас реальный расклад в ИИ-гонке?
Все имеющиеся на сегодня оценки аналитиков либо привязаны к тестированию конкретных моделей, либо качественные субъективные оценки отдельных доменов. И это не совсем то, что требуется для оценки столь глобально-неопределенного условия – степень приближения к AGI.
Поэтому попробуем для этой цели воспользоваться диаграммой Стратегическая карта конкурентоспособности в ИИ-гонке между Китаем и Западом, созданной на основе оценок Google Gemini 2.5 Flash в рамках AI Ecosystem Framework от Hubel Labs. Диаграмма представляет 10-уровневую архитектуру ИИ-экосистемы (от физической инфраструктуры до готовых продуктов) с процентными показателями относительного паритета.
• >100% (розовый) = Китай лидирует
• <100% (синий) = Запад лидирует
• 100% (фиолетовый) = паритет
Подробней об этих оценках и критических замечаниях по их методологии см. здесь.
Чтобы снять часть критических замечаний, мы дополнили оценки Gemini 2.5 Flash (модель, характеризуемая "быстрый и сообразительный, но поверхностный помощник") оценками моделей Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT 5 Thinking (модели, характеризуемые "эксперт и аналитик").
Результаты в таблице.
Вывод сделайте сами. Мне же видится, что ситуация так соответствует трём сценариям.
• 1-му на 60%
• 2-му на 30%
• 3-му на 10%
#ИИгонка #Китай #США
Шансы превентивного военного удара США по Китаю из-за приближения к AGI растут
Такой удивительный вывод можно сделать из отчета RAND Corp «Evaluating the Risks of Preventive Attack in the Race for Advanced AI»
Уже 5 лет я использую для описания гонки США и Китая за первенство в ИИ метафору гонки собачьих упряжек [1, 2, 3]:
В соревнованиях собачьих упряжек случаются ситуации долгого изматывающего бега бок о бок двух лидеров гонки. И вот когда одна из таких упряжек все же находит силы и начинает вырываться вперед, кореннику отстающей упряжки ничего не остается иного, как впиться зубами в бок обходящего его коренника. И тогда наступает самое страшное на подобных гонках – большая свара.
Новый отчет RAND Corp посвящен подобной «большой сваре».
В отчете анализируются и оцениваются:
1. Факторы, мотивирующие правительства стран лидеров в ИИ первым начать «большую свару», путем нанесения превентивного военного удара по сопернику в ИИ-гонке, где приз – AGI
2. Возможные сценарии того, когда и как может начаться такая «большая свара»
По вопросу 1 называются 4 ключевых фактора. 1й и самый весомый из них (необходимое, но не достаточное условие) – степень веры правящей элиты в близкий и трансформирующий AGI.
И если опираться на публичные заявления и открытые документы США и Китая (закрытые оценки могут отличаться, но открытая повестка — именно такая), американская элита (прежде всего индустрия) демонстрирует более сильную веру в близкий и трансформирующий AGI, чем китайское руководство и топ-менеджеры китайских ИИ-компаний.
• Китай говорит о достижении лидерства к 2030 и последующем «упорядоченном развитии»
• США — о риско-ориентированном управлении и активном ограничении доступа соперника к ключевым факторам AGI (чипы/веса), что имплицитно приписывает высокую трансформирующую силу в ближайшие годы. Если же учитывать и крупнейших частных акторов, то американская сторона явно чаще озвучивает более близкие сроки и переломный эффект AGI.
Т.е. следуя логике RAND, мотивация начать «большую свару» первым куда больше у США, чем у Китая.
Тогда 2-й вопрос: когда и как может начаться «большая свара»?
Согласно RAND, сценария три:
1. «Не допустить рывок» (один близок к AGI, второй отстаёт).
2. «Финишная дуэль» (оба почти у черты, удар, чтобы выиграть недели/месяцы).
3. «Защита монополии» (один уже получил AGI и бьёт, чтобы того же не достиз соперник).
И в этой связи вопрос - каков сейчас реальный расклад в ИИ-гонке?
Все имеющиеся на сегодня оценки аналитиков либо привязаны к тестированию конкретных моделей, либо качественные субъективные оценки отдельных доменов. И это не совсем то, что требуется для оценки столь глобально-неопределенного условия – степень приближения к AGI.
Поэтому попробуем для этой цели воспользоваться диаграммой Стратегическая карта конкурентоспособности в ИИ-гонке между Китаем и Западом, созданной на основе оценок Google Gemini 2.5 Flash в рамках AI Ecosystem Framework от Hubel Labs. Диаграмма представляет 10-уровневую архитектуру ИИ-экосистемы (от физической инфраструктуры до готовых продуктов) с процентными показателями относительного паритета.
• >100% (розовый) = Китай лидирует
• <100% (синий) = Запад лидирует
• 100% (фиолетовый) = паритет
Подробней об этих оценках и критических замечаниях по их методологии см. здесь.
Чтобы снять часть критических замечаний, мы дополнили оценки Gemini 2.5 Flash (модель, характеризуемая "быстрый и сообразительный, но поверхностный помощник") оценками моделей Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT 5 Thinking (модели, характеризуемые "эксперт и аналитик").
Результаты в таблице.
Вывод сделайте сами. Мне же видится, что ситуация так соответствует трём сценариям.
• 1-му на 60%
• 2-му на 30%
• 3-му на 10%
#ИИгонка #Китай #США
4🤔66👍30👎20😱13
От цикличной организации мозговых сетей к созданию контекстных религий
Открытие четырёх топовых центров нейронауки подготовило сюжет будущего романа Пелевина (и фрагмент из него)
Опубликованное Nature Neuroscience исследование «Large-scale cortical functional networks are organized in structured cycles» продемонстрировало убедительные доказательства того, что наши «когнитивные гаджеты» работают не по случайному расписанию, а по строго регламентированному нейробиологией мозга. Это выражается в том, что активность крупных корковых функциональных сетей организована в устойчивые циклы. Мозговые сети (внимание, «внутренний режим» и т.п.) не включаются хаотично — они ходят по кругу в повторяющихся последовательностях, как шестерёнки часов. Скорость и «собранность» этого цикла связаны с возрастом и когнитивной эффективностью; фазу цикла можно поймать по MEG/EEG-данным новым методом TINDA.
Потенциал этого открытия впечатляет (подробней здесь)
И если нейровизуализационные результаты исследования подтвердятся на валидированных метриках, станет возможно использование идеи цикличной организации мозговых сетей на практике.
Например, для создания контекстных религий, описываемых в только вышедшем романе Виктора Пелевина «A Sinistra» так:
А чтобы наглядно представить, как может выглядеть на практике воплощение идеи цикличной организации мозговых сетей для создания контекстных религий, вот отрывок из еще не законченного романа «Литургия фазы», где как раз об этом рассказывается.
#Пелевин #Нейронаука #Психиатрия
Открытие четырёх топовых центров нейронауки подготовило сюжет будущего романа Пелевина (и фрагмент из него)
Опубликованное Nature Neuroscience исследование «Large-scale cortical functional networks are organized in structured cycles» продемонстрировало убедительные доказательства того, что наши «когнитивные гаджеты» работают не по случайному расписанию, а по строго регламентированному нейробиологией мозга. Это выражается в том, что активность крупных корковых функциональных сетей организована в устойчивые циклы. Мозговые сети (внимание, «внутренний режим» и т.п.) не включаются хаотично — они ходят по кругу в повторяющихся последовательностях, как шестерёнки часов. Скорость и «собранность» этого цикла связаны с возрастом и когнитивной эффективностью; фазу цикла можно поймать по MEG/EEG-данным новым методом TINDA.
Потенциал этого открытия впечатляет (подробней здесь)
И если нейровизуализационные результаты исследования подтвердятся на валидированных метриках, станет возможно использование идеи цикличной организации мозговых сетей на практике.
Например, для создания контекстных религий, описываемых в только вышедшем романе Виктора Пелевина «A Sinistra» так:
– Контекстные религии были изобретены, чтобы помочь общинам, находящимся под специфическим стрессом. Сектантские верования, идеально заточенные под ту или иную форму человеческой деятельности, повышали эффективность специализации. Одна вера у рыбака, другая у землепашца…
– И люди верят в сетевую генерацию? Вот прямо верят?
– Конечно. Контекстные религии порождают своих святых и мучеников. Они проникают в человеческие души не хуже конвенциональных… Особенно на нулевом таере.
– Ага, – сказал я, – и я уже догадался, как. Имплантподсветка?
– Не без нее.
– Корпорация исследует нейрокорреляты религиозных состояний?
– Они, в общем, известны и так. Подавление активности в теменной доле, особенно в зоне precuneus, создает ощущение растворения эго и единства с чем-то большим. Умеренная стимуляция правой височной доли вызывает интенсивные эмоциональные всплески, вплоть до уверенности в божественном присутствии. Активация медиальной префронтальной коры дарит чувство духовной глубины и морального торжества. Стимуляция вентральной области покрышки и прилежащего ядра накачивает систему допамином – будем честны, божественное для большинства верующих есть просто эйфорическое, и наоборот. Ну и как вишенка – тетамодуляция ритмов мозга, чтобы не возникало сомнений в духовной подлинности переживания. Полный список воздействий длиннее, конечно. Но сама по себе стимуляция – ничто без филигранно выверенного контекста. Нужно предание, в которое сердце сумеет поверить.
А чтобы наглядно представить, как может выглядеть на практике воплощение идеи цикличной организации мозговых сетей для создания контекстных религий, вот отрывок из еще не законченного романа «Литургия фазы», где как раз об этом рассказывается.
#Пелевин #Нейронаука #Психиатрия
3👍88🤔22🤯10😱7
Симулякры для маркетинговых опросов и … социохакинга
Таллинский симулякровый эксперимент продолжил Стэнфордский и Уханьский
Два симулякровых эксперимента (Уханьский и Стэнфордский) показали невообразимые ранее перспективы социохакинга.
• Уханьский эксперимент дал точный прогноз итогов президентских выборов в США, предсказав за 2 мес, что Трамп победит со счетом 309 : 229 (в реальности было 312 : 226).
Фишкой прогноза было, что он основан на анализе ИИ-моделью мнений и возможного выбора не людей, а их симулякров.
• Стэнфордский эксперимент пошел дальше. Сконструировав 1000 симулякров индивидуального сознания «типовых» американцев, экспериментаторы статистически корректно сравнили ответы и поведение этих симулякров с таковыми у людей. В итоге симулякры предсказали ответы своих реальных прототипов – людей по тесту GSS с точностью 85%.
Новый симулякровый “Таллинский эксперимент” (совместный проект PyMC Labs Tallin, Estonia и Colgate-Palmolive Company New York, USA) поднял планку практической востребованности симулякров людей еще на пару порядков:
Идея создания симулякров покупателей на основе LLM появилась 3 года назад. Еще в 2022 я рассказывал своим читателям о супероткрытии, названном мною «Китайская комната наоборот». Это открытие на стыке алгоритмов обработки естественного языка, когнитивистики и социологии – технология создания алгоритмических копий любых социальных групп. Тогда впервые выяснилось, что алгоритмы почти неотличимы от людей в соцопросах. И это открывало огромные перспективы для политического социохакинга - влияние на выбор избирателей, путем подбора оптимальных стратегий убеждения в экспериментах с симулякрами социальных групп.
Как уже сказано выше, цена маркетингового социохакинга на 2 порядка выше. Но здесь пока был облом.
Когда компании попытались использовать LLM в качестве синтетических потребителей, они уперлись в стену. Если напрямую попросить такой симулякр оценить намерение покупки по шкале от 1 до 5, учитывая концепцию продукта, то получите нереалистичные распределения: слишком много троек, практически нет крайних ответов, а закономерности не соответствуют реальному поведению людей.
И однозначный вывод был, что использование вместо людей симулякров при опросах потребителей ненадёжно и рискованно.
Авторы разработали «Рейтинг семантической схожести» (SSR). Вместо того чтобы заставлять LLM выбирать число, предложены 2 шага:
1. Позволить ИИ ответить естественным текстом (как люди реально рассуждают о готовности купить)
2. Спроецировать этот ответ на распределение оценок по шкале 1–5 с помощью семантической похожести, сравнивая высказывание ИИ с опорными (якорными) формулировками для каждого балла
Результат получился прорывным
Используя 57 реальных опросов потребителей, проведенных ведущей компанией по производству потребительских товаров (9300 ответов), метод SSR показал:
Т.е. это не просто улучшение, а первый подход, который создает достаточно надежные синтетические данные о потребителях, чтобы на их основе принимать реальные решения по разработке продуктов. А в самом близком будущем симулякры на основе LLM заменят людей и на других видах опросов (удовлетворенность, доверие, релевантность ...)
#Социохакинг #Маркетинг
Таллинский симулякровый эксперимент продолжил Стэнфордский и Уханьский
Два симулякровых эксперимента (Уханьский и Стэнфордский) показали невообразимые ранее перспективы социохакинга.
• Уханьский эксперимент дал точный прогноз итогов президентских выборов в США, предсказав за 2 мес, что Трамп победит со счетом 309 : 229 (в реальности было 312 : 226).
Фишкой прогноза было, что он основан на анализе ИИ-моделью мнений и возможного выбора не людей, а их симулякров.
• Стэнфордский эксперимент пошел дальше. Сконструировав 1000 симулякров индивидуального сознания «типовых» американцев, экспериментаторы статистически корректно сравнили ответы и поведение этих симулякров с таковыми у людей. В итоге симулякры предсказали ответы своих реальных прототипов – людей по тесту GSS с точностью 85%.
Новый симулякровый “Таллинский эксперимент” (совместный проект PyMC Labs Tallin, Estonia и Colgate-Palmolive Company New York, USA) поднял планку практической востребованности симулякров людей еще на пару порядков:
• “цена продажи” избирателям кандидата в президенты США – это несколько ярдов;
• а “цена продажи” новых товаров покупателям (исследования потребительского спроса) – это по миру сотни ярдов в год.
Идея создания симулякров покупателей на основе LLM появилась 3 года назад. Еще в 2022 я рассказывал своим читателям о супероткрытии, названном мною «Китайская комната наоборот». Это открытие на стыке алгоритмов обработки естественного языка, когнитивистики и социологии – технология создания алгоритмических копий любых социальных групп. Тогда впервые выяснилось, что алгоритмы почти неотличимы от людей в соцопросах. И это открывало огромные перспективы для политического социохакинга - влияние на выбор избирателей, путем подбора оптимальных стратегий убеждения в экспериментах с симулякрами социальных групп.
Как уже сказано выше, цена маркетингового социохакинга на 2 порядка выше. Но здесь пока был облом.
Когда компании попытались использовать LLM в качестве синтетических потребителей, они уперлись в стену. Если напрямую попросить такой симулякр оценить намерение покупки по шкале от 1 до 5, учитывая концепцию продукта, то получите нереалистичные распределения: слишком много троек, практически нет крайних ответов, а закономерности не соответствуют реальному поведению людей.
И однозначный вывод был, что использование вместо людей симулякров при опросах потребителей ненадёжно и рискованно.
Прорыв «Таллинского эксперимента» в том, что они показали - это не так. Проблема не в LLM, а в том, как задаются вопросы.
Авторы разработали «Рейтинг семантической схожести» (SSR). Вместо того чтобы заставлять LLM выбирать число, предложены 2 шага:
1. Позволить ИИ ответить естественным текстом (как люди реально рассуждают о готовности купить)
2. Спроецировать этот ответ на распределение оценок по шкале 1–5 с помощью семантической похожести, сравнивая высказывание ИИ с опорными (якорными) формулировками для каждого балла
Результат получился прорывным
Используя 57 реальных опросов потребителей, проведенных ведущей компанией по производству потребительских товаров (9300 ответов), метод SSR показал:
• Достижение 90% корреляции с рейтингом продукта в опросах людей
• Более 85% сходства распределения с фактическими результатами опроса
• Реалистичные модели ответов, отражающие то, как люди на самом деле оценивают продукты
Т.е. это не просто улучшение, а первый подход, который создает достаточно надежные синтетические данные о потребителях, чтобы на их основе принимать реальные решения по разработке продуктов. А в самом близком будущем симулякры на основе LLM заменят людей и на других видах опросов (удовлетворенность, доверие, релевантность ...)
#Социохакинг #Маркетинг
👍68🤔37😱18🤯10