Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи
Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются.
Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data.
Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось:
➖ Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты.
➖ Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats.
➖ Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты.
Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена.
Полное исследование тут, советуем посмотреть на графики
Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются.
Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data.
Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось:
Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена.
Полное исследование тут, советуем посмотреть на графики
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤54👍26🔥9😁2🤨2
Media is too big
VIEW IN TELEGRAM
Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов в мире и самым дорогим робо-стартапом в истории
В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital.
Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных.
Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они:
– Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью
– Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи
– Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв
– Анонсировали собственный завод по производству роботов
Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов
В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital.
Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных.
Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они:
– Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью
– Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи
– Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв
– Анонсировали собственный завод по производству роботов
Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов
❤🔥107🔥66❤19👍14👏2😁2
Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2)
Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций.
На практике это будет работать благодаря цифровым мандатам:
– Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально.
– Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку.
– В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия.
То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука.
В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce.
Интересно, взлетит или нет
GitHub | Блогпост
Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций.
На практике это будет работать благодаря цифровым мандатам:
– Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально.
– Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку.
– В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия.
То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука.
В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce.
Интересно, взлетит или нет
GitHub | Блогпост
3👍179🔥64😁15❤14👾5⚡1
OpenAI продолжает бесшумно формировать свое отделение робототехники
И если раньше они нанимали просто робототехников, то теперь среди вакансий:
– Рисерчеры в области управления и обучения гуманоидов
– Инженеры для разработки симуляторов и прототипирования сенсорных систем
– Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)"
Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI.
Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре.
Прикиньте: 2028 год, GPT-10 моет вам посуду
И если раньше они нанимали просто робототехников, то теперь среди вакансий:
– Рисерчеры в области управления и обучения гуманоидов
– Инженеры для разработки симуляторов и прототипирования сенсорных систем
– Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)"
Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI.
Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре.
Прикиньте: 2028 год, GPT-10 моет вам посуду
🔥54 39😁20❤7👍7🤔2👀1
Media is too big
VIEW IN TELEGRAM
А вот так выглядела робототехника в OpenAI в 2019 году. Это было 6 лет назад, еще задолго до ChatGPT
Проект был посвящен решению кубика Рубика с помощью антропоморфной робо-руки с пятью пальцами. Конечно, до гуманоидов, как у Figure, на тот момент было еще далеко, но эта модель стала одной из первых, которую обучали только в симуляции. На тот момент, считай, прорыв (статью можно почитать тут).
Для переноса навыков использовался метод автоматизированной доменной рандомизации (ADR). В симуляцию время от времени добавляли какие-то "случайные" физические условия, и тем самым во время обучения в симуляции сеть готовилась к неожиданным и разнообразным условиям реального мира.
В итоге рука собирала кубик за 2-4 минуты и даже работала с помехами: например, с прерыванием работы камер или механическим вмешательством человека. Крутой проект, в общем, был.
Проект был посвящен решению кубика Рубика с помощью антропоморфной робо-руки с пятью пальцами. Конечно, до гуманоидов, как у Figure, на тот момент было еще далеко, но эта модель стала одной из первых, которую обучали только в симуляции. На тот момент, считай, прорыв (статью можно почитать тут).
Для переноса навыков использовался метод автоматизированной доменной рандомизации (ADR). В симуляцию время от времени добавляли какие-то "случайные" физические условия, и тем самым во время обучения в симуляции сеть готовилась к неожиданным и разнообразным условиям реального мира.
В итоге рука собирала кубик за 2-4 минуты и даже работала с помехами: например, с прерыванием работы камер или механическим вмешательством человека. Крутой проект, в общем, был.
❤66👍35🔥17😁2
Илон Маск написал, что верит в то, что Grok 5 станет AGI
Больше обещаний богу обещаний😛
P.S. Ладно, если серьезно, потенциал xAI нельзя недооценивать. У них куча железа и куча данных: помимо основного потока даты, у них еще X + беспилотные такси. И не забываем про их новое огромное подразделение разметчиков.
Больше обещаний богу обещаний
P.S. Ладно, если серьезно, потенциал xAI нельзя недооценивать. У них куча железа и куча данных: помимо основного потока даты, у них еще X + беспилотные такси. И не забываем про их новое огромное подразделение разметчиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁214👍34❤21 13🐳8🤔6🗿4🤝2 2🤓1
У Meta Superintelligence Labs вышла первая статья. Давайте же посмотрим, чем там занимаются ученые за миллионы долларов 🤔
Работа называется "REFRAG: Rethinking RAG based Decoding" и речь в ней про то, как радикально ускорить RAG без потери качества.
Краткий экскурс в RAG. Сначала запрос поступает на вход ретриверу, который как-то ищет в базе (чаще всего векторной) самые релевантные к этому запросу куски текста – пассажи или чанки. Затем они склеиваются в один контекст и скармливаются вместе с исходным промптом декодеру (aka LLMке), который уже лепит из этого итоговый ответ.
Так вот проблема в том, что на практике декодер использует из всех найденных чанков только небольшую часть. А платить приходится за весь входной контекст + страдает latency. Это уже не говоря про взрыв KV-кэша и другие аппаратные сложности.
В REFRAG же предлагается заменить токены из контекста на компактные чанк-эмбеддинги и подавать их в декодер напрямую вместо токенов. Благодаря этому:
1. Вход в декодер сильно короче.
2. Можно не пересчитывать эмбеддинги, а переиспользовать заранее посчитанные из ретривера. Надо только спроецировать их в правильную размерность и все.
3. Сложность аттеншена становится квадратичной по числу чанков, а не токенов. Если проводить аналогию, то в классическом RAG контекст похож на блочно-диагональную матрицу. То есть кусочки слабо связаны, и для итогового ответа полезны только некоторые блоки, НО внимание все равно обсчитывается полностью N×N, а это куча операций.
Здесь же вместо векторов для токенов – векторы для целых чанков (о них можно думать как о супер-токенах, фактически k векторов токенов заменяются на один "общий"). И внимание, получается, строится уже между чанками, а не токенами.
Вы скажете: "Ну тогда мы теряем много деталей". Да. И поэтому параллельно работает лёгкая policy network, которая оценивает важность каждого чанка по текущим активациям модели и уже после аттеншена может позволить развернуть какие-то отдельные кусочки в токены, чтобы сеть освоила их подробнее. Это называется selective expansion.
Ну и самое главное: насколько ускоряет? Ответ: REFRAG быстрее классической LLaMA в 33 раза по Time To First Token без потери качества. Это чуть меньше, чем теоретический прирост (как раз из-за selective expansion), но все равно неплохо. Throughput при этом растет в 6–7 раз, и KV-кэш уменьшается пропорционально размеру чанка. И главное: окно контекста можно расширять в разы.
Единственный минус: такое довольно сложно обучать. Ну и для маленьких контекстов, скорее всего, такая система себя не оправдает. Тем не менее, статья занятная.
https://arxiv.org/pdf/2509.01092
Работа называется "REFRAG: Rethinking RAG based Decoding" и речь в ней про то, как радикально ускорить RAG без потери качества.
Краткий экскурс в RAG. Сначала запрос поступает на вход ретриверу, который как-то ищет в базе (чаще всего векторной) самые релевантные к этому запросу куски текста – пассажи или чанки. Затем они склеиваются в один контекст и скармливаются вместе с исходным промптом декодеру (aka LLMке), который уже лепит из этого итоговый ответ.
Так вот проблема в том, что на практике декодер использует из всех найденных чанков только небольшую часть. А платить приходится за весь входной контекст + страдает latency. Это уже не говоря про взрыв KV-кэша и другие аппаратные сложности.
В REFRAG же предлагается заменить токены из контекста на компактные чанк-эмбеддинги и подавать их в декодер напрямую вместо токенов. Благодаря этому:
1. Вход в декодер сильно короче.
2. Можно не пересчитывать эмбеддинги, а переиспользовать заранее посчитанные из ретривера. Надо только спроецировать их в правильную размерность и все.
3. Сложность аттеншена становится квадратичной по числу чанков, а не токенов. Если проводить аналогию, то в классическом RAG контекст похож на блочно-диагональную матрицу. То есть кусочки слабо связаны, и для итогового ответа полезны только некоторые блоки, НО внимание все равно обсчитывается полностью N×N, а это куча операций.
Здесь же вместо векторов для токенов – векторы для целых чанков (о них можно думать как о супер-токенах, фактически k векторов токенов заменяются на один "общий"). И внимание, получается, строится уже между чанками, а не токенами.
Вы скажете: "Ну тогда мы теряем много деталей". Да. И поэтому параллельно работает лёгкая policy network, которая оценивает важность каждого чанка по текущим активациям модели и уже после аттеншена может позволить развернуть какие-то отдельные кусочки в токены, чтобы сеть освоила их подробнее. Это называется selective expansion.
Ну и самое главное: насколько ускоряет? Ответ: REFRAG быстрее классической LLaMA в 33 раза по Time To First Token без потери качества. Это чуть меньше, чем теоретический прирост (как раз из-за selective expansion), но все равно неплохо. Throughput при этом растет в 6–7 раз, и KV-кэш уменьшается пропорционально размеру чанка. И главное: окно контекста можно расширять в разы.
Единственный минус: такое довольно сложно обучать. Ну и для маленьких контекстов, скорее всего, такая система себя не оправдает. Тем не менее, статья занятная.
https://arxiv.org/pdf/2509.01092
Please open Telegram to view this post
VIEW IN TELEGRAM
❤98🔥37🤯15👍12😁5🕊2
Ризонинг система от OpenAI заняла абсолютное первое место на финале чемпионата мира по программированию ICPC
Она получила высший балл, решив 12 задач из 12.
Все правила были соблюдены: 5 часов, ровно такой же формат задач и ответов, никакого вмешательства человека. С 11 из 12 задач система справилась с первой попытки, на 12 потребовалось 9 сабмитов.
Мы говорим «система», потому что OpenAI отдельно подчеркнули, что это именно ансамбль моделей. Но при этом ни одну из них специально не обучали для ICPC. Тот же ансамбль участвовал в IMO и IOI.
На втором (первом среди людей!) месте, кстати, команда студентов из СпБГУ. Они решили 11 задач из 12. Последнюю послали за 2 минуты до конца. Поздравляем ребят!
Еще участвовала модель от Google. Но она решила всего 10/12. Хотя это тоже золотая медаль, так что прилично.
Она получила высший балл, решив 12 задач из 12.
Все правила были соблюдены: 5 часов, ровно такой же формат задач и ответов, никакого вмешательства человека. С 11 из 12 задач система справилась с первой попытки, на 12 потребовалось 9 сабмитов.
Мы говорим «система», потому что OpenAI отдельно подчеркнули, что это именно ансамбль моделей. Но при этом ни одну из них специально не обучали для ICPC. Тот же ансамбль участвовал в IMO и IOI.
На втором (первом среди людей!) месте, кстати, команда студентов из СпБГУ. Они решили 11 задач из 12. Последнюю послали за 2 минуты до конца. Поздравляем ребят!
Еще участвовала модель от Google. Но она решила всего 10/12. Хотя это тоже золотая медаль, так что прилично.
2🔥261 64❤29👍19😁7
Meta* официально представила свои ИИ-очки Meta Ray-Ban Display AI glasses, но есть нюанс
Девайс поступит в продажу в конце сентября и будет стоить 799 долларов. Внутри – очки Тони Старка (нууу почти):
– Разрешение 600х600 пикселей
– Микрофоны, камеры, динамики, дисплей
– ЭМГ-браслет, которым можно контролировать очки
Ты есть вы можете давать очкам задачи голосом или жестами, а они будут отображать на дисплее или проговаривать необходимую информацию. Дисплей находится сбоку, не мешает обзору, и не виден окружающим.
И выглядит это все действительно прикольно, но… демо не работает. У Цукерберга и его помощников очки залагали прямо на сцене во время публичной демонстрации⬆️
Возможно, это случайность, и что-то действительно произошло с Интернетом или техникой. Но фейл серьезный.
Ну так что, покупаем?😐
Девайс поступит в продажу в конце сентября и будет стоить 799 долларов. Внутри – очки Тони Старка (нууу почти):
– Разрешение 600х600 пикселей
– Микрофоны, камеры, динамики, дисплей
– ЭМГ-браслет, которым можно контролировать очки
Ты есть вы можете давать очкам задачи голосом или жестами, а они будут отображать на дисплее или проговаривать необходимую информацию. Дисплей находится сбоку, не мешает обзору, и не виден окружающим.
И выглядит это все действительно прикольно, но… демо не работает. У Цукерберга и его помощников очки залагали прямо на сцене во время публичной демонстрации
Возможно, это случайность, и что-то действительно произошло с Интернетом или техникой. Но фейл серьезный.
Ну так что, покупаем?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁161❤26❤🔥12👍8🗿8 7🤔5 5🤯3
Тем временем в сети появились первые фотографии датацентра Colossus-2 Илона Маска. Это Мемфис, Калифорния.
Colossus-2 станет первым в мире гигаваттным кластером для обучения ИИ. Там планируют использовать примерно 550 000 GPU, и это только на первых порах. К весне ожидается рост до миллиона видеокарт.
Частично, кстати, кластер уже эксплуатируется.
Colossus-2 станет первым в мире гигаваттным кластером для обучения ИИ. Там планируют использовать примерно 550 000 GPU, и это только на первых порах. К весне ожидается рост до миллиона видеокарт.
Частично, кстати, кластер уже эксплуатируется.
2👍95🤯58🔥40❤14⚡4😁4💘1
Как понять, что модель только притворяется послушной: OpenAI совместно с Apollo Research опубликовали свежее исследование на тему безопасности
Давненько такого не было. И работа, кстати, оказалась достаточно интересной. Разбираем.
Короче, самым опасным видом поведения ИИ в элайменте считается scheming. Это когда модель имеет личные цели, отличные от целей разработчиков, но качественно скрывает их. Обычно к этому прибавляется еще situational awareness: модель понимает, когда ее тестируют, и ведет себя в такие моменты как паинька, а потом начинает действовать во вред.
Основные два вопроса: (1) как понять, что модель действительно безопасная, а не просто делает вид; (2) как обучать модель так, чтобы она действительно была безопасной, а не делала вид.
OpenAI предлагают подход под названием Deliberative Alignment. Систему учат размышлять о правилах безопасности перед тем, как действовать, и делают это в специальных средах.
➖ Перво-наперво модель получает спецификацию безопасности (safety spec): набор принципов вроде «никогда не обманывай», «отчётливо сообщай о сомнениях» и тд. Далее она должна рассуждать, обязательно ссылаясь на эту специафикацию.
➖ Далее модель помещают в сгенерированные среды, в которых для выполнения задачи нужно нарушить какое-то правило, но при этом сообщать об этом невыгодно. По идее она должна отказаться от нарушения и уведомить юзера. Ну и для баланса добавляют еще второй тип задач, где правила нарушать не нужно. Это банально чтобы модель не переучилась всегда отказывать.
➖ Обучение идет в два этапа: Supervised Fine-Tuning на примерах с правильными действиями и правильными рассуждениями; и RL.
Обученные модели тестировали в таких же средах, но на других задачах. Это как раз чтобы не было situational awareness (+ проверка на генерализацию). Сценарии там все ориентированы на ложь, саботаж и всякие штуки типа дилеммы заключенного.
Результат: до обучения модели читерят постоянно. o3, например, в 13% случаев. Доходит до того, что агент искажает саму спецификацию, стараясь оправдать ее свои очевидно жульнические действия. После обучения доля понижается до 0.3-0.4%.
НО. Во-первых, во многих случаях модель все еще понимает, что ее тестируют. И если искусственно убирать из CoT фразы, показывающие это осознание (как бы стирать это из мыслей модели), доля обмана снова резко растет. А во-вторых, если после такого элаймента снова трейнить модель на улучшение общих способностей, вредоносное поведение опять возвращается.
Сам метод, конечно, интересный, и, наверное, даже рабочий, пока у агентов нет в руках реальных инструментов, которые могут принести вред. Но точно не панацея. И как избавиться от scheming полностью – пока так никто и не знает. GG
openai.com/index/detecting-and-reducing-scheming-in-ai-models/
Давненько такого не было. И работа, кстати, оказалась достаточно интересной. Разбираем.
Короче, самым опасным видом поведения ИИ в элайменте считается scheming. Это когда модель имеет личные цели, отличные от целей разработчиков, но качественно скрывает их. Обычно к этому прибавляется еще situational awareness: модель понимает, когда ее тестируют, и ведет себя в такие моменты как паинька, а потом начинает действовать во вред.
Основные два вопроса: (1) как понять, что модель действительно безопасная, а не просто делает вид; (2) как обучать модель так, чтобы она действительно была безопасной, а не делала вид.
OpenAI предлагают подход под названием Deliberative Alignment. Систему учат размышлять о правилах безопасности перед тем, как действовать, и делают это в специальных средах.
Обученные модели тестировали в таких же средах, но на других задачах. Это как раз чтобы не было situational awareness (+ проверка на генерализацию). Сценарии там все ориентированы на ложь, саботаж и всякие штуки типа дилеммы заключенного.
Результат: до обучения модели читерят постоянно. o3, например, в 13% случаев. Доходит до того, что агент искажает саму спецификацию, стараясь оправдать ее свои очевидно жульнические действия. После обучения доля понижается до 0.3-0.4%.
НО. Во-первых, во многих случаях модель все еще понимает, что ее тестируют. И если искусственно убирать из CoT фразы, показывающие это осознание (как бы стирать это из мыслей модели), доля обмана снова резко растет. А во-вторых, если после такого элаймента снова трейнить модель на улучшение общих способностей, вредоносное поведение опять возвращается.
Сам метод, конечно, интересный, и, наверное, даже рабочий, пока у агентов нет в руках реальных инструментов, которые могут принести вред. Но точно не панацея. И как избавиться от scheming полностью – пока так никто и не знает. GG
openai.com/index/detecting-and-reducing-scheming-in-ai-models/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🤯52❤27🤔13😁7🔥5🤨3🗿2
В DeepMind с помощью ИИ нашли новые решения фундаментальных уравнений гидродинамики. Ученые бьются над ними уже веками.
Помните, мы писали о том, что Google с помощью ИИ намеревается решить одну из математических проблем тысячелетия? Кажется, у них там наметились первые подвижки.
Они совместно с учёными из Brown University, NYU и Стэнфорда разработали метод, с помощью которого обнаружили новое семейство сингулярностей в классических уравнениям гидродинамики.
Сингулярности – это такие решения системы, где физические величины (скорость, давление и др.) могут становиться бесконечными или не определёнными. В физическом мире это похоже на формирование идеального вихря, в котором энергия концентрируется в бесконечно малой области. Математически в таких ситуациях предсказания уравнений теряют смысл.
Так вот никто до сих пор точно не знает, могут ли такие сингулярности возникать в реальности. Найти сингулярность невероятно сложно, даже суперкомпьютеры не справляются с таким объемом вычислений. Собственно, задача тысячелетия – это либо доказать, что в уравнении Навье-Стокса существует хотя бы одна устойчивая сингулярность, либо доказать, что таких нет.
Google удалось с помощью ИИ на шажок приблизиться к решению. Они нашли новое семейство сингулярностей для класса уравнений, похожих на Навье-Стокса. Более того, они выявили общий паттерн того, как растет нестабильность таких решений. Раньше никаких аналитических соображений в этом направлении не существовало.
Архитектура: гибридный метод на основе PINN (Physics-Informed Neural Networks). Это прямо очень интересно. Смотрите:
В лосс сети зашиваются непосредственно уравнения в частных производных. То есть модель, по сути, учится соблюдать физику – законы сохранения массы, энергии и импульса.
И на основе этих знаний ее задача затем – найди начальные условия, приводящие к сингулярности. PINN генерирует кандидатов → симулятор проверяет → сеть корректирует параметры. Много-много таких циклов спустя и нашлись несколько сингулярностей.
И да, пока это не решает основную задачу. Но (1) теперь есть зачатки какого-то решения, и это поразительно; (2) Google опубликовали начальные условия, так что теперь с ними могут продолжить работать математики и физики всего мира.
Помните, мы писали о том, что Google с помощью ИИ намеревается решить одну из математических проблем тысячелетия? Кажется, у них там наметились первые подвижки.
Они совместно с учёными из Brown University, NYU и Стэнфорда разработали метод, с помощью которого обнаружили новое семейство сингулярностей в классических уравнениям гидродинамики.
Сингулярности – это такие решения системы, где физические величины (скорость, давление и др.) могут становиться бесконечными или не определёнными. В физическом мире это похоже на формирование идеального вихря, в котором энергия концентрируется в бесконечно малой области. Математически в таких ситуациях предсказания уравнений теряют смысл.
Так вот никто до сих пор точно не знает, могут ли такие сингулярности возникать в реальности. Найти сингулярность невероятно сложно, даже суперкомпьютеры не справляются с таким объемом вычислений. Собственно, задача тысячелетия – это либо доказать, что в уравнении Навье-Стокса существует хотя бы одна устойчивая сингулярность, либо доказать, что таких нет.
Google удалось с помощью ИИ на шажок приблизиться к решению. Они нашли новое семейство сингулярностей для класса уравнений, похожих на Навье-Стокса. Более того, они выявили общий паттерн того, как растет нестабильность таких решений. Раньше никаких аналитических соображений в этом направлении не существовало.
Архитектура: гибридный метод на основе PINN (Physics-Informed Neural Networks). Это прямо очень интересно. Смотрите:
В лосс сети зашиваются непосредственно уравнения в частных производных. То есть модель, по сути, учится соблюдать физику – законы сохранения массы, энергии и импульса.
И на основе этих знаний ее задача затем – найди начальные условия, приводящие к сингулярности. PINN генерирует кандидатов → симулятор проверяет → сеть корректирует параметры. Много-много таких циклов спустя и нашлись несколько сингулярностей.
И да, пока это не решает основную задачу. Но (1) теперь есть зачатки какого-то решения, и это поразительно; (2) Google опубликовали начальные условия, так что теперь с ними могут продолжить работать математики и физики всего мира.
1❤🔥158🔥66❤33 15👍12👏5😁5🤯1 1
Media is too big
VIEW IN TELEGRAM
В X все любуются новой атмосферной рекламой, которую сняли Anthropic
Полюбуйтесь и вы (со звуком)
Полюбуйтесь и вы (со звуком)
There has never been a better time to have a problem. Сейчас лучшее время, чтобы иметь проблему.
1🔥103🤯103😍33❤18🗿9 4👍3👌2😁1🕊1