Исследователи из лабы SakanaAI предложили новую архитектуру нейросетей, вдохновленную биологическими нейронными процессами – Continuous Thought Machine
Кстати, SakanaAI – это та самая японская лаборатория, выпустившая ИИ-ученого, статья которого прошла рецензирование на ICLR воркшоп. Ну так вот⬇️
Ключевая фишка CTM (Continuous Thought Machine) в наличии тиков мыслей. Аналогия с мозгом тут в том, что человек на самом деле не получает ответы за один "проход" по нейронам, как это делается, например, в трансформерах.
Живые нейроны активны всё время, через миллисекунды после первого сигнала информация осмысливается глубже, подключаются новые области коры и тд. Это и называется "тик". В нейросетях один тик – это как бы один прямой проход. В трансформерах для получения ответа тик всегда один, а в CTM их может быть и 5, и 10, и 50. Модель сама решает, сколько ей нужно – в зависимости от сложности задачи.
При этом проходы не независимые. Для каждого нейрона мы храним историю пред- и пост-активаций, чтобы он мог «смотреть» на свою динамику на предыдущих тиках. И, кстати, нейроны в CTM тоже необычные. Здесь это не просто сумма взвешенных входов, как в большинстве моделей, а самостоятельный мини-перцептрон (MLP). Все это тоже построено на аналогиях из биологии.
Ну и еще одна ключевая особенность CTM – это синхронизация нейронов. В нейробиологии считается, что важны не столько независимые активации нейронов, сколько то, как и когда они активируются относительно друг друга. Нейроны, чьи осцилляции или пики потенциала происходят синхронно, чаще участвуют в совместной обработке информации.
Поэтому здесь специально вычисляется так называемая матрица синхронизаций. Она показывает скалярные корреляции временных рядов активаций. Самые важные подмножества затем идут либо в слой внимания, либо напрямую проецируются в логиты.
И да, все это вполне прилично (и иногда лучше классических архитектур) работает на классических задачах типа ImageNet-1K, CIFAR-10 и MNIST, а еще модель отлично решает лабиринты.
В общем, работа большая и сложная, но в статье все расписано вполне доходчиво, так что советуем почитать полностью или полистать интерактивный репорт
Код в опенсорсе, кстати
Кстати, SakanaAI – это та самая японская лаборатория, выпустившая ИИ-ученого, статья которого прошла рецензирование на ICLR воркшоп. Ну так вот
Ключевая фишка CTM (Continuous Thought Machine) в наличии тиков мыслей. Аналогия с мозгом тут в том, что человек на самом деле не получает ответы за один "проход" по нейронам, как это делается, например, в трансформерах.
Живые нейроны активны всё время, через миллисекунды после первого сигнала информация осмысливается глубже, подключаются новые области коры и тд. Это и называется "тик". В нейросетях один тик – это как бы один прямой проход. В трансформерах для получения ответа тик всегда один, а в CTM их может быть и 5, и 10, и 50. Модель сама решает, сколько ей нужно – в зависимости от сложности задачи.
При этом проходы не независимые. Для каждого нейрона мы храним историю пред- и пост-активаций, чтобы он мог «смотреть» на свою динамику на предыдущих тиках. И, кстати, нейроны в CTM тоже необычные. Здесь это не просто сумма взвешенных входов, как в большинстве моделей, а самостоятельный мини-перцептрон (MLP). Все это тоже построено на аналогиях из биологии.
Ну и еще одна ключевая особенность CTM – это синхронизация нейронов. В нейробиологии считается, что важны не столько независимые активации нейронов, сколько то, как и когда они активируются относительно друг друга. Нейроны, чьи осцилляции или пики потенциала происходят синхронно, чаще участвуют в совместной обработке информации.
Поэтому здесь специально вычисляется так называемая матрица синхронизаций. Она показывает скалярные корреляции временных рядов активаций. Самые важные подмножества затем идут либо в слой внимания, либо напрямую проецируются в логиты.
И да, все это вполне прилично (и иногда лучше классических архитектур) работает на классических задачах типа ImageNet-1K, CIFAR-10 и MNIST, а еще модель отлично решает лабиринты.
В общем, работа большая и сложная, но в статье все расписано вполне доходчиво, так что советуем почитать полностью или полистать интерактивный репорт
Код в опенсорсе, кстати
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍126❤43🔥36🤯6🤨5❤🔥2🤔1🐳1🍓1
Data Secrets
Так-так: кажется, OpenAI больше не хочет делиться деньгами с Microsoft 💸 The Information пишет, что после реструктуризации OpenAI планирует сократить долю выручки, которую делит с Microsoft. Сейчас это 20%, и договор действителен до 2030 года. Но уже сейчас…
Помните новость о том, что OpenAI планирует резко срезать долю выручки, которую делит с Microsoft?
Так вот теперь вспыли новые подробности о том, что одновременно с этим OpenAI также ведет с теми же Microsoft переговоры о... новом раунде инвестиций🤑
Да, хорошо устроились. Но это не все. Кажется, что Microsoft (на сегодняшний день, к слову, они инвестировали в OpenAI уже более 13 миллиардов долларов) стоит перед не очень приятным выбором. После реструктуризации OpenAI они могут потерять либо доступ к интеллектуальной собственности стартапа (то есть к моделям), либо долю с выручку.
И, кажется, Microsoft собирается отказаться от второго в пользу первого. Новый контракт с OpenAI, скорее всего, будет похож на тот, который они с Microsoft заключали в 2019, когда гигант только вложил первый миллиард в стартап.
Другими словами, Microsoft, вероятно, почти полностью откажется от доли в новом коммерческом OpenAI просто в обмен на доступ к новым технологиям, которые будут разрабатываться в OpenAI после 2030 года.
Удачно вложились🫡
Так вот теперь вспыли новые подробности о том, что одновременно с этим OpenAI также ведет с теми же Microsoft переговоры о... новом раунде инвестиций
Да, хорошо устроились. Но это не все. Кажется, что Microsoft (на сегодняшний день, к слову, они инвестировали в OpenAI уже более 13 миллиардов долларов) стоит перед не очень приятным выбором. После реструктуризации OpenAI они могут потерять либо доступ к интеллектуальной собственности стартапа (то есть к моделям), либо долю с выручку.
И, кажется, Microsoft собирается отказаться от второго в пользу первого. Новый контракт с OpenAI, скорее всего, будет похож на тот, который они с Microsoft заключали в 2019, когда гигант только вложил первый миллиард в стартап.
Другими словами, Microsoft, вероятно, почти полностью откажется от доли в новом коммерческом OpenAI просто в обмен на доступ к новым технологиям, которые будут разрабатываться в OpenAI после 2030 года.
Удачно вложились
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔79🤯31❤14😁7🦄7👍5😎2👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Китайский агент Manus с сегодняшнего дня открыт для всех без листа ожидания
Про самого агента и его особенности мы писали вот тут. Напоминаем, что это реально автономный и универсальный ИИ-агент, который по сути представляет из себя Cursor, Operator и Deep Research в одном флаконе.
Кроме того, агент частично бесплатный: каждый день они выдают по 300 кредитов на пользователя (это примерно одна задача средней сложности), а при регистрации единовременно начисляют 1000 кредитов.
Пробуем первыми тут
P.S. Для входа нужно включить VPN, а затем верифицировать номер телефона. С российскими номерами тоже работает, если выбрать в списке стран Казахстан.
Про самого агента и его особенности мы писали вот тут. Напоминаем, что это реально автономный и универсальный ИИ-агент, который по сути представляет из себя Cursor, Operator и Deep Research в одном флаконе.
Кроме того, агент частично бесплатный: каждый день они выдают по 300 кредитов на пользователя (это примерно одна задача средней сложности), а при регистрации единовременно начисляют 1000 кредитов.
Пробуем первыми тут
P.S. Для входа нужно включить VPN, а затем верифицировать номер телефона. С российскими номерами тоже работает, если выбрать в списке стран Казахстан.
❤118👍45🔥26😁21💯1🏆1
LLM превзошли врачей на новом бенчмарке OpenAI по медицине
HealthBench вышел вчера и состоит не просто из вопросов, а из синтетических диалогов между ассистентом и пользователем. Каждый такой диалог заканчивается сообщением пользователя, на который уже тестируемая модель должна ответить.
Таких диалогов аж 5000 и они разрабатывались совместно с 262 врачами из 26 разных областей. Ответы оцениваются по пяти осям: точность, полнота, понимание контекста, качество коммуникации и следование инструкциям.
Вот какие результаты получились:
➖ Самой эффективной моделью оказалась o3 с результатом 60%. Сразу за ней Grok-3 (54%) и Gemini 2.5 Pro (52%)
➖ У живых врачей результаты сильно ниже. Без опоры на ИИ-ответы люди набирают около 13%.
➖ При этом люди затрудняются даже улучшить ответы ИИ. Смотрите график 3: если дать медикам посмотреть на несколько ответов моделей из сентябрьского поколения и попросить написать на их основе идеальный ответ, люди улучшают средний скор на несколько процентных пунктов (0.31 против 0.28). Но с новыми апрельскими моделями так уже не работает: люди только ухудшают ответы ИИ (0.48 против 0.49).
Кстати, еще менее года назад GPT-3.5 Turbo выбивал всего 16%. Интересно, что будет еще через год.
cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
HealthBench вышел вчера и состоит не просто из вопросов, а из синтетических диалогов между ассистентом и пользователем. Каждый такой диалог заканчивается сообщением пользователя, на который уже тестируемая модель должна ответить.
Таких диалогов аж 5000 и они разрабатывались совместно с 262 врачами из 26 разных областей. Ответы оцениваются по пяти осям: точность, полнота, понимание контекста, качество коммуникации и следование инструкциям.
Вот какие результаты получились:
Кстати, еще менее года назад GPT-3.5 Turbo выбивал всего 16%. Интересно, что будет еще через год.
cdn.openai.com/pdf/bd7a39d5-9e9f-47b3-903c-8b847ca650c7/healthbench_paper.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍100🤯60🔥31❤9☃4❤🔥3😁2👻2🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Журналисты раскритиковали стиль управления Альтмана на основании того, как он… готовит
Нет, это не шутка. На выходных вышел еженедельный выпуск кулинарного шоу от Financial Times, гостем стал Сэм Альтман. У себя на кухне он вместе с журналистом готовил обычную овощную пасту.
Казалось бы, ничего не предвещало беды. Но вчера у того же FT внезапно вышла статья, в которой они в пух и прах раскритиковали CEO на основании его… кухни. Вот что пишут:
➖ Альтман неправильно использует оливковое масло. Оно у него якобы очень распиаренное и дорогое (21$), но он на нем жарит, а так делать «нельзя». Весь вкус, мол, теряется, и пользы от дорогого продукта становится не больше, чем он самого дешевого.
➖ На кухне стоит кофемашина за 2к долларов. Опять же очень распиаренная но, по словам журналистов, абсолютно бесполезная и глючная. Они называют эту вещь «деньгами на ветер» и «самой глупой покупкой».
➖ Ну и финалочка: журналистов не устроил нож. Он тоже выглядит дорогим и даже сделанным на заказ, но предприниматель «абсолютно не умеет им пользоваться».
В общем, Альтмана обвинили в том, что он транжира, жертва маркетинга и вообще не умеет управлять ни кухней, ни компанией.
«Его кухня – это мир неэффективности и непонимания. Сжигание денег это основа его жизни и его бизнеса»
Вот так и зови к себе журналистов на обед🤷♂️
Нет, это не шутка. На выходных вышел еженедельный выпуск кулинарного шоу от Financial Times, гостем стал Сэм Альтман. У себя на кухне он вместе с журналистом готовил обычную овощную пасту.
Казалось бы, ничего не предвещало беды. Но вчера у того же FT внезапно вышла статья, в которой они в пух и прах раскритиковали CEO на основании его… кухни. Вот что пишут:
В общем, Альтмана обвинили в том, что он транжира, жертва маркетинга и вообще не умеет управлять ни кухней, ни компанией.
«Его кухня – это мир неэффективности и непонимания. Сжигание денег это основа его жизни и его бизнеса»
Вот так и зови к себе журналистов на обед
Please open Telegram to view this post
VIEW IN TELEGRAM
😁364👍33🤯30🦄14❤11🤨9🏆4👀4❤🔥2👻1
Intellect-2 или как обучить ризонинг модель на 32В без кластера GPU
Помните, примерно пол года назад мы рассказывали вам, как в стартапе Prime Intellect впервые децентрализованно обучили крупную LM?
Так вот теперь исследователи пошли дальше и обучили уже не просто какую-то LM-ку, а достаточно крупный ризонер. И все еще – без собственных видеокарт.
Все обучение проходило децентрализовано, то есть на серверах (часто домашних), разбросанных по всему миру и принадлежащих разным людям. Подключить свою машину, кстати, мог любой желающий. В области RL такое впервые.
Проект, конечно, очень инженерно сложный. Например, вместо обычного RL исследователям пришлось мучиться с асинхронным, а обмен весами осуществлять по специальному протоколу Shardcast.
Сами разработчики говорят, что они стремятся к чему-то типа модели Биткоина: чтобы ИИ был полностью децентрализован, и обучать модели мог каждый желающий.
Ждем Airbnb для GPU
Помните, примерно пол года назад мы рассказывали вам, как в стартапе Prime Intellect впервые децентрализованно обучили крупную LM?
Так вот теперь исследователи пошли дальше и обучили уже не просто какую-то LM-ку, а достаточно крупный ризонер. И все еще – без собственных видеокарт.
Все обучение проходило децентрализовано, то есть на серверах (часто домашних), разбросанных по всему миру и принадлежащих разным людям. Подключить свою машину, кстати, мог любой желающий. В области RL такое впервые.
Проект, конечно, очень инженерно сложный. Например, вместо обычного RL исследователям пришлось мучиться с асинхронным, а обмен весами осуществлять по специальному протоколу Shardcast.
Сами разработчики говорят, что они стремятся к чему-то типа модели Биткоина: чтобы ИИ был полностью децентрализован, и обучать модели мог каждый желающий.
Ждем Airbnb для GPU
🔥201👍52❤24😁3❤🔥2
Data Secrets
Пу-пу-пу, тот самый понедельник после майских. Чтобы немного поднять всем настроение, несем с утра приятную новость Пока все отдыхали на шашлыках, мы с командой торопились поскорее закончить для вас кое-что особенное. И это – большой конспект по большим…
Конспект LLM.pdf
38 MB
Большой коспект по LLM от нашей команды 👍
Мы долго трудились и наконец готовы представить вам наш большой авторский конспект по языковым моделям. Почти 50 страниц, 7 разделов и все, что нужно, чтобы понять, как работают современные LLM. Внутри:
➖ Краткая история LLM от перцептрона до ризонинг-моделей
➖ Необходимая математика: линал и матанализ на пальцах
➖ Все про механизм внимания и трансформеры от А до Я
➖ Дотошное объяснения процесса предобучения
➖ Практический гайд "Как самостоятельно затюнить модель"
➖ RL – с нуля до ризонинга
Все – в иллюстрациях, схемах и интуитивно понятных примерах.
Сохраняйте, делитесь с друзьями и ставьте ❤️
Мы долго трудились и наконец готовы представить вам наш большой авторский конспект по языковым моделям. Почти 50 страниц, 7 разделов и все, что нужно, чтобы понять, как работают современные LLM. Внутри:
Все – в иллюстрациях, схемах и интуитивно понятных примерах.
Сохраняйте, делитесь с друзьями и ставьте ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
868❤1.12K🔥262👍145❤🔥25⚡10🕊10☃8🤯8🤨6🤝6🍓1
Только что заметили, что пост с PDF конспекта почему-то вышел с закрытыми комментариями 🤷♂️
Поэтому это – специальный пост с открытыми комментариями для вашей обратной связи. Мы всегда ей рады!
Поэтому это – специальный пост с открытыми комментариями для вашей обратной связи. Мы всегда ей рады!
Please open Telegram to view this post
VIEW IN TELEGRAM
4😁141❤66👍26😎12
This media is not supported in your browser
VIEW IN TELEGRAM
Робототехники Tesla показали новое демо с танцующим Optimus
На этот раз робот (вроде как) не управляется человеком, и, более того – утверждается, что инженерам удалось сделать sim2real в zero-shot, то есть с нулевым дообучением.
Объясняем, что это значит. Optimus, как и почти все современные роботы, обучается в симуляции, то есть в среде, которая моделирует физику нашего мира. В таких симуляциях сотни часов обучающих данных можно сжимать в часы, и тем самым ускорять обучение в тысячи раз.
Но есть нюанс. При переходе из симуляции в реальность роботы обычно теряют часть способностей, потому что реальная физика все-таки отличается от смоделированной. Это обычно приводит к тому, что роботов все равно прихоходится дополнительно дообучать под реальный мир. Это и называется sim2real.
Так вот в Tesla утверждают, что им удалось сделать sim2real без дообучения, сразу перекинув все обученные RL политики из симуляции в реальность (и в итоге это выглядит, как на видео). А еще говорят, что и на новые навыки их подход мастабируется легко. Если все так – это просто прорыв для Tesla.
Технические детали не раскрывают, но они не первые, кому удался такой трюк. Некоторое время назад такой zero-shot впервые сделали в стартапе FigureAI (наш пост разбор). У них это было за счет больших затрат на мега-высокоточную симуляцию и чувствительность двигателей реального робота. Здесь, предположительно, что-то похожее.
x.com/Tesla_Optimus/status/1922456791549427867
На этот раз робот (вроде как) не управляется человеком, и, более того – утверждается, что инженерам удалось сделать sim2real в zero-shot, то есть с нулевым дообучением.
Объясняем, что это значит. Optimus, как и почти все современные роботы, обучается в симуляции, то есть в среде, которая моделирует физику нашего мира. В таких симуляциях сотни часов обучающих данных можно сжимать в часы, и тем самым ускорять обучение в тысячи раз.
Но есть нюанс. При переходе из симуляции в реальность роботы обычно теряют часть способностей, потому что реальная физика все-таки отличается от смоделированной. Это обычно приводит к тому, что роботов все равно прихоходится дополнительно дообучать под реальный мир. Это и называется sim2real.
Так вот в Tesla утверждают, что им удалось сделать sim2real без дообучения, сразу перекинув все обученные RL политики из симуляции в реальность (и в итоге это выглядит, как на видео). А еще говорят, что и на новые навыки их подход мастабируется легко. Если все так – это просто прорыв для Tesla.
Технические детали не раскрывают, но они не первые, кому удался такой трюк. Некоторое время назад такой zero-shot впервые сделали в стартапе FigureAI (наш пост разбор). У них это было за счет больших затрат на мега-высокоточную симуляцию и чувствительность двигателей реального робота. Здесь, предположительно, что-то похожее.
x.com/Tesla_Optimus/status/1922456791549427867
🔥93👍43❤22😁2🗿2
В Meta разработали оптимизационный фреймворк CATransformers, который позволяет минимизировать углеродный след от обучения и инференса
Индустрия постепенно вспоминает про экологию. Сегодня есть уже много подходов, которые оптимизируют энергопотребление железа, и вот сегодня Meta выпустили первый в своем роде конструктор, который помимо этого минимизирует еще и выбросы углерода.
Работает так -> Вы запускаете CATransformers перед обучением, и он подбирает вам оптимальные или квази-оптимальные параметры железа и модели относительно четырех параметров: точность, скорость, энергопотребление и углеродный след.
Под капотом это похоже на гридсерч. Алгоритм перебирает параметры и для каждого набора быстренько обучает на эмулированном железе proxy-модель. На таких моделях замеряются необходимые метрики, а итоговые гиперпараметры выбираются с помощью байесовской оптимизации.
Приятная работа
arxiv.org/abs/2505.01386
Индустрия постепенно вспоминает про экологию. Сегодня есть уже много подходов, которые оптимизируют энергопотребление железа, и вот сегодня Meta выпустили первый в своем роде конструктор, который помимо этого минимизирует еще и выбросы углерода.
Работает так -> Вы запускаете CATransformers перед обучением, и он подбирает вам оптимальные или квази-оптимальные параметры железа и модели относительно четырех параметров: точность, скорость, энергопотребление и углеродный след.
Под капотом это похоже на гридсерч. Алгоритм перебирает параметры и для каждого набора быстренько обучает на эмулированном железе proxy-модель. На таких моделях замеряются необходимые метрики, а итоговые гиперпараметры выбираются с помощью байесовской оптимизации.
Приятная работа
arxiv.org/abs/2505.01386
🔥63👍22❤15😁10🫡4🤨3🤔2
Радостные новости: Anthropic все-таки выпустит новый Claude Opus
В прошлых релизах приставка Opus означала самую большую модель, а Sonnet – среднюю. Но начиная с версии 3.5 Opus не выходил – был только Sonnet и Haiku, а из ризонинг моделей вообще один Sonnet.
Но The Information только что написали, что линейка Opus может возродиться, и новые ризонинг модели Opus и Sonnet выйдут уже в ближайшие недели.
Более того, это будут какие-то необычные ризонинг-модели: в них будет режим «экстремальных рассуждений». Модель будет работать в цикле: думать -> обращаться к инструментам (интерпретатор или браузер) -> снова думать, анализируя результаты -> снова обращаться к инструментам и тд. В общем, что-то ближе к агентам.
www.theinformation.com/articles/anthropics-upcoming-models-will-think-think
В прошлых релизах приставка Opus означала самую большую модель, а Sonnet – среднюю. Но начиная с версии 3.5 Opus не выходил – был только Sonnet и Haiku, а из ризонинг моделей вообще один Sonnet.
Но The Information только что написали, что линейка Opus может возродиться, и новые ризонинг модели Opus и Sonnet выйдут уже в ближайшие недели.
Более того, это будут какие-то необычные ризонинг-модели: в них будет режим «экстремальных рассуждений». Модель будет работать в цикле: думать -> обращаться к инструментам (интерпретатор или браузер) -> снова думать, анализируя результаты -> снова обращаться к инструментам и тд. В общем, что-то ближе к агентам.
www.theinformation.com/articles/anthropics-upcoming-models-will-think-think
❤87🔥43👍28⚡2👏2🤯2
GPT-4.1 добавили в ChatGPT
Напоминаем, что это лучшая не-ризонинг модель стартапа для программирования, она обгоняет даже o1-high. Плюс контекст 1 миллион токенов.
Ранее модель была доступна только в API и через сторонних вендоров типа Cursor. Но, видимо, спрос был настолько велик, что ее добавили и в чат.
🍯 Модель уже раскатали на Plus, Pro и Team, а мини-версия – GPT-4.1 mini – скоро заменит GPT-4o mini для всех, включая бесплатных юзеров.
Напоминаем, что это лучшая не-ризонинг модель стартапа для программирования, она обгоняет даже o1-high. Плюс контекст 1 миллион токенов.
Ранее модель была доступна только в API и через сторонних вендоров типа Cursor. Но, видимо, спрос был настолько велик, что ее добавили и в чат.
🍯 Модель уже раскатали на Plus, Pro и Team, а мини-версия – GPT-4.1 mini – скоро заменит GPT-4o mini для всех, включая бесплатных юзеров.
👍119🔥37❤31
Google анонсировали кодинг-агента AlphaEvolve, предназначенного специально для разработки сложных алгоритмов
Инженеры утверждают, что на тестах этой системе удалось:
– Идентифицировать несколько абсолютно новых алгоритмов для эффективного умножения матриц. Один из них даже оказался эффективнее известного алгоритма Штрассена (1969, кстати).
– В 75% найти лучшие известные на данный момент решения открытых мировых задач по математике, и в 20% улучшить ранее известные решения (то есть открыть новые подходы).
И это не все. Внутри экосистемы Google AlphaEvolve работает уже год. За это время с его помощью они успели оптимизировать несколько датацентров, обучение и инференс моделей и даже использовали ассистента для проектирования железа.
Под капотом цикл: обработка контекста -> генерация идей и решений -> оценка и скоринг этих решений -> добавление лучших решений в контекст для дальнейшего улучшения -> и с начала.
Потрогать пока, конечно, не дают, поэтому будем ждать
deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
Инженеры утверждают, что на тестах этой системе удалось:
– Идентифицировать несколько абсолютно новых алгоритмов для эффективного умножения матриц. Один из них даже оказался эффективнее известного алгоритма Штрассена (1969, кстати).
– В 75% найти лучшие известные на данный момент решения открытых мировых задач по математике, и в 20% улучшить ранее известные решения (то есть открыть новые подходы).
И это не все. Внутри экосистемы Google AlphaEvolve работает уже год. За это время с его помощью они успели оптимизировать несколько датацентров, обучение и инференс моделей и даже использовали ассистента для проектирования железа.
Под капотом цикл: обработка контекста -> генерация идей и решений -> оценка и скоринг этих решений -> добавление лучших решений в контекст для дальнейшего улучшения -> и с начала.
Потрогать пока, конечно, не дают, поэтому будем ждать
deepmind.google/discover/blog/alphaevolve-a-gemini-powered-coding-agent-for-designing-advanced-algorithms/
❤92🔥66👍29🤯11🤔3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Случился коллаб года: Kaggle объединились с HuggingFace и теперь все модели, доступные на HF, можно моментально напрямую запускать в Kaggle Notebooks
Этим можно пользоваться и на одной платформе, и на другой. Например, если вы перешли в карточку модели на HF, то теперь там можно ткнуть на “Use this model” -> “Kaggle”, и сразу откроется ноутбук с подгруженной моделью.
То же самое можно сделать с вкладки HuggingFace на Kaggle по кнопке "Code". Также там будут видны все открытые относящиеся к этой модели ноутбуки других пользователей.
Обещают, что скоро будут и другие интересные фичи
Этим можно пользоваться и на одной платформе, и на другой. Например, если вы перешли в карточку модели на HF, то теперь там можно ткнуть на “Use this model” -> “Kaggle”, и сразу откроется ноутбук с подгруженной моделью.
То же самое можно сделать с вкладки HuggingFace на Kaggle по кнопке "Code". Также там будут видны все открытые относящиеся к этой модели ноутбуки других пользователей.
Обещают, что скоро будут и другие интересные фичи
🔥336❤35⚡25👍21😁3🐳3🤔2🕊2
DeepSeek выпустили новую статью, в которой поделились большим списком инженерных хаков по обучению и инференсу моделей
Все, что не убивает, делает сильнее. DeepSeek в условиях санкций на оборудование уже собрали целый список того, что помогает им даже при большом дефиците железа содержать свои системы и обучать модели. Ну и, как истинные любители открытости, всеми этими фичами они решили поделиться просто так.
Топ-3:
1. Multi-head Latent Attention. Это метод сжатия KV-кеша, позволяющий радикально сократить объём памяти, необходимый для хранения ключей и значений из всех attention-голов. Идея в том, чтобы вместо хранения всех сырых K/V векторов для каждого хэдa проектировать их в компактный обучающийся латентный вектор небольшой размерности. В итоге вместо квадратичного роста хранимых данных получается линейный.
2. FP8 Mixed-Precision Training и Inference. Инженерная стратегия, которая позволяет при обучении модели одновременно использовать и более легкие числа в формате FP8, и более точные в FP16 / FP22/FP32. Так мы балансируем между производительностью и стабильностью, а затраты и энергопотребление падают почти в два раза.
3. Multi-Token Prediction. Это значит, что вместо генерации по одному токену модель пытается предсказать сразу несколько (например 2–4) следующих токена. Токены-кандидаты генерирует отдельный легковесный слой, а основная модель их просто сверяет с истинным декодингом. Если совпадают – принимаются без дорасчёта. Это дает ускорение инференса до 1.8х без потерь в качестве.
В статье – еще несколько интересных советов (некоторые мы даже уже разбирали во время опенсорса DeepSeek), так что трушным инженерам советуем почитать полностью.
Мир им: строгие запреты на ввоз железа
Они всему миру: детальные открытые советы по оптимизации этого железа
Респект же
Все, что не убивает, делает сильнее. DeepSeek в условиях санкций на оборудование уже собрали целый список того, что помогает им даже при большом дефиците железа содержать свои системы и обучать модели. Ну и, как истинные любители открытости, всеми этими фичами они решили поделиться просто так.
Топ-3:
1. Multi-head Latent Attention. Это метод сжатия KV-кеша, позволяющий радикально сократить объём памяти, необходимый для хранения ключей и значений из всех attention-голов. Идея в том, чтобы вместо хранения всех сырых K/V векторов для каждого хэдa проектировать их в компактный обучающийся латентный вектор небольшой размерности. В итоге вместо квадратичного роста хранимых данных получается линейный.
2. FP8 Mixed-Precision Training и Inference. Инженерная стратегия, которая позволяет при обучении модели одновременно использовать и более легкие числа в формате FP8, и более точные в FP16 / FP22/FP32. Так мы балансируем между производительностью и стабильностью, а затраты и энергопотребление падают почти в два раза.
3. Multi-Token Prediction. Это значит, что вместо генерации по одному токену модель пытается предсказать сразу несколько (например 2–4) следующих токена. Токены-кандидаты генерирует отдельный легковесный слой, а основная модель их просто сверяет с истинным декодингом. Если совпадают – принимаются без дорасчёта. Это дает ускорение инференса до 1.8х без потерь в качестве.
В статье – еще несколько интересных советов (некоторые мы даже уже разбирали во время опенсорса DeepSeek), так что трушным инженерам советуем почитать полностью.
Мир им: строгие запреты на ввоз железа
Они всему миру: детальные открытые советы по оптимизации этого железа
Респект же
❤264🔥106👍63🫡3🤔1
Nvidia построит огромный датацентр вместе с ИИ-стартапом Humain из Саудовской Аравии
Компания поставит для этого более 18 тысяч чипов, и не каких-нибудь, а GB300 Blackwell.
Самое интересное, что Humain принадлежит суверенному фонду Саудовской Аравии, то есть по сути – государству. Сегодня совокупные активы фонда оцениваются в 430 миллиардов долларов.
Nvidia видимо решили действовать по-крупному, пока и туда поставки не запретили
Компания поставит для этого более 18 тысяч чипов, и не каких-нибудь, а GB300 Blackwell.
Самое интересное, что Humain принадлежит суверенному фонду Саудовской Аравии, то есть по сути – государству. Сегодня совокупные активы фонда оцениваются в 430 миллиардов долларов.
Nvidia видимо решили действовать по-крупному, пока и туда поставки не запретили
👍78😁32🔥12❤7🤔1🐳1
Сегодня в 18:00 стрим OpenAI для «разработчиков и тех, кто хочет ими стать»
Напоминаем, что уже во вторник пройдет Google I/O, так что, следуя добрым традициям конкуренции, сегодня OpenAI должны показать что-то заслуживающее внимания.
Может что-то связанное с недавней покупкой Windsurf?
Напоминаем, что уже во вторник пройдет Google I/O, так что, следуя добрым традициям конкуренции, сегодня OpenAI должны показать что-то заслуживающее внимания.
Может что-то связанное с недавней покупкой Windsurf?
😁67👍26🔥16
О, Kaggle объединились с OpenAI и запускают конкурс по нахождению ранее неизвестных человечеству археологических объектов
Это, кстати, первое в истории Kaggle ключевое соревнование, то есть оно будет специально выделено как главное на платформе. Призовой фонд – 400 тысяч долларов, за первое место заплатят $250,000 (правда наличными только половину, остальное кредитами OpenAI).
Задача – взять открытые данные со спутниковых снимков и карт + любую модель от OpenAI и предложить пайплайн, который сможет выявлять наличие археологических объектов. Если среди найденных объектов окажутся те, которых нет в существующих базах данных, то можете рассчитывать на приз.
Для трушных Индиан Джонсов
www.kaggle.com/competitions/openai-to-z-challenge/
Это, кстати, первое в истории Kaggle ключевое соревнование, то есть оно будет специально выделено как главное на платформе. Призовой фонд – 400 тысяч долларов, за первое место заплатят $250,000 (правда наличными только половину, остальное кредитами OpenAI).
Задача – взять открытые данные со спутниковых снимков и карт + любую модель от OpenAI и предложить пайплайн, который сможет выявлять наличие археологических объектов. Если среди найденных объектов окажутся те, которых нет в существующих базах данных, то можете рассчитывать на приз.
Для трушных Индиан Джонсов
www.kaggle.com/competitions/openai-to-z-challenge/
❤135🔥59👍33🤔3