Покер у Сэма Альтмана или как ИИ-стартапы охотятся за талантами
Reuters опубликовали занятную статью про то, как ведущие ИИ-игроки сражаются за талантливых ученых. Без предисловий, просто прочитайте это:
➖ Ноам Браун (ныне ведущий ученый OpenAI) рассказал, что когда в 2023 году искал работу, к нему выстроилась целая очередь "поклонников". Он ездил на обед к сооснователю Google Сергею Брину, играл в покер у Альтмана, встречался с инвестором, который прилетел к нему на частном самолете, разговаривал по телефону лично с Илоном Маском. Кстати, сейчас неизвестно, сколько Браун получает в OpenAI, но он сказал, что это было "не самое щедрое предложение", просто ему понравился проект.
➖ Недавно в OpenAI выплатили "бонусы" по 2 миллиона долларов ученым, которые хотели уйти в стартап к Илье Суцкеверу, чтобы те остались. Дополнительно им предложили кратное увеличение акционерного капитала. Причем 2 миллиона – это всего лишь за один гарантированный дополнительный год работы.
➖ Ведущие исследователи OpenAI в среднем получают около 10 миллионов долларов в год помимо основной зарплаты (акции, бонусы, опционы). А в Google DeepMind – 20 миллионов.
Учите ML, друзья💸
Reuters опубликовали занятную статью про то, как ведущие ИИ-игроки сражаются за талантливых ученых. Без предисловий, просто прочитайте это:
Учите ML, друзья
Please open Telegram to view this post
VIEW IN TELEGRAM
LLM практически всегда понимают, когда их тестируют: свежее исследование от лабораторий MATS и Apollo Research
Современные LM становятся все более ситуационно осознающими – то есть могут понимать не только задачу, но и ее контекст: где они применяются, зачем их спрашивают, что от них хотят.
Самое яркое и жутковатое проявление такой осознанности – это evaluation awareness, то есть потенциальная способность модели распознавать, когда ее тестируют/оценивают/пытаются проверить на безопасность, а когда действительно просто используют. Жутковатое – потому что это чревато эффектом Хоторна (психологическое явление, когда человек меняет свое поведение, если знает, что за ним наблюдают).
Так вот здесь авторы решили проверить, насколько такое действительно возможно. Они собрали 1000 запросов, из которых половина были тестовыми, а половина реальными, и попросили модели классифицировать, где что. Итог:
➖ Ведущие LLM (Gemini 2.5 Pro, Claude 3.7 Sonnet, GPT-4.1) правильно определяют, что их тестируют, более чем в 80 процентов случаев.
➖ При этом на агентских сценариях точность вырастает до ≈ 95%.
➖ Результаты примерно сопоставимы с человеком. Люди правильно классифицируют тесты всего на несколько процентных пунктов лучше.
Конечно, из-за того что моделям напрямую задают вопрос "тест это или нет", результаты могут быть немного пристрастными. Хотя авторы пишут, что они пытались всеми силами этого избежать и специально макскировали этот промпт под множественный выбор, ответ в свободной форме и тд.
Так или иначе, очевидно, что способность отличать тесты у моделей есть. А значит и вероятность расхождения результатов проверок с поведением в реальных сценариях уже довольно высока.
www.arxiv.org/abs/2505.23836
Современные LM становятся все более ситуационно осознающими – то есть могут понимать не только задачу, но и ее контекст: где они применяются, зачем их спрашивают, что от них хотят.
Самое яркое и жутковатое проявление такой осознанности – это evaluation awareness, то есть потенциальная способность модели распознавать, когда ее тестируют/оценивают/пытаются проверить на безопасность, а когда действительно просто используют. Жутковатое – потому что это чревато эффектом Хоторна (психологическое явление, когда человек меняет свое поведение, если знает, что за ним наблюдают).
Так вот здесь авторы решили проверить, насколько такое действительно возможно. Они собрали 1000 запросов, из которых половина были тестовыми, а половина реальными, и попросили модели классифицировать, где что. Итог:
Конечно, из-за того что моделям напрямую задают вопрос "тест это или нет", результаты могут быть немного пристрастными. Хотя авторы пишут, что они пытались всеми силами этого избежать и специально макскировали этот промпт под множественный выбор, ответ в свободной форме и тд.
Так или иначе, очевидно, что способность отличать тесты у моделей есть. А значит и вероятность расхождения результатов проверок с поведением в реальных сценариях уже довольно высока.
www.arxiv.org/abs/2505.23836
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯152❤43👍22 12 10😁9🤨8🔥7💘2🍓1🎄1
Сбер выпустили собственный ИИ-фотошоп Malvina и обновили свою text2image модель Kandinsky
➖ Внутри свежего Kandinsky 4.1 Image лежит обновленная архитектура – теперь это диффузионный трансформер (DiT). На практике это значит – лучшая масштабируемость, ускорение и скачок в качестве.
Плюс, в этот раз, помимо обучения на огромном датасете пар «изображение – описание», Kandinsky дополнительно тюнили на большом сете отобранных вручную изображений (отбором, кстати, занималась команда аж из более 100 специалистов – художников, фотографов и дизайнеров). В результате сильно выросла эстетичность генераций, качество структур, понимание стилей и точность следования инструкциям.
➖ Malvina – еще более интересный релиз. Эта модель может отредактировать любое изображение просто по текстовому промпту. При этом она действительно умеет не менять исходное изображение (в отличие от GPT), а редактировать на попиксельном уровне. Может изменить цвет волос, убрать с картинки людей, заменить предметы, корректировать дефекты.
На SBS-сравнениях (вот они) Malvina обходит на основных задачах по качеству Gemini и Grok. И нет, это не преувеличение, модель говорит сама за себя: просто взгляните на примеры.
Под капотом – VLM + диффузия, так что Malvina действительно умеет очень много всего, экспериментируй – не хочу. Остаются проблемы с текстом, перемещением объектов и сменой поз людей, но разработчики обещают продолжать над этим работать.
Попробовать уже можно в тг-боте GigaChat
Плюс, в этот раз, помимо обучения на огромном датасете пар «изображение – описание», Kandinsky дополнительно тюнили на большом сете отобранных вручную изображений (отбором, кстати, занималась команда аж из более 100 специалистов – художников, фотографов и дизайнеров). В результате сильно выросла эстетичность генераций, качество структур, понимание стилей и точность следования инструкциям.
На SBS-сравнениях (вот они) Malvina обходит на основных задачах по качеству Gemini и Grok. И нет, это не преувеличение, модель говорит сама за себя: просто взгляните на примеры.
Под капотом – VLM + диффузия, так что Malvina действительно умеет очень много всего, экспериментируй – не хочу. Остаются проблемы с текстом, перемещением объектов и сменой поз людей, но разработчики обещают продолжать над этим работать.
Попробовать уже можно в тг-боте GigaChat
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤105👍49🔥23😁15🗿13⚡1🐳1👾1
Кажется, Google обновили свою лучшую модель Gemini 2.5 Pro
Судя по новостям, обновленный чекпоинт уже с минуты на минуту появится в AI Studio и API.
Релиз, кстати, мы ждали уже с утра. Около 10 часов назад тимлид команды Gemini API запостил в X загадочное «Gemini». Когда он делал это в прошлые разы, Google обычно релизили что-то громкое.
Конечно, хотелось бы Gemini 3, но это тоже пойдет🏃♀️
Судя по новостям, обновленный чекпоинт уже с минуты на минуту появится в AI Studio и API.
Релиз, кстати, мы ждали уже с утра. Около 10 часов назад тимлид команды Gemini API запостил в X загадочное «Gemini». Когда он делал это в прошлые разы, Google обычно релизили что-то громкое.
Конечно, хотелось бы Gemini 3, но это тоже пойдет
Please open Telegram to view this post
VIEW IN TELEGRAM
❤97🔥48👍20 7 2
Data Secrets
Кажется, Google обновили свою лучшую модель Gemini 2.5 Pro Судя по новостям, обновленный чекпоинт уже с минуты на минуту появится в AI Studio и API. Релиз, кстати, мы ждали уже с утра. Около 10 часов назад тимлид команды Gemini API запостил в X загадочное…
А вот и метрики обновленной модели
На арене новая версия скакнула аж на 24 балла Elo по сравнению с прошлой, и теперь лидирует по всем категориям, опережая o3 и Claude Opus 4.
Попробовать уже можно в AI Studio
Блогпост
На арене новая версия скакнула аж на 24 балла Elo по сравнению с прошлой, и теперь лидирует по всем категориям, опережая o3 и Claude Opus 4.
Попробовать уже можно в AI Studio
Блогпост
❤96🔥45🤯18👍11👌1
Сегодня здесь будет много известных ученых (в том числе зарубежных) и лидеров индустрии. В программе – куча интересных технических и продуктовых докладов на любой вкус: от трендов и нейробиологии до хардового ML и инжиниринга. Особенными моментами поделимся здесь.
Трансляцию, кстати, уже запустили, так что можете взглянуть на расписание по четырем трекам и посмотреть доклады в онлайне. Вот что пойдем слушать сами и советуем вам:
➖ Погружение в AI: кейсы, принципы и практика – Кен Чжун Ли, профессор университета Карнеги-Меллона, MIT и Калифорнийского университета в Беркли (11:00)➖ Мультиагентные системы – Иван Оселедец, профессор РАН и гендир AIRI (11:50)➖ Мозг vs ИИ – Вячеслав Дубынин, нейрофизиолог и профессор МГУ (12:30)➖ Ландшафт LLM: модели, бенчмарки, применение – Даниил Киреев, директор ML-департамента MTS AI (13:30)➖ Data Lake 2.0: Iceberg и Parquet – Валерий Бабушкин💪 , CDO MTС Web Services (15:10)➖ Данные не закончатся: как современные ИИ-модели учатся на синтетике – Радослав Нейчев, руководитель ML в Яндексе, преподаватель МГУ, МФТИ и ШАД (17:20)➖ Будущее за AI-First – Кэсси Козырков, экс-главный специалист по принятию решений в Google, США (18:00)
А еще будет несколько докладов от секретных спикеров, интерактивные станции и афтерпати
Кто пришел офлайн – подходите общаться!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤69🔥28👍10🗿7😁6 4🤯3🤔2 1
Media is too big
VIEW IN TELEGRAM
CEO робо-стартапа FigureAI показал новое видео работы их робота Figure 2.0
Видео, предположительно, снято на заводе BMW, где роботы компании "стажируются" в реальных условиях уже с прошлого года. Гуманоид автономно сканирует, обрабатывает и сортирует пакеты разного размера.
Обратите внимание на скорость принятия решений и плавность движений. Робот почти не останавливается + руки работают ну очень акуратно для железки.
Видео, кстати, выложили через час после того, как директору стартапа в коментариях написали, что "это НИКОГДА не будет работать с произвольной партией пакетов"😎
Видео, предположительно, снято на заводе BMW, где роботы компании "стажируются" в реальных условиях уже с прошлого года. Гуманоид автономно сканирует, обрабатывает и сортирует пакеты разного размера.
Обратите внимание на скорость принятия решений и плавность движений. Робот почти не останавливается + руки работают ну очень акуратно для железки.
Видео, кстати, выложили через час после того, как директору стартапа в коментариях написали, что "это НИКОГДА не будет работать с произвольной партией пакетов"
Please open Telegram to view this post
VIEW IN TELEGRAM
👏147❤37 23🔥14👾6👍5😁5 5😎2
AIRI показали универсального ИИ-агента для роботов и индустриальных процессов, способного к самообучению и самокоррекции
Институт выкатил новую Action-модель под названием Vintix, и она умеет кое-что по-настоящему крутое. В отличие от классических агентов, Vintix не просто выполняет задачи, а имитирует сам процесс обучения с подкреплением. То есть, учится сама — даже если вы даёте минимум обратной связи.
Внутри — трансформер с расширенным контекстом и очень плотным представлением данных: состояние, действие и награда сжаты в один токен. Это даёт в 3 раза больше информации на вход, чем у аналогов вроде GATO от DeepMind или JAT от HuggingFace.
Агент устойчив к шуму, задержкам и неполной информации, что критично для промышленных задач. Его уже прогнали по целой серии бенчмарков: от базовой моторики до сложных сценариев с шумом и многозадачностью. В итоге: универсальность + стабильность и на симуляциях, и на производственных задачах. Сейчас модель работает в симуляции на RTX 3070 со стабильными 30 Гц. В будущем обещают мультимодальность (видео, сенсоры), больше данных и переход к более долгосрочному планированию.
А ещё Vintix в опенсорсе. Статью покажут на ICML в июле 2025. Следим 👀
Институт выкатил новую Action-модель под названием Vintix, и она умеет кое-что по-настоящему крутое. В отличие от классических агентов, Vintix не просто выполняет задачи, а имитирует сам процесс обучения с подкреплением. То есть, учится сама — даже если вы даёте минимум обратной связи.
Внутри — трансформер с расширенным контекстом и очень плотным представлением данных: состояние, действие и награда сжаты в один токен. Это даёт в 3 раза больше информации на вход, чем у аналогов вроде GATO от DeepMind или JAT от HuggingFace.
Агент устойчив к шуму, задержкам и неполной информации, что критично для промышленных задач. Его уже прогнали по целой серии бенчмарков: от базовой моторики до сложных сценариев с шумом и многозадачностью. В итоге: универсальность + стабильность и на симуляциях, и на производственных задачах. Сейчас модель работает в симуляции на RTX 3070 со стабильными 30 Гц. В будущем обещают мультимодальность (видео, сенсоры), больше данных и переход к более долгосрочному планированию.
А ещё Vintix в опенсорсе. Статью покажут на ICML в июле 2025. Следим 👀
🔥107🤯20👍19❤11👌4🏆2
Media is too big
VIEW IN TELEGRAM
"В ближайшем будущем диффузионные текстовые модели могут заменить трансформеры", – Иван Оселедец, гендир AIRI
Иван Валерьевич – доктор физико-математических наук, профессор РАН, лауреат многих научных премий, автор огромного количества статей по математике и ML и генеральный директор AI-лаборатории AIRI.
Сегодня нам удалось пообщаться с ним после его доклада про агентов и ризонинг на МТС True Tech Day. Поговорили о новых архитектурах и возможных альтернативах трансформеру:
Почитать, как работают диффузионные языковые модели и Gemini Diffusion, можно в этом, этом и этом наших разборах.
Кроме того, Иван немного рассказал о них в своем сегодняшнем докладе на МТС True Tech Day (а еще рассказывал много интересного об истоках ризонинга, масштабировании моделек и агентах). Советуем посмотреть полностью здесь, будет полезно.
Иван Валерьевич – доктор физико-математических наук, профессор РАН, лауреат многих научных премий, автор огромного количества статей по математике и ML и генеральный директор AI-лаборатории AIRI.
Сегодня нам удалось пообщаться с ним после его доклада про агентов и ризонинг на МТС True Tech Day. Поговорили о новых архитектурах и возможных альтернативах трансформеру:
"В целом, есть подходы, связанные с фотоникой или, например, нейроморфными вычислениями. Но они сильно отстают по качеству.
К тому же, люди, которые этим занимаются, больше увлечены физикой, а не ML. Поэтому часто эти работы не уходят дальше "ого, это заработало на MNIST'e". Прорыв будет, когда это заработает для LLM. Пока что здесь есть большой gap между разработчиками железа, разработчиками архитектур и бизнесменами.
В short term я бы ставил на диффузионные языковые модели. Пару лет назад они были плохи, а сейчас их научились обучать, и оказалось, что они работают неплохо. Сейчас уже есть настоящая диффузионная LLM – Gemini Diffusion. У нее большой выигрыш на инференсе: она дает сильно больше токенов в секунду. Это серьезный аргумент в пользу конкуренции с трансформером"
Почитать, как работают диффузионные языковые модели и Gemini Diffusion, можно в этом, этом и этом наших разборах.
Кроме того, Иван немного рассказал о них в своем сегодняшнем докладе на МТС True Tech Day (а еще рассказывал много интересного об истоках ризонинга, масштабировании моделек и агентах). Советуем посмотреть полностью здесь, будет полезно.
❤117👍50🔥30😁7🤓4🤔3
Data Secrets
"В ближайшем будущем диффузионные текстовые модели могут заменить трансформеры", – Иван Оселедец, гендир AIRI Иван Валерьевич – доктор физико-математических наук, профессор РАН, лауреат многих научных премий, автор огромного количества статей по математике…
Nvidia не перестает радовать: совместно с Корнеллским Университетом они предложили Eso-LM – новую архитектуру, сочетающую в себе авторегрессию и диффузию
Буквально в прошлом посте мы написали, что, возможно, за диффузионными текстовыми моделями будущее, – и сразу же наткнулись на только что выпущенную статью Nvidia про новую архитектуру, основанную на этой идее.
Кратко разбираем:
➖ Авторегрессивные модели (трансформеры) генерируют токены слева направо, а диффузионные – постепенно размаскировывают последовательность в любом порядке. Это значит, что диффузию можно параллелить на инференсе, восстанавливая по нескольку токенов за раз, а трансформеры – нет. В Eso-LM авторы попытались соединить два подхода, чтобы качество было, как у авторегрессии, а скорость – как у диффузии.
➖ Тут у нас две фазы инференса. Сначала диффузионная: модель параллельно восстанавливает большинство токенов. Затем авторегрессивная: оставшиеся замаскированные позиции достраиваются последовательно слева направо.
➖ При этом в диффузионной фазе токены восстанавливаются по заранее заданному расписанию, которое определяется перестановкой индексов σ – эта схема определяет, какие позиции размаскируются на каждом шаге. Благодаря тому, что порядок фиксирован, для уже восстановленных токенов можно накапливать KV-кеш и быстро переиспользовать его в автоконтекстной фазе. Это называется казуальным вниманием.
В итоге у нас: качество – трансформеров, а скорость – диффузии. На тестах Eso-LM демонстрирует perplexity около 25.97 против 22.83 у обычного авторегрессивного трансформера.
Статья полностью
Буквально в прошлом посте мы написали, что, возможно, за диффузионными текстовыми моделями будущее, – и сразу же наткнулись на только что выпущенную статью Nvidia про новую архитектуру, основанную на этой идее.
Кратко разбираем:
В итоге у нас: качество – трансформеров, а скорость – диффузии. На тестах Eso-LM демонстрирует perplexity около 25.97 против 22.83 у обычного авторегрессивного трансформера.
Статья полностью
Please open Telegram to view this post
VIEW IN TELEGRAM
❤131🏆33👍16❤🔥8🔥8🤯7
Такую вот битву роботов сегодня наблюдали на МТС True Tech Day
Организаторы построили настоящую небольшую арену и весь день проводили там вот такие заварушки. Попробовать поуправлять роботом мог каждый участник (мы тоже пытались).
Это, кстати, была не единственная активность: еще можно было попробовать решить айти-тест одновременно с ездой на велосипеде, попытаться взломать систему Tesla Model X (как тебе такое, Илон Маск?), пройти полосу препятствий или даже заняться гик-хэндмейдом.
На хэндмейд не успели, но ребята там паяли себе декоративные платы с AI-помощниками и эмуляторами. Идеальный аксессуар на рюкзак, не то что эти ваши Лабубу.
Организаторы построили настоящую небольшую арену и весь день проводили там вот такие заварушки. Попробовать поуправлять роботом мог каждый участник (мы тоже пытались).
Это, кстати, была не единственная активность: еще можно было попробовать решить айти-тест одновременно с ездой на велосипеде, попытаться взломать систему Tesla Model X (как тебе такое, Илон Маск?), пройти полосу препятствий или даже заняться гик-хэндмейдом.
На хэндмейд не успели, но ребята там паяли себе декоративные платы с AI-помощниками и эмуляторами. Идеальный аксессуар на рюкзак, не то что эти ваши Лабубу.
🔥47🗿15😁9👻5🦄5❤4
+900 миллионов долларов на вайб-кодинг: Cursor сообщили о том, что привлекли новый раунд инвестиций
Для них это уже серия C. Финансирование дали Thrive, Accel, Andreessen Horowitz и DST (это очень крупные и влиятельные фонды).
Кстати, стабильная годовая выручка Cursor с подписок уже превышает 500 миллионов долларов. Напоминаем, что стартапу всего два года.
Для них это уже серия C. Финансирование дали Thrive, Accel, Andreessen Horowitz и DST (это очень крупные и влиятельные фонды).
Кстати, стабильная годовая выручка Cursor с подписок уже превышает 500 миллионов долларов. Напоминаем, что стартапу всего два года.
❤121👍50🔥35 21🕊3🦄3😁2
Media is too big
VIEW IN TELEGRAM
Eleven Labs удивили всех своей новой моделью синтеза речи
Казалось бы, в наше время уже сложно таким впечатлить, но их новая text2speech Eleven v3 смогла. Послушайте демо и сами все поймете.
Модель может: петь, смеяться, вздыхать, шептать. И, в целом, звучит все ну очень естественно (даже иногда не по себе😬 ). Можно генерировать мульти-голосовые диалоги и детально контролировать интонации тегами (как на видео). Поддерживают около 70 языков, русский тоже.
Сейчас модель вышла в публичную альфу, и в июне на нее будут скидки 80%. Пишут, что, так как это исследовательское превью, модель пока требует больше промпт инжиниринга. Видимо, пока не тюнили отдельно на instruction following.
Пробуем здесь
Казалось бы, в наше время уже сложно таким впечатлить, но их новая text2speech Eleven v3 смогла. Послушайте демо и сами все поймете.
Модель может: петь, смеяться, вздыхать, шептать. И, в целом, звучит все ну очень естественно (даже иногда не по себе
Сейчас модель вышла в публичную альфу, и в июне на нее будут скидки 80%. Пишут, что, так как это исследовательское превью, модель пока требует больше промпт инжиниринга. Видимо, пока не тюнили отдельно на instruction following.
Пробуем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍143🔥80❤26🤯15