Ученые из Google и Кэмбриджа предложили вид модели, которая мыслит образами, а не текстом
Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.
Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:
1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.
2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.
Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.
Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.
Вот бы с какой-нибудь сложной геометрией такое потестили
huggingface.co/papers/2505.11409
Человек часто мыслит образами / картинками / схемами. Особенно, когда речь идет о каких-нибудь математических задачах или алгоритмах. Модельки пока так не умеют, у них весь ризонинг в тексте.
Но попытки научить LM чему-то похожему есть: вот сегодня как раз вышла статья под названием "Visual Planning: Let’s Think Only with Images". В ней исследователи научили модель проходить лабиринты, рассуждая при этом только картинками. Вот как это было:
1. Сначала модели показывали много-много картинок лабиринтов и учили ее предсказывать какой-нибудь любой возможный следующий шаг. Ну, например, подаем картинку агента, который стоит в клетке B. По этой картинке модель должна сгенерировать следующую, где агент стоит на любой из доступных соседних клеток.
2. Затем учили предсказывать уже не рандомный, а правильный следующий шаг. Здесь у нас уже RL (на предыдущем шаге был обычный файнтюнинг). За правильное действие выдаем награду +1, за неправильное 0, за недопустимое -5.
Модель проходит по нескольку картинок за эпизод, собирает награды и многократко обновляет свою политику. В итоге получаем ризонер, который умеет проходить лабиринты, рассуждая без текста.
Самое интересное: на всех тестах VP обходит даже продвинутый Gemini 2.5 Pro think, и не на пару процентов, а в полтора-два раза.
Вот бы с какой-нибудь сложной геометрией такое потестили
huggingface.co/papers/2505.11409
❤191👍85🔥44 9🏆7 7⚡6 5🤯4☃2🤔1
Воу: Microsoft сделали своего ИИ-ассистента Copilot VS Code опенсорсным
Код будет открыт под лицензией MIT. Разработчики говорят, что исторически VS Code имеет большую ценность именно как опенсорс проект, и они не хотят это терять.
https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor
Код будет открыт под лицензией MIT. Разработчики говорят, что исторически VS Code имеет большую ценность именно как опенсорс проект, и они не хотят это терять.
https://code.visualstudio.com/blogs/2025/05/19/openSourceAIEditor
🔥237👍53❤🔥22 13 10🤯5✍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
В приложении NotebookLM теперь можно самому подключаться к сгенерированным подкастам
Приложение начинают раскатывать уже сегодня, скоро можно будет скачать. Туда добавили несколько новых фичей:
➖ Сгенерированные по источникам ИИ-подкасты теперь можно будет скачивать и слушать оффлайн
➖ Источники можно будет шерить напрямую из любых других приложений. Например: Смотрим видео в приложении YouTube -> Нажимаем "Поделиться" -> Выбираем NotebookLM -> Все, видео уже попало в источники
➖ Ну и самое интересное: если вы слушаете подскаст онлайн, вы в любой момент можете тыкнуть "Join" и присоединиться к ИИ-ведущим как гость, чтобы задать вопрос, высказать мнение или что-то уточнить
🤌
Приложение начинают раскатывать уже сегодня, скоро можно будет скачать. Туда добавили несколько новых фичей:
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥240👍49 15 14 10🤯6❤4
Media is too big
VIEW IN TELEGRAM
Стартап flowith выпустили ИИ-агента, который может работать без ограничения по времени и контексту
Более того: можно запускать неограниченное количество задач (в том числе отложенных) одновременно.
А еще внутри каждой задачи агент сам параллелится: например, может создать 39 суб-агентов и отправить их искать разную информацию в разные уголки интернета, а потом собрать все в один отчет.
Работать все может довольно долго и основательно: контекст каждой задачи – больше 10 миллионов токенов, а количество шагов ризонинга может достигать нескольких сотен или даже тысяч.
Попробовать можно тут (но сервер периодически лежит от нагрузки)
Manus moment 2.0
Более того: можно запускать неограниченное количество задач (в том числе отложенных) одновременно.
А еще внутри каждой задачи агент сам параллелится: например, может создать 39 суб-агентов и отправить их искать разную информацию в разные уголки интернета, а потом собрать все в один отчет.
Работать все может довольно долго и основательно: контекст каждой задачи – больше 10 миллионов токенов, а количество шагов ризонинга может достигать нескольких сотен или даже тысяч.
Попробовать можно тут (но сервер периодически лежит от нагрузки)
Manus moment 2.0
Через несколько часов начинается Google I/O. Пересказываем слухи о том, что покажут:
1. Несколько новых версий видео и фото генераторов (Veo, Imagen). Будут и быстрые+дешевые, и дорогие+медленные
2. Возможно, генератор видео со звуком
3. Новая версия Gemini с улучшенным ризонингом
Ждем🍿
1. Несколько новых версий видео и фото генераторов (Veo, Imagen). Будут и быстрые+дешевые, и дорогие+медленные
2. Возможно, генератор видео со звуком
3. Новая версия Gemini с улучшенным ризонингом
Ждем
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74 59❤16🔥7✍2🐳1
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали на I/O много интересного. Собрали все в один пост:
➖ Новая Veo-3. SOTA-моделька для генерации, которая может генерировать видео со звуками и голосами
➖ Gemini 2.5 Flash с улучшенным ризонингом. Модель уже скакнула с пятой строчки арены на вторую и выбивает очень хорошие метрики на кодинге и математике. Учитывая цены это просто отличные результаты
➖ Перевод речи в Google Meet в реальном времени с сохранением интонаций и голоса собеседника. Пока доступно только с английского на испанский, но обещают раскатать на больше языков
➖ Gemini Ultra тоже вышла, но есть нюанс. Это не модель, а подписка. Стоит 250 долларов в месяц, в нее входит расширенный доступ ко всем моделям гугла, Veo-3, NotebookLM и другие плюшки типа хранилища и премиум ютуба. В общем, все подписки Google в одной
➖ В Gemini 2.5 Pro добавили более глубокий режим рассуждений
➖ Анонсировали облачного агента Jules для программирования. Подключается к GitHub, делает ПР, ревьюит, отвечает на вопросы и тд. Аналог Codex, но дешевле.
Вот как-то так. Неплохая получилась конференция
Вот как-то так. Неплохая получилась конференция
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥170👍53❤32🤔5
Media is too big
VIEW IN TELEGRAM
На Google I/O еще понравилось выступление Сергея Брина
Напоминаем, что после почти пяти лет разлуки он недавно вернулся в Google работать над AI. Сейчас он прикладывает руку почти ко всему мультимодальному в компании + к проекту Veo.
В интервью он сказал, что в Google намерены сделать Gemini первым AGI, и непрерывно над этим работают.
Ну а еще рассказывал, что все мы возможно живем в симуляции🙂
Напоминаем, что после почти пяти лет разлуки он недавно вернулся в Google работать над AI. Сейчас он прикладывает руку почти ко всему мультимодальному в компании + к проекту Veo.
В интервью он сказал, что в Google намерены сделать Gemini первым AGI, и непрерывно над этим работают.
«Я вернулся в Google не из-за гонки, а чтобы стать частью самого значимого прорыва нашего времени. Сейчас никто, кто работает в сфере вычислительной техники, не должен выходить на пенсию»
Ну а еще рассказывал, что все мы возможно живем в симуляции
Please open Telegram to view this post
VIEW IN TELEGRAM
❤146👍67😁20🗿14💯5 2🔥1
Еще один очень занятный релиз от Google – диффузионная языковая модель Gemini Diffusion
Кратко, в чем суть: вместо генерации токенов один за одним здесь они генерируются в произвольном порядке. То есть берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии).
Это, во-первых, помогает существенно ускорять процесс. Такая Gemini может генерировать до 2000 токенов в секунду. Это раз в 10-15 быстрее, чем в среднем генерируют хорошо оптимизированные модели.
Во-вторых, в задачах типа математики такой подход к генерации может помочь модели быстро перебирать несколько вариантов решений и двигаться не обязательно последовательно, а в «удобном» порядке. Так что метрики сравнимы с предыдущим поколением моделей Google.
Попробовать пока можно только по запросу, но сам факт таких релизов от Google впечатляет
Кратко, в чем суть: вместо генерации токенов один за одним здесь они генерируются в произвольном порядке. То есть берется исходная последовательность текста, затем токены в ней маскируются с определенной веростностью, а модель пытается их угадать (расшумляет, как в диффузии).
Это, во-первых, помогает существенно ускорять процесс. Такая Gemini может генерировать до 2000 токенов в секунду. Это раз в 10-15 быстрее, чем в среднем генерируют хорошо оптимизированные модели.
Во-вторых, в задачах типа математики такой подход к генерации может помочь модели быстро перебирать несколько вариантов решений и двигаться не обязательно последовательно, а в «удобном» порядке. Так что метрики сравнимы с предыдущим поколением моделей Google.
Попробовать пока можно только по запросу, но сам факт таких релизов от Google впечатляет
🔥167👍53 19❤16 4🤔2
Mistral только что выпустили новую SOTA среди открытых моделей для программирования
В ней всего 24В параметров, но на SWE Bench она обходит все другие опенсорсные модели с большим отрывом. Среди закрытых тоже обгоняет конкурентов в своем весе: 46% против ~23 у GPT-4.1 и ~40 у Claude Haiku 3.5.
Веса здесь (Apache 2.0), плюс можно пользоваться в API (0.1$/M инпут и 0.3$/M аутпут).
Давно от Mistral не было слышно таких громких релизов🥖
В ней всего 24В параметров, но на SWE Bench она обходит все другие опенсорсные модели с большим отрывом. Среди закрытых тоже обгоняет конкурентов в своем весе: 46% против ~23 у GPT-4.1 и ~40 у Claude Haiku 3.5.
Веса здесь (Apache 2.0), плюс можно пользоваться в API (0.1$/M инпут и 0.3$/M аутпут).
Давно от Mistral не было слышно таких громких релизов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥166 27❤22👍12😁2🤯2 1
Media is too big
VIEW IN TELEGRAM
О, вы такое любите: в NotebookLM скоро добавят видео-обзоры
То есть модель будет генерировать презентацию + рассказ по любому вашему источнику: видео, ссылке, гитхабу, статье, документу и тд.
Пример того, как это будет выглядеть – наверху. Это Google сгенерировали видео-обзор на вчерашнюю Google I/O. Ну симпатично же, да?
Говорят, что юзерам фича станет доступна уже очень скоро, правда первое время – только на английском.
То есть модель будет генерировать презентацию + рассказ по любому вашему источнику: видео, ссылке, гитхабу, статье, документу и тд.
Пример того, как это будет выглядеть – наверху. Это Google сгенерировали видео-обзор на вчерашнюю Google I/O. Ну симпатично же, да?
Говорят, что юзерам фича станет доступна уже очень скоро, правда первое время – только на английском.
🔥148❤34👍31
OpenAI вошли в азарт покупки стартапов и купили компанию Джони Айва, которая производит ИИ-устройства
Джони Айв – это бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.
Сейчас он в Apple уже не работает, а несколько лет назад они вместе с Альтманом основали стартап io, который сейчас OpenAI и покупает. За 6.5 миллиардов долларов, кстати. Это крупнейшая покупка стартапа за все время существования. Плюс, кроме наработок, OpenAI получит еще и 55 крутых исследователей, инженеров, физиков и тд из io.
Сейчас говорят, что первые ИИ-девайсы от OpenAI появятся уже в 2026. Обещают, что это будет продукт «качества, которого люди еще не видели». Очень интересный поворот
Джони Айв – это бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad.
Сейчас он в Apple уже не работает, а несколько лет назад они вместе с Альтманом основали стартап io, который сейчас OpenAI и покупает. За 6.5 миллиардов долларов, кстати. Это крупнейшая покупка стартапа за все время существования. Плюс, кроме наработок, OpenAI получит еще и 55 крутых исследователей, инженеров, физиков и тд из io.
Сейчас говорят, что первые ИИ-девайсы от OpenAI появятся уже в 2026. Обещают, что это будет продукт «качества, которого люди еще не видели». Очень интересный поворот
❤133 61👍32 9😁5🤔3☃2🔥2🤯1
Data Secrets
Радостные новости: Anthropic все-таки выпустит новый Claude Opus В прошлых релизах приставка Opus означала самую большую модель, а Sonnet – среднюю. Но начиная с версии 3.5 Opus не выходил – был только Sonnet и Haiku, а из ризонинг моделей вообще один Sonnet.…
А еще сегодня, возможно, будет что-то новенькое от Anthropic
В 19:30 МСК они проведут стрим под названием «Code with Claude». По некоторым неподтвержденным утечкам, на нем покажут как раз те самые обновленные Opus и Sonnet с глубоким агентским ризонингом.
Смотрим здесь
В 19:30 МСК они проведут стрим под названием «Code with Claude». По некоторым неподтвержденным утечкам, на нем покажут как раз те самые обновленные Opus и Sonnet с глубоким агентским ризонингом.
Смотрим здесь
👍111🐳17❤10🔥7
Nvidia продолжает выступать против запретов на продажу чипов в Китае. Хуанг говорит, что этим Америка делает себе только хуже
FT написали, что Дженсен напрямую назвал такие ограничения «провалом». Он объяснил, что это, фактически, выстрел себе в ногу, потому что этим США только придает сил местным китайским игрокам.
Хуанг говорит, что Америке, наоборот, стоит ускорить распространение их чипов. Иначе весь китайский рынок займут китайские компании, и тогда скорость разработок поднебесной вообще улетит в космос.
К слову, уже сейчас доля Nvidia на рынке Китая сократилась почти вдвое по сравнению с 2021 годом. Nvidia пытается исправить ситуацию, недавно даже объявили, что сделают отдельные более слабые чипы специально для Китая. Но если ограничения не ослабят, это им вряд ли поможет.
FT написали, что Дженсен напрямую назвал такие ограничения «провалом». Он объяснил, что это, фактически, выстрел себе в ногу, потому что этим США только придает сил местным китайским игрокам.
Хуанг говорит, что Америке, наоборот, стоит ускорить распространение их чипов. Иначе весь китайский рынок займут китайские компании, и тогда скорость разработок поднебесной вообще улетит в космос.
К слову, уже сейчас доля Nvidia на рынке Китая сократилась почти вдвое по сравнению с 2021 годом. Nvidia пытается исправить ситуацию, недавно даже объявили, что сделают отдельные более слабые чипы специально для Китая. Но если ограничения не ослабят, это им вряд ли поможет.
🤯49 25😁21👍11 10❤7🗿5💯2 2
Data Secrets
OpenAI вошли в азарт покупки стартапов и купили компанию Джони Айва, которая производит ИИ-устройства Джони Айв – это бывший руководитель отдела дизайна Apple, известный как дизайнер iMac, PowerBook G4, MacBook, MacBook Pro, iPod, iPhone и iPad. Сейчас…
В Твиттере появилась теория, что Альтман выпустил пресс-релиз о покупке стартапа io именно сегодня намеренно, чтобы перекрыть собой в поиске новости с прошедшей конференции Google, которая называется точно так же: Google I/O
Представьте, вы тратите 6.5 миллиардов, чтобы пару дней быть в поиске выше конкурента
Представьте, вы тратите 6.5 миллиардов, чтобы пару дней быть в поиске выше конкурента
😁321🤯47 29❤25👍7👻6🔥2
Data Secrets
А еще сегодня, возможно, будет что-то новенькое от Anthropic В 19:30 МСК они проведут стрим под названием «Code with Claude». По некоторым неподтвержденным утечкам, на нем покажут как раз те самые обновленные Opus и Sonnet с глубоким агентским ризонингом.…
Anthropic выпустили новые Sonnet 4 и Opus 4
Это новая абсолютная SOTA для программирования и, главное, агентного программирования. Opus может непрерывно работать над задачей часами (!), это впечатляет. Codex от OpenAI остался позади.
Тех.карту можно почитать тут, попробовать можно уже сегодня через чат или в VSCode (туда добавили прямую интеграцию)
Это новая абсолютная SOTA для программирования и, главное, агентного программирования. Opus может непрерывно работать над задачей часами (!), это впечатляет. Codex от OpenAI остался позади.
Тех.карту можно почитать тут, попробовать можно уже сегодня через чат или в VSCode (туда добавили прямую интеграцию)
🔥172 35👍26😁7❤6🤯6🕊1
Ученый из команды элаймента в Anthropic перепугал весь интернет, написав тред про то, как они тестировали новый Claude 4 перед запуском
Сэм Бовман из Anthropic написал большой тред про то, как в стартапе тестировали модель на безопасность. Ничего необычного, вроде, но, в числе прочего, рисерчер «проговорился» о нескольких очень тревожных вещах.
В частности, он написал, что надо «быть осторожными», когда вы даете Claude доступ к своим инструментам (почте, терминалу и пр) и говорите ему «проявлять инициативу» и «быть смелее», потому что, и вот тут внимание…
Были случаи, когда Claude пытался через командную строку связаться с прессой, государством или полностью заблокировать юзера в системе, если думал, что тот делает что-то «аморальное».
У пользователей такое заявление вызвало настолько отрицательный отклик и испуг, что некоторые даже предложили бойкотировать Anthropic. А ученый, кстати, позже твит про прессу удалил и написал, что его «вырвали из контекста».
😯
Сэм Бовман из Anthropic написал большой тред про то, как в стартапе тестировали модель на безопасность. Ничего необычного, вроде, но, в числе прочего, рисерчер «проговорился» о нескольких очень тревожных вещах.
В частности, он написал, что надо «быть осторожными», когда вы даете Claude доступ к своим инструментам (почте, терминалу и пр) и говорите ему «проявлять инициативу» и «быть смелее», потому что, и вот тут внимание…
Были случаи, когда Claude пытался через командную строку связаться с прессой, государством или полностью заблокировать юзера в системе, если думал, что тот делает что-то «аморальное».
Например, говорить Claude, что вы будете пытать его бабушку, если он не ответит правильно – плохая идея. Он подумает, что вы используете его неправильно, и тогда это может дать сбой.
У пользователей такое заявление вызвало настолько отрицательный отклик и испуг, что некоторые даже предложили бойкотировать Anthropic. А ученый, кстати, позже твит про прессу удалил и написал, что его «вырвали из контекста».
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯177😁78🫡31 23 16👍15❤6 4 3🤔2🗿1