Data Secrets
История с Windsurf подходит к логическому завершению: компанию поглощает стартап Cognition Cognition – это разработчики ассистента для кодинга Devin, вы про него точно слышали. Так вот сегодня они объявили о том, что окончательно подписали сделку о покупке…
Кстати, символично, что вся эта история в максимальном стиле Кремниевой долины произошла, пока Windsurf располагался в том самом офисе Пегого Дудочника из сериала
Стартап переехал в то самое помещение, где снимали Silicone Valley, и где работал Pied Piper, осенью – и с тех пор и началась череда контрактов, сорванных и удачных сделок, хантинга сотрудников и тд😑
Кому нужен буст для стартапа, имейте в виду: помещение теперь свободно
Стартап переехал в то самое помещение, где снимали Silicone Valley, и где работал Pied Piper, осенью – и с тех пор и началась череда контрактов, сорванных и удачных сделок, хантинга сотрудников и тд
Кому нужен буст для стартапа, имейте в виду: помещение теперь свободно
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁232🤯39 30❤16🔥4🦄4👍2 2
Французская лаборатория INRIA предложила новый способ самообучения LLM – SOAR
С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->
Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.
А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.
И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.
Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.
А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML
С помощью него они выбили 52% на ARC-AGI. Для понимания, результат o3-pro – примерно 58%. Разбираемся ->
Основная идея – рисерч и доработка возможных решений. Это называется эволюционный поиск и вообще-то это вещь не новая. Если брать такой поиск сам по себе, он, конечно, что-то там бустит, но без вау-эффекта.
А тут к нему прикрутили еще и дополнительное обучение. После каждой итерации генерации и доработки гипотез все попытки (удачные и неудачные) используются для тюнинга той же самой модели. Этот цикл «поиск — обучение на своем опыте — улучшение» повторяется до стабилизации результата.
И вот это уже работает заметно лучше. Например, если взять Qwen2.5-32B, результат которого на ARC-AGI – 27%, и приложить SOAR, то метрика растет до 52%, то есть почти в 2 раза! То же самое можно наблюдать с другими размерами и моделью Mistral.
Все дообученные модели выложили в опенсорс. Вот веса. Код тоже имеется.
А статью почитать полностью можно вот тут. Ее, кстати, приняли на ICML
1🔥150👍47❤27🤔7🤯3
В Google ИИ-агент помог обнаружить и предотвратить предстоящую кибер-атаку на систему
Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.
Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.
blog.google/technology/safety-security/cybersecurity-updates-summer-2025/
Об этом рассказал сам Сундар Пичаи. Агент называется Big Sleep, его презентовали еще в прошлом году. До этого он уже помогал находить белые пятна в системе безопасности Google, но этот случай – первый в истории, когда ИИ помог предотвратить реальную атаку.
Кстати, сегодня Google также объявили о том, что добавят ИИ-агентов в свою известную систему мониторинга Timesketch и анонсируют еще одну ИИ-систему (уже помасштабнее) обнаружения аномалий и угроз – FACADE. Это будет первое публичное демо проекта, хотя внутри Google он работает уже с 2018 года.
blog.google/technology/safety-security/cybersecurity-updates-summer-2025/
1❤81🔥50👍23😁19 9🤔2⚡1
Бывший сотрудник OpenAI, который покинул стартап пару недель назад, написал огромный блог-пост о том, каково там работать
Кельвин Френч-Оуэн работал в OpenAI год и занимался запуском Codex. Вот что интересного он пишет:
1️⃣ Внутренняя структура стартапа не вывозит быстрый рост количества сотрудников. За тот год, пока там работал Кельвин, OpenAI вырос с 1000 до 3000 людей. И да, им это необходимо, потому что продукты масштабируются беспрецедентно. Но структуры отчетности, онбординга, организация людей и найма страдает ну очень сильно.
2️⃣ При этом люди все еще работают так, как будто они в маленьком стартапе. Например, им все еще разрешается сразу же реализовывать все свои идеи без согласований и волокиты. С одной стороны – круто. С другой – начинаются дублирования, людей то куча. Кельвин пишет, что, например, видел десятки библиотек для управления циклами или очередями. Представьте, сколько это напрасно потраченного рабочего ресурса.
3️⃣ У сотрудников очень разные уровни кодинга. Есть инженеры Google, которые за день пишут сложнющие системы, а есть вчерашние PhD, которые не привыкли к продуктовому коду. И все они работают вместе: из-за этого главный репозиторий превращается, мягко говоря, в помойку.
4️⃣ В компании действительно сохраняется культура move-fast-and-break-things с быстрыми бессонными спринтами и запусками. По словам Кельвина, это того стоит. Но не всех устраивает не спать неделю…
5️⃣ Ну и классика: OpenAI не так уж и озабочены безопасностью. Элаймент заключается больше в чем-то практическом (не грубить пользователю, не манипулировать, не обсуждать политику и оружие), чем в искоренении каких-то общечеловеческих рисков ИИ.
Ну так что, стрем или норм?
calv.info/openai-reflections
Кельвин Френч-Оуэн работал в OpenAI год и занимался запуском Codex. Вот что интересного он пишет:
Ну так что, стрем или норм?
calv.info/openai-reflections
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤159👍83😁43🤯29🗿10❤🔥4👌4🤝3🔥2👏2
Каждое утро в нашем заведении начинается одинаково: из OpenAI в Meta ушли еще двое ученых
➖ Джейсон Вэй – ведущий исследователь в области агентов и ризонинга и соавтор той самой легендарной статьи про законы масштабирования нейросетей
➖ Хён Вон Чон – руководитель Codex и основной архитектор GPT-4, серии o и Deep Research
Уже классика😐
Уже классика
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁272👍27🤔20 16🗿12❤9🤯5 4 3🔥2
Google снова пытаются изобрести альтернативу трансформерам: на этот раз они показали новую архитектуру Mixture-of-Recursions
Идея: рекурсивно переиспользовать одни и те же слои для повторной обработки некоторых токенов. На каждой новой итерации мы оставляем только те токены, которые требуют дополнительного рассмотрения. Получается какой-то новый вид ризонинга, при этом модель несколько раз думает только над наиболее сложными частями ответа, экономя компьют.
Теперь о том, как это работает:
➖ У нас есть стек слоев обычного трансформера, которые мы хотим переиспользовать несколько раз. Для каждого токена принимается решение: выпустить его сейчас или продолжить обрабатывать. Чем больше номер итерации – тем меньше токенов в ней остается. В конце получается, что над самыми сложными частями модель думала много раз, а над самыми простыми – один или пару.
➖ Есть варианты, как шерить слои (скрин 5). Можно в каждой итерации оставлять идентичные блоки вообще без изменений, а можно вставлять уникальные первый и последний слой, а середину оставлять одинаковой. В статье показали, что вторая вариация работает приятнее.
➖ Аналогично, можно по-разному решать, сколько итераций пройдет каждый токен (скрин 4). Вариант первый: в самом начале с помощью классификатора назначать каждому токену число N его итераций. Вариант два: в начале каждой итерации вставлять роутер, который будет решать, кто пойдет дальше. В первом случае обучение чуть стабильнее, но и там и там – свои танцы с бубном регуляризациями.
Ну и да, за счет того, что KV кэш мы не пересчитываем, вся эта архитектура остается достаточно эффективной. Например, по сравнению с ванильным трансформером, MoR: (1) выбивает те же метрики с в два раза меньшим числом параметров; (2) в два раза бодрее на инференсе; (3) снижает потребление FLOPs на 25 % на тех же объемах данных.
Получается довольно симпатичный баланс, и в статье даже пишут, что это новая Парето-оптимальность для трансформерных архитектур: и затраты, и качество оказываются одновременно лучше предшественников (скрин 6).
Радуемся и очень ждем уже на проде
Код | Статья
Идея: рекурсивно переиспользовать одни и те же слои для повторной обработки некоторых токенов. На каждой новой итерации мы оставляем только те токены, которые требуют дополнительного рассмотрения. Получается какой-то новый вид ризонинга, при этом модель несколько раз думает только над наиболее сложными частями ответа, экономя компьют.
Теперь о том, как это работает:
Ну и да, за счет того, что KV кэш мы не пересчитываем, вся эта архитектура остается достаточно эффективной. Например, по сравнению с ванильным трансформером, MoR: (1) выбивает те же метрики с в два раза меньшим числом параметров; (2) в два раза бодрее на инференсе; (3) снижает потребление FLOPs на 25 % на тех же объемах данных.
Получается довольно симпатичный баланс, и в статье даже пишут, что это новая Парето-оптимальность для трансформерных архитектур: и затраты, и качество оказываются одновременно лучше предшественников (скрин 6).
Радуемся и очень ждем уже на проде
Код | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤111🔥55🤯16👍11 9👏3 3😁2👌2
Вы готовы? Найдена лучшая вакансия всех времен: xAI нанимает инженера для разработки ИИ-девочек
Роль так и называется: Fullstack Engineer - Waifus😁
Буквально на днях xAI выпустили Companions. Это новая фича, которая вживляет Grok в одного из нескольких доступных аватаров с их характером, внешностью и голосом.
Так вот одного из таких аватаров xAI сделали аниме-девочкой по имени Ани. За пару дней она уже стала настоящей звездой соцсетей, а скачивания Grok взлетели просто немыслимо. В Японии приложение даже вышло в топ-1 по AppStore.
В общем, видимо, xAI нащупали золотую жилу и теперь ищут инженера, который наклепает им еще тяночек.
Платить обещают $180,000 - $440,000 USD. Если надумали – вам сюда
Роль так и называется: Fullstack Engineer - Waifus
Буквально на днях xAI выпустили Companions. Это новая фича, которая вживляет Grok в одного из нескольких доступных аватаров с их характером, внешностью и голосом.
Так вот одного из таких аватаров xAI сделали аниме-девочкой по имени Ани. За пару дней она уже стала настоящей звездой соцсетей, а скачивания Grok взлетели просто немыслимо. В Японии приложение даже вышло в топ-1 по AppStore.
В общем, видимо, xAI нащупали золотую жилу и теперь ищут инженера, который наклепает им еще тяночек.
Платить обещают $180,000 - $440,000 USD. Если надумали – вам сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁181❤41 35 12🔥7❤🔥4👍4🦄4🍓2 2🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня в 20:00 по Москве – новый стрим OpenAI
Судя по превью, будет какое-то обновление Operator. Может в этот раз его все-таки сделают полезным?😐
Судя по превью, будет какое-то обновление Operator. Может в этот раз его все-таки сделают полезным?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁86❤12🔥7🦄6🤯2👍1
Всего один программист в мире оказался лучше ИИ в прошедшем соревновании на AtCoder
AtCoder World Tour Finals – одно из самых престижных соревнований в мире, попасть туда не так уж и просто. Особенно в Heuristic Division: там задачи решаются методами эвристики и оптимизации и нельзя просто решить или не решить, можно только решить лучше других (как на Kaggle).
Так вот в этом году это соревнование спонсирует OpenAI, и им разрешили выпустить свою модель посоревноваться наравне с людьми.
Ну и дальше случилось то, что вы видите на скрине. Всего один человек в мире, поляк Przemysław Dębiak с ником Psyho (довольно известный кодер, кстати) смог побить модельку OpenAI.
Сам кодер утверждает, что вообще не использовал ИИ и программировал просто в VSCode. Он пишет:
💀
AtCoder World Tour Finals – одно из самых престижных соревнований в мире, попасть туда не так уж и просто. Особенно в Heuristic Division: там задачи решаются методами эвристики и оптимизации и нельзя просто решить или не решить, можно только решить лучше других (как на Kaggle).
Так вот в этом году это соревнование спонсирует OpenAI, и им разрешили выпустить свою модель посоревноваться наравне с людьми.
Ну и дальше случилось то, что вы видите на скрине. Всего один человек в мире, поляк Przemysław Dębiak с ником Psyho (довольно известный кодер, кстати) смог побить модельку OpenAI.
Сам кодер утверждает, что вообще не использовал ИИ и программировал просто в VSCode. Он пишет:
Человечество одержало верх (пока!)
Я совершенно измотан. Мне казалось, что я спал всего 10 часов за последние три дня, и я еле живой.
(Если честно, это предварительные результаты, но мой отрыв должен быть достаточно большим)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥277❤57🤯30☃15👏13👍9 9😁8🤔7 2🏆1
У исследователей по всему миру постепенно скапливаются вопросики к безопасности в xAI
В Твиттере за пару дней в сторону стартапа Маска неположительно высказалось уже немало людей, в том числе ученые из OpenAI (пост) и Anthropic (пост). Претензии такие:
1. Отсутствие системных карт моделей. У OpenAI, Anthropic и Google есть свои проблемы к релизами, но они всегда стараются публиковать тех.отчеты, в которых описывают, как проводились тесты и элаймент. Grok-4 вышел без системной карты вообще, и никто не в курсе, была ли там вообще какая-то работа с безопасностью.
2. Особенно накаляется ситуация после того, как Grok ни с того ни с сего начал называть себя Меха Гитлером. И отреагировали на весь этот скандал xAI лишь тем, что написали, что решили проблему (внимание!) путем корректировки системного промпта. Воистину элаймент, который мы заслужили.
3. Свежие вышедшие компаньоны тоже не всех устраивают. Аниме-тянка, конечно, неплоха, но пишут, что она «повышает риск психологических расстройств», как в фильме Она.
Интересно, что сам Маск всегда выступал за политику открытого кода и безопасности ИИ. Получается, переобулся🤷♂️
В Твиттере за пару дней в сторону стартапа Маска неположительно высказалось уже немало людей, в том числе ученые из OpenAI (пост) и Anthropic (пост). Претензии такие:
1. Отсутствие системных карт моделей. У OpenAI, Anthropic и Google есть свои проблемы к релизами, но они всегда стараются публиковать тех.отчеты, в которых описывают, как проводились тесты и элаймент. Grok-4 вышел без системной карты вообще, и никто не в курсе, была ли там вообще какая-то работа с безопасностью.
2. Особенно накаляется ситуация после того, как Grok ни с того ни с сего начал называть себя Меха Гитлером. И отреагировали на весь этот скандал xAI лишь тем, что написали, что решили проблему (внимание!) путем корректировки системного промпта. Воистину элаймент, который мы заслужили.
3. Свежие вышедшие компаньоны тоже не всех устраивают. Аниме-тянка, конечно, неплоха, но пишут, что она «повышает риск психологических расстройств», как в фильме Она.
Интересно, что сам Маск всегда выступал за политику открытого кода и безопасности ИИ. Получается, переобулся
Please open Telegram to view this post
VIEW IN TELEGRAM
1 140😁59 41❤13🍾4🤯2☃1🔥1🎉1🕊1
Это Deep Research и Operator в одном флаконе. То есть агент, который сможет просматривать веб-страницы (мультимодально, в отличие от Deep Research), вызывать API и другие инструменты, выполнять какие-то задачи и все это – с ризонингом.
Особенный упор – на вызов инструментов, говорят специально обучали агента пользоваться разнообразными тулзами с помощью RL. Создает диаграммы, презентации, таблицы, генерирует картинки, может залогиниться на сайте, использовать терминал и почту, сделать комит и прочее.
Результат на Humanity’s Last Exam – 42%. Это очень серьезный прирост относительно o3 и даже Deep Research. На Frontier Math тоже заметен скачок.
Кстати, под капотом не o3 и не o4-mini, а какая-то новая модель, обученная специально под agent mode и computer use.
Вопреки ожиданиям, раскатали агента не только для Pro подписчиков за 200$. Доступ дадут и обычным пользователям с Plus, лимиты – 40 запросов в месяц (терпимо).
Нравится
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤161👍58🔥31 11🤯3 3🤔2 2😁1