В лаборатории AIRI придумали способ легко масштабировать трансформеры на контекст 2 миллиона токенов
Вчера на конференции Data Fusion прошла церемония награждения Data Fusion Awards (запись). Премию за научный прорыв выиграл Айдар Булатов: он стал одним из авторов работы, в которой предложили способ расширения контекстного окна трансформеров при линейном росте вычислительных затрат.
Нас работа очень заинтересовала, и позже мы познакомились с Айдаром на постерной сессии лично, чтобы немного расспросить его о статье. Главная идея: соединить трансформеры и рекуррентный механизм памяти.
Мы разделяем текст на кусочки и обрабатываем их последовательно. При этом в начало каждого сегмента добавляются векторы памяти, которая обновляется на каждой следующей итерации. Таким образом, self‑attention считается только внутри сегмента, но при этом мы все равно с каждым разом храним все больше и больше информации о тексте.
Масштабируется это действительно хорошо: ребята обучали модель только на последовательностях длины до 3.5к токенов, но на тестах она спокойно выдерживает контекст до 2 миллионов (а позже и до 50 миллионов на модификациях)! Вот гитхаб и статья.
Кстати, на основе этой работы Айдар в команде с Юрием Куратовым и другими авторами также создали бенчмарк BABILong для оценки моделей на длинном контексте. Сейчас на этом бенчмарке тестируют свои модели многие ведущие лабы: Google, Meta, OpenAI. Мы, кстати, даже несколько раз о нем писали, но то, что он был сделан в AIRI, узнали только вчера. Эта работа тоже была в числе победителей премии.
Поздравляем🥳
Вчера на конференции Data Fusion прошла церемония награждения Data Fusion Awards (запись). Премию за научный прорыв выиграл Айдар Булатов: он стал одним из авторов работы, в которой предложили способ расширения контекстного окна трансформеров при линейном росте вычислительных затрат.
Нас работа очень заинтересовала, и позже мы познакомились с Айдаром на постерной сессии лично, чтобы немного расспросить его о статье. Главная идея: соединить трансформеры и рекуррентный механизм памяти.
Мы разделяем текст на кусочки и обрабатываем их последовательно. При этом в начало каждого сегмента добавляются векторы памяти, которая обновляется на каждой следующей итерации. Таким образом, self‑attention считается только внутри сегмента, но при этом мы все равно с каждым разом храним все больше и больше информации о тексте.
Масштабируется это действительно хорошо: ребята обучали модель только на последовательностях длины до 3.5к токенов, но на тестах она спокойно выдерживает контекст до 2 миллионов (а позже и до 50 миллионов на модификациях)! Вот гитхаб и статья.
Кстати, на основе этой работы Айдар в команде с Юрием Куратовым и другими авторами также создали бенчмарк BABILong для оценки моделей на длинном контексте. Сейчас на этом бенчмарке тестируют свои модели многие ведущие лабы: Google, Meta, OpenAI. Мы, кстати, даже несколько раз о нем писали, но то, что он был сделан в AIRI, узнали только вчера. Эта работа тоже была в числе победителей премии.
Поздравляем
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍188🔥77❤40🤯2🕊1
TIME опубликовали свой ежегодный топ-100 самых влиятельных людей мира
В списке как никогда много тех.лидеров и ученых. Вот кто в него попал:
➖ Дарио Амодеи, CEO Anthropic
➖ Лян Вэньфэн, CEO DeepSeek
➖ Илон Маск
➖ Марк Цукерберг
➖ Лиза Су, CEO AMD и родственница Дженсена Хуанга
➖ Демис Хассабис, нобелевский лауреат этого года и CEO Google DeepMind
Кто не попал:
Сэм Альтман😭
Дженсен Хуанг😭
time.com/collections/100-most-influential-people-2025/
В списке как никогда много тех.лидеров и ученых. Вот кто в него попал:
Кто не попал:
Сэм Альтман
Дженсен Хуанг
time.com/collections/100-most-influential-people-2025/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64😁56🤨13🔥12❤7🤯6🤓5⚡1
Как работают рекомендательные системы в Lamoda, Wildberries, Сбере и МТС?
Только что побывали на большой кейс-сессии по рексисам на Data Fusion. Было четыре ярких доклада от лидеров ведущих команд из индустрии. В карточках – некоторые интересные подкапотные детали о том, как работают рекомендации в привычных нам сервисах.
Полностью доклады можно посмотреть здесь
Только что побывали на большой кейс-сессии по рексисам на Data Fusion. Было четыре ярких доклада от лидеров ведущих команд из индустрии. В карточках – некоторые интересные подкапотные детали о том, как работают рекомендации в привычных нам сервисах.
Полностью доклады можно посмотреть здесь
👍44🔥15❤13🤯2🆒1
Новость дня: OpenAI покупают Windsurf – вайб-кодинг стартап
В прошлом инструмент был известен как Codeium. Это один из главных конкурентов Cursor. Говорят, сделка обойдется OpenAI в три миллиарда (интересно, это дешевле, чем нанять команду и реализовать собственного агента с нуля?)
Кстати, мало кто об этом пишет, но до этого OpenAI дважды пытались купить Cursor. Однако переговоры с Anysphere почему-то не задались.
В прошлом инструмент был известен как Codeium. Это один из главных конкурентов Cursor. Говорят, сделка обойдется OpenAI в три миллиарда (интересно, это дешевле, чем нанять команду и реализовать собственного агента с нуля?)
Кстати, мало кто об этом пишет, но до этого OpenAI дважды пытались купить Cursor. Однако переговоры с Anysphere почему-то не задались.
😁87🤯40👌12❤7👍4🤨4🔥3👀3☃1
В эти два дня у ВТБ получилось уместить уйму полезного контента. Технические доклады, кейс-сессии по всем направлениям ML, планарные сессии с CEO из бигтеха и лидами ведущих рисерч команд, Q&A. Мы физически не смогли посетить даже половину из того, что хотелось (хорошо, что есть записи).
Продуманно, масштабно, интересно. Выражаем организаторам большую благодарность за приглашение и уже ждем следующего года
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👍32🔥16🤔6🗿2😁1🤯1🤓1
Вышла Gemini 2.5 Flash. Что нужно знать:
– Это гибридная модель с ризонингом, продолжительность рассуждений она контролирует сама, но в API можно настраивать бюджет ризонинга вручную
– Почти на всех бенчмарках модель лучше Sonnet 3.7 и R1.
– o4-mini и Grok-3 выглядят чуть получше, но по соотношению цена-качество проигрывают однозначно
– Модель очень дешевая. 0.15$/М инпут и 0.6$/М аутпут (с ризонингом 3.5$).
– Попробовать можно здесь
– Это гибридная модель с ризонингом, продолжительность рассуждений она контролирует сама, но в API можно настраивать бюджет ризонинга вручную
– Почти на всех бенчмарках модель лучше Sonnet 3.7 и R1.
– o4-mini и Grok-3 выглядят чуть получше, но по соотношению цена-качество проигрывают однозначно
– Модель очень дешевая. 0.15$/М инпут и 0.6$/М аутпут (с ризонингом 3.5$).
– Попробовать можно здесь
🔥94👍26❤8🤯3🤨1
OpenAI выкатили 32-страничный практический гайд по разработке агентов
Его создавали сами инженеры из продуктовых команд стартапа.
Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.
Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
Его создавали сами инженеры из продуктовых команд стартапа.
Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.
Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
🤯76❤34🔥26👍15🤔1
Платформа Midjourney становится похожа на ИИ-фигму
Они только что выкатили обновление для своего редактора изображений. Поменялся интерфейс, добавился инструмент для выбора и редактирования определенных частей изображения.
Также улучшили модерацию и даже стали показывать слои картинки: все, как в любимом фотошопе.
Пробуем тут
Они только что выкатили обновление для своего редактора изображений. Поменялся интерфейс, добавился инструмент для выбора и редактирования определенных частей изображения.
Также улучшили модерацию и даже стали показывать слои картинки: все, как в любимом фотошопе.
Пробуем тут
🔥63👍25❤10
Anthropic инвестируют 50 миллионов долларов в интерпретируемость LLM
Точнее в стартап Goodfire, который специализируется на интерпретируемости. Вместе с Anthropic они теперь будут разрабатывать общедоступную платформу нейронного программирования Ember, которая сможет показывать «мысли» любой ИИ-модели.
Это, кстати, первая инвестиция Anthropic за все время существования компании
Точнее в стартап Goodfire, который специализируется на интерпретируемости. Вместе с Anthropic они теперь будут разрабатывать общедоступную платформу нейронного программирования Ember, которая сможет показывать «мысли» любой ИИ-модели.
Это, кстати, первая инвестиция Anthropic за все время существования компании
1👍123🔥31❤21🤯7🍾5❤🔥1
Интересно: OpenAI добавили в API флекс-процессинг
Как это работает: теперь вы можете использовать модели в API с огромными скидками, если согласитесь ждать ответы чуть дольше. Получается дешевле на 50%.
Подходит, если у вас асинхронная система или вы используете API для себя. Ну, например, для разметки или эвала.
Чтобы воспользоваться, надо просто прописать
Вайб-кодинг, флекс-процессинг… Чил-трейнинг будет?
Как это работает: теперь вы можете использовать модели в API с огромными скидками, если согласитесь ждать ответы чуть дольше. Получается дешевле на 50%.
Подходит, если у вас асинхронная система или вы используете API для себя. Ну, например, для разметки или эвала.
Чтобы воспользоваться, надо просто прописать
service_tier="flex"
Вайб-кодинг, флекс-процессинг… Чил-трейнинг будет?
🤯119❤39🔥31😎22😁20👍11
This media is not supported in your browser
VIEW IN TELEGRAM
Только что в Китае закончился первый в мире полу-марафон для людей и роботов
Участие приняли более 20 двуногих роботов. Были и от ведущих китайских стартапов, но даже победители очень сильно отставали от людей (фух).
Пробежать нужно было, если что, 21 километр. Победитель от людей преодолел расстояние за 1 час 2 минуты. От роботов победил Tiangong Ultra. Его результат – 2 часа 40 минут.
В общем, атлеты пока что не ВСЕ
Участие приняли более 20 двуногих роботов. Были и от ведущих китайских стартапов, но даже победители очень сильно отставали от людей (фух).
Пробежать нужно было, если что, 21 километр. Победитель от людей преодолел расстояние за 1 час 2 минуты. От роботов победил Tiangong Ultra. Его результат – 2 часа 40 минут.
В общем, атлеты пока что не ВСЕ
😁161🔥42👍23❤9👻4❤🔥1🗿1