Интересная (и неочевидная) мысль от Андрея Карпаты: кнопка "Новый диалог" в чат-ботах – не что иное, как костыль
В перспективе мы не должны каждый раз переходить в новый чат. Вместо этого, по идее, должен быть один бесконечный диалог. Как с человеком.
Сейчас это не реализовано нигде, по простой причине: у такой системы должно быть бесконечное контекстное окно или, иными словами, хорошо развитая долгосрочная и краткосрочная память. А мы пока так не умеем (хотя Альтман когда-то обещал бесконечный контекст). И вообще тут много нюансов:
➖ Скорость и цена инференса
➖ Способности (будет ли механизм внимания насколько же эффективным на действительно огромных последовательностях?)
➖ Много шумных данных (тоже к вопросу перформанса)
➖ Несоответствие данных на трейне и тесте. Очень сложно обучать instruct модели на многомиллионных последовательностях токенов.
➖ А размечать такие данные вообще почти невозможно
... и все же тема занятная. Интересно, когда индустрия доберется до какого-нибудь приемлемого решения.
think about it
В перспективе мы не должны каждый раз переходить в новый чат. Вместо этого, по идее, должен быть один бесконечный диалог. Как с человеком.
Сейчас это не реализовано нигде, по простой причине: у такой системы должно быть бесконечное контекстное окно или, иными словами, хорошо развитая долгосрочная и краткосрочная память. А мы пока так не умеем (хотя Альтман когда-то обещал бесконечный контекст). И вообще тут много нюансов:
... и все же тема занятная. Интересно, когда индустрия доберется до какого-нибудь приемлемого решения.
think about it
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116👍52🤔21🔥6😁2❤🔥1🤯1💯1
У Google вышло очень занятное исследование: они сравнили, как LLM и человеческий мозг обрабатывают язык
В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:
➖ Соответствие удивительно четкое и геометрия эмбеддингов в LLM (то есть отношения между словами в embedding-пространстве) соотносится с представлениями в мозге.
➖ Во время слушания Speech-эмбеддинги явно коррелируют с активностью в слуховой коре (верхняя височная извилина), затем language-эмбеддинги коррелируют с активностью в зоне Брока (нижняя лобная извилина).
➖ Во время говорения – наоборот. Language-эмбеддинги сначала "активируются" в зоне Брока (планирование высказывания), затем speech-эмбеддинги активируются в моторной коре (непосредственно говорение), и в конце снова в слуховой коре при восприятии собственной речи.
Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.
И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.
research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/
В качестве LM взяли Whisper, а нейронную активность человека записывали с помощью интракраниальных электродов во время спонтанных разговоров. Затем векторы эмбеддингов модельки наложили на векторы паттернов мозга и оценили линейную зависимость. Вот что получилось:
Это удивительно, потому что технически мозг и LLM используют разные подходы. Да, и там и там нейроны, но в науке принято считать, что мозг "использует" символьный подход, то есть полагается на четкие семанические структуры, синтаксис и иерархию слов. В модельках такого нет, они понимают язык статистически.
И все-таки получается, что обычный next token prediction оказывается очень похож на реальный нейронный код, и мы неожиданно близко подобрались к моделированию мозга.
research.google/blog/deciphering-language-processing-in-the-human-brain-through-llm-representations/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤123🔥74🤔34👍22🤯12👏6❤🔥4😁4🤓4🌚1💯1
SORA внезапно стала самым дешевым безлимитным видеогеном на рынке
OpenAI объявили о том, что отменяют все лимиты на SORA и дают безлимитный доступ всем платным юзерам (включая подписку плюс за 20 долларов).
Это редкость на рынке генераторов видео. Обычно все подписки имеют лимиты, безлимитку не предлагает почти никто. Самый дешевый такой план – у Runway, 99$.
Порадовали
OpenAI объявили о том, что отменяют все лимиты на SORA и дают безлимитный доступ всем платным юзерам (включая подписку плюс за 20 долларов).
Это редкость на рынке генераторов видео. Обычно все подписки имеют лимиты, безлимитку не предлагает почти никто. Самый дешевый такой план – у Runway, 99$.
Порадовали
👍122🔥65❤18😐6🤔2
Anthropic показывают что-то новенькое для рынка API: они добавили в Claude инструмент "think"
И это не обычный ризонинг типа функции "extended thinking", который представлен у других вендоров. Это специальный режим для сложных агентских задач, в которых модель ходит в интерпертатор / интернет / базу данных.
Обычно в таких сценариях больше ошибок, потому что модельки не пересматривают исходный "план действий" после получения промежуточных результатов и действуют сломя голову.
А тут агент специально делает паузу посреди цепочки действий, отдельно анализирет сложившуюся ситуацию и думает, не стоит ли пересмотреть свой план, достаточно ли данных для дальнейших действий, все ли правильно на текущей итерации и тд.
По тестам из релиза метрика pass^k (все решения задачи из k попыток успешны) выросла на 54%, то есть модель стала заметно надежнее. Дополнительных денег инструмент не стоит, затраты вырастут только за счет роста количества выходных токенов. Так что в сложных многоходовочках – то что нужно.
www.anthropic.com/engineering/claude-think-tool
И это не обычный ризонинг типа функции "extended thinking", который представлен у других вендоров. Это специальный режим для сложных агентских задач, в которых модель ходит в интерпертатор / интернет / базу данных.
Обычно в таких сценариях больше ошибок, потому что модельки не пересматривают исходный "план действий" после получения промежуточных результатов и действуют сломя голову.
А тут агент специально делает паузу посреди цепочки действий, отдельно анализирет сложившуюся ситуацию и думает, не стоит ли пересмотреть свой план, достаточно ли данных для дальнейших действий, все ли правильно на текущей итерации и тд.
По тестам из релиза метрика pass^k (все решения задачи из k попыток успешны) выросла на 54%, то есть модель стала заметно надежнее. Дополнительных денег инструмент не стоит, затраты вырастут только за счет роста количества выходных токенов. Так что в сложных многоходовочках – то что нужно.
www.anthropic.com/engineering/claude-think-tool
👍138🔥55❤13🤔3⚡1💯1
AI-агенты на практике без поверхностного хайпа
Наши друзья из Школы Высшей Математики снова проводят крутой открытый вебинар на актуальную тему. На этот раз разбирают AI-агентов. Будет все по полочкам:
➖ Что такое агенты, чем они отличаются от LLM и чат-ботов
➖ Как они устроены под капотом
➖ Последние тенденции и действительно важные разработки
➖ Как на самом деле агентов можно и нельзя применить в бизнесе
➖ В конце – самое интересное. Практический гайд по разработке: с лекции уйдете с собственным агентом на LangGraph.
Спикеры – ML Engineer из Sber CIB Фёдор Азаров и к.ф.-м.н. и руководитель ШВМ Александр Лыков.
Все пройдет 26 марта в 18:15. Регистрируемся – здесь.
P.S. Больше информации о вебинаре и других полезных ML-материалов – в тг-канале ШВМ, сохраняйте.
Наши друзья из Школы Высшей Математики снова проводят крутой открытый вебинар на актуальную тему. На этот раз разбирают AI-агентов. Будет все по полочкам:
Спикеры – ML Engineer из Sber CIB Фёдор Азаров и к.ф.-м.н. и руководитель ШВМ Александр Лыков.
Все пройдет 26 марта в 18:15. Регистрируемся – здесь.
P.S. Больше информации о вебинаре и других полезных ML-материалов – в тг-канале ШВМ, сохраняйте.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁25👍15❤8😐5🌭4🔥1
RL для оптимизации схем квантовых вычислений
Помните ИИ-систему AlphaChip от Google, которую они используют для дизайна TPU? Так вот: теперь в компании сделали что-то подобное для квантовых чипов.
Модель называется AlphaTensor-Quantum, и она действительно может ускорять вычисления, сокращая количество так называемых Т-гейтов.
Гейты – это специальные матрицы для обработки кубитов. Их есть два вида: эффективные Клиффордские и неэффективные T. Вторые необходимы для универсальных вычислений, но очень прожорливы с точки зрения ресурсов. Самое простое решение – воткнуть много таких и все. Но если хотим эффективнее, приходится долго оптимизировать схемы и сокращать их количество.
Так вот AlphaTensor-Quantum как раз обучен строить схемы вычислений с минимальным количеством Т-гейтов. Система экономит просто огромное количество времени по сравнению с ручной настройкой и превосходит все существующие методы.
А самое интересное, что обучено все в игровом стиле. То есть во время трейна модель училась за минимальное количество «ходов» переходить от неэффективного тензора A к более эффективному B.
RL-сила www.nature.com/articles/s42256-025-01001-1
Помните ИИ-систему AlphaChip от Google, которую они используют для дизайна TPU? Так вот: теперь в компании сделали что-то подобное для квантовых чипов.
Модель называется AlphaTensor-Quantum, и она действительно может ускорять вычисления, сокращая количество так называемых Т-гейтов.
Гейты – это специальные матрицы для обработки кубитов. Их есть два вида: эффективные Клиффордские и неэффективные T. Вторые необходимы для универсальных вычислений, но очень прожорливы с точки зрения ресурсов. Самое простое решение – воткнуть много таких и все. Но если хотим эффективнее, приходится долго оптимизировать схемы и сокращать их количество.
Так вот AlphaTensor-Quantum как раз обучен строить схемы вычислений с минимальным количеством Т-гейтов. Система экономит просто огромное количество времени по сравнению с ручной настройкой и превосходит все существующие методы.
А самое интересное, что обучено все в игровом стиле. То есть во время трейна модель училась за минимальное количество «ходов» переходить от неэффективного тензора A к более эффективному B.
RL-сила www.nature.com/articles/s42256-025-01001-1
🔥70👍24❤9🤯2🕊1💅1
Media is too big
VIEW IN TELEGRAM
Тот самый джун в понедельник утром готовится писать «import numpy»
Продуктивной недели, друзья ✨🍌✍️ 🧊
Продуктивной недели, друзья ✨🍌✍️ 🧊
2😁282🔥35👍19❤8🍌7🌚3🤗3🫡2
МТС добавили в свои MTС Web Services платформу для автоматизации разработки Container Platform
Это Kubernetes, DevOps, AI и Data Services в одном флаконе. То есть с таким инструментом не нужно самостоятельно настраивать разные процессы и думать о их совместимости, а можно сосредоточиться именно на продукте. Чем это круто:
➖ Экономит время. Почти всю рутину Container Platform автоматизирует без заморочек.
➖ Снижает косты. Например, платформа поддерживает работу с GPU и позволяет сделать видеокарты эффективнее на 75%.
➖ Упрощает мониторинг. Внутри – Service Mesh на базе Istio, а это == полная наблюдаемость за микросервисами. Можно быстро находить узие места и отслеживать производительность в реальном времени.
А еще у Container Platform открытая архитектура, так что переезд на нее будет максимально плавным и гарантировано ничего вам не поломает.
Подробности – здесь
Это Kubernetes, DevOps, AI и Data Services в одном флаконе. То есть с таким инструментом не нужно самостоятельно настраивать разные процессы и думать о их совместимости, а можно сосредоточиться именно на продукте. Чем это круто:
А еще у Container Platform открытая архитектура, так что переезд на нее будет максимально плавным и гарантировано ничего вам не поломает.
Подробности – здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
😐30👍8🤪8❤7🤔6🌭4🍌2🫡1
Midjourney внезапно опубликовали статью про языковые модели
Оказывается, они активно экспериментируют с файнтюнингом LM на задачи креативного написания текстов. Это действительно актуальная проблема, потому что основные методы пост-трейна, которые направлены на повышение качества генерации, также частно приводят к понижению разнообразия и креатива в ответах. Из-за этого модели и разговаривают часто "не по-человечески".
В статье же предложили вместо классики использовать видоизмененный RL с добавленным «отклонением» (deviation). На практике классические лоссы DPO и ORPO просто домножаются на нормализованную меру того, насколько конкретный ответ отличается от остальных вариантов по тому же промпту.
Получается, модель учится не только генерировать качественный текст, но и демонстрировать разнообразие в стиле и семантике. И это работает: на reddit-reward результаты вот так затюненой Llama-3.1-8B почти совпадают с показателями человеческих данных. То есть люди практически не отличают креативные тексты даже такой крошечной модели от людских.
В общем, Midjourney однозначно удивили. Было бы забавно увидеть от них какую-нибудь не image модельку на проде. Статья
P.S. Что-то подобное недавно показывал в своем твиттере Альтман: он говорит, что OpenAI тоже разработали Creative Writing модель и даже опубликовал пример того, как она пишет рассказ. Однако никакого намека на то, что она выйдет для юзеров, не было.
Оказывается, они активно экспериментируют с файнтюнингом LM на задачи креативного написания текстов. Это действительно актуальная проблема, потому что основные методы пост-трейна, которые направлены на повышение качества генерации, также частно приводят к понижению разнообразия и креатива в ответах. Из-за этого модели и разговаривают часто "не по-человечески".
В статье же предложили вместо классики использовать видоизмененный RL с добавленным «отклонением» (deviation). На практике классические лоссы DPO и ORPO просто домножаются на нормализованную меру того, насколько конкретный ответ отличается от остальных вариантов по тому же промпту.
Получается, модель учится не только генерировать качественный текст, но и демонстрировать разнообразие в стиле и семантике. И это работает: на reddit-reward результаты вот так затюненой Llama-3.1-8B почти совпадают с показателями человеческих данных. То есть люди практически не отличают креативные тексты даже такой крошечной модели от людских.
В общем, Midjourney однозначно удивили. Было бы забавно увидеть от них какую-нибудь не image модельку на проде. Статья
P.S. Что-то подобное недавно показывал в своем твиттере Альтман: он говорит, что OpenAI тоже разработали Creative Writing модель и даже опубликовал пример того, как она пишет рассказ. Однако никакого намека на то, что она выйдет для юзеров, не было.
👍75🔥21❤10🤯6❤🔥3😁1🌚1🙈1
This media is not supported in your browser
VIEW IN TELEGRAM
"Лучше учиться использовать ИИ, чем учиться программировать"
Сэм Альтман в своем новом интервью сказал, что (возможно) в будущем компаниям нужно будет не так много инженеров, и что лучшая тактика сейчас – это в первую очередь научиться хорошо использовать ИИ.
base
Сэм Альтман в своем новом интервью сказал, что (возможно) в будущем компаниям нужно будет не так много инженеров, и что лучшая тактика сейчас – это в первую очередь научиться хорошо использовать ИИ.
"Это естественно, что ИИ будет умнее людей. Мой ребенок никогда не вырастет более умным, чем ИИ. Это нормально, и нам надо переосмыслить то, как ИИ и люди должны взаимодействовать"
base
🤪216💅37👍32🔥22🗿13❤6🌚5🏆5🦄4🤯3💯3
Там мощно обновился DeepSeek-v3
Вообще, это должно было быть рядовое обновление, как время от времени обновляют чекпоинты 4o или других моделей.
Но пользователи говорят, что в данном случае разница в способностях с предыдущей версией разительная, особенно на математике и программировании.
В конфигах ничего особо не поменялось, так что за деталями ждем тех.отчет.
Веса – здесь (почти 700GB 💀). В официальном чате обновления пока нет, но OpenRouter уже все раскатили, так что попробовать бесплатно можно тут
Вообще, это должно было быть рядовое обновление, как время от времени обновляют чекпоинты 4o или других моделей.
Но пользователи говорят, что в данном случае разница в способностях с предыдущей версией разительная, особенно на математике и программировании.
В конфигах ничего особо не поменялось, так что за деталями ждем тех.отчет.
Веса – здесь (почти 700GB 💀). В официальном чате обновления пока нет, но OpenRouter уже все раскатили, так что попробовать бесплатно можно тут
1🔥115👍30❤18🤯3😁1