Forwarded from AbstractDL
SIM-CoT: впервые латентный ризонинг догнал явный CoT
Помните COCONUT от Meta? Там LLM учили рассуждать не словами, а эмбеддингами. Звучит круто, но была одна гадкая проблема — при увеличении количества неявных токенов модель начинала нестабильно обучаться и иногда полностью коллапсировала. Представьте: добавили пятый латентный токен, а точность упала с 89% до 12%! Да и нормальные результаты были только на игрушечных моделях вроде GPT-2.
Авторы SIM-CoT разобрались, в чём дело. Оказалось, что неявные токены теряют семантическое разнообразие и становятся слишком похожими друг на друга, постепенно все латенты начинают кодировать одно и то же. Классический коллапс пространства эмбеддингов.
Решение — добавить step-level supervision. Во время обучения каждый неявный токен выравнивается со своим конкретным шагом рассуждения. Отдельная модель-декодер (архитектурно идентичная основной LLM), учится превращать каждый латентный токен обратно в текстовый шаг через кросс-энтропию. Этот декодер работает только при обучении, а на инференсе выкидывается — благодаря этому никаких потерь в скорости.
И это работает! На GPT-2 SIM-CoT впервые обошел явный CoT при скорости в 2.3 раза выше. На больших моделях (LLaMA-3.1 8B) метод догоняет явный CoT, сохраняя преимущество в эффективности. Плюс бонус — auxiliary decoder позволяет "подсматривать" во внутренние размышления модели для дебага.
Но на больших моделях SIM-CoT скорее закрывает разрыв с явным рассуждением, чем кардинально его превосходит. Но сам подход решения нестабильности неявного CoT через пошаговый supervision выглядит очень разумно. В целом я очень верю в это направление COCONUT-like архитектур.
Статья, GitHub
Помните COCONUT от Meta? Там LLM учили рассуждать не словами, а эмбеддингами. Звучит круто, но была одна гадкая проблема — при увеличении количества неявных токенов модель начинала нестабильно обучаться и иногда полностью коллапсировала. Представьте: добавили пятый латентный токен, а точность упала с 89% до 12%! Да и нормальные результаты были только на игрушечных моделях вроде GPT-2.
Авторы SIM-CoT разобрались, в чём дело. Оказалось, что неявные токены теряют семантическое разнообразие и становятся слишком похожими друг на друга, постепенно все латенты начинают кодировать одно и то же. Классический коллапс пространства эмбеддингов.
Решение — добавить step-level supervision. Во время обучения каждый неявный токен выравнивается со своим конкретным шагом рассуждения. Отдельная модель-декодер (архитектурно идентичная основной LLM), учится превращать каждый латентный токен обратно в текстовый шаг через кросс-энтропию. Этот декодер работает только при обучении, а на инференсе выкидывается — благодаря этому никаких потерь в скорости.
И это работает! На GPT-2 SIM-CoT впервые обошел явный CoT при скорости в 2.3 раза выше. На больших моделях (LLaMA-3.1 8B) метод догоняет явный CoT, сохраняя преимущество в эффективности. Плюс бонус — auxiliary decoder позволяет "подсматривать" во внутренние размышления модели для дебага.
Но на больших моделях SIM-CoT скорее закрывает разрыв с явным рассуждением, чем кардинально его превосходит. Но сам подход решения нестабильности неявного CoT через пошаговый supervision выглядит очень разумно. В целом я очень верю в это направление COCONUT-like архитектур.
Статья, GitHub
🔥22👍7❤4🤔2
В процессе поиска для книги нашел заметку из 2020 где автор объясняет, почему стоит обратить внимание на GPT-3. Тогда ещё не было InstructGPT, ChatGPT и агентов, а OpenAI говорили, что публично доступная GPT-3 уничтожит демократию. Прикольный взгляд из прошлого
https://raohacker.com/why-the-new-ai-nlp-language-model-gpt-3-is-a-big-deal/
https://raohacker.com/why-the-new-ai-nlp-language-model-gpt-3-is-a-big-deal/
arun rao
Why the new AI/ML language model GPT-3 is a big deal
Why GPT-3 matters at a high level August 2020 GPT-3 feels like the first time I used email, the first time I went from a command line text interface to a graphical user interface (GUI), or the firs…
OpenAI в 2024: встречайте SORA. Первая настоящая модель мира. Симулятор реальности. Мир никогда не будет прежним.
OpenAI в 2025: в общем мы сделали из неё тикток
OpenAI в 2025: в общем мы сделали из неё тикток
Если бы мне нужно было приложение с бесконечным потоком дегенеративного слопа, я бы открыл Youtube
Forwarded from tsymba❤️
- Открылся набор задач: в ближайшую пару месяцев (или больше при желании) можно засабмитить идею или полноценную задачу тут. Лучшие поедут в Абу-Даби в следующем году и смогут посмотреть на страдания студентов воочию!✨
- Мыначинаем квн расширяем комитет! Если вы знаете кого-то классного (или себя) — подавайтесь в ближайший месяц для благого дела! В этом году мы выгнали лентяев и набрали крутых специалистов типа Александра Дьяконова, присоединяйтесь! Предстоит много работы по задачам, регулированию и прочему. В Абу-Даби тоже попадете, кстати.
Ну и, конечно, расскажите своим друзьям❤️
- Мы
Ну и, конечно, расскажите своим друзьям❤️
❤8🔥2
Запрос от подписчицы
Что нужно сделать: заполнить короткий опрос (15–20 минут) о том, как вы выбираете бенчмарки.
Ссылка на опрос: https://forms.gle/jNskmAE6i3vLp6429
Давайте поможем сделать более полезные инструменты для работы с бенчмарками.
Меня зовут Анна, я аспирантка в University of Notre Dame. Вместе с IBM Research мы проводим исследование о том, как специалисты выбирают бенчмарки для больших языковых моделей.
Если вы работаете с LLM и сталкивались с выбором бенчмарков для оценки, тестирования или исследований, нам будет очень важно услышать ваш опыт.
О компенсации: к сожалению, мы не можем вознаградить участников из России, СНГ, Китая и из других стран. Компенсация возможна только для тех, кто живет в США, потому что подарочные карты работают лишь там
Что нужно сделать: заполнить короткий опрос (15–20 минут) о том, как вы выбираете бенчмарки.
Ссылка на опрос: https://forms.gle/jNskmAE6i3vLp6429
Давайте поможем сделать более полезные инструменты для работы с бенчмарками.
Google Docs
Benchmark Advisor Survey
We are developing BenchmarkAdvisor, a recommendation tool that will help practitioners select the most appropriate benchmarks for evaluating Large Language Models (LLMs) based on their specific use cases and constraints.
What we're trying to understand:
How…
What we're trying to understand:
How…
OpenAI недавно выпустили prompt packs: наборы промптов для разных задач.
И это очень смешно (только для меня, но всё равно ), потому что там всё такого вида: чтобы ChatGPT сделала вам саммари документа попросите её сделать саммари документа. И не забудьте вставить текст документа!
Вот они какие оказывается лайфхаки для промптинга. Попробуйте просить то, что хотите получить, и не просить того, чего не хотите.
И это очень смешно (
Вот они какие оказывается лайфхаки для промптинга. Попробуйте просить то, что хотите получить, и не просить того, чего не хотите.
В пятницу буду приглашенным гостем на седьмом митапе Practical AI: Expert Talks. В этот раз в роли задающего вопросы предпринимателям.
Тема: как попасть в выдачу AI поиска.
Будет шанс послушать как бизнес адаптируется к тому, что AI поиск приходит на смену традиционным поисковикам, а вместо SEO теперь GEO.
На этой встрече будем обсуждать:
- Как работают AI-модели с т.з. поиска информации.
- Как они видят интернет.
- Что можно сделать для попадания в поисковую выдачу моделей.
- Что делать, чтобы удержать пользователея который пришел из GEO поиска.
Спикеры:
Михайлов Павел, серийный предприниматель
основатель SEO-агентства PMD
соучредитель в агрегаторе Allcourses.io
Светлана Галахова, основательница AIHUB.WORKS. AI-продакт с фокусом на решениях для бизнеса. Запустила 30+ AI-проектов для международных компаний:
NLP-боты, RAG-ассистенты, аналитические инструменты.
Модератор митапа:
Данил Усик, серийный предприниматель. CEO & Founder корпоративной образовательной платформы Practical AI, 10+ лет в B2B-продажах и Biz.Dev, экс-основатель дизайн-бюро, реализовавшего проекты для частных школ Москвы, в т.ч. на кампусе МГУ
🗓 Дата и время: 10 октября,
16:00 по Москве
17:00 по Берлину
10:00 по Буэнос-Айресу
📍 Место: Онлайн, в Zoom.
✅ Участие бесплатное.
Запись опубликуют на канале Practical AI
➡️ Зарегистрироваться
Тема: как попасть в выдачу AI поиска.
Будет шанс послушать как бизнес адаптируется к тому, что AI поиск приходит на смену традиционным поисковикам, а вместо SEO теперь GEO.
На этой встрече будем обсуждать:
- Как работают AI-модели с т.з. поиска информации.
- Как они видят интернет.
- Что можно сделать для попадания в поисковую выдачу моделей.
- Что делать, чтобы удержать пользователея который пришел из GEO поиска.
Спикеры:
Михайлов Павел, серийный предприниматель
основатель SEO-агентства PMD
соучредитель в агрегаторе Allcourses.io
Светлана Галахова, основательница AIHUB.WORKS. AI-продакт с фокусом на решениях для бизнеса. Запустила 30+ AI-проектов для международных компаний:
NLP-боты, RAG-ассистенты, аналитические инструменты.
Модератор митапа:
Данил Усик, серийный предприниматель. CEO & Founder корпоративной образовательной платформы Practical AI, 10+ лет в B2B-продажах и Biz.Dev, экс-основатель дизайн-бюро, реализовавшего проекты для частных школ Москвы, в т.ч. на кампусе МГУ
🗓 Дата и время: 10 октября,
16:00 по Москве
17:00 по Берлину
10:00 по Буэнос-Айресу
📍 Место: Онлайн, в Zoom.
✅ Участие бесплатное.
Запись опубликуют на канале Practical AI
➡️ Зарегистрироваться
❤11👍3🔥3👎2
Не помню рассказывал я вам или нет, но я пишу научпоп книгу про ML/ИИ. И тестирую неотредактированные рукописи на нескольких несчастных друзьях.
Один из бета-тестеров книги, не ML-щик, прочитал главу про Word2Vec и спонтанно изобрел The Platonic Representation Hypothesis
Ради такого эффекта хочется продолжать писать! Но ещё больше, конечно, хочется закончить. Закончил восьмую главу, впереди ещё две (почему их становится больше?)
Один из бета-тестеров книги, не ML-щик, прочитал главу про Word2Vec и спонтанно изобрел The Platonic Representation Hypothesis
Ради такого эффекта хочется продолжать писать! Но ещё больше, конечно, хочется закончить. Закончил восьмую главу, впереди ещё две (почему их становится больше?)
❤70🔥38👍4
Forwarded from Kali Novskaya
Вышел State of AI 2025!
🟣 https://www.stateof.ai/
В этом году в него вошла наша работа — MLGym!
И в целом большое внимание агентам для науки
В этом году в него вошла наша работа — MLGym!
И в целом большое внимание агентам для науки
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥7❤2
Forwarded from PRACTICAL AI Broadcast
Через 30 минут начинаем.
Если вам не пришла ссылка на почту или в личные сообщения - присоединяйтесь здесь
Если вам не пришла ссылка на почту или в личные сообщения - присоединяйтесь здесь
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
❤1🔥1
Борис опять
В пятницу буду приглашенным гостем на седьмом митапе Practical AI: Expert Talks. В этот раз в роли задающего вопросы предпринимателям. Тема: как попасть в выдачу AI поиска. Будет шанс послушать как бизнес адаптируется к тому, что AI поиск приходит на смену…
Через 20 минут буду у ребят на митапе, расспрашивать про поиск
🔥7👍1