На Habr вышла статья о том, какие способы используют, чтобы максимально точно измерить “ум” языковой модели
Представьте, что вы пытаетесь оценить знания человека с помощью тестов. Вроде все просто: правильно ответил — молодец, ошибся — учись дальше. Но с LLM все оказалось сложнее: хотя академические тесты полезны, они не показывают, насколько модель эффективна в реальных задачах — ведении диалогов, переводах, суммаризации и генерации идей.
Нужно учитывать и то, что у моделей нет внутренней картины мира, в отличие от людей, и на первый взгляд очевидные вопросы оказываются сложными для них. К примеру, вопрос о том, как почувствовать вкус чего-то, кажется нам абсурдным, а для LLM ответ совсем не очевиден.
В Яндексе для решения этой проблемы создали особый пайплайн. Помимо стандартных бенчмарков (которые, кстати, подвержены протечкам данных), используют команду AI-тренеров — экспертов для глубокой проверки ответов. Это сложнее и дороже, но позволяет понять реальную ценность LLM.
Оригинальная статья здесь
Представьте, что вы пытаетесь оценить знания человека с помощью тестов. Вроде все просто: правильно ответил — молодец, ошибся — учись дальше. Но с LLM все оказалось сложнее: хотя академические тесты полезны, они не показывают, насколько модель эффективна в реальных задачах — ведении диалогов, переводах, суммаризации и генерации идей.
Нужно учитывать и то, что у моделей нет внутренней картины мира, в отличие от людей, и на первый взгляд очевидные вопросы оказываются сложными для них. К примеру, вопрос о том, как почувствовать вкус чего-то, кажется нам абсурдным, а для LLM ответ совсем не очевиден.
В Яндексе для решения этой проблемы создали особый пайплайн. Помимо стандартных бенчмарков (которые, кстати, подвержены протечкам данных), используют команду AI-тренеров — экспертов для глубокой проверки ответов. Это сложнее и дороже, но позволяет понять реальную ценность LLM.
Оригинальная статья здесь
👍40🔥9❤5🤯3☃1
OpenAI рассчитывает в новом году на b2b
Об этом пишет The Information. Журналисты взяли интервью у директора по продажам стартапа и тот ясно дал понять, что в 2025 OpenAI целится в пятую ступень развития ИИ (вот тут пост про все ступени, которые описывал Альтман) – то есть в ИИ, который может управлять предприятием.
Для достижения цели они настроены подписывать крупные контракты с бизнесом и серьезно расширяют отдел продаж. «Мы думаем, что индустрия к этому готова: фокус применения ИИ смешается со стартапов на традиционный сферы, такие как здравоохранение и строительство».
Получается, что за год OpenAI планируют перепрыгнуть ступень ризонеров и новаторов, и достичь AGI (при этом на первых двух ступенях мы находились порядка пяти лет). Было упомянуто, кстати, что с точки зрения продукта стартап делает ставку именно на модель o1.
Об этом пишет The Information. Журналисты взяли интервью у директора по продажам стартапа и тот ясно дал понять, что в 2025 OpenAI целится в пятую ступень развития ИИ (вот тут пост про все ступени, которые описывал Альтман) – то есть в ИИ, который может управлять предприятием.
Для достижения цели они настроены подписывать крупные контракты с бизнесом и серьезно расширяют отдел продаж. «Мы думаем, что индустрия к этому готова: фокус применения ИИ смешается со стартапов на традиционный сферы, такие как здравоохранение и строительство».
Получается, что за год OpenAI планируют перепрыгнуть ступень ризонеров и новаторов, и достичь AGI (при этом на первых двух ступенях мы находились порядка пяти лет). Было упомянуто, кстати, что с точки зрения продукта стартап делает ставку именно на модель o1.
🤯35🤪14😁9👍5❤1
Свежее исследование от Apple: всего один параметр в LLM может разрушить способность всей модели генерировать осмысленный текст
Во многих предыдущих работах уже было показано, что некоторые веса модели имеют больше значения, чем остальные. В частности, доказано, что существуют небольшие группы весов-выбросов (до 0.01%), которые составляют основную часть качества модели.
Apple же пошли дальше и выявили, что в моделях есть удивительный THE SUPER WEIGHT – параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное. Перплексия без него повышается в три раза, а на zero-shot качество ответов падает до случайного бормотания.
В статье также предлагается метод поиска такого супер-веса за один проход по сети. Дело в том, что, оказывается, супер-веса связаны с супер-активациями – исключительно большими актвациями, которые были обнаружены недавно в другой работе. При этом это не случайная корреляция, и как раз с помощью обнаружения скачков активаций (то есть на практике скачков в инпут и аутпут распределениях слоев) можно обнаружить супер-вес.
Кстати, супер-вес может быть не один: в некоторых сетях их обнаружили около шести, но обычно не более трех. При этом до и после файнтюнинга расположение супер-веса не меняется, а еще они обычно располагаются в ранних слоях.
Интересно то, что знания о расположении таких супер-весов можно эффективно применять для оптимизации квантования или дистилляции. Например, просто обрабатывая такие веса специальным образом, ученые добились того, что ванильные методы сжатия достигают перформанса продвинутых, выростая в качестве на 75-82%. Это очень достойный результат.
Статья полностью – здесь
Во многих предыдущих работах уже было показано, что некоторые веса модели имеют больше значения, чем остальные. В частности, доказано, что существуют небольшие группы весов-выбросов (до 0.01%), которые составляют основную часть качества модели.
Apple же пошли дальше и выявили, что в моделях есть удивительный THE SUPER WEIGHT – параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное. Перплексия без него повышается в три раза, а на zero-shot качество ответов падает до случайного бормотания.
В статье также предлагается метод поиска такого супер-веса за один проход по сети. Дело в том, что, оказывается, супер-веса связаны с супер-активациями – исключительно большими актвациями, которые были обнаружены недавно в другой работе. При этом это не случайная корреляция, и как раз с помощью обнаружения скачков активаций (то есть на практике скачков в инпут и аутпут распределениях слоев) можно обнаружить супер-вес.
Кстати, супер-вес может быть не один: в некоторых сетях их обнаружили около шести, но обычно не более трех. При этом до и после файнтюнинга расположение супер-веса не меняется, а еще они обычно располагаются в ранних слоях.
Интересно то, что знания о расположении таких супер-весов можно эффективно применять для оптимизации квантования или дистилляции. Например, просто обрабатывая такие веса специальным образом, ученые добились того, что ванильные методы сжатия достигают перформанса продвинутых, выростая в качестве на 75-82%. Это очень достойный результат.
Статья полностью – здесь
❤102👍37🔥27🤔7
EpochAI продолжают радовать: они только что запустили интерактивный симулятор обучения моделей
Инструмент может проанализировать эффективность обучения на заданных чипах и с заданными характеристиками трейна: глубины модели, размера датасета и пр. Графики на выходе показывают, как меняется наилучшая достижимая утилизация трейна (во флопсах) по мере масштабирования обучения. На картинке выше пример с AlexNet.
Также можно играться с гиперпараметрами модели: например, проверить, что будет с производительностью, если мы учим на A100 и поменяли размер батча😇
Ссылка с подробностями
Инструмент может проанализировать эффективность обучения на заданных чипах и с заданными характеристиками трейна: глубины модели, размера датасета и пр. Графики на выходе показывают, как меняется наилучшая достижимая утилизация трейна (во флопсах) по мере масштабирования обучения. На картинке выше пример с AlexNet.
Также можно играться с гиперпараметрами модели: например, проверить, что будет с производительностью, если мы учим на A100 и поменяли размер батча
Ссылка с подробностями
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41❤8👍6
Внезапно выяснилось, что новая громкая модель ризонинга QwQ (пост) переключается на китайский, когда ей нужно глубоко о чем-то подумать, а затем переходит обратно на язык юзера, чтобы дать ответ.
Это довольно круто и логично и, скорее всего, очень хорошо влияет на метрики. Пример такого диалога
P.S. Кстати, на HuggingFace QwQ сегодня заняла первое место в рейтинге трендовых моделей
Это довольно круто и логично и, скорее всего, очень хорошо влияет на метрики. Пример такого диалога
P.S. Кстати, на HuggingFace QwQ сегодня заняла первое место в рейтинге трендовых моделей
👍127😐20🔥10🤔8😁6❤3
Data Secrets
Внезапно выяснилось, что новая громкая модель ризонинга QwQ (пост) переключается на китайский, когда ей нужно глубоко о чем-то подумать, а затем переходит обратно на язык юзера, чтобы дать ответ. Это довольно круто и логично и, скорее всего, очень хорошо…
Сбылось, получается?
🔥73👍15😁10🤯2🌚1😐1
Найдено «развлечение» на вечер: парень в соцсетях поделился своими домашками и заданиями семестрового экзамена курса по машинному обучению в Индийском национальном институте (IISC). Первые два фото – теория (экзамен), остальное – практика (дз).
Еще вопросы к индусам на YouTube будут?
Еще вопросы к индусам на YouTube будут?
👍91🔥29👏9🤯6❤4
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🔥43🍾37😁16❤12🌚8🤔1😐1🗿1
Всех причастных с Днем Математика!
Пусть ваш градиент всегда указывает в сторону глобального минимума, сингулярности исчезают под натиском регуляризаций, а все модели сходятся быстрее, чем вы успеете сказать «градиентный спуск»🤓
Пусть ваш градиент всегда указывает в сторону глобального минимума, сингулярности исчезают под натиском регуляризаций, а все модели сходятся быстрее, чем вы успеете сказать «градиентный спуск»
Please open Telegram to view this post
VIEW IN TELEGRAM
❤212🍾43🎉21👍8❤🔥5😁3🫡3🗿2
В честь Дня Математика - математический кроссворд выходного дня. Предупреждаем: он не самый простой 🎩
По горизонтали:
1. Чем выше его значение, тем сильнее пики, чем ниже — тем более плоское распределение.
3. Основной инструмент для обучения моделей через минимизацию функции потерь.
6. В градиентных методах это используется для учета инерции обновления весов.
8. Его работы легли в основу теории цепей, где будущее состояние системы зависит только от текущего.
9. Его вершины — это потенциальные кандидаты на оптимум.
10. Если он равен нулю, строки или столбцы матрицы линейно зависимы.
13. Функция расстояния между распределениями, используемая, например, в байесовском обучении.
14. Самый замечательный термин математики.
По вертикали:
2. Классический пример применения его теоремы — фильтр для определения спама в письмах.
4. Свойство чисел, позволяющее определить равенство остатков при делении. Часто встречается в криптографии и при хэшировании данных.
5. Статистический метод, при котором из одной выборки многократно создаются новые с помощью случайного выбора с возвращением.
7. Мера неопределенности или хаотичности системы.
11. Операция отображения многомерных данных на пространство меньшей размерности. Часто применяется в t-SNE и PCA для визуализации.
12. Он бывает Белла, Жегалкина и даже Лежандра.
15. Без нее градиентный спуск невозможен.
Присылайте догадки в комментарии, только закрывайте спойлерами🤫
По горизонтали:
1. Чем выше его значение, тем сильнее пики, чем ниже — тем более плоское распределение.
3. Основной инструмент для обучения моделей через минимизацию функции потерь.
6. В градиентных методах это используется для учета инерции обновления весов.
8. Его работы легли в основу теории цепей, где будущее состояние системы зависит только от текущего.
9. Его вершины — это потенциальные кандидаты на оптимум.
10. Если он равен нулю, строки или столбцы матрицы линейно зависимы.
13. Функция расстояния между распределениями, используемая, например, в байесовском обучении.
14. Самый замечательный термин математики.
По вертикали:
2. Классический пример применения его теоремы — фильтр для определения спама в письмах.
4. Свойство чисел, позволяющее определить равенство остатков при делении. Часто встречается в криптографии и при хэшировании данных.
5. Статистический метод, при котором из одной выборки многократно создаются новые с помощью случайного выбора с возвращением.
7. Мера неопределенности или хаотичности системы.
11. Операция отображения многомерных данных на пространство меньшей размерности. Часто применяется в t-SNE и PCA для визуализации.
12. Он бывает Белла, Жегалкина и даже Лежандра.
15. Без нее градиентный спуск невозможен.
Присылайте догадки в комментарии, только закрывайте спойлерами
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍16❤11😁4
DeepMind на выходных завезли «свою версию» ризонинг-обучения в языковых моделях
Наверное, многие из нас слышали про метод, когда учитель не дает правильных ответов, а вместо этого задает наводящие вопросы, и истина рождается в течение диалога в ответах ученика сама. Это метод Сократа, который и взяли за основу ученые из DeepMind.
Их статья называется Boundless Socratic Learning with Language Games. Основная ее идея – замена внешнего учителя на внутреннее взаимодействие агентов, которые могут посредством сократовской «игры» совершенствовать друг друга. Так можно достигать гораздо большей генерализации данных + агенты учатся автономно. Все, что надо – это гигантские вычислительные ресурсы, широкое покрытие датасетом доменов и хорошая ревард-модель.
Кстати, ревард модель тут не та самая привычная из RL: здесь вводится главный критик в роли одного из агентов, но также добавляется прокси-ревард моделька, которая дополнительно награждает ученика, а иногда и критика, если ему требуется тюнинг.
В статье, к сожалению, излагается только теория. Результатов экспериментов пока не видно, но идея стоящая, поэтому будем ждать
Наверное, многие из нас слышали про метод, когда учитель не дает правильных ответов, а вместо этого задает наводящие вопросы, и истина рождается в течение диалога в ответах ученика сама. Это метод Сократа, который и взяли за основу ученые из DeepMind.
Их статья называется Boundless Socratic Learning with Language Games. Основная ее идея – замена внешнего учителя на внутреннее взаимодействие агентов, которые могут посредством сократовской «игры» совершенствовать друг друга. Так можно достигать гораздо большей генерализации данных + агенты учатся автономно. Все, что надо – это гигантские вычислительные ресурсы, широкое покрытие датасетом доменов и хорошая ревард-модель.
Кстати, ревард модель тут не та самая привычная из RL: здесь вводится главный критик в роли одного из агентов, но также добавляется прокси-ревард моделька, которая дополнительно награждает ученика, а иногда и критика, если ему требуется тюнинг.
В статье, к сожалению, излагается только теория. Результатов экспериментов пока не видно, но идея стоящая, поэтому будем ждать
❤56👍24🔥13🤯4😎2
В последнем подкасте Hard Fork от New York Times внезапно выяснилось, что трансформеры вдохновлены фильмом «Прибытие» 2016 года про вторжение инопланетян
Забавно также, что язык инопланетян из этого фильма был вдохновлен языком программирования Wolfram, создатель которого в последствие был в таком восторге от трансформеров, что написал об этом книгу.
Круг замкнулся
Я мог бы целый час говорить о трансформерах и о том, почему они так важны. Но я думаю, важно сказать, что они были вдохновлены языком пришельцев из фильма «Прибытие», который тогда только что вышел. В частности, один из исследователей команды Google заметил, что у пришельцев в фильме был язык, который представлял целые предложения одним символом. И они подумали: эй, а что, если мы сделаем это внутри нейронной сети? И затем вместо того, чтобы обрабатывать все входные данные по одному слову за раз, был придуман механизм внимания, который обращал внимание на все слова одновременно.
Забавно также, что язык инопланетян из этого фильма был вдохновлен языком программирования Wolfram, создатель которого в последствие был в таком восторге от трансформеров, что написал об этом книгу.
Круг замкнулся
❤114🔥36😁14👍11🤯3🤨2🙈2🗿2❤🔥1🍌1
This media is not supported in your browser
VIEW IN TELEGRAM
Начался декабрь. Какие подарочки на Новый Год мы ждем от индустрии?
⚪️ Gemini 2. Уже несколько раз разные издания сообщали о том, что модель готовят к запуску в начале декабря, а вчера модель заметили в личных кабинетах некоторых пользователей Gemini. Первая версия была выпущена, кстати, ровно год назад.
Про Gemini 2, как и про следующую модель OpenAI, ходят слухи: якобы она не показывает значительного прироста качества и перестала масштабироваться. Однако пару дней назад на Арене появились тестовые модели Gremlin и Goblin (под которыми, кажется, и скрываются новые релизы Google) и пользователи пишут, что модели очень хороши в кодинге.
⚪️ Grok 3. О том, что модель релизнут в декабре, говорил сам Маск. Уже в августе он заявлял, что Grok 3 станет самым мощным ИИ в мире и будет обучен на самом огромном из существующих кластеров. Что ж, со сроками у Илона всегда были проблемы, но будем ждать.
⚪️ Проект Operator от OpenAI и полная версия o1. Последнее ждем уже давно, а Operator должен стать новинкой-сюрпризом. Напоминаем, что это это ИИ-агент для автономного управления компьютером.
Изначально релиз готовился на январь, но… на День Рождения ChatGPT мы никаких громких релизов не увидели, и, кроме того, если конкуренты действительно дропнут мощные новинки, OpenAI вряд ли станет долго держать туза в рукаве. Еще есть слабая надежда на SORA, но здесь все неоднозначно.
В общем, Happy December🎩
Про Gemini 2, как и про следующую модель OpenAI, ходят слухи: якобы она не показывает значительного прироста качества и перестала масштабироваться. Однако пару дней назад на Арене появились тестовые модели Gremlin и Goblin (под которыми, кажется, и скрываются новые релизы Google) и пользователи пишут, что модели очень хороши в кодинге.
Изначально релиз готовился на январь, но… на День Рождения ChatGPT мы никаких громких релизов не увидели, и, кроме того, если конкуренты действительно дропнут мощные новинки, OpenAI вряд ли станет долго держать туза в рукаве. Еще есть слабая надежда на SORA, но здесь все неоднозначно.
В общем, Happy December
Please open Telegram to view this post
VIEW IN TELEGRAM
🎅50🔥10🎄6👍2🤔1