Meta представила LLM Compiler, но у OpenAI в ответ как всегда нашелся туз в рукаве
По порядку: LLM Compiler от Meta – это модель на основе Code Llama, которая заточена специально под оптимизацию кода. Обучена на 546 миллиардов токенов LLVM-IR и ассемблерного кода, и зафайнтюнена для интерпретации поведения компилятора. Доступна в размерах 7B и 13В, есть статья.
А OpenAI как будто только этого релиза и ждали. Буквально тут же они выпустили CriticGPT – модель, которая "критикует" код, написанный ChatGPT, тем самым помогая ему становится лучше. Это частично заменяет RLHF. В тестах при таком подходе перформанс взлетел на 60%. Пока еще есть баги, но все обещали исправить. Кстати, если вы поймали флэшбек на GAN'ы – знайте: мы тоже, идея действительно очень похожая.
И все же, что за любовь у OpenAI к релизам в один день с конкурентами?
По порядку: LLM Compiler от Meta – это модель на основе Code Llama, которая заточена специально под оптимизацию кода. Обучена на 546 миллиардов токенов LLVM-IR и ассемблерного кода, и зафайнтюнена для интерпретации поведения компилятора. Доступна в размерах 7B и 13В, есть статья.
А OpenAI как будто только этого релиза и ждали. Буквально тут же они выпустили CriticGPT – модель, которая "критикует" код, написанный ChatGPT, тем самым помогая ему становится лучше. Это частично заменяет RLHF. В тестах при таком подходе перформанс взлетел на 60%. Пока еще есть баги, но все обещали исправить. Кстати, если вы поймали флэшбек на GAN'ы – знайте: мы тоже, идея действительно очень похожая.
И все же, что за любовь у OpenAI к релизам в один день с конкурентами?
👍59🤯15🔥9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Тоже залетаем в тренды последних новостей
😁138🤨7🔥5🗿3❤2🤯2
Gemma специально натаскана на то, чтобы выбить больший скор на LMSYS арене?
В Твиттере заметили, что в тех.отчете упоминается, что модель тюнилась специально на датасете LMSYS-chat-1M. Твит набрал кучу просмотров и комментариев, пользователи шутят, что это "тестирование на трейне".
Однако на самом деле все не так, как выглядит. Во-первых, в отчете явно указано, что из датасета использовались только вопросы, но не ответы, так что это похоже скорее на выравнивание распределения, а не на попытку во что бы то ни стало выбить скор побольше.
Ну и наконец в мире борьбы за ЛЮБЫЕ данные очевидно, что Google не последние, и уж тем более не первые, кто воспользовались LMSYS-chat-1M. К тому же, датасет публичный, для чего же еще он нужен, как не для обучения моделей?
В общем, наезд не засчитан
В Твиттере заметили, что в тех.отчете упоминается, что модель тюнилась специально на датасете LMSYS-chat-1M. Твит набрал кучу просмотров и комментариев, пользователи шутят, что это "тестирование на трейне".
Однако на самом деле все не так, как выглядит. Во-первых, в отчете явно указано, что из датасета использовались только вопросы, но не ответы, так что это похоже скорее на выравнивание распределения, а не на попытку во что бы то ни стало выбить скор побольше.
Ну и наконец в мире борьбы за ЛЮБЫЕ данные очевидно, что Google не последние, и уж тем более не первые, кто воспользовались LMSYS-chat-1M. К тому же, датасет публичный, для чего же еще он нужен, как не для обучения моделей?
В общем, наезд не засчитан
👍36❤11🔥3🆒2
Так, рецепт робота-гуманоида заказывали?
Исследователи из Стэнфорда показали робота, в котором живет нейросеть, способная выучивать движения за счет повторения за человеком. Чтобы выучить действие, роботу нужно повторить его около 40 раз.
Исходно HumanPlus тренили на 40 часах видео, что относительно немного. Так он научился двигать конечностями. Также прикрутили способность в реальном времени обрабатывать изображения с камеры и повторять действия на них, так что можно даже не собирать датасет, а "заниматься" с робо-другом самому.
Самое интересное: ученые выложили вообще все, чтобы повторить робота самому. Доступен датасет, код, статья и даже список используемого железа с ссылками на продавцов.
⚡️ Собираем команду любителей робототехники для имплементации
Исследователи из Стэнфорда показали робота, в котором живет нейросеть, способная выучивать движения за счет повторения за человеком. Чтобы выучить действие, роботу нужно повторить его около 40 раз.
Исходно HumanPlus тренили на 40 часах видео, что относительно немного. Так он научился двигать конечностями. Также прикрутили способность в реальном времени обрабатывать изображения с камеры и повторять действия на них, так что можно даже не собирать датасет, а "заниматься" с робо-другом самому.
Самое интересное: ученые выложили вообще все, чтобы повторить робота самому. Доступен датасет, код, статья и даже список используемого железа с ссылками на продавцов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥21🤯8❤1
Forwarded from XOR
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥34❤15😁3🗿3
Подборка топ-5 свежих вакансий из нашего канала Data Secrets | Карьера
➡️ ML-разработчик в команду ML Laboratory в Яндекс.
➡️ ML Engineer в европейскую компанию MYGAMES, удаленно.
➡️ ML Lead в ETNA, Т-Банк.
➡️ Data Scientist в Сбер.
➡️ Data Scientist в команду рекомендательных систем, Lamoda.
Не забудь подписаться, чтобы найти классную работу или просто держать руку на пульсе рынка: @data_secrets_career
Не забудь подписаться, чтобы найти классную работу или просто держать руку на пульсе рынка: @data_secrets_career
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤7🔥4
На LMSYS арене появилась новая категория рейтинга – «многошаговые» разговоры
Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог.
В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими открытыми моделями стали Gemma-2-27B и Llama-3-70B, они на 10 месте.
Кстати, в главном рейтинге Gemma-2-27B обогнала ламу и стала лучшей опенсорс моделью.
Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог.
В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими открытыми моделями стали Gemma-2-27B и Llama-3-70B, они на 10 месте.
Кстати, в главном рейтинге Gemma-2-27B обогнала ламу и стала лучшей опенсорс моделью.
❤33👍9😁4❤🔥1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Миллионы лет эволюции, открытие законов физики, изобретение электричества, перфокарты, первые компьютеры, перцептрон, сверточные нейросети, механизм внимания, диффузия и visual трансформеры …
… чтобы мы получили это:
… чтобы мы получили это:
🔥134😁63👏5💯3🤨2❤1🤩1
Искусственные нейроны? А может лучше искусственный ДНК?
Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.
В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.
В общем, не теряйте, мы ушли разбираться в коде и играться
Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.
«Менее 1% биомассы всей жизни - это организмы, которые имеют какие-либо нейроны. Это означает, что более 99% всей жизни учится только с помощью репликации ДНК + мутации. Тем не менее, ни одна современная техника ML не настроена на это. Это должно измениться» – написал он.
В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.
В общем, не теряйте, мы ушли разбираться в коде и играться
🔥94🤔31👍9❤4❤🔥1😁1
Data Secrets
На LMSYS арене появилась новая категория рейтинга – «многошаговые» разговоры Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог. В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими…
Некоторые интересные наблюдения со свежей VLM арены:
Пока что проверяется все только на картинках, далее организаторы планируют внедрить в тесты файлы, видео и аудио.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤7🔥5
Зацените: это шесть огромных вентиляторов, которые только что установила Tesla в Техасе.
Они будут охлаждать дата-центр стоимостью $2 млрд: 50к единиц GPU Nvidia и собственное железо Tesla.
Выглядит как прототип новой nvidia RTX 5090,000,000
Они будут охлаждать дата-центр стоимостью $2 млрд: 50к единиц GPU Nvidia и собственное железо Tesla.
Выглядит как прототип новой nvidia RTX 5090,000,000
🔥112😁44🤯13❤4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿77😁47👍13🤯6🍌4🤪3😐2❤1
Обновленный EAGLE для ускорения инференса уже здесь
Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.
EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.
В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).
Доступно демо, статья и код
Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.
EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.
В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).
Доступно демо, статья и код
👍30🔥14❤7
Меньше данных -> лучше модель
Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.
Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.
И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.
Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.
Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.
И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.
Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
🔥104👍25❤12