Ученые из Калифорнийского университета показали способ учить LLM без перемножения матриц
Перемножение матриц – основная операция в LLM из-за механизма внимания. Именно она тянет на себя большинство вычислительных затрат, и чем больше контекст и количество параметров – тем больше и больше перемножение матриц ест.
Чтобы это побороть, авторы (вдохновшись BitNet) внесли в архитекуру LLM три основных изменения:
– вместо традиционных чисел с плавающей запятой веса представляют из себя только числа из набора (-1, 0, 1)
– перепроектирован self-attention: теперь на его месте рекуррентный блок, в котором используются только базовые операции
– использован Gated Linear Unit (GLU) из LSTM – его адаптировали под триплетные веса.
В итоге получилось, что такие модели могут достигать перформанса привычных трансформеров, при этом мощно сокращая память и компьют. Кроме того, авторы показывают, что архитектура хорошо скейлится.
Доступен код, так что можно поиграться своими руками. Кроме того, советуем прочитать статью.
Перемножение матриц – основная операция в LLM из-за механизма внимания. Именно она тянет на себя большинство вычислительных затрат, и чем больше контекст и количество параметров – тем больше и больше перемножение матриц ест.
Чтобы это побороть, авторы (вдохновшись BitNet) внесли в архитекуру LLM три основных изменения:
– вместо традиционных чисел с плавающей запятой веса представляют из себя только числа из набора (-1, 0, 1)
– перепроектирован self-attention: теперь на его месте рекуррентный блок, в котором используются только базовые операции
– использован Gated Linear Unit (GLU) из LSTM – его адаптировали под триплетные веса.
В итоге получилось, что такие модели могут достигать перформанса привычных трансформеров, при этом мощно сокращая память и компьют. Кроме того, авторы показывают, что архитектура хорошо скейлится.
Доступен код, так что можно поиграться своими руками. Кроме того, советуем прочитать статью.
👍94🔥34🤔11❤8❤🔥2
Научитесь решать end-to-end задачи в CV
Быть хорошим ML-инжененером != уметь пилить модельки в ноутбуках. Вот что нужно уметь, чтобы быть конкурентноспособным и действительно хорошо решать задачи CV:
➡️ собирать чистые данные
➡️ быстрее обучать модели
➡️ ускорять нейросети
➡️ создавать веб-сервисы
➡️ автоматизировать их деплой
➡️ настраивать мониторинг приложений
➡️ хорошо разбираться в распознавании лиц и текстов, генерации изрбражений и многом другом.
Уже настроились все это освоить? Тогда имейте в виду: изучать все лучше системно и на практике, и чтобы не потерять много времени, лучше сразу перенимать проверенные знания у профессионалов.
Наши друзья из DeepSchool прямо сейчас предлагают такую мега-возможность и зовут учиться на программу CV Rocket. Если хотите закрыть пробелы в CV и освоить весь цикл решения таких задач, это место точно для вас:
⚙️ 12 спикеров из разных отраслей и компаний (подробнее тут)
⚙️ много фидбека и общения со спикерами: на zoom-лекциях, в рамках code review, на семинарах и в чате
⚙️ сложные задачи: 2 больших end-to-end проекта, которые с гордостью можно добавить в резюме
Курс стартует 4 июля и длится 5 месяцев. А еще ребята подарили вам специальный промокод DataSecrets на дополнительную скидку в 10.000 рублей, который действует до 30 июня включительно!
Не упустите шанс стать гуру CV и регистрируйтесь прямо сейчас!
Быть хорошим ML-инжененером != уметь пилить модельки в ноутбуках. Вот что нужно уметь, чтобы быть конкурентноспособным и действительно хорошо решать задачи CV:
Уже настроились все это освоить? Тогда имейте в виду: изучать все лучше системно и на практике, и чтобы не потерять много времени, лучше сразу перенимать проверенные знания у профессионалов.
Наши друзья из DeepSchool прямо сейчас предлагают такую мега-возможность и зовут учиться на программу CV Rocket. Если хотите закрыть пробелы в CV и освоить весь цикл решения таких задач, это место точно для вас:
Курс стартует 4 июля и длится 5 месяцев. А еще ребята подарили вам специальный промокод DataSecrets на дополнительную скидку в 10.000 рублей, который действует до 30 июня включительно!
Не упустите шанс стать гуру CV и регистрируйтесь прямо сейчас!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥9⚡6😁5❤3😐1
В этом году Россия получит собственную среду разработки и исполнения Java-приложений – SberJDK.
Об этом сообщил старший вице-президент Сбера Андрей Белевцев, отвечающий за блок «Технологическое развитие», на конференции GigaConf. Отечественное решение представляет собой альтернативу зарубежным платформам, созданную для противодействия технологической изоляции России.
В команду Сбера собрали ведущих инженеров отрасли с богатым опытом и уникальными знаниями, чтобы разработать эту платформу. Данная инициатив станет не только новым шагом в достижении поставленных целей, но и сохранит российские таланты на территории нашей страны.
Об этом сообщил старший вице-президент Сбера Андрей Белевцев, отвечающий за блок «Технологическое развитие», на конференции GigaConf. Отечественное решение представляет собой альтернативу зарубежным платформам, созданную для противодействия технологической изоляции России.
В команду Сбера собрали ведущих инженеров отрасли с богатым опытом и уникальными знаниями, чтобы разработать эту платформу. Данная инициатив станет не только новым шагом в достижении поставленных целей, но и сохранит российские таланты на территории нашей страны.
❤55😁37🙈22😐10🗿10⚡3👍2😎2🌚1👀1
Data Secrets
В стиле OpenAI: на LMSYS арене снова появляются какие-то загадочные модели На этот раз late-June-chatbot и im-also-a-late-June-chatbot. В ответ на вопрос «кто ты?» отвечает, что он Gemma (модель от Google). Если это правда, Google тролят OpenAI за майские…
Google выпустили опенсорс LLM Gemma-2
Те, кто на нашем вчерашнем посте про загадочные модели на арене проголосовал за Google, были правы. Модель im-also-a-late-June-chatbot оказалась новой Gemma-2.
Доступна в размерах 9В и 27В. Запускать можно наутюге всего одной H100. 9B превосходит на тестах Llama 3 8B, а 27В подбирается к Llama 3 70В.
Самое приятное в этом всем – открытые веса. Кроме того, есть тех.отчет и новый кукбук для разработчиков с кучей практических примеров использования и тюнинга модели.
Те, кто на нашем вчерашнем посте про загадочные модели на арене проголосовал за Google, были правы. Модель im-also-a-late-June-chatbot оказалась новой Gemma-2.
Доступна в размерах 9В и 27В. Запускать можно на
Самое приятное в этом всем – открытые веса. Кроме того, есть тех.отчет и новый кукбук для разработчиков с кучей практических примеров использования и тюнинга модели.
💘30🔥15👍8 2
Завозим анализ архитектуры новой Gemma 2, пройдемся по интересному:
➡️ В два раза больше layernorms, используется pre LN и post LN.
➡️ Используется soft capping – метод для предотвращения взрыва логитов без усечения, путем деления на трешхолд. В данном случае логиты аттеншена делятся на 30, а финальные на 50.
➡️ Размер словаря 256 128 для всех вариантов модели.
➡️ Скользящее окно внимания (метод для сокращения памяти) применяется к каждому второму слою. На остальных слоях все еще global attention.
Кроме того, оказывается, позже моделька выйдет еще и в размере 2.6В. Вот ее точно можно будет затюнить на утюге.
А пока что вот код для запуска модели через transformers:
Кроме того, оказывается, позже моделька выйдет еще и в размере 2.6В. Вот ее точно можно будет затюнить на утюге.
А пока что вот код для запуска модели через transformers:
import torch
pipe = pipeline(
"text-generation",
model="google/gemma-2-9b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
messages,
max_new_tokens=256,
do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤13🔥10
Meta представила LLM Compiler, но у OpenAI в ответ как всегда нашелся туз в рукаве
По порядку: LLM Compiler от Meta – это модель на основе Code Llama, которая заточена специально под оптимизацию кода. Обучена на 546 миллиардов токенов LLVM-IR и ассемблерного кода, и зафайнтюнена для интерпретации поведения компилятора. Доступна в размерах 7B и 13В, есть статья.
А OpenAI как будто только этого релиза и ждали. Буквально тут же они выпустили CriticGPT – модель, которая "критикует" код, написанный ChatGPT, тем самым помогая ему становится лучше. Это частично заменяет RLHF. В тестах при таком подходе перформанс взлетел на 60%. Пока еще есть баги, но все обещали исправить. Кстати, если вы поймали флэшбек на GAN'ы – знайте: мы тоже, идея действительно очень похожая.
И все же, что за любовь у OpenAI к релизам в один день с конкурентами?
По порядку: LLM Compiler от Meta – это модель на основе Code Llama, которая заточена специально под оптимизацию кода. Обучена на 546 миллиардов токенов LLVM-IR и ассемблерного кода, и зафайнтюнена для интерпретации поведения компилятора. Доступна в размерах 7B и 13В, есть статья.
А OpenAI как будто только этого релиза и ждали. Буквально тут же они выпустили CriticGPT – модель, которая "критикует" код, написанный ChatGPT, тем самым помогая ему становится лучше. Это частично заменяет RLHF. В тестах при таком подходе перформанс взлетел на 60%. Пока еще есть баги, но все обещали исправить. Кстати, если вы поймали флэшбек на GAN'ы – знайте: мы тоже, идея действительно очень похожая.
И все же, что за любовь у OpenAI к релизам в один день с конкурентами?
👍59🤯15🔥9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Тоже залетаем в тренды последних новостей
😁138🤨7🔥5🗿3❤2🤯2
Gemma специально натаскана на то, чтобы выбить больший скор на LMSYS арене?
В Твиттере заметили, что в тех.отчете упоминается, что модель тюнилась специально на датасете LMSYS-chat-1M. Твит набрал кучу просмотров и комментариев, пользователи шутят, что это "тестирование на трейне".
Однако на самом деле все не так, как выглядит. Во-первых, в отчете явно указано, что из датасета использовались только вопросы, но не ответы, так что это похоже скорее на выравнивание распределения, а не на попытку во что бы то ни стало выбить скор побольше.
Ну и наконец в мире борьбы за ЛЮБЫЕ данные очевидно, что Google не последние, и уж тем более не первые, кто воспользовались LMSYS-chat-1M. К тому же, датасет публичный, для чего же еще он нужен, как не для обучения моделей?
В общем, наезд не засчитан
В Твиттере заметили, что в тех.отчете упоминается, что модель тюнилась специально на датасете LMSYS-chat-1M. Твит набрал кучу просмотров и комментариев, пользователи шутят, что это "тестирование на трейне".
Однако на самом деле все не так, как выглядит. Во-первых, в отчете явно указано, что из датасета использовались только вопросы, но не ответы, так что это похоже скорее на выравнивание распределения, а не на попытку во что бы то ни стало выбить скор побольше.
Ну и наконец в мире борьбы за ЛЮБЫЕ данные очевидно, что Google не последние, и уж тем более не первые, кто воспользовались LMSYS-chat-1M. К тому же, датасет публичный, для чего же еще он нужен, как не для обучения моделей?
В общем, наезд не засчитан
👍36❤11🔥3🆒2
Так, рецепт робота-гуманоида заказывали?
Исследователи из Стэнфорда показали робота, в котором живет нейросеть, способная выучивать движения за счет повторения за человеком. Чтобы выучить действие, роботу нужно повторить его около 40 раз.
Исходно HumanPlus тренили на 40 часах видео, что относительно немного. Так он научился двигать конечностями. Также прикрутили способность в реальном времени обрабатывать изображения с камеры и повторять действия на них, так что можно даже не собирать датасет, а "заниматься" с робо-другом самому.
Самое интересное: ученые выложили вообще все, чтобы повторить робота самому. Доступен датасет, код, статья и даже список используемого железа с ссылками на продавцов.
⚡️ Собираем команду любителей робототехники для имплементации
Исследователи из Стэнфорда показали робота, в котором живет нейросеть, способная выучивать движения за счет повторения за человеком. Чтобы выучить действие, роботу нужно повторить его около 40 раз.
Исходно HumanPlus тренили на 40 часах видео, что относительно немного. Так он научился двигать конечностями. Также прикрутили способность в реальном времени обрабатывать изображения с камеры и повторять действия на них, так что можно даже не собирать датасет, а "заниматься" с робо-другом самому.
Самое интересное: ученые выложили вообще все, чтобы повторить робота самому. Доступен датасет, код, статья и даже список используемого железа с ссылками на продавцов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍49🔥21🤯8❤1
Forwarded from XOR
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
👍86🔥34❤15😁3🗿3
Подборка топ-5 свежих вакансий из нашего канала Data Secrets | Карьера
➡️ ML-разработчик в команду ML Laboratory в Яндекс.
➡️ ML Engineer в европейскую компанию MYGAMES, удаленно.
➡️ ML Lead в ETNA, Т-Банк.
➡️ Data Scientist в Сбер.
➡️ Data Scientist в команду рекомендательных систем, Lamoda.
Не забудь подписаться, чтобы найти классную работу или просто держать руку на пульсе рынка: @data_secrets_career
Не забудь подписаться, чтобы найти классную работу или просто держать руку на пульсе рынка: @data_secrets_career
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21❤7🔥4
На LMSYS арене появилась новая категория рейтинга – «многошаговые» разговоры
Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог.
В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими открытыми моделями стали Gemma-2-27B и Llama-3-70B, они на 10 месте.
Кстати, в главном рейтинге Gemma-2-27B обогнала ламу и стала лучшей опенсорс моделью.
Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог.
В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими открытыми моделями стали Gemma-2-27B и Llama-3-70B, они на 10 месте.
Кстати, в главном рейтинге Gemma-2-27B обогнала ламу и стала лучшей опенсорс моделью.
❤33👍9😁4❤🔥1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Миллионы лет эволюции, открытие законов физики, изобретение электричества, перфокарты, первые компьютеры, перцептрон, сверточные нейросети, механизм внимания, диффузия и visual трансформеры …
… чтобы мы получили это:
… чтобы мы получили это:
🔥134😁63👏5💯3🤨2❤1🤩1
Искусственные нейроны? А может лучше искусственный ДНК?
Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.
В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.
В общем, не теряйте, мы ушли разбираться в коде и играться
Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.
«Менее 1% биомассы всей жизни - это организмы, которые имеют какие-либо нейроны. Это означает, что более 99% всей жизни учится только с помощью репликации ДНК + мутации. Тем не менее, ни одна современная техника ML не настроена на это. Это должно измениться» – написал он.
В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.
В общем, не теряйте, мы ушли разбираться в коде и играться
🔥94🤔31👍9❤4❤🔥1😁1