Обновленный EAGLE для ускорения инференса уже здесь
Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.
EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.
В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).
Доступно демо, статья и код
Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.
EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.
В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).
Доступно демо, статья и код
👍30🔥14❤7
Меньше данных -> лучше модель
Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.
Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.
И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.
Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.
Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.
И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.
Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
🔥104👍25❤12
Media is too big
VIEW IN TELEGRAM
Это шедевр: известное австралийское медиа, которое снимает колкую политическую сатиру, опубликовало видео про ИИ
В ролике пародийный ИИ-ассистент GovGPT, "сделанный компанией ClosedAI", с сарказмом и пасхалками прожаривает тех-гигантов и отвечает на вопрос "Будет ли SkyNet?".
Ничего лучше вы сегодня не увидите
В ролике пародийный ИИ-ассистент GovGPT, "сделанный компанией ClosedAI", с сарказмом и пасхалками прожаривает тех-гигантов и отвечает на вопрос "Будет ли SkyNet?".
Ничего лучше вы сегодня не увидите
😁68🔥25👍10🤯6❤2
Anthropic готовы профинансировать создание новых качественных ИИ-бенчмарков
Очень многие исследователи уже не раз упоминали, что существующие бенчмарки не отражают реальные "человеческие" способности моделей, а лишь проверяют умение решать отдельные задачи. Чтобы понимать, насколько наши модели на самом деле умные и подходят пользователю, нам нужны новые продвинутые бенчмарки.
Над этой проблемой работают ресерчеры из Google, Meta и других компаний, а теперь вот и Anthropic приобщились. Они, как истинные пионеры в alignment'е, больше всего мечтаю получить сложные тесты, направленные на проверку безопасности сетки. Однако бенчмарки, хорошо оценивающие общий перформанс, тоже готовы проспонсировать.
Получить финансирование может как организация, так и отдельные исследователи, так что если знаете, как распознать AGI – вот форма подачи заявки.
Очень многие исследователи уже не раз упоминали, что существующие бенчмарки не отражают реальные "человеческие" способности моделей, а лишь проверяют умение решать отдельные задачи. Чтобы понимать, насколько наши модели на самом деле умные и подходят пользователю, нам нужны новые продвинутые бенчмарки.
Над этой проблемой работают ресерчеры из Google, Meta и других компаний, а теперь вот и Anthropic приобщились. Они, как истинные пионеры в alignment'е, больше всего мечтаю получить сложные тесты, направленные на проверку безопасности сетки. Однако бенчмарки, хорошо оценивающие общий перформанс, тоже готовы проспонсировать.
Получить финансирование может как организация, так и отдельные исследователи, так что если знаете, как распознать AGI – вот форма подачи заявки.
👍32❤6🤯3
Data Secrets
Мало кто знает, кто действительно приложил руку к механизму диффузии
А вы думали, мы пошутили про концерт?😭
А вы думали, мы пошутили про концерт?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤59😁41🔥6🤯2
Конспект Classic ML. DIMENSION.pdf
124.4 MB
Нашли классный конспект по классическому машинному обучению.
Это 75 страниц базовой базы с красивым оформлением и на русском языке. Из тем: регрессия, классификация, кластеризация, деревья и ансамбли. Идеально подойдет для подготовки перед собесом или экзаменом.
Это 75 страниц базовой базы с красивым оформлением и на русском языке. Из тем: регрессия, классификация, кластеризация, деревья и ансамбли. Идеально подойдет для подготовки перед собесом или экзаменом.
👍122🔥38❤29😎7🗿6
Что такое VAR и при чем тут офсайд Томаса Дилейни
VAR (Video Assistant Referee) – это дословно помощник судьи, технология ИИ, которая используется на футбольных матчах с 2019 года.
Она включает в себя технику Connected ball, которая была впервые представлена Adidas и передает системе данные прямо со стабилизатора IMU 500fps внутри мяча. Кроме того, VAR использует камеры на воротах для определения гола.
Но самое спорное: VAR также используется для определения офсайдов. Для этого используется 12 камер по 50fps, по которым отслеживается 29 точек тела и строится 3Д модель человека.
Именно VAR помогла принять решение об офсайде Дилейни в матче с Германией. Футболист залез в офсайд буквально на сантиметр – и система признала, что гола не было.
Что в этом всем смущает? Учитывая синхронизацию, количество камер и fps, точность VAR, скорее всего, не превышает 5 см. Вряд ли об этом догадываются большинство фанатов, но систему в проигрыше любимой команды обвинить успели уже многие.
А вам как кажется?
VAR (Video Assistant Referee) – это дословно помощник судьи, технология ИИ, которая используется на футбольных матчах с 2019 года.
Она включает в себя технику Connected ball, которая была впервые представлена Adidas и передает системе данные прямо со стабилизатора IMU 500fps внутри мяча. Кроме того, VAR использует камеры на воротах для определения гола.
Но самое спорное: VAR также используется для определения офсайдов. Для этого используется 12 камер по 50fps, по которым отслеживается 29 точек тела и строится 3Д модель человека.
Именно VAR помогла принять решение об офсайде Дилейни в матче с Германией. Футболист залез в офсайд буквально на сантиметр – и система признала, что гола не было.
Что в этом всем смущает? Учитывая синхронизацию, количество камер и fps, точность VAR, скорее всего, не превышает 5 см. Вряд ли об этом догадываются большинство фанатов, но систему в проигрыше любимой команды обвинить успели уже многие.
А вам как кажется?
👍50 33☃6🤔2❤1
Meta выпустила новую модель для генерации 3D объектов
3D Gen аутперформит предшественников, и при этом она примерно в 60 раз быстрее на инференсе. Этап генерации объекта вместе с текстурой и PBR занимает всего 30 секунд, а оптимизация – 20 секунд.
Тут объединены две модели – AssetGen и TextureGen, обе на основе text-to-image семейства Emu (про него мы писали тут).
И это не все. Компания также выложила в открытый доступ датасет HOT3D, который содержит 3D модели объектов и PBR. Однако этот датасет больше подходит не для text23D, а для робототехники. Собранные данные в основном направлены на улучшение понимания того, как люди взаимодействуют с объектами и используют для этого свои руки.
3D Gen аутперформит предшественников, и при этом она примерно в 60 раз быстрее на инференсе. Этап генерации объекта вместе с текстурой и PBR занимает всего 30 секунд, а оптимизация – 20 секунд.
Тут объединены две модели – AssetGen и TextureGen, обе на основе text-to-image семейства Emu (про него мы писали тут).
И это не все. Компания также выложила в открытый доступ датасет HOT3D, который содержит 3D модели объектов и PBR. Однако этот датасет больше подходит не для text23D, а для робототехники. Собранные данные в основном направлены на улучшение понимания того, как люди взаимодействуют с объектами и используют для этого свои руки.
🔥20👍7😁4
Давненько ничего не слышали про KAN? Может архитектура умерла?
А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Мы выбрали для вас самые интересные:
➡️ KANs for Time Series Analysis. Приложение KAN для временных рядов и много тестов, которые показывают лучшие результаты по сравнению с MLP.
➡️ Convolutional KAN. Свертки на канах. Тесты на MNIST показали, что точность не уступает другим подходам, при этом параметров в два раза меньше.
➡️ Demonstrating the Efficacy of KANs in Vision Tasks. В продолжении статьи выше: тестирование канов на популярных бенчмарках и на разных вижн-задачах. Спойлер: совсем чуть-чуть недотягивает до SOTA ResNet-18.
➡️ GraphKAN. Приложение кана для графовых сетей. На тестах также многообещающе. Доступен код.
➡️ ReLU-KAN. А здесь код – самое интересное. Исследователи адаптировали активацию ReLU под архитектуру, оптимизировали все на CUDA и получили 20x прирост к скорости.
Сохраняйте в свой рид-бэклог. А если до сих пор не знакомы с KAN, советуем прочитать наш разбор.
А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Мы выбрали для вас самые интересные:
Сохраняйте в свой рид-бэклог. А если до сих пор не знакомы с KAN, советуем прочитать наш разбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍16❤9😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Французская лаборатория Kyutai представила конкурента GPT-4o с открытым исходным кодом!
Пока все третий месяц ждут голосовой режим ChatGPT, стартап Kyutai привлек $300 млн. инвестиций и выпустил модель Moshi:
➡️ Moshi – мультимодальная модель, способная слушать, говорить и видеть
➡️ Выражает и понимает эмоции
➡️ Может одновременно слушать и говорить
➡️ Задержка ответа всего 160 мс, то есть ее вообще нет
И все это в опенсорс! Просто удивительно. Статью, код и веса обещают выпустить скоро.
Кстати, уже доступны некоторые детали реализации. Базовая текстовая модель Helium имеет 7В параметров. После предобучения на текстах она обучалась совместно на аудио и текстах. Аудио прогоняются через Mimi – модель сжатия на основе VQ-VAE от той же лаборатории.
Файнтюнилась на 20 часах аудио и синтетических транскрипциях, сгенерированных самим Helium. Кстати, говорят, что для домашнего файнтюнинга модели понадобится менее 30 минут аудио🎉
И главное: с моделью уже можно поговорить здесь!
Пока все третий месяц ждут голосовой режим ChatGPT, стартап Kyutai привлек $300 млн. инвестиций и выпустил модель Moshi:
И все это в опенсорс! Просто удивительно. Статью, код и веса обещают выпустить скоро.
Кстати, уже доступны некоторые детали реализации. Базовая текстовая модель Helium имеет 7В параметров. После предобучения на текстах она обучалась совместно на аудио и текстах. Аудио прогоняются через Mimi – модель сжатия на основе VQ-VAE от той же лаборатории.
Файнтюнилась на 20 часах аудио и синтетических транскрипциях, сгенерированных самим Helium. Кстати, говорят, что для домашнего файнтюнинга модели понадобится менее 30 минут аудио
И главное: с моделью уже можно поговорить здесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥32❤8🤔3
Media is too big
VIEW IN TELEGRAM
Хотите верьте, хотите нет, но существуют робототехнические компании, которые вместо того, чтобы утопать в экзоскелетах и нейросетях, пытаются воссоздать человеческие мышцы для управления роботами-гуманоидами
Мысли по этому поводу: возможно, это лучший способ создания роботов. Мир, в котором мы живем, создан для людей. Зачем изобретать робота, который с трудом справляется с машинами, адаптированными под человека, его руки и тело? Вероятно, мышцы – это и вправду лучшая отправная точка.
Мысли по этому поводу: возможно, это лучший способ создания роботов. Мир, в котором мы живем, создан для людей. Зачем изобретать робота, который с трудом справляется с машинами, адаптированными под человека, его руки и тело? Вероятно, мышцы – это и вправду лучшая отправная точка.
👍49🔥19🤔10😁3🤯3💯2❤1
Новое выступление Андрея Карпаты
Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:
А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.
Ну и куда же без мемов про Nvidia в презентации🔵
Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:
«Мы вступаем в новую парадигму вычислений, в которой большие языковые модели действуют как процессоры, используют токены вместо байтов и имеют контекстное окно вместо оперативной памяти. Это ОС большой языковой модели (LMOS)»
А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.
Ну и куда же без мемов про Nvidia в презентации
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍19❤15😁5
Да, это чтение мыслей. Такого результата добились ученые из университета Нидерландов. Раньше эта команда экспериментировала на людях с помощью МРТ, и получила модель с результатами из нижнего ряда.
А недавно им удачно подвернулась макака с уже встроенным в мозг имплантом, который позволил провести более продвинутое исследование и значительно усовершенствовать модель (результаты среднего ряда).
Просто посмотрите на картинку: это же просто поразительно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130🤯46👍14❤7
Please open Telegram to view this post
VIEW IN TELEGRAM
😁163 29👻14👍3🔥3🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Нет, это не сгенерировано, это так Цукерберг отпраздновал День независимости США
Я и чем я занимаюсь, пока обучается моделька
Я и чем я занимаюсь, пока обучается моделька
😁154🏆17🔥12🗿4👍3🤨3
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Простые схемы для сложных ML-концепций
Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.
Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.
Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.
Ну и наконец, это просто красиво
Профессор Том Йе работует в университете Колорадо и свободное время посвящает тому, что рисует схемы ML-концепций и выкладывает их в свой аккаунт на Твиттер и LinkedIn.
Полный список схем с пояснениями можно найти здесь. Наверху – лишь некоторые примеры. Самых простых тем типа регрессии и деревьев вы здесь не найдете, зато схемы могут помочь понять некоторые сложные концепты DL: МoE, Attention, ResNet, DiT или RLHF.
Круто, что это не просто поверхностные наброски: схемы помогают поэтапно понять фундамент алгоритма на уровне алгебраических операций.
Ну и наконец, это просто красиво
🔥93👍24❤15💯3🙈1