Искусственные нейроны? А может лучше искусственный ДНК?
Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.
В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.
В общем, не теряйте, мы ушли разбираться в коде и играться
Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.
«Менее 1% биомассы всей жизни - это организмы, которые имеют какие-либо нейроны. Это означает, что более 99% всей жизни учится только с помощью репликации ДНК + мутации. Тем не менее, ни одна современная техника ML не настроена на это. Это должно измениться» – написал он.
В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.
В общем, не теряйте, мы ушли разбираться в коде и играться
🔥94🤔31👍9❤4❤🔥1😁1
Data Secrets
На LMSYS арене появилась новая категория рейтинга – «многошаговые» разговоры Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог. В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими…
Некоторые интересные наблюдения со свежей VLM арены:
Пока что проверяется все только на картинках, далее организаторы планируют внедрить в тесты файлы, видео и аудио.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25❤7🔥5
Зацените: это шесть огромных вентиляторов, которые только что установила Tesla в Техасе.
Они будут охлаждать дата-центр стоимостью $2 млрд: 50к единиц GPU Nvidia и собственное железо Tesla.
Выглядит как прототип новой nvidia RTX 5090,000,000
Они будут охлаждать дата-центр стоимостью $2 млрд: 50к единиц GPU Nvidia и собственное железо Tesla.
Выглядит как прототип новой nvidia RTX 5090,000,000
🔥112😁44🤯13❤4👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿77😁47👍13🤯6🍌4🤪3😐2❤1
Обновленный EAGLE для ускорения инференса уже здесь
Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.
EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.
В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).
Доступно демо, статья и код
Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.
EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.
В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).
Доступно демо, статья и код
👍30🔥14❤7
Меньше данных -> лучше модель
Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.
Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.
И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.
Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.
Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.
И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.
Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
🔥104👍25❤12
Media is too big
VIEW IN TELEGRAM
Это шедевр: известное австралийское медиа, которое снимает колкую политическую сатиру, опубликовало видео про ИИ
В ролике пародийный ИИ-ассистент GovGPT, "сделанный компанией ClosedAI", с сарказмом и пасхалками прожаривает тех-гигантов и отвечает на вопрос "Будет ли SkyNet?".
Ничего лучше вы сегодня не увидите
В ролике пародийный ИИ-ассистент GovGPT, "сделанный компанией ClosedAI", с сарказмом и пасхалками прожаривает тех-гигантов и отвечает на вопрос "Будет ли SkyNet?".
Ничего лучше вы сегодня не увидите
😁68🔥25👍10🤯6❤2
Anthropic готовы профинансировать создание новых качественных ИИ-бенчмарков
Очень многие исследователи уже не раз упоминали, что существующие бенчмарки не отражают реальные "человеческие" способности моделей, а лишь проверяют умение решать отдельные задачи. Чтобы понимать, насколько наши модели на самом деле умные и подходят пользователю, нам нужны новые продвинутые бенчмарки.
Над этой проблемой работают ресерчеры из Google, Meta и других компаний, а теперь вот и Anthropic приобщились. Они, как истинные пионеры в alignment'е, больше всего мечтаю получить сложные тесты, направленные на проверку безопасности сетки. Однако бенчмарки, хорошо оценивающие общий перформанс, тоже готовы проспонсировать.
Получить финансирование может как организация, так и отдельные исследователи, так что если знаете, как распознать AGI – вот форма подачи заявки.
Очень многие исследователи уже не раз упоминали, что существующие бенчмарки не отражают реальные "человеческие" способности моделей, а лишь проверяют умение решать отдельные задачи. Чтобы понимать, насколько наши модели на самом деле умные и подходят пользователю, нам нужны новые продвинутые бенчмарки.
Над этой проблемой работают ресерчеры из Google, Meta и других компаний, а теперь вот и Anthropic приобщились. Они, как истинные пионеры в alignment'е, больше всего мечтаю получить сложные тесты, направленные на проверку безопасности сетки. Однако бенчмарки, хорошо оценивающие общий перформанс, тоже готовы проспонсировать.
Получить финансирование может как организация, так и отдельные исследователи, так что если знаете, как распознать AGI – вот форма подачи заявки.
👍32❤6🤯3
Data Secrets
Мало кто знает, кто действительно приложил руку к механизму диффузии
А вы думали, мы пошутили про концерт?😭
А вы думали, мы пошутили про концерт?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤59😁41🔥6🤯2
Конспект Classic ML. DIMENSION.pdf
124.4 MB
Нашли классный конспект по классическому машинному обучению.
Это 75 страниц базовой базы с красивым оформлением и на русском языке. Из тем: регрессия, классификация, кластеризация, деревья и ансамбли. Идеально подойдет для подготовки перед собесом или экзаменом.
Это 75 страниц базовой базы с красивым оформлением и на русском языке. Из тем: регрессия, классификация, кластеризация, деревья и ансамбли. Идеально подойдет для подготовки перед собесом или экзаменом.
👍122🔥38❤29😎7🗿6
Что такое VAR и при чем тут офсайд Томаса Дилейни
VAR (Video Assistant Referee) – это дословно помощник судьи, технология ИИ, которая используется на футбольных матчах с 2019 года.
Она включает в себя технику Connected ball, которая была впервые представлена Adidas и передает системе данные прямо со стабилизатора IMU 500fps внутри мяча. Кроме того, VAR использует камеры на воротах для определения гола.
Но самое спорное: VAR также используется для определения офсайдов. Для этого используется 12 камер по 50fps, по которым отслеживается 29 точек тела и строится 3Д модель человека.
Именно VAR помогла принять решение об офсайде Дилейни в матче с Германией. Футболист залез в офсайд буквально на сантиметр – и система признала, что гола не было.
Что в этом всем смущает? Учитывая синхронизацию, количество камер и fps, точность VAR, скорее всего, не превышает 5 см. Вряд ли об этом догадываются большинство фанатов, но систему в проигрыше любимой команды обвинить успели уже многие.
А вам как кажется?
VAR (Video Assistant Referee) – это дословно помощник судьи, технология ИИ, которая используется на футбольных матчах с 2019 года.
Она включает в себя технику Connected ball, которая была впервые представлена Adidas и передает системе данные прямо со стабилизатора IMU 500fps внутри мяча. Кроме того, VAR использует камеры на воротах для определения гола.
Но самое спорное: VAR также используется для определения офсайдов. Для этого используется 12 камер по 50fps, по которым отслеживается 29 точек тела и строится 3Д модель человека.
Именно VAR помогла принять решение об офсайде Дилейни в матче с Германией. Футболист залез в офсайд буквально на сантиметр – и система признала, что гола не было.
Что в этом всем смущает? Учитывая синхронизацию, количество камер и fps, точность VAR, скорее всего, не превышает 5 см. Вряд ли об этом догадываются большинство фанатов, но систему в проигрыше любимой команды обвинить успели уже многие.
А вам как кажется?
👍50 33☃6🤔2❤1
Meta выпустила новую модель для генерации 3D объектов
3D Gen аутперформит предшественников, и при этом она примерно в 60 раз быстрее на инференсе. Этап генерации объекта вместе с текстурой и PBR занимает всего 30 секунд, а оптимизация – 20 секунд.
Тут объединены две модели – AssetGen и TextureGen, обе на основе text-to-image семейства Emu (про него мы писали тут).
И это не все. Компания также выложила в открытый доступ датасет HOT3D, который содержит 3D модели объектов и PBR. Однако этот датасет больше подходит не для text23D, а для робототехники. Собранные данные в основном направлены на улучшение понимания того, как люди взаимодействуют с объектами и используют для этого свои руки.
3D Gen аутперформит предшественников, и при этом она примерно в 60 раз быстрее на инференсе. Этап генерации объекта вместе с текстурой и PBR занимает всего 30 секунд, а оптимизация – 20 секунд.
Тут объединены две модели – AssetGen и TextureGen, обе на основе text-to-image семейства Emu (про него мы писали тут).
И это не все. Компания также выложила в открытый доступ датасет HOT3D, который содержит 3D модели объектов и PBR. Однако этот датасет больше подходит не для text23D, а для робототехники. Собранные данные в основном направлены на улучшение понимания того, как люди взаимодействуют с объектами и используют для этого свои руки.
🔥20👍7😁4
Давненько ничего не слышали про KAN? Может архитектура умерла?
А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Мы выбрали для вас самые интересные:
➡️ KANs for Time Series Analysis. Приложение KAN для временных рядов и много тестов, которые показывают лучшие результаты по сравнению с MLP.
➡️ Convolutional KAN. Свертки на канах. Тесты на MNIST показали, что точность не уступает другим подходам, при этом параметров в два раза меньше.
➡️ Demonstrating the Efficacy of KANs in Vision Tasks. В продолжении статьи выше: тестирование канов на популярных бенчмарках и на разных вижн-задачах. Спойлер: совсем чуть-чуть недотягивает до SOTA ResNet-18.
➡️ GraphKAN. Приложение кана для графовых сетей. На тестах также многообещающе. Доступен код.
➡️ ReLU-KAN. А здесь код – самое интересное. Исследователи адаптировали активацию ReLU под архитектуру, оптимизировали все на CUDA и получили 20x прирост к скорости.
Сохраняйте в свой рид-бэклог. А если до сих пор не знакомы с KAN, советуем прочитать наш разбор.
А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Мы выбрали для вас самые интересные:
Сохраняйте в свой рид-бэклог. А если до сих пор не знакомы с KAN, советуем прочитать наш разбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍16❤9😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Французская лаборатория Kyutai представила конкурента GPT-4o с открытым исходным кодом!
Пока все третий месяц ждут голосовой режим ChatGPT, стартап Kyutai привлек $300 млн. инвестиций и выпустил модель Moshi:
➡️ Moshi – мультимодальная модель, способная слушать, говорить и видеть
➡️ Выражает и понимает эмоции
➡️ Может одновременно слушать и говорить
➡️ Задержка ответа всего 160 мс, то есть ее вообще нет
И все это в опенсорс! Просто удивительно. Статью, код и веса обещают выпустить скоро.
Кстати, уже доступны некоторые детали реализации. Базовая текстовая модель Helium имеет 7В параметров. После предобучения на текстах она обучалась совместно на аудио и текстах. Аудио прогоняются через Mimi – модель сжатия на основе VQ-VAE от той же лаборатории.
Файнтюнилась на 20 часах аудио и синтетических транскрипциях, сгенерированных самим Helium. Кстати, говорят, что для домашнего файнтюнинга модели понадобится менее 30 минут аудио🎉
И главное: с моделью уже можно поговорить здесь!
Пока все третий месяц ждут голосовой режим ChatGPT, стартап Kyutai привлек $300 млн. инвестиций и выпустил модель Moshi:
И все это в опенсорс! Просто удивительно. Статью, код и веса обещают выпустить скоро.
Кстати, уже доступны некоторые детали реализации. Базовая текстовая модель Helium имеет 7В параметров. После предобучения на текстах она обучалась совместно на аудио и текстах. Аудио прогоняются через Mimi – модель сжатия на основе VQ-VAE от той же лаборатории.
Файнтюнилась на 20 часах аудио и синтетических транскрипциях, сгенерированных самим Helium. Кстати, говорят, что для домашнего файнтюнинга модели понадобится менее 30 минут аудио
И главное: с моделью уже можно поговорить здесь!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🔥32❤8🤔3
Media is too big
VIEW IN TELEGRAM
Хотите верьте, хотите нет, но существуют робототехнические компании, которые вместо того, чтобы утопать в экзоскелетах и нейросетях, пытаются воссоздать человеческие мышцы для управления роботами-гуманоидами
Мысли по этому поводу: возможно, это лучший способ создания роботов. Мир, в котором мы живем, создан для людей. Зачем изобретать робота, который с трудом справляется с машинами, адаптированными под человека, его руки и тело? Вероятно, мышцы – это и вправду лучшая отправная точка.
Мысли по этому поводу: возможно, это лучший способ создания роботов. Мир, в котором мы живем, создан для людей. Зачем изобретать робота, который с трудом справляется с машинами, адаптированными под человека, его руки и тело? Вероятно, мышцы – это и вправду лучшая отправная точка.
👍49🔥19🤔10😁3🤯3💯2❤1
Новое выступление Андрея Карпаты
Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:
А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.
Ну и куда же без мемов про Nvidia в презентации🔵
Ученый выступил на церемонии награждения победителей ИИ-хакатона Калифорнийского университета в Беркли. Рассказал много интересного, в том числе упомянул новую возможную парадигму вычислений:
«Мы вступаем в новую парадигму вычислений, в которой большие языковые модели действуют как процессоры, используют токены вместо байтов и имеют контекстное окно вместо оперативной памяти. Это ОС большой языковой модели (LMOS)»
А еще Андрей говорил про пользу хакатонов и петпроектов, развитие ИИ в последние 15 лет, становление OpenAI, и многое другое. В общем, советуем посмотреть полностью.
Ну и куда же без мемов про Nvidia в презентации
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥58👍19❤15😁5