Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Как считаете, так и было задумано?
🤔79🤯43😁7👍4
Подборка топ-5 свежих вакансий из нашего канала Data Secrets | Карьера

➡️ ML-разработчик в команду ML Laboratory в Яндекс.

➡️ ML Engineer в европейскую компанию MYGAMES, удаленно.

➡️ ML Lead в ETNA, Т-Банк.

➡️ Data Scientist в Сбер.

➡️ Data Scientist в команду рекомендательных систем, Lamoda.

Не забудь подписаться, чтобы найти классную работу или просто держать руку на пульсе рынка: @data_secrets_career
Please open Telegram to view this post
VIEW IN TELEGRAM
👍217🔥4
На LMSYS арене появилась новая категория рейтинга – «многошаговые» разговоры

Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог.

В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими открытыми моделями стали Gemma-2-27B и Llama-3-70B, они на 10 месте.

Кстати, в главном рейтинге Gemma-2-27B обогнала ламу и стала лучшей опенсорс моделью.
33👍9😁4❤‍🔥1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Миллионы лет эволюции, открытие законов физики, изобретение электричества, перфокарты, первые компьютеры, перцептрон, сверточные нейросети, механизм внимания, диффузия и visual трансформеры …

… чтобы мы получили это:
🔥134😁63👏5💯3🤨21🤩1
Фиксируем: по данным опроса, 76% сотрудников NVIDIA миллионеры, при этом почти 37% зарабатывают более 20 миллионов.

Вы знаете, куда в следующий раз подавать резюме
🔥10113👍6
Искусственные нейроны? А может лучше искусственный ДНК?

Разработчик запилил репозиторий с ДНК-подобным обучением. На языке ML это означает, что там нет ни лосса, ни градиентов, ни оптимизатора.

«Менее 1% биомассы всей жизни - это организмы, которые имеют какие-либо нейроны. Это означает, что более 99% всей жизни учится только с помощью репликации ДНК + мутации. Тем не менее, ни одна современная техника ML не настроена на это. Это должно измениться» – написал он.


В репе примерно 300 строк кода, который имплементирует игрока в крестики-нолики. По графикам сходится хорошо, учится быстро.

В общем, не теряйте, мы ушли разбираться в коде и играться
🔥94🤔31👍94❤‍🔥1😁1
Тем временем админ: 🫷🏿😐🫸🏻
😁13313🔥6
Data Secrets
На LMSYS арене появилась новая категория рейтинга – «многошаговые» разговоры Проверяется способность модели не просто ответить на вопрос, а разумно поддерживать долгий диалог. В этом рейтинге Claude 3.5 сравнялся с GPT-4o и делит с ним 1 место! Лучшими…
🚀 Снова новости с LMSYS арены: кроме рейтинга с многошаговыми диалогами наконец появился долгожданный рейтинг для оценки vision способностей моделей!

Некоторые интересные наблюдения со свежей VLM арены:

▪️ Лучшими ожидаемо стали GPT-4o и Claude 3.5 Sonnet, Gemini 1.5 Pro и GPT-4 Turbo остались позади
▪️Хотя Claude 3 Opus значительно лучше Gemini 1.5 Flash для языка, оба одинаково хороши для VLM
▪️Внезапно непопулярная опенсорс модель Llava-v1.6-34b оказалась лучше Claude-3-Haiku

Пока что проверяется все только на картинках, далее организаторы планируют внедрить в тесты файлы, видео и аудио.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍257🔥5
Зацените: это шесть огромных вентиляторов, которые только что установила Tesla в Техасе.

Они будут охлаждать дата-центр стоимостью $2 млрд: 50к единиц GPU Nvidia и собственное железо Tesla.

Выглядит как прототип новой nvidia RTX 5090,000,000
🔥112😁44🤯134👍1
⚡️Breaking! Концерт Канье Уэста в Москве все-таки состоится. Такое шоу точно стоит посетить.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿77😁47👍13🤯6🍌4🤪3😐21
Обновленный EAGLE для ускорения инференса уже здесь

Первый EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) работал примерно так: вместо того чтобы генерировать текст последовательно, метод сразу создает несколько черновиков продолжения. Затем из дерева черновиков выбираются лучшие, что позволяет ускорить генерацию.

EAGLE-2 улучшает этот процесс, используя вероятности (confidence scores) черновиков для оценки их качества, учитывая контекст.

В результате с EAGLE-2 можно генерировать ответы языковых моделей на двух видеокартах RTX 3060 (~$600) быстрее, чем на более продвинутой A100 (~$10k).

Доступно демо, статья и код
👍30🔥147
– Только не списывай точь-в-точь
– Ладно
😁157👍12🔥8🗿1
Меньше данных -> лучше модель

Нет, мы ничего не перепутали. Исследование, проведенное исследователями из MIT, доказывает, что у нас есть все шансы ускорить и облегчить обучение LLM за счет изящной обработки обучающей выборки.

Исследователи предложили метод под названием "perplexity-based data pruning". Сначала берется крохотная модель, задача которой – выбрать самые полезные кусочки из датасета, оценив перплексию каждого семпла. Перплексия – это мера того, насколько «удивлена» модель данным примером. Получается, чем эта метрика больше, тем более информативный кусочек попался.

И... сюрприз: далее обучая уже большую взрослую модель на таких обрезанных данных, мы получаем лучшие результаты, чем когда обучаем на исходном наборе, который в 30 раз больше.

Минус один: эксперименты показали, что метод нужно адаптировать под каждый отдельный датасет. Несмотря на это, работа сделала еще один шаг к тому, чтобы сокращение данных наконец стало стандартной частью обучения моделей.
🔥104👍2512
Media is too big
VIEW IN TELEGRAM
Это шедевр: известное австралийское медиа, которое снимает колкую политическую сатиру, опубликовало видео про ИИ

В ролике пародийный ИИ-ассистент GovGPT, "сделанный компанией ClosedAI", с сарказмом и пасхалками прожаривает тех-гигантов и отвечает на вопрос "Будет ли SkyNet?".

Ничего лучше вы сегодня не увидите
😁68🔥25👍10🤯62
Anthropic готовы профинансировать создание новых качественных ИИ-бенчмарков

Очень многие исследователи уже не раз упоминали, что существующие бенчмарки не отражают реальные "человеческие" способности моделей, а лишь проверяют умение решать отдельные задачи. Чтобы понимать, насколько наши модели на самом деле умные и подходят пользователю, нам нужны новые продвинутые бенчмарки.

Над этой проблемой работают ресерчеры из Google, Meta и других компаний, а теперь вот и Anthropic приобщились. Они, как истинные пионеры в alignment'е, больше всего мечтаю получить сложные тесты, направленные на проверку безопасности сетки. Однако бенчмарки, хорошо оценивающие общий перформанс, тоже готовы проспонсировать.

Получить финансирование может как организация, так и отдельные исследователи, так что если знаете, как распознать AGI – вот форма подачи заявки.
👍326🤯3
Data Secrets
⚡️Breaking! Концерт Канье Уэста в Москве все-таки состоится. Такое шоу точно стоит посетить.
Мало кто знает, кто действительно приложил руку к механизму диффузии

А вы думали, мы пошутили про концерт? 😭
Please open Telegram to view this post
VIEW IN TELEGRAM
59😁41🔥6🤯2
Конспект Classic ML. DIMENSION.pdf
124.4 MB
Нашли классный конспект по классическому машинному обучению.

Это 75 страниц базовой базы с красивым оформлением и на русском языке. Из тем: регрессия, классификация, кластеризация, деревья и ансамбли. Идеально подойдет для подготовки перед собесом или экзаменом.
👍122🔥3829😎7🗿6
Что такое VAR и при чем тут офсайд Томаса Дилейни

VAR (Video Assistant Referee) – это дословно помощник судьи, технология ИИ, которая используется на футбольных матчах с 2019 года.

Она включает в себя технику Connected ball, которая была впервые представлена Adidas и передает системе данные прямо со стабилизатора IMU 500fps внутри мяча. Кроме того, VAR использует камеры на воротах для определения гола.

Но самое спорное: VAR также используется для определения офсайдов. Для этого используется 12 камер по 50fps, по которым отслеживается 29 точек тела и строится 3Д модель человека.

Именно VAR помогла принять решение об офсайде Дилейни в матче с Германией. Футболист залез в офсайд буквально на сантиметр – и система признала, что гола не было.

Что в этом всем смущает? Учитывая синхронизацию, количество камер и fps, точность VAR, скорее всего, не превышает 5 см. Вряд ли об этом догадываются большинство фанатов, но систему в проигрыше любимой команды обвинить успели уже многие.

А вам как кажется?
👍50336🤔21
Meta выпустила новую модель для генерации 3D объектов

3D Gen аутперформит предшественников, и при этом она примерно в 60 раз быстрее на инференсе. Этап генерации объекта вместе с текстурой и PBR занимает всего 30 секунд, а оптимизация – 20 секунд.

Тут объединены две модели – AssetGen и TextureGen, обе на основе text-to-image семейства Emu (про него мы писали тут).

И это не все. Компания также выложила в открытый доступ датасет HOT3D, который содержит 3D модели объектов и PBR. Однако этот датасет больше подходит не для text23D, а для робототехники. Собранные данные в основном направлены на улучшение понимания того, как люди взаимодействуют с объектами и используют для этого свои руки.
🔥20👍7😁4
Давненько ничего не слышали про KAN? Может архитектура умерла?

А вот и нет. С момента появления KAN в начале мая было опубликовано уже более 40 статей с адаптациями, улучшениями и оптимизациями идеи от разных исследователей. Мы выбрали для вас самые интересные:

➡️KANs for Time Series Analysis. Приложение KAN для временных рядов и много тестов, которые показывают лучшие результаты по сравнению с MLP.

➡️Convolutional KAN. Свертки на канах. Тесты на MNIST показали, что точность не уступает другим подходам, при этом параметров в два раза меньше.

➡️Demonstrating the Efficacy of KANs in Vision Tasks. В продолжении статьи выше: тестирование канов на популярных бенчмарках и на разных вижн-задачах. Спойлер: совсем чуть-чуть недотягивает до SOTA ResNet-18.

➡️GraphKAN. Приложение кана для графовых сетей. На тестах также многообещающе. Доступен код.

➡️ReLU-KAN. А здесь код – самое интересное. Исследователи адаптировали активацию ReLU под архитектуру, оптимизировали все на CUDA и получили 20x прирост к скорости.

Сохраняйте в свой рид-бэклог. А если до сих пор не знакомы с KAN, советуем прочитать наш разбор.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥62👍169😁1