Data Secrets – Telegram

Data Secrets

77.4K subscribers

6.04K photos

592 videos

20 files

2.42K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.4K subscribers

Как ускорять нейросети?

Один из главных трендов в DL сейчас – локализация и ускорение нейросетевых моделей. Только посмотрите: одна за одной разработки от Meta, Google, Apple и так далее.

Как ни крути, нам с вами отставать нельзя: умение ускорять и облегчать модели уже становится ключевым навыком ML-инженеров. Самое время углубляться в тему.

Наши друзья из DeepSchool как раз поймали волну и в четверг вечером проводят открытую лекцию-погружение в ускорение сетей.

⚙️ Прямо при вас запрунят, квантанут и затюнят с дистилляцией живую модель

⚙️ Подробно объяснят каждый метод

⚙️ Покажут и научат бороть все подводные камни

⚙️ Расскажут, почему различается результат на разных вычислителях

⚙️ Введут в курс проблем и вызовов в ускорении LLM

И, наконец, покажут программу своего будущего курса по ускорению нейросетей! А кроме прочего, прямо после регистрации вы получите от ребят крутой туториал по использованию TensorRT и OpenVino.

Ну вы поняли: идти надо точно. Лектор – СТО стартапа enot.ai, Саша Гончаренко. Регистрация тут. Не пропустите 18 июля в 18:00 МСК!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍17😁5❤3🙈3⚡2🔥1

8.15K views13:00

⚡️ Breaking! Мы запустили регистрацию на первое ML-соревнование от Data Secrets! Большой день для всей нашей команды: платформа для хакатонов, о которой мы вам рассказывали, запущена. И на ней уже есть первое соревнование, в котором вы можете поучаствовать!…

Как побеждать в ML-соревнованиях

Да просто нормально чистить и обрабатывать данные, не пренебрегать фича инжинирингом, проводить адекватную валидацию и уметь пользоваться стекингом и блендингом.

Хотите подробнее? Тогда читайте нашу новую статью, которую мы выпустили в честь запуска нашей платформы Data Secrets | Хакатоны.

В статье вы найдете:
➡️ 5 веских причин участвовать в ML-соревнованиях
➡️ 3 секрета хорошего решения
➡️ 7 сервисов, где можно бесплатно пользоваться GPU
➡️ 5 отборных ресурсов для грокинга хакатонов
➡️ … и кучу мемов 😉

Читать тут: https://datasecrets.ru/hackathons/dashboard/materials

И кстати, на нашей платформе уже запущено первое соревнование. Не пропусти!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤36🤯14🔥44

9.13K views14:03

⚡️

Breaking! Андрей Карпаты открывает компанию!

Eureka Labs будет школой нового типа, в которой обучение будет проходить с помощью ИИ. Нe все будет завязано на сетях: человек все еще будет разрабатывать основные материалы курсов, но масштабировать, адаптировать и вести по ним ученика будет ИИ.

Первым курсом станет LLM101n (мы о нем уже рассказывали). Все материалы будут доступны онлайн, но также будут онлайн и офлайн потоки.

«Если мы добьемся успеха, любому будет легко научиться чему-либо, и мы расширим образование как по охвату (большее количество учеников), так и по объему (любой человек изучает сколь угодно большое количество предметов).»

Лендинг | GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

👍69🔥1712😍5❤4🤓4🍌2😁1

10.5K views05:52

Media is too big

VIEW IN TELEGRAM

Оно вырвалось наружу 😨

… хорошо, что это просто вчерашнее шоу на сфере в Лас-Вегасе

Please open Telegram to view this post

VIEW IN TELEGRAM

❤58🔥33🤨8👨‍💻3🦄1

8.47K views07:28

Оно вырвалось наружу 😨 … хорошо, что это просто вчерашнее шоу на сфере в Лас-Вегасе

Кстати, недавно Nvidia приоткрыла завесу тайны того, как работает эта сфера

Оказалось, что там задействованы те еще мощи: 150 NVIDIA RTX A6000 для вывода изображения в 16к + DPU NVIDIA BlueField и ConnectX-6 Dx в связке с Rivermax и DOCA Firefly для сетевого подключения.

А еще есть тестовая копия. Она в четыре раза меньше и именно на ней Sphere Studios испытавают свои творения прежде, чем пускать их на большую сферу.

🔥54❤6

8.11K views09:20

🚀

Mistral представили сразу две новые модели

Заточены модельки под математику и программирование.

▪️

MathΣtral. Выпущена при сотрудничестве с Project Numina – победителями AIMO (интересные подробности в этом нашем посте). Основана на Mistral 7B. Соотношение перформанса и скорости отличное, по бенчмаркам в своем размере бьет всех.

Говорят, результаты можно еще улучшить за счет более долгого инференса. То есть если в качестве метода выбора ответа среди экспертов модели (это MoE) взять не обычный majority voting, а сильную reward модель, то результаты на MATH сразу скачут на 6 п.п.

▪️

Codestral. Самое взрывное в модели то, что это НЕ трансформер, а Mamba. Это первая Mamba стартапа, и показала она себя очень неплохо. Посмотрите: в своем размере она выглядит просто впечатляюще. Контекст 256к токенов.

Ну и самое приятное: веса больше не на торентах, а на HF. Ссылки: Mathstral, Codestral.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍28🔥8❤5🎉4

8.43K views12:03

Как сделать SOTA RAG?

Самые продвинутые RAG сегодня уже умеют:

▪️ Обрабатывать мультимодальные документы и выдавать мультимодальные ответы;
▪️ Распределять нагрузку по разным моделям в зависимости от сложности инпута. Это называется LLM routing;
▪️ Работать мультиязычно. Это значит, что запрос может быть на одном языке, документы на втором, а выходы на третьем;
▪️ Повышать качество ответов с помощью пост-проверок;
▪️ Ну и конечно дообучаться на фидбеке с продакшена.

Из недавнего можно обратить внимание на хорошую работу от Google под названием Speculative RAG. Вышла буквально несколько дней назад. Там у них подход такой:

Берем несколько маленьких дистиллированных моделей, которые параллельно генерят нам драфты (каждая из отдельного подмножества документов). Затем за один проход по этим черновикам более крупная модель собирает саммари.

Получается своеобразный Mixture of Experts или мультиагентный подход. Преимуществ получается несколько. Во-первых, так как контекст на каждую маленькую модельку уменьшается, то и информации теряется меньше. Во-вторых, никакой документ не будет проигнорирован из-за его положения в контексте + мы как бы генерируем разные точки зрения. Ну и в-третьих, это просто быстрее.

Точность относительно других систем выше на 13%, а задержка меньше в половину. Короче, Google как всегда молодцы, а статья мастрид.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥47👍16❤6🤔1

10.2K views15:03

Кому идею для бизнеса?

😁168❤13🤯10

8.86K views17:42

6 дней до релиза!

🔥100😁55❤8👍6⚡2❤‍🔥1

8.58K views05:53

⚡️

Новая статья от OpenAI: Prover-Verifier Games improve legibility of language model outputs

Проблема: по мере оптимизации моделей те начинают отвечать правильнее, но вылезает другая неприятность. Понимать их рассуждения становится сложнее. Другими словами, выходы становятся менее "разборчивыми". Особенно это нехорошо для всякой математики или других точных областей знаний.

Исследователи из OpenAI заметили это и предложили интересное решение в виде своеобразной ролевой игры. У нас есть два игрока: «prover», который генерирует решение, и «verifier», проверяющий его.

Суть вот в чем: prover – это сильная рабочая модель, а verifier – слабая маленькая моделька (видимо олицетворяющая человека 😄 ). Prover должен генерировать такой ответ, чтобы verifier смог его легко понять и оценить, и при этом ответ еще и должен быть правильный. Таким образом получается Trade-Off между перформансом и разборчивостью.

Вообще, статья достаточно приятная и легко читается. Вот здесь краткий блогпост, а вот тут папира полностью.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍44❤10🔥10😁4

8.08K views09:39

Хм, кажется, у новой Mamba Codestral что-то не так с контекстом

В своем твиттере ресерчер показал результаты домашнего теста модельки. Задача была прочитать код и ответить по нему на простой вопрос (source).

Начиная с 1к контекста модель начала сдуваться (на графике сравнение с прошлой версией, не mamba).

А Mistral в блоге писали, что протестили до 256к токенов…

🤔32🔥6👍5

7.85K views12:00

⚡️

Nvidia переходит на опенсорс ядра для GPU. Об этом компания сообщила в своем блоге. Следующий выпуск драйвера R560 уже будет с открытым исходным кодом.

Вот это новости, которые мы заслужили

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥121👍11❤5👌2

8.49K views13:44

😧

Новая модель от OpenAI или "Ой, куда я жмал"

Каким-то образом пресса умудрилась выпустить новости о релизе новой модели от OpenAI без каких-либо официальных подтверждений от самой компании. По всеобщим догадкам получилось это случайно, из-за обычной невнимательности с часовыми поясами.

Говорят, что выйдет легкая и быстрая младшая сестра gpt-4o, которая заменит gpt-3.5-turbo. gpt-4o-mini поначалу будет только текстовой, но мультимодальность однажды тоже завезут.

Не верить таким крупным издательствам повода нет, да и на арене на днях была замечена некая upcoming-gpt-mini. В стиле OpenAI это скорее всего и был тест gpt-4o-mini. Так что с нетерпением ждем новостей.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤27👍6🔥6😁5👏4

8.2K views16:36

Иии... вышла gpt-4o-mini !

Вот официальный анонс. Основное:

▪️ Модель дешевая: цена составляет 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов. Это на 60% дешевле GPT-3.5 Turbo. Все благодаря токенизатору и легковесности.

▪️ Обучена на данных до октября 2023, имеет контекст 128к токенов и поддерживает выходы до 16к токенов.

▪️ Прирост относительно GPT-3.5 Turbo особенно хорошо виден на MGSM, MATH и HumanEval, то есть на математике и программировании.

▪️ Среди других моделей уступает только старшему братику GPT-4o.

▪️ Пользователи Free, Plus и Team уже могут пользоваться GPT-4o mini вместо GPT-3.5. API уже поддерживает текст и vision. В чат мультимодальность тоже завезут, но когда – непонятно.

Ну, погнали пробовать?

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉57🔥14👍10❤2😁1🤨1🆒1

8.06K views06:22

Модели должны стать больше, чтобы стать меньше

Андрей Карпаты занес интересный тейк касательно новой gpt-4o-mini.

«Причина, по которой текущие модели настолько велики – это наше расточительное отношение к их обучению. Мы просим их запоминать данные из Интернета, и в итоге они могут, например, воспроизводить длинные SHA-хеши или максимально редкие факты.

Но нужно ли нам это на самом деле? Ведь на самом деле умение мыслить не настолько сильно связано с запоминанием редких фактов.

Вывод: модели должны стать больше, прежде чем они смогут стать меньше, потому что нам нужна их помощь в рефакторинге и преобразовании обучающих данных в идеальные емкие синтетические форматы.

Это лестница. Одна модель помогает генерировать обучающие данные для следующей, пока мы не получим «идеальный обучающий датасет».

И когда мы обучим на нем даже ванильную маленькую GPT-2, это будет действительно умная модель. »

🔥106👍26❤7🤔5👏3

8.47K views09:15

This media is not supported in your browser

VIEW IN TELEGRAM

Тем временем Трамп:

«Америка находится на пороге золотого века. Чтобы в него вступить, придется вложить огромные инвестиции в энергию для питания ИИ. Потребуется вдвое больше электричества, чем доступно сейчас во всем США.»

В чем только не придется разобраться, чтобы победить на выборах

😁141👍21🔥11🫡3🤯1👀1🤪1

8.35K views10:43

Какова красота: визуализация ландшафта лосса

Некий любитель взял и реализовал код на PyTorch для построения вот таких приятных картинок. По сути это современная имплементация подхода из статьи Visualizing the Loss Landscape of Neural Nets (старая, 2018 год). Кратко метод:

– Берем два случайных вектора из пространства весов. Так как размерность большая, они в любом случае будут квази-ортогональны
– Интерполируем их, чтобы найти двумерную плоскость в пространстве весов
– Проецируем фукнцию потерь по этим векторам и рисуем карту

Любим такое

😍61👏12👍10🔥6🤯3❤2🌚1🗿1

8.09K views12:41

⚙️

Apple задает жару: только что они выпустили новую модель DCLM 7B и опенсорснули ее всю, от данных до весов

MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.

Метриками не блещет, да, зато открытый датасет – это хорошая новость. Код на PyTorch. Уже доступно на HF и в Transformers.

Модель | Код | Датасет | Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

👍47🔥10❤5

8.84K views17:03