Data Secrets
77.4K subscribers
6.07K photos
593 videos
20 files
2.44K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Кратко о нейминге в ресерче
😁150🤪188🙈4🔥2🐳2👍1
Мини-подборка новых статей выходного дня, которые точно стоит прочитать:

⚙️ Обучаемый метод прунинга от Nvidia. Основан на идее Semi-Structured прунинга, но, в отличие от классических подходов, маска прунинга выбирается не вручную, а с помощью стохастического алгоритма.
Подробнее – в нашем разборе статьи.

⚙️ Новый метод генерации синтетических 3D-данных для беспилотных авто. Self-driving – сфера, где синтетика нужна больше всего, но где генерировать ее качественно очень сложно. SytheOcc из статьи использует MIPs и ребалансировку, и это впервые позволяет решить одновременно и проблему учета глубины сцен, и вопрос детальной управляемости геометрии.
Подробнее – в нашем разборе статьи.

⚙️ Закон слабого звена: ученые из Meta предложили новый бенчмарк. Они показали, что существующие тесты проверяют только базовые навыки по отдельности, в то время как в задачах реального мира, для которых требуется объединение способностей, модели перформят сравнимо хуже.
Подробнее – в нашем разборе статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🤯84🔥3
Начинаем понедельник с заряда мотивации.
😁175🫡39👍25🔥11🤯65
Разработчик написал промпт, который может вывести ризонинг Claude Sonnet на уровень o1-preview

Сам промпт – на картинке. В целом получается какое-то обучение с подкреплением понарошку: модель крутит теги reflection, reward и thinking по кругу, пока не потратит назначенный ей «бюджет».

По кастомному датасету создателя Sonnet стал рассуждать на этом промпте лучше, чем o1. По MMLU (тестировали уже пользователи) до o1 все-таки не дотягивает, но точность все-таки повышает неплохо.

Код эксперимента лежит тут
🔥82👍2610😁4🍌2
Forwarded from XOR
This media is not supported in your browser
VIEW IN TELEGRAM
Божественно: в Лондоне создали «GPU орган». Он «воспроизводит музыку, управляя частотой вращения каждого вентилятора».

При этом музыка бесконечно генерируется ИИ, обученном на данных 15 хоров.

@xor_journal
🔥8012🤔8😎5🗿3🆒3
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia представили EdgeRunner – модель для генерации высококачественных 3D-объектов

EdgeRunner справляется даже со сложными моделями, в которох число граней достигает 4000. Предыдущие поколения алгоритмов не тянули такую детализацию.

Недавний тренд таких 3D генераций – авторегрессионные модели: за счет своей структуры они способны сохранять больше топологической информации. И на мелких примерах они действительно работают хорошо, но есть нюанс: на большее количество граней и высокое разрешение они не масштабируются.

В Nvidia чуть-чуть докрутили архитуктуру и предложили автоэнкодер (тоже авторегрессионный). За счет наличия в нем скрытого пространства появляется возможность обучить латентную диффузию и получить лучшую генерализацию; а для оптимизации исследователи прикрутили meshes-to-1D токенизатор.

В итоге результаты получились действительно крутые: вот тут можно посмотреть и покрутить 3D-модельки в рамках демо. А полный текст статьи лежит вот тут.
🔥32👍105
За последний месяц произошел какой-то бум опенсорса. Сами оцените, вот краткая сводка:

➡️ NVIDIA релизнули Nemotron 51B, NVLM 1.0 (мультимодальную), OpenMath, Nemotron Reward, RADIO
➡️ Llama 3.2 – первая VLM от Meta. Кроме того, компания дропнула SAM 2.1 и CoTracker 2.1
➡️ Molmo от AllenAl, очень впечатляюще
➡️ Emu3 от BAAI: моделька полностью на next token prediction, умеет работать с видео/картинками/текстом как на вход, так и на выход
➡️ Даже OpenAl в стороне не осталась: компания выложила веса для модельки транскрибирования аудио whisper 3
➡️ И это не все: еще Google обновили Gemma для японского, Apple релизнули Depth Pro, IBM вместе с NASA выкатили Prithvi WxC для прогнозов погоды, у ColQwen2 вышел visual retriever на основе Qwen2-VL и ColBERT, и конечно мы увидели новую Llava

Красивое 🤩
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5518🔥16🤯1
Для тех, кто давно хотел разобраться с тем, как устроена архитектура MoE

Автор книги Hands-On LLM выпустил гайд в картинках, где на пальцах очень подробно объясняет, как работает Mixture of Experts (в частности две ее основных составляющих: роутер и эксперты).

Кроме того, в разборе раскрыты и практические детали. Например, написано про важность балансировки и MoE для vision моделей. Так что такое читаем!
39👍16🔥8
Нобелевскую премию по физике в этом году вручили за открытия в области ИИ – и не кому-нибудь, а Джеффри Хинтону и Джону Хопфилду

Джеффри Хинтон – это один из соавторов статьи про метод обратного распространения ошибки и наставник Суцкевера. Хорфилд – изобретатель ассоциативной нейросети. Оба они считаются отцами ML.

Премию вручили за основополагающие открытия в области ML и искусственных нейронных сетей.

Где-то плачет один Ян Лекун
😁11037🔥21👍8😐7❤‍🔥11
В Твиттере реагируют незамедлительно 👆

Кстати, многие всерьез недовольны новостью: мол, «при чем тут физика». А вы как считаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁143🔥16👍114🙈3
LLM знают больше, чем показывают: исследование ученых из Техниона, Google Research и Apple

Оказывается, языковые модели в своих representations слоях (имеются в виду слои эмбеддингов) энкодят гораздо больше информации о "правдивости" ответов, чем затем выплевывают в генерации. Другими словами, модель знает больше, чем говорит: в том числе она как бы может знать, что неправа, или даже знать правильный ответ, но при этом все равно болтать чепуху.

Самое интересное: информация о правдивости (в статье это называется truthfulness information) содержится в определенных токенах. К тому же, ученые доказали, что можно предсказать "тип" ошибки, которую выдаст модель, опять же по ее внутренним representations. Они даже обучили классификатор на такую детекцию. Точность получилась вполне приемлемая.

Статья полностью – тут
66👍29👀14👏7🔥4🤔4🐳2
This media is not supported in your browser
VIEW IN TELEGRAM
Новоиспеченный Нобелевский лауреат Джеффри Хинтон и его прозрачные намеки

«Я горжусь тем, что один из моих студентов уволил Сэма Альтмана» – невозмутимо заявил он 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
😁219👍26🔥18🎉74🙈4🗿2
Data Secrets
Новоиспеченный Нобелевский лауреат Джеффри Хинтон и его прозрачные намеки «Я горжусь тем, что один из моих студентов уволил Сэма Альтмана» – невозмутимо заявил он 😁
Media is too big
VIEW IN TELEGRAM
Кстати, история знакомства Хинтона и Суцкевера была хрестоматийной. Вот как об этом рассказывал сам Хинтон:

«Это случилось в моем кабинете, в выходные. В дверь очень нетерпеливо постучали и вошел молодой студент. Он сказал, что все лето жарил картошку фри, но теперь предпочел бы работать в моей лаборатории.

Я спросил: «Почему же ты не записался, чтобы поговорить со мной?», на что он ответил «Хорошо, могу я записаться на сейчас?». Это полностью отражает характер Ильи.

Мы поговорили и я дал ему прочитать статью про обратное распространение ошибки. Он пришел через неделю и сказал, что ничего не понял. Я был разочарован и сказал ему, что там нет ничего сложного, это просто цепочка вычислений. От ответил: «О, нет-нет, это я понял. Я не понял, почему вы не используете разумный оптимизатор для градиентов». Над этим вопросом я думал следующие несколько лет. »
👍86😁5316🤪5🤯11
Нобелевкой по физике дело не кончилось и нобелевку по химии тоже получили машинлернеры

Ее выдали Демису Хассабису и Джону Джамперу из Google за модель AlphaFold2 для предсказания структуры белка
🔥137😁44👍119🌚2
Forbes: аналитики предсказали, что Microsoft выкупит OpenAI в течение трех лет

Эксперты объясняют это тем, что скоро хайп вокруг ИИ начнет спадать, и инвесторы уже не будут так щедры. Тем временем стартапам нужно будет все больше и больше денег, которых у них самих не хватит.

В итоге крупные компании, для которых ИИ имеет большую ценность (такие как Microsoft и Amazon) начнут скупать успешные стартапы вроде OpenAI и Anthropic.

Вот это поворот...
🫡79😁23👍7🔥4🤨4🤔31🐳1🤪1