Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
EpochAI продолжают радовать: они только что запустили интерактивный симулятор обучения моделей

Инструмент может проанализировать эффективность обучения на заданных чипах и с заданными характеристиками трейна: глубины модели, размера датасета и пр. Графики на выходе показывают, как меняется наилучшая достижимая утилизация трейна (во флопсах) по мере масштабирования обучения. На картинке выше пример с AlexNet.

Также можно играться с гиперпараметрами модели: например, проверить, что будет с производительностью, если мы учим на A100 и поменяли размер батча 😇

Ссылка с подробностями
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥418👍6
Внезапно выяснилось, что новая громкая модель ризонинга QwQ (пост) переключается на китайский, когда ей нужно глубоко о чем-то подумать, а затем переходит обратно на язык юзера, чтобы дать ответ.

Это довольно круто и логично и, скорее всего, очень хорошо влияет на метрики. Пример такого диалога

P.S. Кстати, на HuggingFace QwQ сегодня заняла первое место в рейтинге трендовых моделей
👍127😐20🔥10🤔8😁63
Найдено «развлечение» на вечер: парень в соцсетях поделился своими домашками и заданиями семестрового экзамена курса по машинному обучению в Индийском национальном институте (IISC). Первые два фото – теория (экзамен), остальное – практика (дз).

Еще вопросы к индусам на YouTube будут?
👍91🔥29👏9🤯64
Сегодня исполняется 2 года ChatGPT 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
👍123🔥43🍾37😁1612🌚8🤔1😐1🗿1
Всех причастных с Днем Математика!

Пусть ваш градиент всегда указывает в сторону глобального минимума, сингулярности исчезают под натиском регуляризаций, а все модели сходятся быстрее, чем вы успеете сказать «градиентный спуск» 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
212🍾43🎉21👍8❤‍🔥5😁3🫡3🗿2
В честь Дня Математика - математический кроссворд выходного дня. Предупреждаем: он не самый простой 🎩

По горизонтали:

1. Чем выше его значение, тем сильнее пики, чем ниже — тем более плоское распределение.
3. Основной инструмент для обучения моделей через минимизацию функции потерь.
6. В градиентных методах это используется для учета инерции обновления весов.
8. Его работы легли в основу теории цепей, где будущее состояние системы зависит только от текущего.
9. Его вершины — это потенциальные кандидаты на оптимум.
10. Если он равен нулю, строки или столбцы матрицы линейно зависимы.
13. Функция расстояния между распределениями, используемая, например, в байесовском обучении.
14. Самый замечательный термин математики.

По вертикали:

2. Классический пример применения его теоремы — фильтр для определения спама в письмах.
4. Свойство чисел, позволяющее определить равенство остатков при делении. Часто встречается в криптографии и при хэшировании данных.
5. Статистический метод, при котором из одной выборки многократно создаются новые с помощью случайного выбора с возвращением.
7. Мера неопределенности или хаотичности системы.
11. Операция отображения многомерных данных на пространство меньшей размерности. Часто применяется в t-SNE и PCA для визуализации.
12. Он бывает Белла, Жегалкина и даже Лежандра.
15. Без нее градиентный спуск невозможен.

Присылайте догадки в комментарии, только закрывайте спойлерами 🤫
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍1611😁4
DeepMind на выходных завезли «свою версию» ризонинг-обучения в языковых моделях

Наверное, многие из нас слышали про метод, когда учитель не дает правильных ответов, а вместо этого задает наводящие вопросы, и истина рождается в течение диалога в ответах ученика сама. Это метод Сократа, который и взяли за основу ученые из DeepMind.

Их статья называется Boundless Socratic Learning with Language Games. Основная ее идея – замена внешнего учителя на внутреннее взаимодействие агентов, которые могут посредством сократовской «игры» совершенствовать друг друга. Так можно достигать гораздо большей генерализации данных + агенты учатся автономно. Все, что надо – это гигантские вычислительные ресурсы, широкое покрытие датасетом доменов и хорошая ревард-модель.

Кстати, ревард модель тут не та самая привычная из RL: здесь вводится главный критик в роли одного из агентов, но также добавляется прокси-ревард моделька, которая дополнительно награждает ученика, а иногда и критика, если ему требуется тюнинг.

В статье, к сожалению, излагается только теория. Результатов экспериментов пока не видно, но идея стоящая, поэтому будем ждать
56👍24🔥13🤯4😎2
В последнем подкасте Hard Fork от New York Times внезапно выяснилось, что трансформеры вдохновлены фильмом «Прибытие» 2016 года про вторжение инопланетян

Я мог бы целый час говорить о трансформерах и о том, почему они так важны. Но я думаю, важно сказать, что они были вдохновлены языком пришельцев из фильма «Прибытие», который тогда только что вышел. В частности, один из исследователей команды Google заметил, что у пришельцев в фильме был язык, который представлял целые предложения одним символом. И они подумали: эй, а что, если мы сделаем это внутри нейронной сети? И затем вместо того, чтобы обрабатывать все входные данные по одному слову за раз, был придуман механизм внимания, который обращал внимание на все слова одновременно.


Забавно также, что язык инопланетян из этого фильма был вдохновлен языком программирования Wolfram, создатель которого в последствие был в таком восторге от трансформеров, что написал об этом книгу.

Круг замкнулся
114🔥36😁14👍11🤯3🤨2🙈2🗿2❤‍🔥1🍌1
пиши как человек
😁146🔥1611❤‍🔥2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Начался декабрь. Какие подарочки на Новый Год мы ждем от индустрии?

⚪️ Gemini 2. Уже несколько раз разные издания сообщали о том, что модель готовят к запуску в начале декабря, а вчера модель заметили в личных кабинетах некоторых пользователей Gemini. Первая версия была выпущена, кстати, ровно год назад.

Про Gemini 2, как и про следующую модель OpenAI, ходят слухи: якобы она не показывает значительного прироста качества и перестала масштабироваться. Однако пару дней назад на Арене появились тестовые модели Gremlin и Goblin (под которыми, кажется, и скрываются новые релизы Google) и пользователи пишут, что модели очень хороши в кодинге.

⚪️ Grok 3. О том, что модель релизнут в декабре, говорил сам Маск. Уже в августе он заявлял, что Grok 3 станет самым мощным ИИ в мире и будет обучен на самом огромном из существующих кластеров. Что ж, со сроками у Илона всегда были проблемы, но будем ждать.

⚪️ Проект Operator от OpenAI и полная версия o1. Последнее ждем уже давно, а Operator должен стать новинкой-сюрпризом. Напоминаем, что это это ИИ-агент для автономного управления компьютером.

Изначально релиз готовился на январь, но… на День Рождения ChatGPT мы никаких громких релизов не увидели, и, кроме того, если конкуренты действительно дропнут мощные новинки, OpenAI вряд ли станет долго держать туза в рукаве. Еще есть слабая надежда на SORA, но здесь все неоднозначно.

В общем, Happy December 🎩
Please open Telegram to view this post
VIEW IN TELEGRAM
🎅50🔥10🎄6👍2🤔1
Data Secrets
пиши как человек
Чудеса промпт-инженеринга
😁119🔥11👍3
Вчера стартовал известный челлендж по программированию Advent of Code

Каждый день с 1 по 24 декабря в 8 утра по мск на сайте появляются две интересные задачки, и нужно решить их одну за одной. За правильные решения дают звездочки, а те, кто дал ответ быстрее всего, попадают в лидерборд. Поучаствовать можно вот здесь: adventofcode.com/

Так вот. Вчера мы заметили, что кто-то умудрился решить первые задачи за... 9 секунд. В ранние дни задачи действительно довольно простые, но при этом вам все равно нужно успеть прочитать задание, загрузить данные, написать и запустить код, а потом ввести ответ. Даже ИИ-агенты, вероятно, не успеют все это за такой промежуток времени.

Ваши предположения, как?
🤔53🤯20👍7😁21
За 128 лет вычисления усовершенствовались в 1,000,000,000,000,000,000,000 раз в пересчете на доллар

Здесь 21 ноль: это секстиллион. Такой показатель демонстрирует график, который изобразили в Future Ventures (они обновляют его каждый год уже 16 лет). Смотря на картинку, учтите, что шкала семи-логарифмическая, так что на самом деле прямая вовсе не прямая, а экспоненциально возрастает. Каждое деление оси Y == 100x.

Сделайте паузу, чтобы осознать это
🤯95👍24👏104🤝1
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати про железо: нобелевский лауреат Джеффри Хинтон считает, что скоро ИИ начнут бороться друг с другом за GPU и победит самый агрессивный

"Мы перешли на темную сторону эволюции" – утверждает Хинтон. По его словам, после появления суперинтеллектов они начнут соревноваться за ресурсы, так как чтобы стать умнее, нужно много GPU. Все закончится тем, что победит самый жадный и агрессивный.

Как вам такой естественный отбор?
😁113👍18🔥14🤯10🤔9🤪9🐳4🤨41👏1😐1