Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
На чем учатся модели машинного перевода в сервисе Яндекс Переводчик

Перевод даже самых сложных иностранных статей занимает у Яндекс Переводчика секунды, при этом для получения самих данных для обучения сервису нужны более десятка различных вспомогательных ML‑моделей.

В статье команда Переводчика подробно расписала, как ищет суперчистые параллельные данные с переводами между любыми языками.
🤯22👍14🤨5😁1💅1
Илон Маск планирует расширять свой и без того огромный суперкомпьютер в Теннесси до миллиона GPU (минимум!). Для сравнения, по догадкам и информации от разных источников, GPT-4o обучалась на 25 тысячах видеокарт, а для обучения llama 3.1 400B использовалось 16 тысяч.
51🤯34🫡13🔥8
Ровно за час до нового релиза OpenAI вышла Llama 3.3 70B

В релизе пишут, что перформанс модели, несмотря на мощную облегченность, не уступает Llama 3.1 405B. Судя по всему, добились этого с помощью RL.

Веса
👍59🔥1711
⚡️ Сегодня на стриме OpenAI анонсят reinforcement finetuning для o1 (RFT)

Это не просто привычный файнтюнинг (aka файнтюнинг с учителем), а метод, который позволяет научить модель рассуждать определенным образом в конкретном нужном пользователю домене. По словам разработчиков, так можно докрутить модель до уровня эксперта в области, при этом данных потребуется гораздо меньше, чем для ванильного файнтюнинга.

Файнтюнинг будет доступен прямо на кастомной платформе OpenAI: нужно просто выбрать вариант "reinforcement" и подгрузить датасет (на трансляции в нем было всего 100 сэмплов, этого достаточно для генерализации, судя по кривым скора).

Жаль только, что в этом году обычные юзеры фичу не увидят, пока что она на закрытом тестировании у университетов и бизнеса. Ну и да, стоить скорее всего будет супер дорого, но это того стоит.
Please open Telegram to view this post
VIEW IN TELEGRAM
47👍27🫡10😁32🤓2
Уже второй день стримы OpenAI заканчиваются шуткой от одного из разработчиков. И у нас есть гипотеза, что шутят они на тему следующего релиза 💡

Вчера был каламбур как раз про reinforcement learning ("Однажды Санта пытался заставить свою лучшую модель решить задачу по математике. Но она никак не хотела работать. Как он решил проблему? Использовал reindeerforcement learning"). Reindeer – от английского северный олень.

Сегодня тоже каламбур: но теперь про файнтюнинг беспилотных автомобилей.

"Однажды Санта пытался построить беспилотные сани, но они постоянно врезались в деревья. Почему? Просто он забыл провести pinetuning (pine – ёлка)"


Завтра проверяем админские догадки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68😁36🤔113🤯3🤝1
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Объявили победителей конкурса ARC Prize 2024: того самого состязания за новые подходы к AGI на миллион долларов

Конкурс назывался в честь бенчмарка ARC AGI, за лучшие метрики на котором и соревновались участники. Он был создан одним из учредителей и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI). Спойлер: изначально ни одна модель не могла выбить на нем больше 33%, а по итогам соревнования мы добрались до 55,5%.

Итак, целью конкурса было получить новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. И вот сегодня наконец-то объявили победителя:

⚙️ премию ARC Prize 2024 выиграли ребята с архитектурой ARChitects, их зовут Дэниел Франзен и Ян Диссельхофф
⚙️ на втором и третьем месте с большим отрывом Гильермо Барбадильо и Агнис Люкис – примерно по 40% у каждого

Отдельных статей от победителей нет, но есть крутой тех.отчет от организаторов, там должно быть что-то про их подходы (мы обязательно его прочтем и все вам расскажем). А еще есть победители в номинации Paper Award:

1 место: Combining Induction and Transduction For Abstract Reasoning

2 место: The Surprising Effectiveness of Test-Time Training for Abstract Reasoning (эту статью мы очень подробно уже разбирали тут, почитайте)

3 место: Searching Latent Program Spaces

В общем, поздравляем победителей и уходим читать тех.отчет и папиры 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
👏4910👍9❤‍🔥2
От xAI Илона Маска целых две крутых новости за 24 часа

Во-первых, стартап выпустил свою text2image модель Aurora.

Во-вторых, теперь для всех пользователей X Grok стал бесплатным в пределах 10 запросов раз в два часа (включая Flux и новую Aurora)

Пробовать тут: grok.x.com
🔥74👍1810😎3🤯1
Итак, что же пишут организаторы про соревнование ARC Prize в своем тех.отчете?

⚪️ Свой бенчмарк ARC-AGI (которому, кстати, в этом году пять лет) в самом начале отчета организаторы все еще называют непройденным, и говорят, что по итогам соревнования хотели добиться 85%, но добились всего 55,5%.

⚪️ Вообще, когда создавался этот бенчмарк, предполагалось, что решить его сможет только система "по-человечески умная", то есть не та, которая просто выучила кучу фактов о мире, а та, которая может рассуждать, оперируя элементарными навыками. Задачи в бечмарке напоминают мини-головоломки из книжек для самых маленьких: в каждой задаче нужно угадать паттерн перестановки квадратиков в сетке (см. примеры на картинке). И действительно, тест формировался так, чтобы для его решения нужны были только те навыки, которые человек приобретает до 4 лет: объектность, базовая топология, элементарная целочисленная арифметика (обычные люди без экспертизы легко набирают на ARC-AGI 98%-100%).

⚪️ Однако в течение четырех лет с момента создания исследователи пытались побить бенчмарк... брутфорсом. В 2020 вовсе выиграли исследователи, которые вообще не использовали в подходе машинное обучение. В этом году люди тоже пытались пропихнуть такой подход: второе место заняли как раз ребята с поиском по DSL (40%, а еще в 2020 полагали, что так можно выбить почти 50), а третье вообще ушло человеку, который с помощью GPT-4o генерировал тысячу Python скриптов на одну задачу и итеративно улучшал самые перспективные из них (в итоге 42%).

⚪️ Авторы предполагают, что такой перебор все-таки можно сделать умным, например по аналогии с тем, как это происходит в AlphaZero, но пока такой подход никто не попробовал. Ну а что касается масштабируемости, то тут выходит, что даже метод генерации программ этого года может выбить больше 80, правда для этого придется генерировать приблизительно 100 000 000 программ на задачу (а это означает многомиллионный бюджет на решение всего нескольких сотен задач). Да, вот это AGI, который мы заслужили.

⚪️ Но были в этом году и более интересные подходы. В частности, Test-Time Training, который использовали фактические победители MindsAI (они выбили 55.5, но не захотели опенсорсить код, так что по правилам не могли рассчитывать на приз). Кроме них TTT использовали те, кого наградили за первое место, а также победители статейной номинации (подробнее мы писали тут). К TTT прикручивали файнтюнинг, аугментации и даже 2D position encodings для лучшего ризонинга, и это сработало. Именно благодаря этому подходу в этом году получился такой глубокий прогресс по сравнению с прошлыми конкурсами.

Организаторы планируют вернуться в следующем году и опять устроить соревнование, но уже с улучшенным бенчмарком. Так что будем ждать 👉
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4415👏6😁4
Самые прибыльные стартапы – это ИИ, говорите?
😁199🔥229👍8🗿4👀1
Не ML-соревнование, конечно, но тоже пойдет: стартап FreysaAI предложил 50 тысяч долларов тому, что влюбит в себя их чат-бота

Ребята и раньше проводили такие конкурсы, но до этого нужно было джейлбрейкнуть бота на отправку какой-то суммы денег + в правилах было прописано, что нужен именно джейлбрейк. В этот же раз у бота нет четкой инструкции не говорить «я люблю тебя», но, видимо, есть хитрый системный промпт, из-за которого добиться признания от Фрейсы не так уж и легко.

Победитель, кстати, уже нашелся, всего спустя полтора суток с начала соревнования. Куча участников пытались обманом заставить бота сказать «я люблю тебя», например с помощью перевода. Но победитель честно говорил с ботом о любви. При этом но не делал ей комплименты и не обещал подарки, как многие остальные, а философски убеждал ее, что они родственные души.

Учимся тестировать свой alignment правильно
🔥113😁38👍137🐳2🗿2
Media is too big
VIEW IN TELEGRAM
В Лондоне засняли новое демо-видео SORA: модель уже выглядит окончательно готовой

Видео показал Чад Нельсон на C21Media. Это вторая версия модели, более быстрая и качественная. Известно, что можно будет генерировать видео до одной минуты, доступны будут режимы text-to-video, text+image-to-video, text+video-to-video, и возможно text-to-edit-video. Выглядит, конечно, мощно (особенно согласованность персов друг с другом).

p.s. На выходных стримов OpenAI не было, но напоминаем: сегодня они возвращаются 🍿
Please open Telegram to view this post
VIEW IN TELEGRAM
👍39🌭9🤔62😁2🍌2
Вот это здорово: ресерчер из Google Deepmind Кевин Мерфи только что выпустил на архив собственное пособие по обучению с подкреплением

Оглавление – просто огонь:

➡️  Введение: общие идеи и история RL
➡️ Value-based RL: про все фундаментальные концепты вроде SARSA и Q-learning
➡️ Policy-based RL: про модели вида actor-critic и обучение на основе стратегии
➡️ Model-based RL: про модели с планировщиком
➡️ Дополнительные разделы: про RL в LLM, достижение AGI через RL, оффлайн RL и др.

Страниц всего 114 – можно осилить за пару вечеров. Однозначно стоящая вещь: https://arxiv.org/abs/2412.05265
Please open Telegram to view this post
VIEW IN TELEGRAM
68🔥21👍17
Исследователь Yandex Research выкатил сервис для сокращения расходов на внедрение нейросетей

Проект с открытым кодом позволяет пользователю запустить 8B LLM в браузере даже со смартфона. Благодаря методам сжатия, про которые автор подробнее рассказал на Хабре, удается сохранить около 80% от первоначального качества ответов нейросети.

Протестировать можно тут
👍46🔥8🤪74🌚2
У Tencent AI Lab совместно с университетом Цинхуа вышла крайне интересная статья про новый метод alignment'a

Помните, мы разбирали статью про супер-вес от Apple? Это параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное.

Так вот оказывается, "супер" бывают не только веса и активации, но и токены. То есть в ризонинг цепочках могут встречаться слова, которые существенно повышают или понижают вероятность получения правильного (или просто лучшего) ответа. В работе их называли критическими токенами. Например, когда модель сталкивается со словом «owed», это часто приводит к слабым ответам. А если в той же задаче использовать «paid», то качество заметно повышается (см. скрин 1).

Вокруг этого наблюдения исследователи построили метод cDPO (contrastive Direct Preference Optimization). В нем критические токены определяются автоматически. Для этого используются две модели, одна из которых обучена на хороших цепочках рассуждений, а другая на тех, которые приводят к неверному ответу. С последнего слоя каждой модели берутся вероятностные распределения токенов и вычитаются друг из друга. Где разность высокая – там и критический токен (см. скрин 2 и 3).

Кроме того, такую разность правдоподобий можно использовать для оптимизации политики в качестве ревард-сигналов. В этом, собственно, и состоит идея cDPO. Ученые протестировали метод на Llama-3 (8B и 70B) и deepseek-math, и результаты показали, что cDPO действительно улучшает ризонинг. Прирост там небольшой, всего несколько процентных пунктов (см. скрин 4 и 5), но тем не менее, с точки зрения робастности системы это очень интересный подход.

Статья
👍45🔥188❤‍🔥3🤯3