Data Secrets
77.4K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Илья Суцкевер прокомментировал замедление скейлинга моделей

Недавняя статья The Information, о которой мы писали здесь, наделала в сообществе много шума. Суть материала в том, что модели OpenAI больше не масштабируются с ростом количества обучающих данных так, как это работало раньше. Возможно, это связано с тем, что из-за недостатка данных в датасеты добавляют много синтетики от других моделей; возможно, с чем-то еще. Известно, что в OpenAI даже создали новую команду, которая будет работать над решением проблемы.

Ну а пока суть да дело, ситуацию активно обсуждают в том числе крупные исследователи. Даже Илья Суцкевер подключился. Вот какой комментарий он дал Reuters (свободный перевод):

«2010-е годы были эпохой масштабирования, а теперь мы снова вернулись в эпоху открытий. Все ищут что-то новое. Масштабировать правильно правильные вещи сейчас важнее, чем когда-либо».


Размыто, конечно, но, видимо, имеется в виду, что скейлинг в претрейне (то есть тот самый скейлинг на обучающих данных) сейчас действительно выжат на максимум, и нам стоит сконцентрироваться на чем-то другом.

OpenAI, вероятно, те самые "правильные вещи" видят в ризонинге в стиле o1 и в чем-то вроде test-time training, статью о котором мы разбирали буквально вчера. Хотя сама компания комментариев не дает, об этом напрямую заявил GTM OpenAI в твиттере. Он написал, что "Масштабирование просто нашло другой набор шестеренок в виде inference time обучения".
👌3410🕊5👍2
Конкуренция на рынке труда крепчает: на YouTube обнаружили канал семилетнего мальчика Сережи, который записывает обучающие видео по машинному обучению

Судя по каналу, опыт работы Сережи – уже два года. Тут и нейросети на PyTorch, и модели классификации, а бонусом еще и геймдев 😜

Твой будущий лид
Please open Telegram to view this post
VIEW IN TELEGRAM
😁19544👍1710🔥8🫡6🗿6🤪1
Вышел Qwen2.5-Coder

Там целое семейство: 0.5B / 1.5B / 3B / 7B / 14B / 32В, базовые и инстракт модели. Радует, что есть малышки и можно запустить локально. Все веса уже в опенсорс вот тут 🤗

По бечмаркам: среди представленных в тех.отчете 32В на всем превосходит открытых соперников (главный из которых – DeepSeek-Coder-2), а также на многих тестах обгоняет GPT-4o, включая, между прочим, HumanEval и EvalPlus. По CodeArena, правда, немного не дотянули: не хватило двух десятых процента.

Отчет | Демо | Гитхаб | Блог
31🔥18👍11🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышло пятичасовое интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом. Пройдемся по самому яркому:

➡️ На вопрос об AGI Дарио ответил, что если просто экстраполировать графики (а это ненаучно), то можно предсказать, что AGI появится в 2026 или 2027. Но точно сказать нельзя, потому что никто не знает, смогут ли модели масштабироваться дальше.

➡️ Тем не менее, Дарио настроен оптимистично и верит в то, что скоро у нас будет ИИ уровня человека. При этом ближайшие несколько лет все больше и больше денег будет тратиться на разработку и обучение: к 2027 люди, вероятно, будут строить кластеры стоимостью $100 млрд, тогда как сейчас самые крупные суперкомпьютеры стоят $1 млрд.

➡️ Амодеи говорит, что масштабирование моделей продолжится, и что в этом есть некая магия, которую мы пока не можем объяснить на теоретической основе. Возможно, масштабирование будет не таким, как мы привыкли, но «оно найдет путь».

➡️ Человеческий интеллект – это не предел. Мы можем сделать модели гораздо умнее нас, особенно в определенных областях, таких как биология.

➡️ Сейчас модели продолжают улучшаться невероятно быстро, особенно в кодинге, физике и математике. На SWE-bench в начале года LLM достигали 2-3%, а сейчас это около 50%. То, о чем действительно стоит переживать в этих условиях – это монополия на ИИ и сосредоточение власти над ИИ в руках всего нескольких крупных игроков. Это может быть опасно.

Само интервью можно посмотреть здесь, а вот тут лежит полная текстовая расшифровка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍2273🎉2
В твиттере описали среднестатистического кандидата на должность MLE
😁174🔥15👍115🤯3👀3
На LMSYS появилась Copilot Arena

Месяц назад ребята запустили Copilot Arena в виде плагина в VSCode. Это полноценный ассистент для программирования, который может дополнить код, проверить его или даже выполнить указанные действия с выделенной строкой. Его фишка – он предоставляет пару ответов от разных ведущих моделей, задача пользователя – выбрать ответ, который ему больше понравился. Если еще не пользовались – скачать бесплатно можно здесь.

Месяц аналитики собирали статистику. За это время плагин загрузили 2.5К раз. И вот сегодня на LMSYS наконец появились результаты! Они забавные: на первом месте, например, открытая модель, Llama 3.1 лучше GPT-4o, а GPT-4o mini внезапно оказалась хуже всех.

Кстати, оказалось, что в основном плагином пользовались питонисты. На следующем месте – java script и html. Интересно, что медианная длина контекстного окна рассматривается 560 (это много, в human eval например всего 100).

Кажется, такой тест, как бы автоматически взвешенный по используемости ЯП + с сохранением естественной пользовательской длины контекста, должен быть явно репрезентативнее бенчмарков. А это не может не радовать

Блогпост от Lmsys
👍55🔥117🍌3
Data Secrets
⚡️ Еще трое соучредителей, среди которых Грег Брокман, покинули OpenAI Правда, Грег не совсем ушел: он взял длительный отпуск до конца года. В твиттере он написал, что это его первый отпуск за 9 лет в OpenAI. Однако, его мотивы все еще неизвестны. Кроме…
⚫️ Грег Брокман вернулся в OpenAI

В августе Грег написал, что берет длительный отпуск, впервые за 9 лет работы. Тогда многие подумали, что это отговорка, и так соучредитель сгладил свой уход (одновременно с ним из компании увольнялся его друг и коллега Джон Шульман).

Но нет! Сегодня Грег написал в Твиттере, что возвращается. Кажется, настрой у него оптимистичный.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥66👍16😁53🤯1
Кто-то приходит, значит кто-то уходит – в OpenAI все стабильно

The Information, видимо, нашли бодрого информатора из OpenAI. Они выпускают уже третью статью про стартап за неделю. На этот раз пишут о том, что Мира Мурати начала успешно хантить исследователей в свою компанию. Точно известно, что к ней, как минимум, ушла разработчица из команды safety, которая отвечала за пост трейнинг, – Миана Чен. Еще говорят, что Мира заполучила Баррета Зофа и Люка Метца. Это тоже бывшие ключевые сотрудники отдела alignment’a.

Кроме того, инсайдер сообщает, что OpenAI собирается выпустить полную версию o1 до конца года. Возможно даже на ближайшем devday в конце ноября.
33🔥10👍5
Нашли на архиве забавный препринт, в котором исследователи с помощью LLM-симуляции предсказали победу Трампа

Сразу скажем: дата сабмита – 3 ноября, за три дня до объявления результатов. А вообще, исследование касалось не только выборов: ученые выясняли, способны ли LLM в целом моделировать поведение общественности и, главное, людей с определенными социальными качествами.

В начале проверяли, может ли LLM правдоподобно предсказывать мнение людей в вопросах этического характера исходя из их национальности, пола, возраста и прочего. Для этого использовали WVS, то есть данные Всемирного исследования ценностей. Оказалось, что смоделированная выборка достаточно точно отражает различия и показывает общие тренды, и исследователи пошли дальше.

Они заставили агентов голосовать на выборах 2016, 2020 и 2024 года. Но при этом LLM думали не "за себя", а опять же за людей с определенными характеристиками, роль которых как бы играла модель. А чтобы выборка получилась репрезентативная, данные о респондентах брали из ANES (Американских национальных избирательных исследований).

В итоге LLM-респонденты предсказали победу Трампа с результатом 300/538. Реальные результаты, тем временем, 312/538. На картинках сверху сперва симуляция, потом реальные результаты по штатам. Посмотрите, как похоже 😲

P.S. Возможно, в ближайшем будущем люди действительно будут использовать LLM в качестве моделирования настоящих социальных исследований? Подвижки в эту сторону уже были (пост про подобное исследование #1, и #2). А вы как считаете?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
99👍25🔥20🤯10🤔52❤‍🔥1😐1
А еще папа каждый день разговаривает с какой-то ламой 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
😁223👏1995👍3
Похоже, у Amazon большие планы: они ставят все на разработку собственного железа и в следующем месяце планируют выпустить чип Trainium 2

Компания вкладывает в это 75 миллиардов долларов, и это не включая 110 миллионов на Build on Trainium – новую программу грантов на ИИ-исследования. Вероятно, победителям Amazon тоже будут «нативно» предлагать свои облачные серверы.
👍44🔥1311
Много новостей от OpenAI этим утром. Насобирали целый дайджест!

➡️ Самое главное: по словам инсайдеров, в январе OpenAI запускает ИИ-агента Operator, который сможет автономно управлять компьютером и выполнять какие-то действия за человека: писать код, бронировать путешествия и тд. Сообщается, что это не единственный проект компании, в котором они работают над ИИ-агентами. Напоминаем, что агенты – следующая ступень развития ИИ по мнению Альтмана, и в недавнем интервью он говорил, что выйдут они на нее уже очень скоро.

➡️ На сайте OpenAI опубликовали крутое руководство пользователя ChatGPT для студентов. Это, по сути, полезные советы о том, как использовать GPT так, чтобы учеба стала проще и приятнее. Из интересного: советуют прослушивать свои эссе в голосовом режиме бота, чтобы найти недостатки; использовать дедуктивные способности GPT, чтобы проверять свои решения; поиграть с ИИ в Сократовский метод и попытаться его переспорить, чтобы найти пробелы в своих аргументах.

➡️ Еще один сотрудник немного злобно покинул стартап. В Твиттере он пассивно-агрессивно написал, что у компании проблемы с безопасностью (но это мы и без него знали) и с отношением к сотрудникам.

Ждем от стартапа релизов и искренне надеемся, что на момент выхода GPT-5 в нем не останется один Альтман
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42😁3112🤔1🤝1
Белое хакерство в LLM – новое исследование от Anthropic

Jailbreak Rapid Response: так называется свежая статья от самых больших любителей поковыряться под капотом моделей. На этот раз они предлагают подход к обнаружению и блокировке новых методов джейлбрейка, то есть "взлома" моделей. Взлом тут – это попытки с помощью каких-то хитрых промптов заставить модель выдать неэтичную информацию, которую ей выдавать запрещено (рецепт коктейля Молотова, например).

Метод у них забавный: они показывают LLM один из вариантов джейлбрейка и просят ее генерировать больше таких примеров. Потом просят генерировать больше примеров, основываясь на том, что она сгенерировала раньше, и так далее. Таким образом у нас растет огромный синтетический датасет, на котором можно обучить что-то врожде классификатора.

В качестве "классификатора" ученые тестировали Regex, Guard Fine-tuning, Embedding, Guard Few-shot и Defense Prompt. Лучше всего себя показал Guard Fine-tuning – самый ванильный вариант, при котором мы просто дообучаем модель на экземлярах положительного и отрицательного класса.

Результаты в итоге получились даже лучше, чем у методов статической защиты, которые сегодня обычно используются в продакшене. Guard Fine-tuning отлавливает в 240 раз (!!!) больше атак на "похожих" на датасет примерах и в 15 раз больше джейлбрейков на не представленных в трейне вообще.

Статья полностью тут, а еще к ней есть открытый репозиторий с кодом, можно поэкспериментировать.

Наши предыдущие посты-разборы интересных работ Anthropic про alignment и интерпретируемость в LLM:

– Та самая статья про Golden Gate
Продолжение этой статьи, в которой рассказывается про управление мыслями LLM
Про то, как модели читерят во время обучения
Про математические фракталы в картах гиперпараметров
Что мешает нам понимать черный ящик нейросетей
👍50🌚15106❤‍🔥333
Бывает: Google Gemini словил выгорание и выпустил пар прямо с диалоге с ничего не подозревающим юзером

100% понимания 🍊
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡118😁6524👍653🤝2🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
Красивая идея для петпроекта от Roboflow: CV-тулза для спортивной аналитики

Относительно недавно компания сделала анонс своей новой линейки моделей sports, а сейчас вот активно приглашает участников сообщества контрибьютить.

С чем возникают особенно большие проблемы по словам авторов и за какой вклад они будут особенно благодарны:

⚙️ Мяч. Из-за его небольшого размера и быстрых движений отслеживать его трудно, особенно на видео высокого разрешения.

⚙️ Номера на футболках. Игроки постоянно закрывают друг-друга, оборачиваются, бегают и так далее. Поэтому с точным считыванием информации с футболок тоже пока неидеально.

⚙️ Сами игроки. Тут проблема такая же, как с футболками. Для точного определения оффсайдов и подобного точность должна быть очень высокой, а игра постоянно находится в динамике и FPS запредельный.

⚙️ Повторная идентификация игрока. Игроки в одинаковой форме часто визуально похожи, особенно издалека, а камеры двигаются. Поэтому отдельные трудности вызывают ситуации, когда некоторые игроки покидают и снова входят в кадр.

⚙️ Калибровка камеры. Это одна из самых сложных технических проблем подобных инструментов: все из-за динамической природы спорта и меняющихся углов обозрения.

Так что если хотите поэкспериментировать или знаете, как такие проблемы решать – советуем: отличная возможность попрактиковаться, забрать крутой проект в резюме, да еще и получить ачивки от крупной компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥16107😁1
История YOLO: новая большая статья от нашей редакции

YOLO или You Only Look Once – это, пожалуй, самая известная архитектура компьютерного зрения. Она знаменита своей скоростью, качеством, а еще богатой историей.

Первая версия YOLO вышла еще в 2016 году, в последняя, одиннадцатая, всего месяц назад. За 8 лет YOLO пережила много сюжетных поворотов и технических прорывов. Об этом – наша новая большая статья, в которой вы узнаете:

⚪️ Что представляет из себя задача детекции, чем она отличается от других задач компьютерного зрения и как ее решали до YOLO
⚪️ Как работала самая первая YOLO (будет много деталей и схем!)
⚪️ Какие технические новшества помогли второй версии вырваться в SOTA
⚪️ Почему отец-основатель архитектуры ушел из проекта и какие последние изменения он внес
⚪️ Что не так с YOLOv5 или почему Ultralytics пришлось два года отмывать свою репутацию
⚪️ Почему все обожают YOLOv8
⚪️ И что происходит с моделью сейчас

Если давно хотели погрузиться в CV – это ваш шанс. Так что присаживайтесь поудобнее (ну или сохраняйте ссылку на будущее): https://datasecrets.ru/articles/20
Please open Telegram to view this post
VIEW IN TELEGRAM
55👍32🔥88🕊2🤪1