Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
❤️ – говорю спасибо, верю в карму
👍 – не говорю спасибо, я бессмертный берегу лимиты
288👍248😁68🔥7🫡5👾2🤯1
OpenAI выпускают облегченную версию Deep Research, и она будет доступна бесплатным пользователям

Новая лайт версия будет работать на базе o4-mini, и это делает ее значительно дешевле. Ответы будут немного короче, но качество обещают почти без просадок.

Если у вас Plus или Pro, то версия доступна уже сейчас. На Free раскатывать тоже уже начали.

Спасибо конкуренции за повышенные лимиты 🙏
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117🔥3616💘1
CEO Anthropic Дарио Амодеи написал новое эссе про то, почему нам срочно нужно научиться интерпретировать модели

Он пишет, что в ближайшие годы ученые обязательно должны решить проблему интерпретируемости LLM, иначе мы не сможем предотвратить обманы, саботажи, стремление ИИ к власти и любое другое непреднамеренное поведение моделей.

Дарио настаивает, что сейчас фокус должен быть именно на таких исследованиях, а не на гонке ИИ, иначе мы можем просто не успеть за прогрессом.

Цитата: "К 2026–2027 годам ИИ достигнет уровня, сопоставимого со страной гениев в дата-центре. Даже небольшое преимущество в 1–2 года может сыграть решающую роль"

www.darioamodei.com/post/the-urgency-of-interpretability
🤯66👍5820😁15🤔4💯3
И еще одна новость Anthropic на сегодня: стартап открывает новую большую программу по изучению наличия сознания в моделях

Пока нет никаких убедительных доказательств хоть каких-то признаков сознания в LM, но в Anthropic не исключают возможность их появления. Поэтому они начинают изучать так называемое model welfare, то есть благосостояние моделей.

Антропики будут исследовать, нужен ли моделям какой-то моральный статус, есть ли у них эмоции, ценности и так далее. Исследования возглавляет довольно известный ученый Кайл Фиш. Он, кстати, говорил в интервью, что, по его мнению, существует 15% вероятность того, что уже сегодня Claude или другой ИИ обладает сознанием.

Вот что пишут Anthropic в блоге:

"Сейчас нет научного консенсуса относительно того, могут ли текущие или будущие системы ИИ быть сознательными или иметь опыт, требующий этического рассмотрения. Мы подходим к этой теме очень аккуратно и с минимальным количеством предположений. Мы также понимаем, что нам придется регулярно пересматривать наши идеи"


www.anthropic.com/research/exploring-model-welfare
👍75😁2827🤯14🤝1🗿1
За пол года доля сгенерированного кода в кодовой базе Google увеличилась на 5 процентных пунктов

Еще в октябре сообщалось о 25%. Сегодня просочилась информация о 30+ процентах. Ставим ставки, сколько будет к концу 2025.
🔥70😁21👍135🗿5🤔1
Выпускники, для вас крутая новость: в AI-бакалавриат Сбера и Яндекса в этом году примут в 1.5 раза больше человек

Речь идет о программе AI360. Если вы до сих пор с ней не знакомы, рассказываем: это совместный бакалавриат Сбера и Яндекса, запущенный в самых известных вузах страны: ИТМО, НИУ ВШЭ, МФТИ, Иннополис, СПбГУ. Это, кстати, первый в России полноценный ИИ-бакалавриат.

Обучение бесплатное. Обучают всему, что нужно ML-инженерам и исследователям. Программа включает направления "Передовые методы ИИ", "ML Native", "Инженерия ИИ" и "Инженерия данных". На всех вас ждет жесткая подготовка по математике, программированию и профильным ML-предметам.

В прошлом году поступили 100 ребят из 30 регионов, 94 абитуриента поступили без вступительных испытаний, а средний балл по ЕГЭ составлял 97. Да, поступить нелегко, но связка бигтех+ведущий вуз для студента того стоит, согласитесь. Тем более, поступившие в прошлом году ребята уже вовсю работают над реальными ML-кейсами и проходят воркшопы в компаниях.
👍42🔥207😁7👻5❤‍🔥1🗿1
Мотивации пост: сейчас в топ-1 по популярности на Hugging Face висит модель, которую разработала команда… из двух человек

Лаборатория называется Nari Labs, и она действительно состоит всего из двух исследователей. Несмотря на это, на этой неделе они со своей text2speech моделью DIA оставили позади Microsoft, Anthropic, Nvidia и другие корпорации.

Моделька у них правда крутая. В ней всего 1.6B параметров, но она генерирует из текста очень качественные диалоги. Сохраняет даже смех, кашель и вздохи. Плюс, пользователь может управлять эмоциями.

При этом у ребят действительно понятная и красивая карточка модели и хорошо оформленный код на гитхаб. Респект?
👍295🔥94376❤‍🔥5🫡4🤯2
МТС Web Services получила две награды на VI российском саммите и премии по цифровой трансформации организаций CDO/CDTO Summit & Awards 2025.

Гран-при в номинации «Digital-платформа года» получила платформа MWS Octapi. Это инновационное решение позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность. Octapi упрощает подключение новых технологий, минимизируя зависимость от разработчиков и ускоряя внедрение сервисов. Платформа способна поддерживать высокие нагрузки и позволяет настраивать интеграции без участия разработчиков.

Павел Воронин, генеральный директор МТС Web Services, стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».
🤨3211🤯6🗿6👍3
Forwarded from Machinelearning
Дайджест первого дня ICLR 2025 от делегации Яндекса

✔️ Computer Vision: прорывы в генерации и анализе изображений.

Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.

✔️ NLP: оптимизация предпочтений и эффективный инференс.

Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.

✔️ Speech: расширенные бенчмарки и новые токенизации.

Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.

✔️ RecSys: инновационные архитектуры для рекомендаций.

Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.

@ai_machinelearning_big_data

#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍227🔥7
Одну из ключевых исследователей OpenAI высылают из Америки

И нет, она не сделала ничего плохого. Просто она гражданка Канады и ей отказали в грин карте. Девушку зовут Кай Чен, она 12 лет прожила в Америке и много лет работала в OpenAI.

Ее коллеги пишут, что она играла ключевую роль в релизе GPT-4.5. За нее даже заступился сам Ноам Браун, назвав Кай одной из лучших ученых, с кем ему приходилось работать. Но решение не отменить, и скоро исследовательница вынуждена будет покинуть страну. Вот такая история.

US: мы хотим быть лидерами в ИИ, вот 500 миллиардов долларов
Также US:
🫡182🤯86😁43👍12🤨104🔥4🦄3🤩1🤗1
Еще одна крутая новость для студентов и молодых исследователей: есть еще 4 дня, чтобы подать заявку на летнюю школу по искусственному интеллекту «Лето с AIRI 2025» ⚡️⚡️⚡️

Если вы ещё не слышали, рассказываем: это исследовательская школа, где с 30 июня по 10 июля в Томске вас ждет работа с ведущими экспертами по искусственному интеллекту. В программе — лекции, семинары, практические задания, постерная сессия и много возможностей для прокачки навыков и нетворкинга.

Обучение бесплатное. Организаторы также покрывают проживание и питание — нужно только приехать в Томск. Вас ждет погружение в реальную научную работу и сильная исследовательская атмосфера.

Подавайте заявку на сайте до 23:59 29 апреля 2025 года. Если хотите провести лето с пользой и прокачаться в ИИ, не упустите шанс!
14👍10🔥10😁53🗿3🤯1
Paper2Code: исследователи из корейского технологического института сделали мульти-агентный фрейморк для автоматической генерации кода по статьям

Боль каждого рисерчера – это статьи, к которым нет кода. Чтобы воспроизвести результат, нужно потратить пол жизни, и то – успех не гарантирован. А код авторы публикуют не так уж и часто. На примере NeurIPS, ICML и ICLR 2024: только 21.2% принятых работ имеют открытые репы.

Здесь авторы предлагают PaperCoder. Это мульти-агентная система, в которой процесс генерации репозитория разбит на три этапа:

1. Планирование. Составляется конспект статьи, UML-диаграммы классов + список файлов. Тут же создается config.yaml с гиперпараметрами и выстраивается план последовательности генерации.

2. Анализ. Здесь для каждого файла из составленного списка формируется file-level analysis — подробное описание целей, входов/выходов, взаимодействий и каких-то специфичных требований, если есть.

3. Ну и сама генерация на основании статьи, фазы планирования и анализа. Бонусом из первых двух пунктов получаем супер-подробную доку.

На каждом шаге работает отдельный агент. Это, по идее, могут быть разные LLM, но здесь по умолчанию на всех шагах стоит o3-mini-high (кроме валидации, там GPT-4o).

Тестировали на работах с тех же ICML/NeurIPS/ICLR 2024. Процент полностью успешной репликации – около 44% против 10-15 у базовых агентов. Если анализировать вручную, то в среднем для успешного запуска нужно менять всего 0.48 % строк. А еще PaperCoder давали потрогать исследователям, и в 85% случаев те сказали, что это лучше, чем писать с нуля, даже если нужно что-то дебажить.

Ирония только в том, что к статье Paper2Code... не выложили код. Но, вроде, обещают "скоро"
😁23228👍24🔥12🤯32
В китайские соцсети якобы утекла информация о предстоящем релизе DeepSeek R2

На платформе Jiuyan Gongshe, которая предназначена для обсуждения фондовых рынков и шеринга аналитических материалов, некий пользователь опубликовал статью с инсайдами про R2. Что говорит:

Будет новая архитектура Hybrid MoE 3.0. Всего в модели 1,2 триллиона параметров, но фактически единовременно активироваться будут около 78 миллиардов. По тестам (опять же, якобы) Alibaba Cloud, стоимость обработки одного токена на длинных контекстах будет на 97,3% ниже по сравнению с GPT-4 Turbo.

Обучают на Huawei Ascend 910B и Nvidia H800. Фактическая производительность на FP16 составила 512 PetaFLOPS. Это примерно 91% эффективности аналогичных кластеров на чипах Nvidia A100, то есть довольно амбициозно.

Релиз – в мае.

Ознакомились, но относимся с осторожностью
Please open Telegram to view this post
VIEW IN TELEGRAM
138👍6026🤔8❤‍🔥1💘1
Тренд на Test-Time learning добрался и до обучения с подкреплением

Вышла статья китайских исследователей под названием Test-Time Reinforcement Learning (TTRL). Сейчас работа в топ-1 просматриваемых и обсуждаемых на alphaXiv. Разбираем.

Общая идея в том, что хорошо бы обучаться не только на размеченных данных, которые были в трейне, но и использовать для обучения поток любых запросов, которые приходят в модель на инференсе.

Проблема только в том, что на инференсе данные неразмечены, так что мы не можем ориентироваться на правильные ответы. Поэтому в данном случае исследователи предложили вот такой алгоритм (картинка 1):

1. Текущая политика N раз генерирует нам ответ на входной запрос.
2. Мы очищаем все эти ответы от рассуждений, решений и тд и оставляем только голые ответы.
3. Среди этих ответов выделяем самый частый. Это и есть наша псевдо-метка, то есть предполагаемый таргет.
4. На основе этого псевдо-лейбла каждое из N предсказаний мы награждаем либо 0 (ответ не совпал), либо 1 (совпал).
5. На основе реварда обновляем политику модели (в качестве метода – GRPO).


Звучит витиевато, но на тестах – работает.

В экспериментах брали задачки по математике из AIME 2024, AMC и MATH-500 и модели Qwen2.5-Math-1.5B/7B и LLaMA-3.1-8B. Сравнивали обычный проход без всего с проходом после нескольких эпизодов TTRL (один эпизод – один проход по всему бенчу с обновлением политики модели).

Результаты – на картинках 2 и 3. Несмотря на то, что все опирается только на какую-то саморефлексию, приросты достигают 159%. Например, на Qwen2.5-Math-7B TTRL в среднем дает улучшение на 84,1% по трем бенчмаркам.

Хорошая работа, чтобы прочитать полностью
🤯85👍5923🔥12🤔3👏2💘1
А вы тоже заметили, что после последних обновлений 4o превратился в ванильный раф с сиропом?

Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами 😛
Please open Telegram to view this post
VIEW IN TELEGRAM
😁249👍41🔥196
В Твиттере обнаружили место обитания моделей Meta нового поколения
😁150👍229🗿5🔥4🤨4🤯2
Пока ждем выхода Qwen 3, о котором жужжит весь реддит, разбираем статью "Reasoning Models Can Be Effective Without Thinking" от ученых из Беркли

Сегодняшние ризонинг модели называются "ризонинг", потому что используют явный многошаговый процесс мышления. Мы называем это Chain-of-Thought. На практике это просто большой префикс ответа, то есть куча токенов, которые хотя и улучшают качество, но делают это долго и дорого.

Так вот, внезапно оказалось, что ризонинг ризонинг-моделям не так уж и нужен.

Смотрите: в статье авторы берут DeepSeek-R1-Distill-Qwen-32B (с ризонингом), но вместо всего процесса рассуждения ставят заглушку. Для этого прямо в промпт добавляют кусочек
<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>

, и так как модель обучена генерировать готовое решение сразу после этого тега, она пропускает размышления и тут же генерирует ответ. Вот такой джейлбрейк.

Метод называется NoThinking, и он, несмотря на всю свою простоту, оказывается удивительно эффективен. На pass@k (хотя бы один из k ответов верен) на задачках по математике и кодингу результаты сопоставимые с CoT, особенно если бюджет токенов небольшой. На кривой Парето можно увидеть красивый accuracy-budget трейдофф.

При этом если NoThinking генерирует N ответов параллельно, а затем из них мы выбираем лучший, то на pass-1 метрика даже выше, чем у обычного CoT (и это все еще быстрее, чем ванильный ризонинг).

Получается, гипотеза следующая: нам не нужны длинные рассуждения на инференсе. Достаточно того, что модель была рассуждениям обучена. Просто в NoThinking она не разворачивает все свои мысли в длинный текст, а думает их про себя. Да, иногда такая ментальная арифметика работает чуть хуже, но работает же. А значит и потенциал какой-то есть.

https://arxiv.org/abs/2504.09858
103👍48🔥39🤔24😁16
Топ-топ-топ топает кибермалыш

Знакомьтесь: это робот Топа от Центра робототехники Сбера, которого они показали на ROS Meetup 2025 в эти выходные. Участники запустили его сами и Топа гордо оттопал по подиуму 🏃‍♂️

Мероприятие, кстати, собрало в этом году рекордных 300 исследователей и инженеров, которые пришли в московскую штаб-квартиру Сбера послушать или рассказать доклады про ИИ и Robot Operating System (ROS). Был также нетворкинг и демки других роботов.

Ждем следующего года, чтобы пойти посмотреть на то, какого робота соберут на ROS Meetup 2026
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
46🗿23🔥11👍8😁8👾6