Появились некоторые свежие подробности про открытую модель от OpenAI. Вводим вас в курс:
➖ Она появится в начале лета, лицензию обещают очень демократичную
➖ Пока проект на ранней стадии, разработку возглавляет Эйдан Кларк, вице-президент по исследованиям
➖ Модель будет с ризонингом, но пользователи смогут выключать и включать режим рассуждений
➖ Все-таки модель будет не для GPU-poor юзеров, но в дальнейшем так же выйдут меньшие варианты, они будут не такими требовательными по железу
➖ На момент выпуска мультимодальности не будет, только текст на вход и выход
Последнее, конечно, грустно. Надеемся, метрики не подкачают
Последнее, конечно, грустно. Надеемся, метрики не подкачают
Please open Telegram to view this post
VIEW IN TELEGRAM
👍61🔥19❤11
Google показали статистику Gemini (точнее раскрыли в суде)
Насчитали 35 млн DAU (активных пользователей в день) и 350 млн MAU (в месяц). Это уже больше, чем у Anthropic. Для ChatGPT те же показатели составляют соответственно 160 млн и 600 млн.
Зато Gemini, надо сказать, растет быстрее. Пол года назад, для сравнения, их DAU был 9 млн. Это рост почти в 4 раза. ChatGPT за это же время вырос с 90 млн (то есть в 1.7 раз).
Насчитали 35 млн DAU (активных пользователей в день) и 350 млн MAU (в месяц). Это уже больше, чем у Anthropic. Для ChatGPT те же показатели составляют соответственно 160 млн и 600 млн.
Зато Gemini, надо сказать, растет быстрее. Пол года назад, для сравнения, их DAU был 9 млн. Это рост почти в 4 раза. ChatGPT за это же время вырос с 90 млн (то есть в 1.7 раз).
🔥85👍30❤14✍7
OpenAI выпускают облегченную версию Deep Research, и она будет доступна бесплатным пользователям
Новая лайт версия будет работать на базе o4-mini, и это делает ее значительно дешевле. Ответы будут немного короче, но качество обещают почти без просадок.
Если у вас Plus или Pro, то версия доступна уже сейчас. На Free раскатывать тоже уже начали.
Спасибо конкуренции за повышенные лимиты🙏
Новая лайт версия будет работать на базе o4-mini, и это делает ее значительно дешевле. Ответы будут немного короче, но качество обещают почти без просадок.
Если у вас Plus или Pro, то версия доступна уже сейчас. На Free раскатывать тоже уже начали.
Спасибо конкуренции за повышенные лимиты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍117🔥36❤16💘1
CEO Anthropic Дарио Амодеи написал новое эссе про то, почему нам срочно нужно научиться интерпретировать модели
Он пишет, что в ближайшие годы ученые обязательно должны решить проблему интерпретируемости LLM, иначе мы не сможем предотвратить обманы, саботажи, стремление ИИ к власти и любое другое непреднамеренное поведение моделей.
Дарио настаивает, что сейчас фокус должен быть именно на таких исследованиях, а не на гонке ИИ, иначе мы можем просто не успеть за прогрессом.
Цитата: "К 2026–2027 годам ИИ достигнет уровня, сопоставимого со страной гениев в дата-центре. Даже небольшое преимущество в 1–2 года может сыграть решающую роль"
www.darioamodei.com/post/the-urgency-of-interpretability
Он пишет, что в ближайшие годы ученые обязательно должны решить проблему интерпретируемости LLM, иначе мы не сможем предотвратить обманы, саботажи, стремление ИИ к власти и любое другое непреднамеренное поведение моделей.
Дарио настаивает, что сейчас фокус должен быть именно на таких исследованиях, а не на гонке ИИ, иначе мы можем просто не успеть за прогрессом.
Цитата: "К 2026–2027 годам ИИ достигнет уровня, сопоставимого со страной гениев в дата-центре. Даже небольшое преимущество в 1–2 года может сыграть решающую роль"
www.darioamodei.com/post/the-urgency-of-interpretability
🤯66👍58❤20😁15🤔4💯3
И еще одна новость Anthropic на сегодня: стартап открывает новую большую программу по изучению наличия сознания в моделях
Пока нет никаких убедительных доказательств хоть каких-то признаков сознания в LM, но в Anthropic не исключают возможность их появления. Поэтому они начинают изучать так называемое model welfare, то есть благосостояние моделей.
Антропики будут исследовать, нужен ли моделям какой-то моральный статус, есть ли у них эмоции, ценности и так далее. Исследования возглавляет довольно известный ученый Кайл Фиш. Он, кстати, говорил в интервью, что, по его мнению, существует 15% вероятность того, что уже сегодня Claude или другой ИИ обладает сознанием.
Вот что пишут Anthropic в блоге:
www.anthropic.com/research/exploring-model-welfare
Пока нет никаких убедительных доказательств хоть каких-то признаков сознания в LM, но в Anthropic не исключают возможность их появления. Поэтому они начинают изучать так называемое model welfare, то есть благосостояние моделей.
Антропики будут исследовать, нужен ли моделям какой-то моральный статус, есть ли у них эмоции, ценности и так далее. Исследования возглавляет довольно известный ученый Кайл Фиш. Он, кстати, говорил в интервью, что, по его мнению, существует 15% вероятность того, что уже сегодня Claude или другой ИИ обладает сознанием.
Вот что пишут Anthropic в блоге:
"Сейчас нет научного консенсуса относительно того, могут ли текущие или будущие системы ИИ быть сознательными или иметь опыт, требующий этического рассмотрения. Мы подходим к этой теме очень аккуратно и с минимальным количеством предположений. Мы также понимаем, что нам придется регулярно пересматривать наши идеи"
www.anthropic.com/research/exploring-model-welfare
👍75😁28❤27🤯14🤝1🗿1
Выпускники, для вас крутая новость: в AI-бакалавриат Сбера и Яндекса в этом году примут в 1.5 раза больше человек
Речь идет о программе AI360. Если вы до сих пор с ней не знакомы, рассказываем: это совместный бакалавриат Сбера и Яндекса, запущенный в самых известных вузах страны: ИТМО, НИУ ВШЭ, МФТИ, Иннополис, СПбГУ. Это, кстати, первый в России полноценный ИИ-бакалавриат.
Обучение бесплатное. Обучают всему, что нужно ML-инженерам и исследователям. Программа включает направления "Передовые методы ИИ", "ML Native", "Инженерия ИИ" и "Инженерия данных". На всех вас ждет жесткая подготовка по математике, программированию и профильным ML-предметам.
В прошлом году поступили 100 ребят из 30 регионов, 94 абитуриента поступили без вступительных испытаний, а средний балл по ЕГЭ составлял 97. Да, поступить нелегко, но связка бигтех+ведущий вуз для студента того стоит, согласитесь. Тем более, поступившие в прошлом году ребята уже вовсю работают над реальными ML-кейсами и проходят воркшопы в компаниях.
Речь идет о программе AI360. Если вы до сих пор с ней не знакомы, рассказываем: это совместный бакалавриат Сбера и Яндекса, запущенный в самых известных вузах страны: ИТМО, НИУ ВШЭ, МФТИ, Иннополис, СПбГУ. Это, кстати, первый в России полноценный ИИ-бакалавриат.
Обучение бесплатное. Обучают всему, что нужно ML-инженерам и исследователям. Программа включает направления "Передовые методы ИИ", "ML Native", "Инженерия ИИ" и "Инженерия данных". На всех вас ждет жесткая подготовка по математике, программированию и профильным ML-предметам.
В прошлом году поступили 100 ребят из 30 регионов, 94 абитуриента поступили без вступительных испытаний, а средний балл по ЕГЭ составлял 97. Да, поступить нелегко, но связка бигтех+ведущий вуз для студента того стоит, согласитесь. Тем более, поступившие в прошлом году ребята уже вовсю работают над реальными ML-кейсами и проходят воркшопы в компаниях.
👍42🔥20❤7😁7👻5❤🔥1🗿1
Мотивации пост: сейчас в топ-1 по популярности на Hugging Face висит модель, которую разработала команда… из двух человек
Лаборатория называется Nari Labs, и она действительно состоит всего из двух исследователей. Несмотря на это, на этой неделе они со своей text2speech моделью DIA оставили позади Microsoft, Anthropic, Nvidia и другие корпорации.
Моделька у них правда крутая. В ней всего 1.6B параметров, но она генерирует из текста очень качественные диалоги. Сохраняет даже смех, кашель и вздохи. Плюс, пользователь может управлять эмоциями.
При этом у ребят действительно понятная и красивая карточка модели и хорошо оформленный код на гитхаб. Респект?
Лаборатория называется Nari Labs, и она действительно состоит всего из двух исследователей. Несмотря на это, на этой неделе они со своей text2speech моделью DIA оставили позади Microsoft, Anthropic, Nvidia и другие корпорации.
Моделька у них правда крутая. В ней всего 1.6B параметров, но она генерирует из текста очень качественные диалоги. Сохраняет даже смех, кашель и вздохи. Плюс, пользователь может управлять эмоциями.
При этом у ребят действительно понятная и красивая карточка модели и хорошо оформленный код на гитхаб. Респект?
👍295🔥94❤37✍6❤🔥5🫡4🤯2
МТС Web Services получила две награды на VI российском саммите и премии по цифровой трансформации организаций CDO/CDTO Summit & Awards 2025.
Гран-при в номинации «Digital-платформа года» получила платформа MWS Octapi. Это инновационное решение позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность. Octapi упрощает подключение новых технологий, минимизируя зависимость от разработчиков и ускоряя внедрение сервисов. Платформа способна поддерживать высокие нагрузки и позволяет настраивать интеграции без участия разработчиков.
Павел Воронин, генеральный директор МТС Web Services, стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».
Гран-при в номинации «Digital-платформа года» получила платформа MWS Octapi. Это инновационное решение позволяет бесшовно интегрировать сервисы в экосистему, обеспечивая их эффективное взаимодействие и повышая надежность. Octapi упрощает подключение новых технологий, минимизируя зависимость от разработчиков и ускоряя внедрение сервисов. Платформа способна поддерживать высокие нагрузки и позволяет настраивать интеграции без участия разработчиков.
Павел Воронин, генеральный директор МТС Web Services, стал лауреатом премии CDO/CDTO, войдя в тройку лучших СЕО 2025 года в номинации «СЕО года цифровой компании».
🤨32❤11🤯6🗿6👍3
Forwarded from Machinelearning
Дайджест первого дня ICLR 2025 от делегации Яндекса
✔️ Computer Vision: прорывы в генерации и анализе изображений.
Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.
✔️ NLP: оптимизация предпочтений и эффективный инференс.
Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.
✔️ Speech: расширенные бенчмарки и новые токенизации.
Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.
✔️ RecSys: инновационные архитектуры для рекомендаций.
Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.
@ai_machinelearning_big_data
#news #AI #ML #LLM
Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.
Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.
Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.
Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.
@ai_machinelearning_big_data
#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤7🔥7
Одну из ключевых исследователей OpenAI высылают из Америки
И нет, она не сделала ничего плохого. Просто она гражданка Канады и ей отказали в грин карте. Девушку зовут Кай Чен, она 12 лет прожила в Америке и много лет работала в OpenAI.
Ее коллеги пишут, что она играла ключевую роль в релизе GPT-4.5. За нее даже заступился сам Ноам Браун, назвав Кай одной из лучших ученых, с кем ему приходилось работать. Но решение не отменить, и скоро исследовательница вынуждена будет покинуть страну. Вот такая история.
US: мы хотим быть лидерами в ИИ, вот 500 миллиардов долларов
Также US:
И нет, она не сделала ничего плохого. Просто она гражданка Канады и ей отказали в грин карте. Девушку зовут Кай Чен, она 12 лет прожила в Америке и много лет работала в OpenAI.
Ее коллеги пишут, что она играла ключевую роль в релизе GPT-4.5. За нее даже заступился сам Ноам Браун, назвав Кай одной из лучших ученых, с кем ему приходилось работать. Но решение не отменить, и скоро исследовательница вынуждена будет покинуть страну. Вот такая история.
US: мы хотим быть лидерами в ИИ, вот 500 миллиардов долларов
Также US:
🫡182🤯86😁43👍12🤨10❤4🔥4🦄3🤩1🤗1
Еще одна крутая новость для студентов и молодых исследователей: есть еще 4 дня, чтобы подать заявку на летнюю школу по искусственному интеллекту «Лето с AIRI 2025» ⚡️⚡️⚡️
Если вы ещё не слышали, рассказываем: это исследовательская школа, где с 30 июня по 10 июля в Томске вас ждет работа с ведущими экспертами по искусственному интеллекту. В программе — лекции, семинары, практические задания, постерная сессия и много возможностей для прокачки навыков и нетворкинга.
Обучение бесплатное. Организаторы также покрывают проживание и питание — нужно только приехать в Томск. Вас ждет погружение в реальную научную работу и сильная исследовательская атмосфера.
Подавайте заявку на сайте до 23:59 29 апреля 2025 года. Если хотите провести лето с пользой и прокачаться в ИИ, не упустите шанс!
Если вы ещё не слышали, рассказываем: это исследовательская школа, где с 30 июня по 10 июля в Томске вас ждет работа с ведущими экспертами по искусственному интеллекту. В программе — лекции, семинары, практические задания, постерная сессия и много возможностей для прокачки навыков и нетворкинга.
Обучение бесплатное. Организаторы также покрывают проживание и питание — нужно только приехать в Томск. Вас ждет погружение в реальную научную работу и сильная исследовательская атмосфера.
Подавайте заявку на сайте до 23:59 29 апреля 2025 года. Если хотите провести лето с пользой и прокачаться в ИИ, не упустите шанс!
❤14👍10🔥10😁5⚡3🗿3🤯1
Paper2Code: исследователи из корейского технологического института сделали мульти-агентный фрейморк для автоматической генерации кода по статьям
Боль каждого рисерчера – это статьи, к которым нет кода. Чтобы воспроизвести результат, нужно потратить пол жизни, и то – успех не гарантирован. А код авторы публикуют не так уж и часто. На примере NeurIPS, ICML и ICLR 2024: только 21.2% принятых работ имеют открытые репы.
Здесь авторы предлагают PaperCoder. Это мульти-агентная система, в которой процесс генерации репозитория разбит на три этапа:
1. Планирование. Составляется конспект статьи, UML-диаграммы классов + список файлов. Тут же создается config.yaml с гиперпараметрами и выстраивается план последовательности генерации.
2. Анализ. Здесь для каждого файла из составленного списка формируется file-level analysis — подробное описание целей, входов/выходов, взаимодействий и каких-то специфичных требований, если есть.
3. Ну и сама генерация на основании статьи, фазы планирования и анализа. Бонусом из первых двух пунктов получаем супер-подробную доку.
На каждом шаге работает отдельный агент. Это, по идее, могут быть разные LLM, но здесь по умолчанию на всех шагах стоит o3-mini-high (кроме валидации, там GPT-4o).
Тестировали на работах с тех же ICML/NeurIPS/ICLR 2024. Процент полностью успешной репликации – около 44% против 10-15 у базовых агентов. Если анализировать вручную, то в среднем для успешного запуска нужно менять всего 0.48 % строк. А еще PaperCoder давали потрогать исследователям, и в 85% случаев те сказали, что это лучше, чем писать с нуля, даже если нужно что-то дебажить.
Ирония только в том, что к статье Paper2Code... не выложили код. Но, вроде, обещают "скоро"
Боль каждого рисерчера – это статьи, к которым нет кода. Чтобы воспроизвести результат, нужно потратить пол жизни, и то – успех не гарантирован. А код авторы публикуют не так уж и часто. На примере NeurIPS, ICML и ICLR 2024: только 21.2% принятых работ имеют открытые репы.
Здесь авторы предлагают PaperCoder. Это мульти-агентная система, в которой процесс генерации репозитория разбит на три этапа:
1. Планирование. Составляется конспект статьи, UML-диаграммы классов + список файлов. Тут же создается config.yaml с гиперпараметрами и выстраивается план последовательности генерации.
2. Анализ. Здесь для каждого файла из составленного списка формируется file-level analysis — подробное описание целей, входов/выходов, взаимодействий и каких-то специфичных требований, если есть.
3. Ну и сама генерация на основании статьи, фазы планирования и анализа. Бонусом из первых двух пунктов получаем супер-подробную доку.
На каждом шаге работает отдельный агент. Это, по идее, могут быть разные LLM, но здесь по умолчанию на всех шагах стоит o3-mini-high (кроме валидации, там GPT-4o).
Тестировали на работах с тех же ICML/NeurIPS/ICLR 2024. Процент полностью успешной репликации – около 44% против 10-15 у базовых агентов. Если анализировать вручную, то в среднем для успешного запуска нужно менять всего 0.48 % строк. А еще PaperCoder давали потрогать исследователям, и в 85% случаев те сказали, что это лучше, чем писать с нуля, даже если нужно что-то дебажить.
Ирония только в том, что к статье Paper2Code... не выложили код. Но, вроде, обещают "скоро"
😁232❤28👍24🔥12🤯3✍2
В китайские соцсети якобы утекла информация о предстоящем релизе DeepSeek R2
На платформе Jiuyan Gongshe, которая предназначена для обсуждения фондовых рынков и шеринга аналитических материалов, некий пользователь опубликовал статью с инсайдами про R2. Что говорит:
➖ Будет новая архитектура Hybrid MoE 3.0. Всего в модели 1,2 триллиона параметров, но фактически единовременно активироваться будут около 78 миллиардов. По тестам (опять же, якобы) Alibaba Cloud, стоимость обработки одного токена на длинных контекстах будет на 97,3% ниже по сравнению с GPT-4 Turbo.
➖ Обучают на Huawei Ascend 910B и Nvidia H800. Фактическая производительность на FP16 составила 512 PetaFLOPS. Это примерно 91% эффективности аналогичных кластеров на чипах Nvidia A100, то есть довольно амбициозно.
➖ Релиз – в мае.
Ознакомились, но относимся с осторожностью
На платформе Jiuyan Gongshe, которая предназначена для обсуждения фондовых рынков и шеринга аналитических материалов, некий пользователь опубликовал статью с инсайдами про R2. Что говорит:
Ознакомились, но относимся с осторожностью
Please open Telegram to view this post
VIEW IN TELEGRAM
❤138👍60⚡26🤔8❤🔥1💘1
Тренд на Test-Time learning добрался и до обучения с подкреплением
Вышла статья китайских исследователей под названием Test-Time Reinforcement Learning (TTRL). Сейчас работа в топ-1 просматриваемых и обсуждаемых на alphaXiv. Разбираем.
Общая идея в том, что хорошо бы обучаться не только на размеченных данных, которые были в трейне, но и использовать для обучения поток любых запросов, которые приходят в модель на инференсе.
Проблема только в том, что на инференсе данные неразмечены, так что мы не можем ориентироваться на правильные ответы. Поэтому в данном случае исследователи предложили вот такой алгоритм (картинка 1):
Звучит витиевато, но на тестах – работает.
В экспериментах брали задачки по математике из AIME 2024, AMC и MATH-500 и модели Qwen2.5-Math-1.5B/7B и LLaMA-3.1-8B. Сравнивали обычный проход без всего с проходом после нескольких эпизодов TTRL (один эпизод – один проход по всему бенчу с обновлением политики модели).
Результаты – на картинках 2 и 3. Несмотря на то, что все опирается только на какую-то саморефлексию, приросты достигают 159%. Например, на Qwen2.5-Math-7B TTRL в среднем дает улучшение на 84,1% по трем бенчмаркам.
Хорошая работа, чтобы прочитать полностью
Вышла статья китайских исследователей под названием Test-Time Reinforcement Learning (TTRL). Сейчас работа в топ-1 просматриваемых и обсуждаемых на alphaXiv. Разбираем.
Общая идея в том, что хорошо бы обучаться не только на размеченных данных, которые были в трейне, но и использовать для обучения поток любых запросов, которые приходят в модель на инференсе.
Проблема только в том, что на инференсе данные неразмечены, так что мы не можем ориентироваться на правильные ответы. Поэтому в данном случае исследователи предложили вот такой алгоритм (картинка 1):
1. Текущая политика N раз генерирует нам ответ на входной запрос.
2. Мы очищаем все эти ответы от рассуждений, решений и тд и оставляем только голые ответы.
3. Среди этих ответов выделяем самый частый. Это и есть наша псевдо-метка, то есть предполагаемый таргет.
4. На основе этого псевдо-лейбла каждое из N предсказаний мы награждаем либо 0 (ответ не совпал), либо 1 (совпал).
5. На основе реварда обновляем политику модели (в качестве метода – GRPO).
Звучит витиевато, но на тестах – работает.
В экспериментах брали задачки по математике из AIME 2024, AMC и MATH-500 и модели Qwen2.5-Math-1.5B/7B и LLaMA-3.1-8B. Сравнивали обычный проход без всего с проходом после нескольких эпизодов TTRL (один эпизод – один проход по всему бенчу с обновлением политики модели).
Результаты – на картинках 2 и 3. Несмотря на то, что все опирается только на какую-то саморефлексию, приросты достигают 159%. Например, на Qwen2.5-Math-7B TTRL в среднем дает улучшение на 84,1% по трем бенчмаркам.
Хорошая работа, чтобы прочитать полностью
🤯85👍59❤23🔥12🤔3👏2💘1
А вы тоже заметили, что после последних обновлений 4o превратился в ванильный раф с сиропом?
Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами😛
Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами
Please open Telegram to view this post
VIEW IN TELEGRAM
😁249👍41🔥19❤6