Data Secrets
Калифорнийский университет раскатывает ChatGPT на пол миллиона своих студентов и преподавателей На практике студенты и преподаватели получат полный бесплатный доступ к ChatGPT Edu. Это версия бота, адаптированная специально под образование. Внутри будут…
OpenAI подписали мощный контракт с 15 ведущими университетами и выделят им 50 миллионов долларов
Проект называется NextGenAI. Гарвард, Оксфорд, MIT, Калтех, Мичиганский университетов – вот неполный список партнеров. Все они получат от OpenAI гранты на исследования и API.
У многих университетов также будут выделенные группы студентов, которые будут заниматься специальными проектами OpenAI.
Вероятно, конечная цель – плотно подсадить крупное образование на экосистему ChatGPT, как это пытаются делать с Калифорнийским университетом.
openai.com/index/introducing-nextgenai/
Проект называется NextGenAI. Гарвард, Оксфорд, MIT, Калтех, Мичиганский университетов – вот неполный список партнеров. Все они получат от OpenAI гранты на исследования и API.
У многих университетов также будут выделенные группы студентов, которые будут заниматься специальными проектами OpenAI.
Вероятно, конечная цель – плотно подсадить крупное образование на экосистему ChatGPT, как это пытаются делать с Калифорнийским университетом.
openai.com/index/introducing-nextgenai/
🔥96👍32❤20👾15🍌2
Помните бенчмарк ARC AGI? Сегодня вышла статья, в которой его решили на 20% без претрейна
20% – высокий результат. GPT-4o выбивает 5%, o1-mini – 13%, а o1 – около 30. Но самое интересное в этой работе – это заявление «без претрейна».
То есть да, модель вообще не предобучали на задачах из трейна ARC-AGI. Для каждого примера берется новая нетронутая сетка, которая инициализируется случайно и обучается с помощью градиентного спуска исключительно на конкретном тестовом примере во время инференса😮
Весь подход основан на… компрессии информации. Идея в том, чтобы находить максимально компактное (то есть низкобитное) представление задачи, которое затем при декомпрессии в точности воспроизводит исходный пазл вместе с ответом. Подход назвали CompressARC.
Архитектура похожа на VAE: мы оптимизируем параметры модели и входное распределение с применением относительного энтропийного кодирования (REC) и арифметического кодирования для эффективного сжатия информации. Модель как бы учится находить оптимальное структурное представление задачи, что в итоге и равняется тому, чтобы найти общее правило для решения головоломки.
Гениально и свежо. Интересно, заведется ли что-то подобное на других задачах.
Блогпост | Код
20% – высокий результат. GPT-4o выбивает 5%, o1-mini – 13%, а o1 – около 30. Но самое интересное в этой работе – это заявление «без претрейна».
То есть да, модель вообще не предобучали на задачах из трейна ARC-AGI. Для каждого примера берется новая нетронутая сетка, которая инициализируется случайно и обучается с помощью градиентного спуска исключительно на конкретном тестовом примере во время инференса
Весь подход основан на… компрессии информации. Идея в том, чтобы находить максимально компактное (то есть низкобитное) представление задачи, которое затем при декомпрессии в точности воспроизводит исходный пазл вместе с ответом. Подход назвали CompressARC.
Архитектура похожа на VAE: мы оптимизируем параметры модели и входное распределение с применением относительного энтропийного кодирования (REC) и арифметического кодирования для эффективного сжатия информации. Модель как бы учится находить оптимальное структурное представление задачи, что в итоге и равняется тому, чтобы найти общее правило для решения головоломки.
Гениально и свежо. Интересно, заведется ли что-то подобное на других задачах.
Блогпост | Код
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥97👍27❤22🤯7🍓3
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥83👍20❤12🤔6🍌5
Премия Тьюринга этого года только что досталась ML-рисерчерам за вклад в обучение с подкреплением
Это самая престижная награда в мире в области информатики, ее часто называют Нобелевской премией Computer Science. В этом году ею наградили легендарных Эндрю Барто и Ричарда Саттона – отцов обучения с подкреплением.
Именно они разработали основы RL в восьмидесятых. Правда, всю мощь подхода оценили только несколько лет назад, когда Google показали AlphaGo. Сегодня RL – неотъемлемая часть ML, и, особенно, наших любимых LLM.
Респект!🎉
Это самая престижная награда в мире в области информатики, ее часто называют Нобелевской премией Computer Science. В этом году ею наградили легендарных Эндрю Барто и Ричарда Саттона – отцов обучения с подкреплением.
Именно они разработали основы RL в восьмидесятых. Правда, всю мощь подхода оценили только несколько лет назад, когда Google показали AlphaGo. Сегодня RL – неотъемлемая часть ML, и, особенно, наших любимых LLM.
Респект!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤224🍾61👍33🔥13🎉7🤯2❤🔥1
В честь того, что Эндрю Барто и Ричард Саттон получили премию Тьюринга — самую престижную награду в мире компьютерных наук — мы решили подарить нашим подписчикам 5 экземпляров их легендарной книги «Обучение с подкреплением».
Это главная и самая понятная книга по RL, написанная буквально отцами области. На её 600 страницах — всё, что нужно знать о reinforcement learning: от самых основ до разборов новейших подходов и знаменитых алгоритмов AlphaGo и AlphaZero, которые обыграли чемпионов мира по шахматам и Go.
Чтобы получить одну из пяти книг, просто убедитесь, что вы подписаны на оба наших канала: Data Secrets и Data Secrets Карьера. Результаты мы объявим в субботу.
Жми "Участвовать" и совсем скоро книга может оказаться именно у тебя
Please open Telegram to view this post
VIEW IN TELEGRAM
❤85👍30🔥11😁5❤🔥3🌚2🤔1🤯1🙈1
Вышла QwQ-32B – новая ризонинг модель от Qwen
По качеству она соответствует DeepSeek-R1, а на некоторых тестах даже обходит его. И это при том, что в R1 в 20 раз больше параметров.
И снова: все благодаря мощному скейлингу RL. Согласно блогпосту, обучали в два этапа:
1. RL только для задач математики и кодинга, причем без разметки и традиционной ревард модели. Вместо этого использовали интерпретатора кода и верификатор ответов для математических задач.
2. RL для общих способностей, уже с привычным ревардом и некоторыми rule-based верификаторами. На этом этапе модель училась «нравиться» пользователю и следовать инструкциям.
Исследователи написали, что видят еще много потенциала в RL и продолжат над этим работать. «Возможно, в следующий раз сочетание более сильных предобученных моделей с RL приведет нас к AGI».
Блогпост | Веса
Пообщаться с моделью абсолютно бесплатно уже можно в чате
По качеству она соответствует DeepSeek-R1, а на некоторых тестах даже обходит его. И это при том, что в R1 в 20 раз больше параметров.
И снова: все благодаря мощному скейлингу RL. Согласно блогпосту, обучали в два этапа:
1. RL только для задач математики и кодинга, причем без разметки и традиционной ревард модели. Вместо этого использовали интерпретатора кода и верификатор ответов для математических задач.
2. RL для общих способностей, уже с привычным ревардом и некоторыми rule-based верификаторами. На этом этапе модель училась «нравиться» пользователю и следовать инструкциям.
Исследователи написали, что видят еще много потенциала в RL и продолжат над этим работать. «Возможно, в следующий раз сочетание более сильных предобученных моделей с RL приведет нас к AGI».
Блогпост | Веса
Пообщаться с моделью абсолютно бесплатно уже можно в чате
👍78🔥29❤🔥15❤3
Тем временем OpenAI закончили раскатывать GPT-4.5 на юзеров Plus подписки (20$)
Теперь можно сэкономить 180 долларов🤑
Теперь можно сэкономить 180 долларов
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71❤20🤯13👍8😐5
И кстати, если вы думали, что 200 долларов за ChatGPT – это предел, то присаживайтесь поудобнее: сейчас будет больше нулей! 🤑
В OpenAI обсуждают добавление новых подписок, которые будут стоить от 2 000$ до 20 000$ в месяц. В них будут включены несколько агентов уровня PhD, которые «способны генерировать научные гипотезы и разрабатывать ПО». Целевая аудитория – «работники научной сферы и высокими доходами» и, конечно, лаборатории и компании.
Интересно, какой уровень возможностей будет предлагать стартап за такие деньги. Ведь это аналогично тому, чтобы нанять себе неплохого живого ассистента (2к) или даже очень крутого PhD исследователя (20к).
В OpenAI обсуждают добавление новых подписок, которые будут стоить от 2 000$ до 20 000$ в месяц. В них будут включены несколько агентов уровня PhD, которые «способны генерировать научные гипотезы и разрабатывать ПО». Целевая аудитория – «работники научной сферы и высокими доходами» и, конечно, лаборатории и компании.
Интересно, какой уровень возможностей будет предлагать стартап за такие деньги. Ведь это аналогично тому, чтобы нанять себе неплохого живого ассистента (2к) или даже очень крутого PhD исследователя (20к).
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯134🗿38👍19😁19🔥12❤8
Трое мэтров ML опубликовали статью под названием "Superintelligence Strategy". В ней они предлагают стратегию мировой безопасности в области ИИ
Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI
Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.
Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.
С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.
Необычно.
https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view
Среди авторов:
– Дэн Хендрикс, директор Центра безопасности ИИ США
– Эрик Шмидт, бывший исполнительный директор и глава совета директоров Google, член совета директоров Apple, член совета по науке и технологиям США
– Александр Ван, 27-летний миллиардер, основатель Scale AI
Основная идея этих троих – исключить монополию на искусственный интеллект с помощью концепции Mutual Assured AI Malfunction (MAIM) – по аналогии с доктриной взаимного гарантированного уничтожения (MAD) времён холодной войны.
Суть MAIM в том, что государства будут стремиться саботировать потенциально опасные проекты конкурентов, чтобы ни одна страна не имела возможность обрести единоличное доминирование. Предполагается, что такая монополия будет приравниваться к агрессии и прямой угрозе существованию других.
С практической точки зрения MAIM – это шпионаж и разведка, скрытый саботаж, кибератаки, и даже физические атаки на датацентры. Да-да, мы все еще говорим о том, что написано в статье. По мнению авторов, только так можно избежать межгосударственных конфликтов и наладить взаимодействие в области ИИ.
Необычно.
https://drive.google.com/file/d/1wLcGgLOTVNsVVbgS5lPHOnqOQtNT8Z5j/view
2👀92❤27👍22🤯14🙈10😁5🤔5👾3
Всего через несколько часов после выхода QwQ-32B Alibaba дропнули START – модель, дообученную на использование инструментов
START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.
Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:
1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.
2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.
Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.
arxiv.org/pdf/2503.04625
START – это Self-Taught Reasoner with Tools. То есть здесь из обычных цепочек рассуждений пытаются сделать такие, чтобы модель в какой-то момент сама понимала, что хорошо бы проверить что-то с помощью кода, шла и проверяла.
Для этого взяли QwQ-32B и зафайнтюнили его в два этапа:
1. Во время инференса прямо в CoT вставляли подсказки. Типа «Возможно, здесь хорошо бы использовать Python», как будто моделька сама до этого догадалась. Такие подсказки становились частью контекста и заставляли ризонер подумать подольше, сгенерировать код и запустить его.
2. После первого этапа у нас остается куча цепочек с использованием интерпретатора. Среди них есть ошибочные и хорошие. Фильтруем, обрабатываем, и еще разок дообучаем модель на чистых и правильных CoT с инструментами.
Надо сказать, очень прикольный способ генерации специфичной синтетики, который, к тому же, дал свои результаты: метрики относительно базового QwQ-32B подскочили на 5-15 процентных пунктов, и STAR почти на всех представленных бенчмарках обогнал o1-mini.
arxiv.org/pdf/2503.04625
❤🔥75👍39❤23🔥9☃2🙈1
Новая OCR система от Mistral: SOTA или все-таки нет?
Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.
И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.
К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.
Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.
В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.
mistral.ai/news/mistral-ocr
Вчера вечером Mistral выкатили собственную OCR модель и заявили ее как "лучшую в мире". На всякий случай, OCR – это распознавание символов с картинки, типа doc2text или image2text. Задача звучит не очень сложно, но на самом деле многосоставная и нетривиальная, особенно когда дело доходит до распознавания сканов плохого качества или рецептов вашего терапевта. На 100% задача OCR в ML до сих пор не решена.
И да, возвращаясь к Mistral: по их внутренним неопубликованным бенчмаркам (а они только такие показали в блогпосте) моделька действительно лучшая и классно справляется и с разными языками, и с формулами, и с таблицами, и с картинками, и с рукописными бумагами, и со сканами. Плюс, на примерах из того же блогпоста выглядит супер.
К тому же она довольно дешевая и быстрая: 1000-2000 страниц обрабатывает за 1 доллар и 1 минуту.
Но что там с независимыми бенчмарками? Вот здесь и здесь, например, показывают, что Gemini Flash 2.0 со многими задачами справляется лучше, а вот тут на открытых данных разработчиков другой OCR-системы Mistral вообще оказался на 6 месте (график на картинке 3). В соцсетях многие также пишут про галлюцинации на рукописях.
В общем, модель однозначно хороша, но по поводу "лучшей в мире" все-такие есть сомнения. Подождем больше тестов. А пока вы и сами можете попробовать: здесь в чате или через API.
mistral.ai/news/mistral-ocr
👍65❤15🔥9🤔2
А что, если бы LLM эволюционировали, как живые существа? Вышла статья, в которой исследователи попытались соединить идеи генетических алгоритмов и LLM
Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.
Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:
Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.
arxiv.org/pdf/2503.01155
Представим, что модели – это индивиды, а их веса – это гены. Тогда к ним можно применить классический набор модификаций: кроссовер (объединение весов родительских моделей для создания потомства), мутации (небольшие случайные изменения весов для увеличения разнообразия популяции), наследование опыта или естественный отбор.
Это и есть идея, которую предложили в статье. Подход назвали GENOME (GENetic Optimization for Model Evolution). Понятно, что он не для претрейна – это скорее какое-то переосмысление ансамблей и файнтюнинга на базе старых как мир генетических алгоритмов. Вот что происходит:
1. Берем несколько готовых моделей, прогоняем их по нашему датасету. Отбираем тех, кто решает задачу успешнее всего.
2. Скрещиваем их, то есть создаем новые модели, веса которых – это линейная комбинация весов родительских.
3. Добавляем мутацию, то есть какую-то случайную компоненту.
4. Переходим обратно к пункту 1.
5. На выходе получаем успешную популяцию моделей, которые дальше можем ансамблировать привычно. Например, с помощью majority voiting.
Невероятно, но факт: это работает. GENOME действительно кое-где превосходит другие методы адаптации и при этом требует совсем немного данных и ресурсов. Средний прирост метрик составил +24% относительно лучшей отдельной модели. Особенно хорошо работает на задачах, требующих логики и математического рассуждения.
arxiv.org/pdf/2503.01155
👍151👀38🤯24❤12🤔10🔥9❤🔥4👏3😁3
Известный рисерчер Миша Ласкин вместе с Яннисом Антоноглу запускают собственный стартап
Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.
Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.
Скоро бывшие исследователи Google образуют собственную кремниевую долину
Они оба – бывшие исследователи Google DeepMind и большие специалисты по RL, которые разрабатывали AlphaGo, Gemini, PaLM и другие знаковые системы.
Стартап называется ReflectionAI. В нем будут разрабатывать автономные системы суперинтеллекта. «Мы начнем с автономного кодинга» – написано в из первом посте в Твиттере.
Скоро бывшие исследователи Google образуют собственную кремниевую долину
👍110😁30🔥23❤12😎6🕊3🌚1