Hugging Face сегодня в ударе: помимо опенсорсного агента Deep Research они релизнули целый стор ИИ приложений
Он так и называется: AI App store. В нем уже 400к (!) аппсов и найти можно вообще все, что хочешь. Например, нужна вам для вашего проекта тулза, транскрибирующая или обобщающая видео:
1. Заходите на huggingface.co/spaces
2. Вводите запрос «summary of video» (в поисковой строке кстати тоже встроена моделька) или переходите в нужный раздел из предложенных
3. Из множества вариантов выбираете то, что подходит, пользуетесь прямо внутри Hugging Face или качаете себе проект: они все опенсорсные и бесплатные
Так что если вы под каждую задачу искали по сусекам отдельный сервис, то больше так делать не нужно: Hugging Face объединил их все в одном месте и тут буквально за минуту отыщется действительно все. А если вы разработчик, то можно и самому добавить Space
🍯
Он так и называется: AI App store. В нем уже 400к (!) аппсов и найти можно вообще все, что хочешь. Например, нужна вам для вашего проекта тулза, транскрибирующая или обобщающая видео:
1. Заходите на huggingface.co/spaces
2. Вводите запрос «summary of video» (в поисковой строке кстати тоже встроена моделька) или переходите в нужный раздел из предложенных
3. Из множества вариантов выбираете то, что подходит, пользуетесь прямо внутри Hugging Face или качаете себе проект: они все опенсорсные и бесплатные
Так что если вы под каждую задачу искали по сусекам отдельный сервис, то больше так делать не нужно: Hugging Face объединил их все в одном месте и тут буквально за минуту отыщется действительно все. А если вы разработчик, то можно и самому добавить Space
🍯
1🔥216👍31❤26😐6⚡4🐳4🫡4🍓3
Рубрика «занимательные совпадения»
Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что:
1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны
2. В течение 30 дней они покажут нечто такое, чего никто еще не видел на рынке роботов-гуманоидов
Надо сказать, что их сотрудничество с OpenAI не было бесплодным. В августе они анонсировали совместного крутого робота, который должен был появиться в продаже как раз в 2025.
Что же произошло? Связано ли это с новым товарным знаком OpenAI, под которым можно разрабатывать роботов? Или с декабрьскими новостями о том, что стартап пересобирает команду робототехников?
Как бы там ни было, сейчас ясно одно:Маск нервно закурил
Бретт Эдкок, фаундер известного робо-стартапа FugureAI, написал в Твиттере что:
1. Стартап разрывает контракт с OpenAI, который они заключали в начале прошлой весны
2. В течение 30 дней они покажут нечто такое, чего никто еще не видел на рынке роботов-гуманоидов
Надо сказать, что их сотрудничество с OpenAI не было бесплодным. В августе они анонсировали совместного крутого робота, который должен был появиться в продаже как раз в 2025.
Что же произошло? Связано ли это с новым товарным знаком OpenAI, под которым можно разрабатывать роботов? Или с декабрьскими новостями о том, что стартап пересобирает команду робототехников?
Как бы там ни было, сейчас ясно одно:
🔥68😁22👍12❤5🌭1
Сегодня нас стало 50 тысяч! 🚀
Это большая и важная отметка для нашей команды. Спасибо нашим подписчикам за ваше внимание и поддержку, едем дальше
Это большая и важная отметка для нашей команды. Спасибо нашим подписчикам за ваше внимание и поддержку, едем дальше
Please open Telegram to view this post
VIEW IN TELEGRAM
7❤255🎉122🏆33👍23🔥9😎3🍌2🤯1
Это то, что мы все так сильно любим: Андрей Карпаты выложил новое обучающее видео
Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:
– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1
– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей
– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1
Ну что может быть лучше?
youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
Это погружение в LLM на 3.5 часа. В лекции рассмотрены все основные шаги обучения моделек:
– Прентрейн: данные, токенизация, устройство архитектуры трансформера, примеры на GPT-2 и Llama 3.1
– Файнтюнинг: LLM Psychology, галлюцинации, орфография и еще много интересных деталей
– RLHF: все про то, как обучение с подкреплением работает в LLM на примере DeepSeek R1
Ну что может быть лучше?
youtu.be/7xTGNNLPyMI?si=dlaK07h1Uw_1Dr8Z
16🔥270❤45👍35😎7🤩6🎅3☃2🗿2⚡1😁1
Google насыпал приятных обновлений:
➖ Наконец-то релизнули Gemini 2.0 Flash, и теперь она доступна всем через Gemini API, Google AI Studio и Vertex AI. Моделька быстрая, а еще самая качественная и дешевая в своем весе и категории. Контекст до 1 млн токенов.
➖ Вышла новая Gemini 2.0 Flash-Lite. Она еще дешевле и легче Gemini 2.0 Flash. По качеству превосходит предыдущую 1.5 Flash, при этом стоимость остается где-то на том же уровне.
➖ Появилась экспериментальная Gemini 2.0 Pro. Тут контекст до 2 млн токенов, и говорят, что это лучшая модель для кода и сложных промптов. Доступна в Gemini Advanced.
➖ В приложение бесплатно добавили 2.0 Flash Thinking Experimental. На LLMSYS это сейчас лучшая модель в мире (правда на лидерборд еще не завезли o3-mini).
Блогпост
Обновления пробуем здесь
Блогпост
Обновления пробуем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥14❤7🗿3
Кстати ChatGPT Search там открыли для всех пользователей, теперь для него даже не требуется регистрация, только включенный VPN
Интересно, гуляем за счет подстегивания конкуренции от DeepSeek или так и было запланировано?
chatgpt.com
Интересно, гуляем за счет подстегивания конкуренции от DeepSeek или так и было запланировано?
chatgpt.com
🔥84😁49👍17❤10☃5
Media is too big
VIEW IN TELEGRAM
CEO Anthropic, Дарио Амодеи, говорит, что DeepSeek R1 худшая с точки зрения безопасности модель, которую они когда-либо тестировали
«Мы запускали оценку R1 на предмет того, насколько она способна выдавать опасную информацию (например о биооружии), которую обычно нелегко найти в интернете или в книгах. И это буквально худшая в этом смысле модель, которую мы тестировали, в ней абсолютно нет блоков. Так что на месте DeepSeek я бы обратил на это внимание»
😁236🔥46👍31🤔10😐10🍌9🗿6❤5🤗2🦄2👀1
Разработчик YandexGPT поделился методами ускорения инференса моделей
На Хабре выкатили полезный материал про то, как улучшить процесс работы на конечном устройстве. Самое приятное — методы универсальные и их можно комбинировать между собой для максимального буста.
Они подойдут для большинства популярных архитектур типа LLaMA или MoE (Mixture of Experts). Полностью статья лежит тут.
🍯
На Хабре выкатили полезный материал про то, как улучшить процесс работы на конечном устройстве. Самое приятное — методы универсальные и их можно комбинировать между собой для максимального буста.
Они подойдут для большинства популярных архитектур типа LLaMA или MoE (Mixture of Experts). Полностью статья лежит тут.
🍯
🔥80😐17👍12🌭4❤1👌1
Разбираемся, как работает GRPO – ключевой алгоритм модели DeepSeek R1
Начнем с того, что GRPO – это метод обучения с подкреплением. Он, можно сказать, авторская находка DeepSeek, они предложили его еще год назад в статье про DeepSeekMath (ее подробный разбор лежит у нас на сайте), и с тех пор активно используют в своих моделях.
Обучение с подкреплением – это метод обучения, при котором агент (в нашем случае модель) учится принимать решения, взаимодействуя с окружающей средой. Агент получает награды за свои действия и стремится максимизировать общую награду. На каждом шаге взаимодействия со средой у агента есть политика – стратегия, которой следует агент, определяющая, какое действие он должен предпринять в каждом состоянии.
Самым распространенным для языковых моделей алгоритмом RL является Proximal Policy Optimization (PPO), и GRPO как раз является его вариацией. Суть:
➖ У агента есть начальная политика (стратегия), по которой он действует.
➖ Агент выполняет действия в среде (отвечает на вопросы), следуя своей текущей политике
➖ PPO оценивает действие агента. Для этого обычно используется три модели:
reference model – модель, которая выступает эталоном и позволяет измерять, насколько текущая политика изменилась по сравнению с исходной,
reward model – оценивает награду, которую агент получает за выполнение действия прямо сейчас,
value model – оценивает ожидаемую долгосрочную выгоду от действия, предсказывая будущие награды.
➖ На основе этих оценок агент меняет свою политику. Здесь заключена основная особенность алгоритма: функция потерь в PPO устроена так, что слишком резкие изменения политики не допускаются. Это помогает агенту постепенно улучшать свою стратегию, не делая слишком резких шагов сразу, что делает процесс обучения более стабильным и эффективным.
Но есть в PPO и недостатки. В частности, value model, которая играет ключевую роль в PPO, тащит на себя очень много ресурсов, потому что обычно сопоставима по размерам с моделью, которую мы обучаем. Это делает обучение дорогим.
Так что из GRPO (Group Relative Policy Optimization) value model вообще выкинули. Вместо value model в GRPO мы используем среднюю награду от группы ответов на один и тот же вопрос, и так определяем, насколько "хороши" действия модели.
То есть в GRPO оценка качества ответа основана на сравнении с другими ответами в группе, а не на абсолютных значениях наград. Если ответ лучше среднего по группе, политика усиливает вероятность его выбора. Если хуже — ослабляет. Это компенсирует оценку value model и делает обучение более эффективным и менее ресурсоемким.
Математические детали процесса оставили для вас в конспекте наверху.
Кстати, GRPO работает хорошо даже если пропустить этап файнтюнинга. Так обучали R1-Zero, младшую сестренку R1. Для нее вообще не использовали никакой разметки, и GRPO вытащил все ее качество исключительно на себе (подробнее).
Начнем с того, что GRPO – это метод обучения с подкреплением. Он, можно сказать, авторская находка DeepSeek, они предложили его еще год назад в статье про DeepSeekMath (ее подробный разбор лежит у нас на сайте), и с тех пор активно используют в своих моделях.
Обучение с подкреплением – это метод обучения, при котором агент (в нашем случае модель) учится принимать решения, взаимодействуя с окружающей средой. Агент получает награды за свои действия и стремится максимизировать общую награду. На каждом шаге взаимодействия со средой у агента есть политика – стратегия, которой следует агент, определяющая, какое действие он должен предпринять в каждом состоянии.
Самым распространенным для языковых моделей алгоритмом RL является Proximal Policy Optimization (PPO), и GRPO как раз является его вариацией. Суть:
reference model – модель, которая выступает эталоном и позволяет измерять, насколько текущая политика изменилась по сравнению с исходной,
reward model – оценивает награду, которую агент получает за выполнение действия прямо сейчас,
value model – оценивает ожидаемую долгосрочную выгоду от действия, предсказывая будущие награды.
Но есть в PPO и недостатки. В частности, value model, которая играет ключевую роль в PPO, тащит на себя очень много ресурсов, потому что обычно сопоставима по размерам с моделью, которую мы обучаем. Это делает обучение дорогим.
Так что из GRPO (Group Relative Policy Optimization) value model вообще выкинули. Вместо value model в GRPO мы используем среднюю награду от группы ответов на один и тот же вопрос, и так определяем, насколько "хороши" действия модели.
То есть в GRPO оценка качества ответа основана на сравнении с другими ответами в группе, а не на абсолютных значениях наград. Если ответ лучше среднего по группе, политика усиливает вероятность его выбора. Если хуже — ослабляет. Это компенсирует оценку value model и делает обучение более эффективным и менее ресурсоемким.
Математические детали процесса оставили для вас в конспекте наверху.
Кстати, GRPO работает хорошо даже если пропустить этап файнтюнинга. Так обучали R1-Zero, младшую сестренку R1. Для нее вообще не использовали никакой разметки, и GRPO вытащил все ее качество исключительно на себе (подробнее).
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥117👍58❤21🤯4😁2☃1
Джон Шульман, который в августе ушел из OpenAI в Anthropic, теперь уходит из Anthropic в... компанию Миры Мурати
Джон Шульман – сооснователь OpenAI и в стартапе работал главой команды пост-обучения. Он мега выдающийся исследователь, автор метода PPO, который мы разбирали вчера и который лежит в основе RLHF, и большой любитель alignment’a.
В Anthropic он проработал чуть больше пяти месяцев и теперь ушел в компанию к Мурати, которая 9 лет была CTO OpenAI, покинула стартап в сентябре и объявила о создании собственной лаборатории.
Также сообщают, что вместе с Шульманом она захантила еще нескольких бывших сотрудников OpenAI, включая Кристиана Гибсона, который у Альтмана работал в команде суперкомпьюта.
Также напоминаем, что у Миры уже работает Миана Чен, Баррет Зоф и Люк Метц (они были ключевыми учеными команды элаймента в OpenAI), а в октябре она вела переговоры о о привлечении инвестиций в размере $100 миллионов.
Не хватает пива и чипсов
Джон Шульман – сооснователь OpenAI и в стартапе работал главой команды пост-обучения. Он мега выдающийся исследователь, автор метода PPO, который мы разбирали вчера и который лежит в основе RLHF, и большой любитель alignment’a.
В Anthropic он проработал чуть больше пяти месяцев и теперь ушел в компанию к Мурати, которая 9 лет была CTO OpenAI, покинула стартап в сентябре и объявила о создании собственной лаборатории.
Также сообщают, что вместе с Шульманом она захантила еще нескольких бывших сотрудников OpenAI, включая Кристиана Гибсона, который у Альтмана работал в команде суперкомпьюта.
Также напоминаем, что у Миры уже работает Миана Чен, Баррет Зоф и Люк Метц (они были ключевыми учеными команды элаймента в OpenAI), а в октябре она вела переговоры о о привлечении инвестиций в размере $100 миллионов.
😎108👍29🫡15🤯10❤6💯1
OpenAI объявили о том, что теперь будут раскрывать больше цепочек рассуждений o3-mini
Это относится и к платным, и к бесплатным пользователям.
Однако это все еще не полная CoT. Более того, это даже не сырые рассуждения: в компании прямо говорят, что o3-mini думает «свободно», а потом просто обобщает свои мысли, и вот это уже показывают пользователю.
Это относится и к платным, и к бесплатным пользователям.
«Мы делаем этопотому что на нас давит Китайдля того, чтобы людям было понятнее, как думает модель, и чтобы они были увереннее в ее ответах»
Однако это все еще не полная CoT. Более того, это даже не сырые рассуждения: в компании прямо говорят, что o3-mini думает «свободно», а потом просто обобщает свои мысли, и вот это уже показывают пользователю.
😁113👍39❤14🤪7🔥6
Google релизнули Alpha Geometry 2: модель решает задачи по геометрии на уровне золотого медалиста Международной Математической Олимпиады
Первая версия Alpha Geometry вышла практически ровно год назад, и относительно нее новая версия сильно прокачалась: если предшественница решала 54% всех задач по геометрии с IMO 2000-2024, то AG2 справляется с 84%. Это, если что, на 84% больше, чем результат o1👽
При этом AG2 не совсем нейросеть. Это нейро-символьная система. То есть AG2 объединяет в себе и LLM, и символьные строгие методы для вычислений и доказательств. В общих чертах AG2 потрошится на три основных составляющих:
1. Зафайнтюненная Gemini, которой скормили 300 млн теорем. Модель анализирует текст задачи и диаграммы и как бы интуитивно намечает решение: подсказывает, какие свойства фигур могут быть полезны, какие теоремы могут пригодиться и так далее. Она также служит своеобразным энкодером и формализует текст задачи в доменный язык, который умеет воспринимать символьный модуль.
2. Символьный движок DDAR2, в который сгружаются все результаты Gemini. Он берет на себя доказательства по строгим правилам геометрии и проверку и расширение предложенных LM решений с помощью дедукции. В новый DDAR добавили поддержку сложных геометрических конструкций, а также умение работать с "двойными" точками (такие возникают в куче примеров, наверное все помнят со школы задачи вида "докажите, что такая-то точка пересечения лежит на такой-то окружности").
А еще по сравнению с DDAR1 DDAR2 сильно ускорили с помощью C++ реализации и оптимизированного перебора вариантов решений. Раньше все работало на брутфорсе, а сейчас алгоритм переделали и сложность уменьшилась с 𝑂(𝑁⁸) до 𝑂(𝑁³), что увеличило скорость решения в 300 раз!
3. Ну и финальное: деревья поиска SKEST. Это как раз та самая оптимизация. Классические деревья предлагают как бы один шаг решения за раз. А в SKEST мы пробуем несколько вершин разом: это присходит за счет параллельного запуска нескольких деревьев, которые могут делиться между собой найденными стратегиями.
Плюсом ко всему, Alpha Geometry 2 даже умеет автоматически строить к своим решениям рисунки. К сожалению, демо пока не выложили, зато доступна статья.
Первая версия Alpha Geometry вышла практически ровно год назад, и относительно нее новая версия сильно прокачалась: если предшественница решала 54% всех задач по геометрии с IMO 2000-2024, то AG2 справляется с 84%. Это, если что, на 84% больше, чем результат o1
При этом AG2 не совсем нейросеть. Это нейро-символьная система. То есть AG2 объединяет в себе и LLM, и символьные строгие методы для вычислений и доказательств. В общих чертах AG2 потрошится на три основных составляющих:
1. Зафайнтюненная Gemini, которой скормили 300 млн теорем. Модель анализирует текст задачи и диаграммы и как бы интуитивно намечает решение: подсказывает, какие свойства фигур могут быть полезны, какие теоремы могут пригодиться и так далее. Она также служит своеобразным энкодером и формализует текст задачи в доменный язык, который умеет воспринимать символьный модуль.
2. Символьный движок DDAR2, в который сгружаются все результаты Gemini. Он берет на себя доказательства по строгим правилам геометрии и проверку и расширение предложенных LM решений с помощью дедукции. В новый DDAR добавили поддержку сложных геометрических конструкций, а также умение работать с "двойными" точками (такие возникают в куче примеров, наверное все помнят со школы задачи вида "докажите, что такая-то точка пересечения лежит на такой-то окружности").
А еще по сравнению с DDAR1 DDAR2 сильно ускорили с помощью C++ реализации и оптимизированного перебора вариантов решений. Раньше все работало на брутфорсе, а сейчас алгоритм переделали и сложность уменьшилась с 𝑂(𝑁⁸) до 𝑂(𝑁³), что увеличило скорость решения в 300 раз!
3. Ну и финальное: деревья поиска SKEST. Это как раз та самая оптимизация. Классические деревья предлагают как бы один шаг решения за раз. А в SKEST мы пробуем несколько вершин разом: это присходит за счет параллельного запуска нескольких деревьев, которые могут делиться между собой найденными стратегиями.
Плюсом ко всему, Alpha Geometry 2 даже умеет автоматически строить к своим решениям рисунки. К сожалению, демо пока не выложили, зато доступна статья.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132👍38🤯21❤16🗿6
This media is not supported in your browser
VIEW IN TELEGRAM
Илья Суцкевер возвращается
… чтобы попросить денег. Reuters сообщает о том, что его компания Safe Superintelligence снова участвует в переговорах о финансировании.
При этом стартап (который, напоминаем, еще вообще ничего не выпустил) оценивается уже в минимум 20 миллиардов долларов. Для сравнения, OpenAI, которые работают уже 10 лет, оцениваются в 300 миллиардов, а основной европейский Mistral всего в 7 миллиардов.
Пока неясно, какую сумму хочет Илья, но она может быть значительной. Осенью стартап уже привлек 1 миллиард долларов, и с тех пор их оценка увеличилась в 4 раза.
… чтобы попросить денег. Reuters сообщает о том, что его компания Safe Superintelligence снова участвует в переговорах о финансировании.
При этом стартап (который, напоминаем, еще вообще ничего не выпустил) оценивается уже в минимум 20 миллиардов долларов. Для сравнения, OpenAI, которые работают уже 10 лет, оцениваются в 300 миллиардов, а основной европейский Mistral всего в 7 миллиардов.
Пока неясно, какую сумму хочет Илья, но она может быть значительной. Осенью стартап уже привлек 1 миллиард долларов, и с тех пор их оценка увеличилась в 4 раза.
😁116👍22❤14🤪12🔥5🤔3🎉2🗿2🦄2