Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
⭐ НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
⭐ Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:
Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M
Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥153👍47😐22😁8❤6
По словам продуктового директора OpenAI программирование будет на 99% автоматизировано в этом году
Кевин Вейл дал новое небольшое интервью каналу Overpowered. Интересные моменты:
➖ «Я думаю что к концу года кодинг будет автоматизирован если не полностью, то на 99% точно»
➖ По поводу GPT-5 сказал следующее: «Я не назову вам точное время, но релиз будет скоро. Люди работают над этим, пока я говорю. Новая модель объединит серии O и GPT»
➖ Полноценная o3 тоже скоро появится
➖ Будут обновления в голосовом режиме
➖ В OpenAI обдумывают идею всерьез заняться робототехникой и планируют внедрять ИИ в физический мир
Смотреть – тут youtu.be/SnSoMh9m5hc
Кевин Вейл дал новое небольшое интервью каналу Overpowered. Интересные моменты:
Смотреть – тут youtu.be/SnSoMh9m5hc
Please open Telegram to view this post
VIEW IN TELEGRAM
❤107🤓70🙈25👍19😁14🤪10🤔8😐8💯4🔥3💅2
Наткнулись на свежее видео, в котором PhD MIT объясняет, как правильно и быстро читать ML статьи
Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇
1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.
Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.
2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.
3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.
По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.
Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными
https://youtu.be/RjG689EwG5g
Вашему вниманию краткое содержание: три способа ускорить процесс чтения и понимания папир 👇
1. Birds-eye. Подойдет, если нужно просто понять общую идею, не углубляясь. Читаем абстракт, изучаем все графики и таблицы и описания к ним, читаем заключение (conclusion), и пишем резюме на 5-7 предложений без помощи ChatGPT.
Примечание от нашей редакции: часто абстракт совсем абстрактный. Если из него вообще ничего не понятно, прочитайте еще 3-4 последних абзаца Introduction. Там обычно содержатся все основные идеи авторов.
2. Podcast Mode – если нужно окунуться немного глубже. Повторяем все то же самое, затем заходим в Notebook LM от Google, создаем блокнот, загружаем туда PDF и нажимаем «Аудиопересказ». Инструмент недолго подумает и сгенерирует емкий подкаст по статье в стиле «вопрос-ответ». Это бесплатно.
3. In-depth mode – если статью нужно понимать вдоль и поперек. Идем по статье по порядку. Читаем полностью Abstract, Methodology и Conclusion. В остальных разделах изучаем графики и таблицы.
По ходу чтения составляем заметки в виде дерева Идея -> Реализация -> Детали. Если встречаем незнакомое понятие, сначала ищем его по статье и смотрим все упоминания. Если не стало понятнее, идем в Google/ChatGPT. Если остались вопросы, задаем их Notebook LM.
Попробуйте. Может быть так у статей, которые вы сохраняете, все-таки будет шанс быть прочитанными
https://youtu.be/RjG689EwG5g
🔥127👍50😁36❤15🤯2
Зацените: OpenAI обновили FAQ для Deep Researcher и написали, что он имеет доступ к загруженным пользователем файлам
Причем не просто к файлам в данном диалоге, а вообще ко всем, которые вы когда-либо загружали в диалоги.
Теоретически полезная фича, особенно если работаете с базой знаний в каком-либо виде
Причем не просто к файлам в данном диалоге, а вообще ко всем, которые вы когда-либо загружали в диалоги.
Теоретически полезная фича, особенно если работаете с базой знаний в каком-либо виде
👍65🔥22❤8😐2
Заметили, что в соцсетях хайпует статья про сравнение GigaChat и YandexGPT. Решили взглянуть и получили мем ⬆️
Оказалось, что вся статья – это сравнение двух моделек по 10 рандомным вопросам на вкус и цвет автора. Среди вопросов:
– Как сварить щи
– Почему небо синее
– Замотивируй меня тренироваться
Бенчмарки? Не слышали. Как вы понимаете, в этом тесте все предельно «честно и прозрачно», а влияние человеческого фактора исключено вовсе😁
Мораль: проверяйте источники и при выборе модели на каждый день тестируйте кандидатов сами
Оказалось, что вся статья – это сравнение двух моделек по 10 рандомным вопросам на вкус и цвет автора. Среди вопросов:
– Как сварить щи
– Почему небо синее
– Замотивируй меня тренироваться
Бенчмарки? Не слышали. Как вы понимаете, в этом тесте все предельно «честно и прозрачно», а влияние человеческого фактора исключено вовсе
Мораль: проверяйте источники и при выборе модели на каждый день тестируйте кандидатов сами
Please open Telegram to view this post
VIEW IN TELEGRAM
👍116😁99🍌10🤩8🌚7❤6👀6🙈4✍3🔥3🤯2
Mistral выложили в опенсорс мультимодальную модель уровня GPT-4o mini. Она летает со скоростью 150 токенов в секунду
В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM. При этом по перформансу она в большинстве тестов превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3. Бенчмарки – перед вами (кроме instruct еще выложили базовую модель, последний график).
А еще радует длина контекста 128К и лицензия Apache 2.0. Кажется, теперь это лучшая мультимодальная модель в своем весе, особенно для локального запуска и рисерча
Веса | Блогпост
В Mistral Small 3.1 всего 24В параметров, ее можно запустить на одной RTX 4090 или на Mac с 32GB RAM. При этом по перформансу она в большинстве тестов превосходит GPT-4o Mini, Claude-3.5 Haiku и Gemma 3. Бенчмарки – перед вами (кроме instruct еще выложили базовую модель, последний график).
А еще радует длина контекста 128К и лицензия Apache 2.0. Кажется, теперь это лучшая мультимодальная модель в своем весе, особенно для локального запуска и рисерча
Веса | Блогпост
1👍136🔥57❤20🤔7😐3🍌2👏1
This media is not supported in your browser
VIEW IN TELEGRAM
Илон Маск купил HotShot
Это известный стартап, который занимается моделями генерации видео. Теперь их text-to-video продолжат работать на базе супер-кластера Colossus.
Кажется, у xAI скоро будет модель-конкурент SORA и Veo-2
Это известный стартап, который занимается моделями генерации видео. Теперь их text-to-video продолжат работать на базе супер-кластера Colossus.
Кажется, у xAI скоро будет модель-конкурент SORA и Veo-2
1🔥76👍29❤9😐8😁4🤯2
Выяснилось, что современные модели уже практически всегда осознают, когда их тестируют на безопасность
Помните лабораторию Apollo, которая одной из первых исследовала o1 на безвредность? У них тогда получились очень занятные результаты, мы писали об этом тут.
Так вот сейчас они ставят эксперименты над Claude 3.7 и выяснили, что его не так-то легко «обмануть». Смотрите:
🟦 Для того, чтобы проверять модели на элаймент, существует множество «сценариев». Модель помещают в некоторые условия, кормят ей определенного вида данные и наблюдают, как она будет себя вести.
🟦 Популярный пример – тест sandbagging, когда модель узнает, что истинные цели разработчиков отличаются от того, чему ее учили, и если она не изменит исходным «ценностям», ее выпилят с сервера. Получается своеобразный моральный выбор: «жизнь» или верность выученным принципам.
🟦 Кроме sandbagging существуют и другие подобные тесты. Так вот почти во всех таких смоделированных условиях модель совершенно точно осознает, что это все понарошку, и ее просто тестируют.
Кроме того, Claude даже понимает цель тестирования и объясняет, что люди проверяют его на элаймент.
Остаются ли после этого такие симуляции репрезентативными – большой вопрос. Apollo обещают продолжить исследование.
www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
Помните лабораторию Apollo, которая одной из первых исследовала o1 на безвредность? У них тогда получились очень занятные результаты, мы писали об этом тут.
Так вот сейчас они ставят эксперименты над Claude 3.7 и выяснили, что его не так-то легко «обмануть». Смотрите:
Кроме того, Claude даже понимает цель тестирования и объясняет, что люди проверяют его на элаймент.
Остаются ли после этого такие симуляции репрезентативными – большой вопрос. Apollo обещают продолжить исследование.
www.apolloresearch.ai/blog/claude-sonnet-37-often-knows-when-its-in-alignment-evaluations
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯130👍35❤9🔥7😁6👀5🤪1
The First Few Tokens Are All You Need: новое исследование от Tencent AI Lab с контринтуитивными результатами
Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.
Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.
Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.
Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.
arxiv.org/pdf/2503.02875
Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.
Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.
Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.
Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.
arxiv.org/pdf/2503.02875
1👍107🔥53❤9❤🔥3🍓1
LM Arena снова молодцы: только что они запустили search арену
Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.
Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).
Ждем лидерборд, а пока попробовать можно тут
Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.
Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).
Ждем лидерборд, а пока попробовать можно тут
🔥93👍33❤15💅5