Google, кажется, готовится к большому релизу
На Lmarena появились результаты двух новых моделей компании. Первая, под кодовым названием Nebula, обходит последнюю o1 и Sonnet 3.7. Вторая – phantom – где-то на уровне Grok-3 и GPT-4.5 (но дисперсия какая-то конская). Вероятно, это новые Gemini 2.0 Pro Thinking и Gemini 2.0 Flash Thinking.
Еще в лидерборде фигурирует centaur – видимо какая-то небольшая, возможно не reasoning модель уровня o3-mini.
Выглядит многообещающе, так что ждем
На Lmarena появились результаты двух новых моделей компании. Первая, под кодовым названием Nebula, обходит последнюю o1 и Sonnet 3.7. Вторая – phantom – где-то на уровне Grok-3 и GPT-4.5 (но дисперсия какая-то конская). Вероятно, это новые Gemini 2.0 Pro Thinking и Gemini 2.0 Flash Thinking.
Еще в лидерборде фигурирует centaur – видимо какая-то небольшая, возможно не reasoning модель уровня o3-mini.
Выглядит многообещающе, так что ждем
🔥84👍23❤9🐳2🎉1
Тест на IQ 2.0: оказывается, плюсом ко всему создатели нового ARC-AGI-2 сделали песочницу, в которой можно порешать задачки бенчмарка самому (и убедиться, что ты все еще умнее LLM )
По данным создателей, в среднем человек решает 60% без какой-либо предварительной подготовки.
И задачки, кстати, действительно интересные. Всего их 120, хватит на целую неделю: arcprize.org/play?task=1ae2feb7
Делитесь самыми сложными в комментариях
По данным создателей, в среднем человек решает 60% без какой-либо предварительной подготовки.
И задачки, кстати, действительно интересные. Всего их 120, хватит на целую неделю: arcprize.org/play?task=1ae2feb7
Делитесь самыми сложными в комментариях
❤65😎21👍15⚡6🤪2
Data Secrets
Там мощно обновился DeepSeek-v3 Вообще, это должно было быть рядовое обновление, как время от времени обновляют чекпоинты 4o или других моделей. Но пользователи говорят, что в данном случае разница в способностях с предыдущей версией разительная, особенно…
А вот и официальный анонс нового чекпоинта DeepSeek-V3 с бенчмарками
Зацените: прирост на LiveCodeBench + 10 процентных пунктов, а на AIME 2024 аж +20. При этом цена не изменилась.
Лучшая не-ризонинг модель для математики и программирования, получается?
Зацените: прирост на LiveCodeBench + 10 процентных пунктов, а на AIME 2024 аж +20. При этом цена не изменилась.
Лучшая не-ризонинг модель для математики и программирования, получается?
🔥118👍28❤10👌2😐1💘1
Сегодня в 21:00 – новый стрим OpenAI
Кажется, собираются показывать встроенную в чат генерацию и редактирование изображений
Вторая картинка – реакция инженеров из Google :)
Кажется, собираются показывать встроенную в чат генерацию и редактирование изображений
Вторая картинка – реакция инженеров из Google :)
😁150👍17🔥14❤1
Итак, нативная обработка изображений от OpenAI вышла, работает супер и даже доступна бесплатным пользователям
Но... Google затмил сегодня вечером всех, выпустив Gemini 2.5 Pro. Это та самая модель, которая на арене висела на первом месте под названием Nebula.
Контекст – миллион (!) токенов, на бенчмарках почти везде обходит o3-mini, GPT-4.5, R1, Sonnet 3.7, Grok-3 и остальных. Естественно, мультимодальная + есть ризонинг.
Попробовать уже можно здесь, а вот блогпост
Но... Google затмил сегодня вечером всех, выпустив Gemini 2.5 Pro. Это та самая модель, которая на арене висела на первом месте под названием Nebula.
Контекст – миллион (!) токенов, на бенчмарках почти везде обходит o3-mini, GPT-4.5, R1, Sonnet 3.7, Grok-3 и остальных. Естественно, мультимодальная + есть ризонинг.
Попробовать уже можно здесь, а вот блогпост
👍81🔥38❤11🦄2
Пока новый фотошоп от OpenAI продолжают раскатывать на юзеров, примеры его работы можно посмотреть здесь: openai.com/index/introducing-4o-image-generation/
Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.
В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)
Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.
В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)
👍78🔥40❤22
Генерация изображений побеждена?
Фотошоп и нативную генерацию картинок 4o закончили раскатывать на Pro, Plus и Team (Free еще продолжают), и первые юзеры в восторге от модели. Она справляется буквально с любой задачей, примеры наверху 👆
И, самое интересное, что это не диффузия, а авторегрессия. Вот тех.отчет
Фотошоп и нативную генерацию картинок 4o закончили раскатывать на Pro, Plus и Team (Free еще продолжают), и первые юзеры в восторге от модели. Она справляется буквально с любой задачей, примеры наверху 👆
И, самое интересное, что это не диффузия, а авторегрессия. Вот тех.отчет
🔥116👍33❤20👨💻1