Forwarded from addmeto (Grigory Bakunov)
Google официально анонсировали Gemini 2.0, это попытка конкурировать с OpenAI, причем судя по первым тестам на арене - весьма неплохая. Обратите внимание на людей, которые официально пишут пост в этот блог гугла. Тема гонки AI настолько важна, что пишет сам Сундар Пичай, а дополняют оба руководителя Google DeepMind.
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message
Google
Introducing Gemini 2.0: our new AI model for the agentic era
Today, we’re announcing Gemini 2.0, our most capable AI model yet.
Forwarded from эйай ньюз
OpenAI показали Operator - своего первого агента
Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.
Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.
Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.
Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.
operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)
@ai_newz
Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.
Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.
Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.
Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.
operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)
@ai_newz
Forwarded from Futuris (Anton)
DeepSeek наносит ответный удар, за сегодня американский айти рынок уже потерял 1 трлн долларов и начал DDOS атаку на дипсик, а тут от них новая модель генерации картинок Janus-Pro-7B, которая бьёт DALL-E 3 и Stable Diffusion 🤯
https://huggingface.co/deepseek-ai/Janus-Pro-7B
https://huggingface.co/deepseek-ai/Janus-Pro-7B
Forwarded from Сиолошная
Пост с выжимкой трансляции:
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.
UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.
Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)
UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
Forwarded from Борис опять
https://www.docker.com/blog/introducing-docker-model-runner/
Docker сделал llama.cpp + хранилище моделей в Docker Hub + OpenAI API из коробки, в общем докеризация моделей от докера
Docker сделал llama.cpp + хранилище моделей в Docker Hub + OpenAI API из коробки, в общем докеризация моделей от докера
Forwarded from эйай ньюз
Релиз Gemini 2.5 Flash
Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).
Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.
Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.
@ai_newz
Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).
Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.
Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.
@ai_newz
Forwarded from ML physicist (Алексей Маметьев)
Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT
Forwarded from Сиолошная
Forwarded from эйай ньюз
Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио
Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.
Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.
Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.
Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и наивный липсинк, конечно же.
Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.
В опенсорс, как и ожидалось, пока не выложили.
Анонс
@ai_newz
Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.
Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.
Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.
Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и наивный липсинк, конечно же.
Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.
В опенсорс, как и ожидалось, пока не выложили.
Анонс
@ai_newz
Forwarded from Alexander
Мы решили задачу омографов и ударений в русском языке
Мы опубликовали библиотеку
1️⃣ Расставляет ударения, решает омографы, ставит букву ё;
2️⃣ "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;
3️⃣ Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;
4️⃣ Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;
5️⃣ Опубликована под популярной и простой лицензией (MIT);
6️⃣ Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;
7️⃣ Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.
Ставим⬆️ habr.com/ru/articles/955130/
Ставим ⭐️ https://github.com/snakers4/silero-stress
Мы опубликовали библиотеку
silero-stress для расстановки ударений в обычных словах и омографах:1️⃣ Расставляет ударения, решает омографы, ставит букву ё;
2️⃣ "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;
3️⃣ Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;
4️⃣ Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;
5️⃣ Опубликована под популярной и простой лицензией (MIT);
6️⃣ Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;
7️⃣ Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.
Ставим
Ставим ⭐️ https://github.com/snakers4/silero-stress
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Мы решили задачу омографов и ударений в русском языке
Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут. Несмотря на кажущуюся простоту (задача по сути является бинарной...
слоп в моих ушах - это значит я слышу слоп
слоп на моих глаза - это значит я вижу слоп
слоп на моей обуви - это значит я иду к слопу
слоп на моей одежде - это значит я в слопе
https://techcrunch.com/2025/11/19/warner-music-settles-copyright-lawsuit-with-udio-signs-deal-for-ai-music-platform/
слоп на моих глаза - это значит я вижу слоп
слоп на моей обуви - это значит я иду к слопу
слоп на моей одежде - это значит я в слопе
https://techcrunch.com/2025/11/19/warner-music-settles-copyright-lawsuit-with-udio-signs-deal-for-ai-music-platform/
TechCrunch
Warner Music settles copyright lawsuit with Udio, signs deal for AI music platform | TechCrunch
The subscription service will allow users to make remixes, covers, and new songs using the voices of artists and compositions of songwriters who choose to participate.
Forwarded from запуск завтра
О, война платежных стандартов в ИИ!
3 месяца назад OpenAI совместно со Stripe (крупнейший карточный процессинг с фокусом на разработчиков) разработали свой протокол для покупок внутри ChatGPT — Agentic Commerce Protocol (ACP).
И вот вчера Google совместно с Shopify (крупнейшая платформа для создания интернет-магазинов) представили Universal Commerce Protocol (UCP).
Совсем упрощая, это чтобы можно было покупать товары прямо на странице результатов поиска, не переходя на страницу интернет-магазина. Протокол гораздо более открытый, чем ACP.
Хотелось бы поставить эмоджи 🍿, но мне кажется и так понятно, кто выиграет. Это как со государством соревноваться.
3 месяца назад OpenAI совместно со Stripe (крупнейший карточный процессинг с фокусом на разработчиков) разработали свой протокол для покупок внутри ChatGPT — Agentic Commerce Protocol (ACP).
И вот вчера Google совместно с Shopify (крупнейшая платформа для создания интернет-магазинов) представили Universal Commerce Protocol (UCP).
Совсем упрощая, это чтобы можно было покупать товары прямо на странице результатов поиска, не переходя на страницу интернет-магазина. Протокол гораздо более открытый, чем ACP.
Хотелось бы поставить эмоджи 🍿, но мне кажется и так понятно, кто выиграет. Это как со государством соревноваться.