местный датасасер ☮️

Forwarded from addmeto (Grigory Bakunov)

Google официально анонсировали Gemini 2.0, это попытка конкурировать с OpenAI, причем судя по первым тестам на арене - весьма неплохая. Обратите внимание на людей, которые официально пишут пост в этот блог гугла. Тема гонки AI настолько важна, что пишет сам Сундар Пичай, а дополняют оба руководителя Google DeepMind.

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/#ceo-message

Google

Introducing Gemini 2.0: our new AI model for the agentic era

Today, we’re announcing Gemini 2.0, our most capable AI model yet.

1.85K views16:14

местный датасасер ☮️

Друзья, всех с наступающим! 🎉🎄

1.42K views19:07

местный датасасер ☮️

Forwarded from эйай ньюз

OpenAI показали Operator - своего первого агента

Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.

Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.

Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.

Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.

operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)

@ai_newz

1.28K views19:10

местный датасасер ☮️

Forwarded from Futuris (Anton)

DeepSeek наносит ответный удар, за сегодня американский айти рынок уже потерял 1 трлн долларов и начал DDOS атаку на дипсик, а тут от них новая модель генерации картинок Janus-Pro-7B, которая бьёт DALL-E 3 и Stable Diffusion 🤯

https://huggingface.co/deepseek-ai/Janus-Pro-7B

1.3K views18:09

местный датасасер ☮️

еще 1000 tiktoks, остальное верно

1.05K views22:39

местный датасасер ☮️

Forwarded from ∏ρØƒuñçτØρ Øπτµç∑ | 👁‍🗨››››

1.01K views22:39

местный датасасер ☮️

Forwarded from Сиолошная

Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...

1.3K views22:40

местный датасасер ☮️

Forwarded from Борис опять

https://www.docker.com/blog/introducing-docker-model-runner/

Docker сделал llama.cpp + хранилище моделей в Docker Hub + OpenAI API из коробки, в общем докеризация моделей от докера

997 views11:06

местный датасасер ☮️

Forwarded from эйай ньюз

Релиз Gemini 2.5 Flash

Gemini 2.5 Flash - это дистиллят из Gemini 2.5 Pro размером поменьше и побыстрее. По качеству она далеко ушла от 2.0 Flash, да даже от январского Flash Thinking отрыв гигантский. Но по сравнению с o4-mini модель меркнет — у OpenAI и модель сильнее, и нет странных ограничений, вроде невозможности подрубить и поиск и исполнение кода одновременно. Но у Gemini 2.5 Flash всё же есть что-то, чего нет у o4-mini — детальный бюджет на размышления в токенах, прямо как в Sonnet 3.7 (но в 2.5 Pro не добавили).

Попробовать модельку можно прямо сейчас в AI Studio. Если вы не гоняете тысячи запросов по API, то Gemini 2.5 Pro для вас доступна бесплатно, которая, хоть и уступает o3, остаётся лучшей бесплатной моделью. Даже по скорости она не сильно медленнее версии Flash — на моих промптах 2.5 Pro думает всего на 10-20% дольше, при сильно лучше ответах. Всё равно, пока ждёшь, можно погенерить что-то в Veo 2, которую недавно добавили и туда.

Но крышку в гвоздь гроба забивает цена — для обычного не-ризонинг режима она в полтора раза выше чем у 2.0. Но главная проблема в ризонинг режиме — за него просят $3.5 за миллион токенов, что немногим ниже чем $4.4 за o4-mini. Но даже эту разницу в цене может легко съесть разница в длине размышлений модели, но без тестов тут сложно судить. С уверенностью можно сказать одно — не будь таких драконовских цен на размышления, модель была бы сильно интереснее. Но все же для некоторых задач при вызовах по API, она может конкурировать с o4-mini.

@ai_newz

1.34K views10:52

местный датасасер ☮️

Forwarded from ML physicist (Алексей Маметьев)

Кажется вайбкодинг зашел слишком далеко, что даже claude-3.7 отказывается кодить, пытаясь сбагрить это на ChatGPT

1.49K views09:58

местный датасасер ☮️

Forwarded from Сиолошная

Вышло вышло вышло

https://www.anthropic.com/news/claude-4

1.41K views16:46

местный датасасер ☮️

А ведь гугл еще весной заанонсил протокол для взаимодействия агентов
github

GitHub

GitHub - a2aproject/A2A: Agent2Agent (A2A) is an open protocol enabling communication and interoperability between opaque agentic…

Agent2Agent (A2A) is an open protocol enabling communication and interoperability between opaque agentic applications. - a2aproject/A2A

1.15K viewsedited 12:27

местный датасасер ☮️

Forwarded from эйай ньюз

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

0:46

This media is not supported in your browser

VIEW IN TELEGRAM

0:40

This media is not supported in your browser

VIEW IN TELEGRAM

Wan 2.5 — китайский нейрокомбайн с генерацией видео по аудио

Вышла моделька Wan 2.5, продолжение всеми любимой в опенсорсе 2.2 версии.

Можно было бы написать просто про её релиз сразу, но после него выкатили ещё кучу фич. Оказалось, что платформа теперь моделька мультимодальная и чуть ли не единственная в своём роде.

Считайте сами, Wan 2.5 поддерживает вход и выход в следующих форматах: Text, Image, Video, Audio. Только запах осталось добавить. Причём видео и картинки можно редактировать промптом, и, судя по всему, всё это можно комбинировать. Например, только что появилась возможность генерации видео по аудиовходу.

Что это значит? Персонажи и окружение в видео теперь могут двигаться в такт музыке! Ну и наивный липсинк, конечно же.

Кроме того, обновили интерфейс и добавили удобный редактор. Полноценно монтировать там, конечно, не получится, но генерацию в целом это упрощает.

В опенсорс, как и ожидалось, пока не выложили.

Анонс

@ai_newz

893 views14:04

местный датасасер ☮️

Forwarded from Alexander

Мы решили задачу омографов и ударений в русском языке

Мы опубликовали библиотеку silero-stress для расстановки ударений в обычных словах и омографах:

1️⃣ Расставляет ударения, решает омографы, ставит букву ё;

2️⃣ "Знает" порядка 4М русских слов и словоформ и порядка 2K омографов;

3️⃣ Простановка ударения в обычном 1 слове занимает где-то 0.5 ms, а в предложении на 400 символов с 2 омографами - порядка 30 ms;

4️⃣ Общий размер библиотеки составляет порядка 50 мегабайт (архив весит порядка 30 мегабайт), что является сжатием словарей и всех датасетов примерно в 400 раз;

5️⃣ Опубликована под популярной и простой лицензией (MIT);

6️⃣ Не содержит раздутого кода, лишних библиотек, гигабайтов академических артефактов;

7️⃣ Зависит только от стандартной библиотеки питона и работает на всех последних версиях PyTorch.

Ставим

⬆️

habr.com/ru/articles/955130/
Ставим ⭐️ https://github.com/snakers4/silero-stress

Please open Telegram to view this post

VIEW IN TELEGRAM

Хабр

Мы решили задачу омографов и ударений в русском языке

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут. Несмотря на кажущуюся простоту (задача по сути является бинарной...

906 views13:58

местный датасасер ☮️

слоп в моих ушах - это значит я слышу слоп
слоп на моих глаза - это значит я вижу слоп
слоп на моей обуви - это значит я иду к слопу
слоп на моей одежде - это значит я в слопе
https://techcrunch.com/2025/11/19/warner-music-settles-copyright-lawsuit-with-udio-signs-deal-for-ai-music-platform/

TechCrunch

Warner Music settles copyright lawsuit with Udio, signs deal for AI music platform | TechCrunch

The subscription service will allow users to make remixes, covers, and new songs using the voices of artists and compositions of songwriters who choose to participate.

819 views10:49

местный датасасер ☮️

Forwarded from запуск завтра

О, война платежных стандартов в ИИ!

3 месяца назад OpenAI совместно со Stripe (крупнейший карточный процессинг с фокусом на разработчиков) разработали свой протокол для покупок внутри ChatGPT — Agentic Commerce Protocol (ACP).

И вот вчера Google совместно с Shopify (крупнейшая платформа для создания интернет-магазинов) представили Universal Commerce Protocol (UCP).

Совсем упрощая, это чтобы можно было покупать товары прямо на странице результатов поиска, не переходя на страницу интернет-магазина. Протокол гораздо более открытый, чем ACP.

Хотелось бы поставить эмоджи 🍿, но мне кажется и так понятно, кто выиграет. Это как со государством соревноваться.

403 views08:18

About

Blog

Apps

Platform