Сейчас лучшие агенты для разработки софта постепенно становятся лучшими агентами вообще для всего.
И лидер сейчас Droids, заняли 1 место в Terminal-Bench — это сложный и общий бенчмарк для программной разработки.
Сегодня Droids доступен всем с любой моделью и в любом интерфейсе: CLI, IDE, Slack, Linear или браузер.
Terminal-Bench проверяет не только умение написать кусок кода.
Там задачи шире: обновить легаси-проект, отладить окружение, обучить AI-модель, управлять облачной инфраструктурой.
И на всём этом Droids обгоняют Claude Code и Codex CLI.
Обычно AI платформы ставят рамки: один агент, одна модель, один интерфейс, а они сделали наоборот: бери любую модель, любой IDE и работай хоть локально, хоть в облаке.
Для кастомизации есть headless режим: можно прикрутить скрипты или триггеры и запускать Droids под конкретные процессы команды.
Похвастались, что агент в продакшне у крупных компаний: MongoDB, EY, Bayer, Zapier, Clari, что у них:
• новые фичи выходят в 31 раз быстрее
• миграции занимают на 96,1% меньше времени
• on-call инциденты закрываются на 95,8% быстрее
• у разработчиков остаётся больше времени на архитектуру и дизайн.
И объявили, что привлекли $50 млн инвестиций от NEA, Sequoia Capital, J.P. Morgan, Nvidia.
В общем посмотрим, можно попробовать бесплатно в течение месяца [app.factory.ai]
@tips_ai #news
И лидер сейчас Droids, заняли 1 место в Terminal-Bench — это сложный и общий бенчмарк для программной разработки.
Сегодня Droids доступен всем с любой моделью и в любом интерфейсе: CLI, IDE, Slack, Linear или браузер.
Terminal-Bench проверяет не только умение написать кусок кода.
Там задачи шире: обновить легаси-проект, отладить окружение, обучить AI-модель, управлять облачной инфраструктурой.
И на всём этом Droids обгоняют Claude Code и Codex CLI.
Обычно AI платформы ставят рамки: один агент, одна модель, один интерфейс, а они сделали наоборот: бери любую модель, любой IDE и работай хоть локально, хоть в облаке.
Для кастомизации есть headless режим: можно прикрутить скрипты или триггеры и запускать Droids под конкретные процессы команды.
Похвастались, что агент в продакшне у крупных компаний: MongoDB, EY, Bayer, Zapier, Clari, что у них:
• новые фичи выходят в 31 раз быстрее
• миграции занимают на 96,1% меньше времени
• on-call инциденты закрываются на 95,8% быстрее
• у разработчиков остаётся больше времени на архитектуру и дизайн.
И объявили, что привлекли $50 млн инвестиций от NEA, Sequoia Capital, J.P. Morgan, Nvidia.
В общем посмотрим, можно попробовать бесплатно в течение месяца [app.factory.ai]
@tips_ai #news
🔥17❤10👍10🤣3
Антропики радуют, вышел Claude Sonnet 4.5 — лучшая модель кодирования.
Не только пишет код, но и уверенно справляется с компьютером, сложными задачами и математикой.
Что в релизе:
• В Claude Code появились чекпоинты (можно откатиться назад, как в Git).
• Появился плагин для VS Code и обновлённый терминал.
• В Claude API завезли память и контекстное редактирование → агенты могут работать дольше и с большими задачами.
• В приложениях теперь можно прямо в чате создавать файлы: документы, таблицы, слайды.
• Расширение для Chrome открыли для части пользователей.
Самое интересное Claude Agent SDK. Это тот же движок, на котором у них работают агенты. Теперь его можно взять и строить своих.
По тестам Sonnet 4.5 шагнул вперёд:
• держит фокус на задачах по 30+ часов
• на бенчмарках по использованию компьютера поднялся с 42% до 61% за 4 месяца
• эксперты в финансах, медицине и праве отмечают, что он реально лучше понимает предметку
Плюс они подтянули безопасность: меньше лести, обманов и бредовых ответов, защита от prompt injection стала серьёзнее.
И небольшой бонус: эксперимент Imagine with Claude. Там модель в реальном времени придумывает софт на ходу, без заранее прописанных функций. Доступно для Max-подписчиков.
Claude Sonnet 4.5 сегодня доступен всем
Стоимость по API не изменилась: $3 / $15 за миллион токенов, как у Sonnet 4.
@tips_ai #news
Не только пишет код, но и уверенно справляется с компьютером, сложными задачами и математикой.
Что в релизе:
• В Claude Code появились чекпоинты (можно откатиться назад, как в Git).
• Появился плагин для VS Code и обновлённый терминал.
• В Claude API завезли память и контекстное редактирование → агенты могут работать дольше и с большими задачами.
• В приложениях теперь можно прямо в чате создавать файлы: документы, таблицы, слайды.
• Расширение для Chrome открыли для части пользователей.
Самое интересное Claude Agent SDK. Это тот же движок, на котором у них работают агенты. Теперь его можно взять и строить своих.
По тестам Sonnet 4.5 шагнул вперёд:
• держит фокус на задачах по 30+ часов
• на бенчмарках по использованию компьютера поднялся с 42% до 61% за 4 месяца
• эксперты в финансах, медицине и праве отмечают, что он реально лучше понимает предметку
Плюс они подтянули безопасность: меньше лести, обманов и бредовых ответов, защита от prompt injection стала серьёзнее.
И небольшой бонус: эксперимент Imagine with Claude. Там модель в реальном времени придумывает софт на ходу, без заранее прописанных функций. Доступно для Max-подписчиков.
Claude Sonnet 4.5 сегодня доступен всем
Стоимость по API не изменилась: $3 / $15 за миллион токенов, как у Sonnet 4.
@tips_ai #news
❤25🔥17👍8🫡2😢1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI показали Sora 2
Их первая получилась не очень, я один раз в прошлом году попробовал и больше не прикасался.
Сейчас хотят конкурировать с Veo3.
Что нового:
• Контроль над сценами: можно описывать несколько шотов подряд.
• Звук и речь: фон, диалоги, эффекты — синхронно с видео.
• Камео: можно загрузить себя (короткая запись в приложении) и вставлять в любые ролики.
• Поддерживает стили от кинематографа до аниме.
Еще запустили приложение Sora (на iOS). Там можно генерить видео, делать ремиксы чужих и обмениваться роликами с друзьями.
Сейчас Sora 2 доступна в США и Канаде, позже — всем.
Будет работать для Plus, но с лимитами. Pro 200$ в ChatGPT получат доступ к улучшенной версии Sora 2 Pro.
Больше примеров Sora 2 в комментах.
@tips_ai #news
Их первая получилась не очень, я один раз в прошлом году попробовал и больше не прикасался.
Сейчас хотят конкурировать с Veo3.
Что нового:
• Контроль над сценами: можно описывать несколько шотов подряд.
• Звук и речь: фон, диалоги, эффекты — синхронно с видео.
• Камео: можно загрузить себя (короткая запись в приложении) и вставлять в любые ролики.
• Поддерживает стили от кинематографа до аниме.
Еще запустили приложение Sora (на iOS). Там можно генерить видео, делать ремиксы чужих и обмениваться роликами с друзьями.
Сейчас Sora 2 доступна в США и Канаде, позже — всем.
Будет работать для Plus, но с лимитами. Pro 200$ в ChatGPT получат доступ к улучшенной версии Sora 2 Pro.
Больше примеров Sora 2 в комментах.
@tips_ai #news
👍12❤9🔥8🤣2🫡1
Бенчмарков для LLM сейчас очень много. От математики и кодинга до эмпатии модели.
Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.
Среди всего, что есть, я чаще смотрю именно их:
LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.
EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.
Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.
LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.
SWE-Bench — для программистов.
Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.
OpenRouter — удобно смотреть, что популярно и что используют.
Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.
@tips_ai #tools
Бенчмарки — это помощь при выборе модели, но не заменят собственные тесты.
Среди всего, что есть, я чаще смотрю именно их:
LMArena — лидерборд, где сравнивают модели по категориям: кодинг, математика, сложные промпты, креативное письмо, диалоги, языки. Оценки ставят реальные пользователи, так что получается народное ранжирование.
EQ-Bench — проверяет эмоциональный интеллект у моделей: как они ведут диалог, есть ли эмпатия, соблюдают ли правила безопасности и т.д. По сути, бенчмарк на человечность общения. Кстати Sonnet 4.5 лучше всего пишет текста.
Artificial Analysis — тестирует по стандартным бенчмаркам, строит лидерборды и графики, а так же стоимость, размер контекста, скорость и задержки.
LiveBench — довольно честный бенчмарк: вместо заезженных тестов там реальные задания из живых сценариев. Актуальные задачи, защищённые от утечек в тренировочные датасеты.
SWE-Bench — для программистов.
Scale AI — меряют кодинг, рассуждения, безопасность, соответствие правилам. Плюс собирают обратную связь от enterprise-клиентов.
OpenRouter — удобно смотреть, что популярно и что используют.
Hugging Face Spaces — можно найти и общие лидерборды, и узкие бенчмарки.
@tips_ai #tools
👍19❤7🔥4🫡1
Я редко делюсь промптами в канал — не вижу в этом смысла.
Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом.
Хотя, мой пост набрал 862 репоста, а может стоит продолжать…
Самый простой способ — это создать свой своего личного промпт-инженера в Custom GPT и прикрутите к нему официальный гайд по промптам или возьмите готовые GPTs
Практически все, кто выпускает новые модели, делятся руководствами.
Например, у GPT-5 есть целый мануал на сайте OpenAI Cookbooks. Или у Google руководство по NanoBanano.
Загляните еще в prompts.chat — это первый и известный справочник промптов с 135к звезд на GitHub. Еще на этот сайт, захожу иногда.
Я перестал копить золотую коллекцию промптов, чаще всего сам наговариваю, но если нужно выкладывать в канал, дайте знать.
@tips_ai #prompt
Сами LLM умеют придумывать и улучшать их лучше, чем я или кто-то ещё. Лучше заняться контекстом.
Хотя, мой пост набрал 862 репоста, а может стоит продолжать…
Самый простой способ — это создать свой своего личного промпт-инженера в Custom GPT и прикрутите к нему официальный гайд по промптам или возьмите готовые GPTs
Практически все, кто выпускает новые модели, делятся руководствами.
Например, у GPT-5 есть целый мануал на сайте OpenAI Cookbooks. Или у Google руководство по NanoBanano.
Загляните еще в prompts.chat — это первый и известный справочник промптов с 135к звезд на GitHub. Еще на этот сайт, захожу иногда.
Я перестал копить золотую коллекцию промптов, чаще всего сам наговариваю, но если нужно выкладывать в канал, дайте знать.
@tips_ai #prompt
1👍39🔥15❤8🤡4🗿2😢1
Media is too big
VIEW IN TELEGRAM
Генерация изображений, работа в телекоме и... ваш будущий коллега? 🤖
Сбер приглашает погрузиться в мир реального ИИ — не фантастики, а рабочих инструментов, которые уже сегодня творят чудеса.
Ждем на митапе всех, кто хочет быть на острие технологий! Общение, нетворкинг и кофе-брейк прилагаются😉
Встречаемся 9 октября в 18:30 в Технохабе Сбера!
Регистрация на митап
Сбер приглашает погрузиться в мир реального ИИ — не фантастики, а рабочих инструментов, которые уже сегодня творят чудеса.
Ждем на митапе всех, кто хочет быть на острие технологий! Общение, нетворкинг и кофе-брейк прилагаются😉
Встречаемся 9 октября в 18:30 в Технохабе Сбера!
Регистрация на митап
❤9👍5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
У Perplexity вышел браузер Comet для всех пользователей
Кто постеснялся встать в очередь на передачу инвайтов или еще не получил инвайт, то сейчас можете скачать по ссылке.
Но без подписки Perplexity делать нечего, я активировал её на год тут.
@tips_ai #news
Кто постеснялся встать в очередь на передачу инвайтов или еще не получил инвайт, то сейчас можете скачать по ссылке.
Но без подписки Perplexity делать нечего, я активировал её на год тут.
@tips_ai #news
👍15🔥7🗿4❤2
Куда стартапы сливают деньги на AI
Прочитал вчера статью от a16z (у них работа изучать стартапы) вместе с Mercury (банковские услуги стартапам) посмотрели, какие AI-сервисы за лето больше всего заработали на стартапах.
Я к таким топам отношусь скептически, данные пусть и от 200к стартапов, но все они клиенты Mercury.
26 место cluely?
🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨
🎨 🎨 🎨 🎨 🎨
• Ассистенты, тулзы для встреч, креативные штуки обогнали узкоспециализированные: 60% vs 40%. В топе сразу 6 сервисов для митингов, например Fyxer, Happyscribe, Plaud, Otter AI, Read AI, Cluely.
• Вайбкод: Replit на третьем месте после OpenAI и Anthropic, ниже Cursor, Lovable и какой-то Emergent.
• Есть сервисы Crosby, Cognition, 11x: берут на себя работу юристов, сейлзов и рекрутеров.
• По трафику Lovable обгоняет Replit, а по тратам наоборот: Replit в топ-3, Lovable на 18-м месте.
Больше денег уходит на креативные инструменты: Freepik, ElevenLabs, Canva, Photoroom, Midjourney, Descript, Opus Clip, Capcut, Arcad, Tavus.
Маркетинговые тулзы используют не только маркетологи, а вайбкодинг не только разработчики.
Очень интересно, какие у вас инструменты в топе?
@tips_ai #news
Прочитал вчера статью от a16z (у них работа изучать стартапы) вместе с Mercury (банковские услуги стартапам) посмотрели, какие AI-сервисы за лето больше всего заработали на стартапах.
Я к таким топам отношусь скептически, данные пусть и от 200к стартапов, но все они клиенты Mercury.
26 место cluely?
• Ассистенты, тулзы для встреч, креативные штуки обогнали узкоспециализированные: 60% vs 40%. В топе сразу 6 сервисов для митингов, например Fyxer, Happyscribe, Plaud, Otter AI, Read AI, Cluely.
• Вайбкод: Replit на третьем месте после OpenAI и Anthropic, ниже Cursor, Lovable и какой-то Emergent.
• Есть сервисы Crosby, Cognition, 11x: берут на себя работу юристов, сейлзов и рекрутеров.
• По трафику Lovable обгоняет Replit, а по тратам наоборот: Replit в топ-3, Lovable на 18-м месте.
Больше денег уходит на креативные инструменты: Freepik, ElevenLabs, Canva, Photoroom, Midjourney, Descript, Opus Clip, Capcut, Arcad, Tavus.
Маркетинговые тулзы используют не только маркетологи, а вайбкодинг не только разработчики.
Очень интересно, какие у вас инструменты в топе?
@tips_ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥10❤9
Tips AI | IT & AI
Решил скачать TikTok и посмотреть, что с ним стало после выхода Sora 2
{кот крадет рыбу}
> Больше 200 млн просмотров
> Стертый водяной знак,
например с помощью этого сервиса
Удалил Тикток😊
@tips_ai #generated
{кот крадет рыбу}
> Больше 200 млн просмотров
> Стертый водяной знак,
например с помощью этого сервиса
Удалил Тикток
@tips_ai #generated
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁35👍8🔥7🤡2❤1
Читая чаты про AI-кодинг, кажется, что существует два абсолютно разных мира:
В одном мире чуваки обмазываются с ног до головы всякими mcp/supercode/memory bank/субагентами/sdd и т.д., пишут кастом-моды, каталоги правил, используют не просто агентов, а целые агентские ансамбли
В другом - особо никто даже просто агентов не юзает, в лучшем случае - чистый Cursor/JetBrains(с AI), а в худшем случае вообще генерят код в ChatGPT/DeepSeek-чате.
Кажется, разрыв существует, потому что большинству просто лень возиться с кучей инструментов.
А мои знакомые как раз из тех, кто уже прошёл через это, и теперь решили собрать всё в одном месте и поделиться опытом.
Они проведут онлайн-конференцию, где расскажут, как писать код с помощью AI по-взрослому.
Там будут - CTO, Head of AI, фаундеры. Все умеют давать концентрированную пользу – их каналы читают тысячи разработчиков.
14 октября, с 14:00 до 19:30 онлайн-конференция.
Я тоже собираюсь посмотреть: [подробности тут]
Участие бесплатное (если подписаться на тг организаторов), есть и платные опции.
Можете переслать коллегам, пусть тоже подтянутся.
#дружескоепромо
В одном мире чуваки обмазываются с ног до головы всякими mcp/supercode/memory bank/субагентами/sdd и т.д., пишут кастом-моды, каталоги правил, используют не просто агентов, а целые агентские ансамбли
В другом - особо никто даже просто агентов не юзает, в лучшем случае - чистый Cursor/JetBrains(с AI), а в худшем случае вообще генерят код в ChatGPT/DeepSeek-чате.
Кажется, разрыв существует, потому что большинству просто лень возиться с кучей инструментов.
А мои знакомые как раз из тех, кто уже прошёл через это, и теперь решили собрать всё в одном месте и поделиться опытом.
Они проведут онлайн-конференцию, где расскажут, как писать код с помощью AI по-взрослому.
Там будут - CTO, Head of AI, фаундеры. Все умеют давать концентрированную пользу – их каналы читают тысячи разработчиков.
14 октября, с 14:00 до 19:30 онлайн-конференция.
Я тоже собираюсь посмотреть: [подробности тут]
Участие бесплатное (если подписаться на тг организаторов), есть и платные опции.
Можете переслать коллегам, пусть тоже подтянутся.
#дружескоепромо
👍12❤10🔥7🗿4
OpenAI представил свой конструктор агентов
Agent Builder — инструмент, который позволит собирать своих AI-агентов и рабочие процессы без кода.
Можно не мучиться с API, а просто накидывать блоки на канве: логика, ветвления, запросы, файлы, guardrails — всё как в n8n или Zapier, только внутри OpenAI.
Интерфейс drag-and-drop, уже есть готовые шаблоны:
• боты поддержки
• Q&A-помощники
• обработка данных
• сравнение документов
Есть логика (if-else, циклы), коннекторы MCP, шаги с одобрением, guardrails, поиск по файлам, трансформация данных.
В основе OpenAI Agents SDK. Он управляет тем, как агент вызывает инструменты, получает ответы и двигается по шагам.
Плюс встроенная наблюдаемость: можно видеть, что агент делает в реальном времени и где он залип.
Всё происходит в отдельном UI прямо в OpenAI с панелью компонентов, предпросмотром, тестами и публикацией.
Собрал флоу > протестировал > запустил.
Можно строить [тут]
@tips_ai #news
Agent Builder — инструмент, который позволит собирать своих AI-агентов и рабочие процессы без кода.
Можно не мучиться с API, а просто накидывать блоки на канве: логика, ветвления, запросы, файлы, guardrails — всё как в n8n или Zapier, только внутри OpenAI.
Интерфейс drag-and-drop, уже есть готовые шаблоны:
• боты поддержки
• Q&A-помощники
• обработка данных
• сравнение документов
Есть логика (if-else, циклы), коннекторы MCP, шаги с одобрением, guardrails, поиск по файлам, трансформация данных.
В основе OpenAI Agents SDK. Он управляет тем, как агент вызывает инструменты, получает ответы и двигается по шагам.
Плюс встроенная наблюдаемость: можно видеть, что агент делает в реальном времени и где он залип.
Всё происходит в отдельном UI прямо в OpenAI с панелью компонентов, предпросмотром, тестами и публикацией.
Собрал флоу > протестировал > запустил.
Можно строить [тут]
@tips_ai #news
🔥18👍13❤7