Media is too big
VIEW IN TELEGRAM
На Sequoia Ascent 2026 Андрей Карпати поднял интересную мысль.
LLM важны не только потому, что помогают быстрее писать код, тексты и документацию. Главное в другом: они открывают классы задач, которые раньше либо требовали сложного классического софта, либо вообще плохо решались программированием.
Первый пример - его приложение menugen.
Там почти нет привычной логики приложения. Модель получает картинку меню и возвращает новую картинку. Раньше для такого пришлось бы собирать пайплайн из OCR, парсинга, базы данных, правил и рендеринга. Теперь значительная часть этой работы уезжает внутрь LLM.
Второй пример интереснее: Карпати предлагает смотреть на .md файлы как на замену bash-скриптам.
Вместо хрупкого .sh, который ломается на другой системе, можно написать обычную инструкцию на английском: что установить, какие шаги пройти, что проверить. Дальше агент сам адаптирует процесс под конкретную машину, чинит ошибки по ходу и доводит задачу до конца.
По сути, естественный язык начинает работать как новый shell script.
Третий важный слой - базы знаний на LLM. Раньше вычисления по неструктурированным данным из разных источников были болью Software 1.0. Сейчас это становится нормальным рабочим сценарием: модель читает, связывает, извлекает смысл и действует поверх хаоса.
Отдельно Карпати говорит про jaggedness - неровность способностей моделей.
Одна и та же LLM может уверенно рефакторить огромную кодовую базу и одновременно проваливаться в простом бытовом совете. Это не магия и не случайность. Модели сильнее там, где домен хорошо проверяется, где много данных и где лабораториям экономически выгодно улучшать качество.
Если задача внутри этого распределения, агент едет по рельсам.
Если снаружи - идёт через джунгли с мачете.
Финальная мысль - agent-native экономика.
Продукты будущего нужно проектировать так, чтобы они были удобны не только людям, но и агентам: с понятными сенсорами, действиями, логами, интерфейсами и машинно-читаемым контекстом.
Отсюда появляется новая дисциплина - agentic engineering. Это умение проектировать системы, в которых агенты могут читать, планировать, действовать, проверять себя и чинить ошибки.
Год назад Карпати популяризировал vibe coding и поднял нижнюю планку входа в разработку.
Agentic engineering поднимает верхнюю планку.
Иронично, что сам Карпати признаётся: он никогда ещё не чувствовал себя настолько отстающим программистом.
Это говорит человек, который писал GPT с нуля.
https://x.com/karpathy/status/2049903821095354523
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26🔥15👍11🥱4🤣4
Вайбкодеры из Apple случайно залили рабочие файлы Claude.md в обновлении приложения Apple Support (v5.13).
Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют
После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.
https://x.com/aaronp613/status/2049986504617820551
@data_analysis_ml
Все мы теперь знаем, что в компании предпочитают Claude, а не Codex, и не смотрят, что публикуют
После того как твит об этом разлетелся на миллион просмотров, Apple начали чистку - файлы из сборки уже удалили.
https://x.com/aaronp613/status/2049986504617820551
@data_analysis_ml
❤25😁23👍9🔥8
Парень настроил в Claude Code команду /loop, которая раз в 30 минут проверяла его открытые пул-реквесты. Поставил вечером, забыл и ушёл спать. За 26 часов скрипт отработал 46 раз на Opus 4.7. Утром его ждал счёт на шесть тысяч долларов.
Фокус в том, как устроен биллинг. Каждый запрос к API отправляет всю историю переписки целиком, а не только последнее сообщение. Первая итерация это пара сотен токенов, сорок шестая уже 800 тысяч.
Anthropic умеет кешировать промпты со скидкой в 12,5 раз, но кеш живёт всего 5 минут после последней активности. А интервал в /loop стоял 30 минут. Получалось так: цикл сработал, история закешировалась, через полчаса кеш протух, цикл сработал снова и пришлось перекешировать всё заново по полной цене. Каждая итерация ещё и добавляла свой вывод сверху, поэтому следующая порция для кеша становилась жирнее предыдущей.
К двадцатому часу диалог раздуло до 800k токенов, и за каждый прогон система платила за повторную запись в кеш по самому дорогому тарифу. Сами ответы по пул-реквестам стоили копейки на фоне этой каши.
Дашборд Anthropic обновляется с задержкой в несколько дней, так что увидеть проблему вживую было невозможно. Узнал только когда прилетело письмо о превышении лимита.
Если гоняешь /loop в Claude Code, ставь интервал меньше 5 минут, чтобы кеш не остывал. Либо запускай каждую итерацию в свежей сессии.
Please open Telegram to view this post
VIEW IN TELEGRAM
😱47❤8🔥8👍5👏2🤯2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
В Reels снова сделали «шокирующее открытие».
Скорее всего, просто для постройки использовали ChatGPT.
Скорее всего, просто для постройки использовали ChatGPT.
😁39❤6👍4🐳2👏1🤯1🥱1
Z.ai показала, где на самом деле ломаются LLM в продакшене
GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.
Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.
Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».
Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.
Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.
Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.
Бенчмарки показывают, насколько модель сильна в идеальных условиях.
Продакшен показывает, насколько вся система готова к реальному миру.
z.ai/blog/scaling-pain
GLM-5 в продакшене начала иногда выдавать мусор: странные символы, повторы, редкие иероглифы в неожиданных местах. На тестах всё было чисто, метрики зелёные, а под реальной нагрузкой всплывали редкие артефакты.
Команда Z.ai пошла не в дообучение модели, а в inference stack. И нашла проблему , которая была в инфраструктуре.
Первый баг - гонка данных в KV Cache. При параллельной обработке запросов кэш ключей и значений иногда читался и перезаписывался не в том порядке. Модель получала испорченный контекст - и начинала «галлюцинировать».
Второй баг - рассинхрон в HiCache. Иерархический кэш должен ускорять инференс, но при некоторых паттернах нагрузки сам становился источником ошибок между уровнями кэша.
Третий важный кусок - LayerSplit. Z.ai перераспределила слои модели по вычислительным ресурсам так, чтобы железо меньше простаивало. Результат - throughput вырос до 132%.
Качество LLM в продакшене зависит не только от размера модели. Его решают KV Cache, синхронизация, scheduler, layout слоёв, редкие edge cases и поведение системы под нагрузкой.
Бенчмарки показывают, насколько модель сильна в идеальных условиях.
Продакшен показывает, насколько вся система готова к реальному миру.
z.ai/blog/scaling-pain
👍11❤8🔥8
Джек Кларк из Anthropic написал один из самых тревожных прогнозов про ближайшие годы AI.
Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.
Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.
Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.
Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.
Почему прогноз стал таким агрессивным?
Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.
Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.
https://x.com/jackclarkSF/status/2051312759594471886
Полностью автоматизированный AI R&D, где frontier-модель сама обучает следующую версию себя, может появиться гораздо раньше, чем многие думают.
Его оценка: около 30% вероятности к концу 2027 года и больше 60% к концу 2028-го.
Речь о системе, которая может сама пройти полный цикл: поставить исследовательскую задачу, запустить эксперименты, улучшить архитектуру, обучить преемника, проверить результат и повторить процесс.
Кларк не считает, что это почти наверняка случится уже в 2026-м. Но он допускает, что в ближайшие 1-2 года мы можем увидеть первый proof-of-concept: AI, который end-to-end обучает не frontier-модель, но уже полноценного «наследника» без постоянного ручного управления.
Почему прогноз стал таким агрессивным?
Модели резко усилились в coding, long-horizon agents, работе с subagents, оптимизации kernel, fine-tuning, воспроизводимости экспериментов и даже alignment research. То, что раньше выглядело как отдельные навыки, постепенно складывается в одну цепочку AI-исследователя.
Модель улучшает инструменты, инструменты ускоряют исследования, исследования рождают новую модель, а новая модель повторяет цикл еще быстрее.
https://x.com/jackclarkSF/status/2051312759594471886
👍20❤10😢6🔥5😁2🎉2🥱2
Пользователи Claude Max 20x жалуются: лимиты режут, прозрачности нет
Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.
Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.
Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.
Что бесит людей сильнее всего:
• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.
Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.
Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».
Это вопрос доверия.
Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.
Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.
Как у вас с лимитами ?
Тариф за $200 в месяц должен быть самым жирным по использованию. Но часть подписчиков пишет, что лимиты начали незаметно сжиматься прямо в середине платежного периода.
Раньше 4-6 запросов в Opus 4.6 съедали около 10% пятиячасовой сессии. Теперь один похожий запрос может забирать 7-8%.
Другая проблема - Opus 4.7 стал заметно прожорливее по токенам. То есть пользователь делает тот же workflow, но лимит сгорает быстрее.
Что бесит людей сильнее всего:
• платишь $200 в месяц;
получаешь меньше использования, чем раньше;
• не понимаешь, что именно изменилось;
• дашборд отстает на несколько дней;
• саппорт отвечает шаблонным AI-ботом.
Некоторые Max 20x-пользователи пишут, что впервые за много месяцев уперлись в пятиячасовой лимит.
Другие жалуются, что последний день биллинга внезапно обрезается, а даты периода будто «плавают».
Это вопрос доверия.
Когда frontier-модель становится рабочим инструментом, пользователю нужна не магия, а предсказуемость: понятные лимиты, честная статистика и нормальная поддержка.
Пока у части аудитории ощущение обратное: платишь за максимум, а получаешь все больше ограничений без объяснений.
Как у вас с лимитами ?
👍17❤11💯7🔥4
14 мая МТС Web Services приглашает на мероприятие для системных аналитиков, чтобы вместе обсудить актуальные вызовы профессии.
На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация
профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру
решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно
проверять руками?
Участников ждет честный опыт технологических компаний и много нетворкинга.
Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.
Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
На встрече участники вместе с экспертами обсудят:
• Как развивается роль системных аналитиков и ждет ли нас трансформация
профессии?
• Что нужно понимать системному аналитику при внедрении ИИ в архитектуру
решений.
• Какую рутину уже можно отдать ИИ, а где результат все еще нужно внимательно
проверять руками?
Участников ждет честный опыт технологических компаний и много нетворкинга.
Когда: 14 мая в 18:00
Офлайн в Москве + онлайн-трансляция.
Количество офлайн-мест ограничено. Для участия зарегистрируйтесь по ссылке
❤3👍3🔥1👏1
Tencent ужал переводчик до 440 мегабайт и сделал его умнее Google Translate
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
Китайцы из Tencent выложили в открытый доступ модель Hy-MT1.5-1.8B-1.25bit, и это тот случай, когда длинное название скрывает по-настоящему любопытную штуку. Переводчик весит 440 мегабайт, целиком работает офлайн на телефоне, понимает 33 языка и при этом обгоняет Google Translate на стандартных бенчмарках.
Главный фокус тут в квантовании. Обычно модель такого размера в FP16 занимает около 3,3 гигабайта, что для смартфона уже многовато. Tencent сжали её до 1,25 бита на вес, и в итоге получили файл в семь с половиной раз меньше оригинала. Что особенно приятно, это не привычная история «сжали и оно начало нести чушь». Точность не просела, а по сравнению с предыдущими подходами на 1,67 бита новая версия ещё и работает примерно на десять процентов быстрее.
При своих скромных 1,8 миллиарда параметров модель умудряется тягаться с коммерческими API и даже с гигантами на 235 миллиардов.
То есть на стандартных тестах перевода она играет в одной лиге с системами, которые в сотню раз тяжелее и крутятся в дата-центрах, а не у вас в кармане.
Покрытие тоже не для галочки. 33 языка, 5 диалектов и 1056 направлений перевода, причём в список попали тибетский и монгольский. Это редкий случай, когда крупный игрок не ограничивается английским, испанским и парой ходовых европейских, а реально вкладывается в малые языки, которые обычно остаются за бортом коммерческих сервисов.
В довесок Tencent напоминают, что их переводческий стек уже тридцать раз брал первые места на международных соревнованиях по машинному переводу и стоит внутри продуктов компании.
ЭТО боевая технология, которую просто решили отдать наружу. На Hugging Face лежит сама модель, на GitHub код, и есть готовый APK для Android, чтобы потрогать всё руками без танцев со сборкой.
Если коротко, то идея «переводчик уровня Google прямо на телефоне без интернета и подписки» из разряда фантастики окончательно переехала в разряд скачал и пользуйся.
📲Demo APK (Android): https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF/resolve/main/Hy-MT-demo.apk
🤗Hugging Face:: https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
🔗GitHub: https://github.com/tencent/AngelSlim
📄Paper: https://arxiv.org/abs/2601.07892
🔥28👍10❤8🏆1
This media is not supported in your browser
VIEW IN TELEGRAM
Claude идет в финансы с готовыми агентами
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
Anthropic выкатила готовые Claude agent templates для финансовых команд.
Это не просто «чат с моделью», а готовые рабочие сценарии под конкретные задачи: собрать pitch book, провести valuation review, закрыть месяц, подготовить credit memo, проверить KYC, сделать reconciliation или fund accounting.
Финансовым больше не нужно собирать агента с нуля. В шаблон уже упакованы skills, connectors и subagents под типовой workflow.
Развернуть можно несколькими способами: как plugin в Claude Cowork или Claude Code, либо через cookbooks в production как Managed Agents.
Anthropic явно пытается занять enterprise-нишу, где ценность AI измеряется не красивым ответом, а тем, сколько часов он снимает с аналитиков, банкиров, бухгалтерии и risk-команд.
Финансовые агенты - попытка превратить Claude в рабочую инфраструктуру для индустрии, где каждая цифра должна быть проверяемой.
https://claude.com/solutions/financial-services#finance-agents
@data_analysis_ml
👍15❤8🔥8🤯2🤣2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
MIT создал ИИ, который может управлять движениями вашего тела.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
Он может двигать вашими пальцами и заставить вас играть на пианино, даже если вы не знаете мелодию.
ИИ решает, как должна двигаться рука. Специальные накладки на запястьях отправляют сигналы к мышцам, и пальцы начинают двигаться так, будто вы уже умеете играть.
1❤22😱8👍4🔥3🍌1