Claude получил доступ к вашему компьютеру: Cowork!
Конечно, только по вашему согласию. Вы можете выбрать любую папку на компьютере и Claude начнет использовать ее как свое рабочее пространство.
Дальше даем Клоду любое задание, связанное с прочтением, созданием и редактированием файлов в этой папке.
Суть: в таком сеттинге у Клода развязываются руки гораздо сильнее, чем просто при обычном диалоге в приложеньке.
При этом он все так же может использовать внешние MCP (тулы) и заранее созданные Skills (сценарии/навыки).
А еще этот режим дружит с Claude in Chrome, что позволяет агенту переключаться между выделенной папкой и браузером.🎧
Как использовать?
Ну тут реально 1000 и один сценарий. Примеры:
- «организуй мне файлы в папке Загрузки (у меня там вечно хаос)»
- «собери в интернете 10 рецептов, по каждому сделай отдельный документ»
- «я положил в папку 20 картинок чеков из командировки. Собери эксель файл со всеми расходами».
Богачи, кто сидит на подписке Макс и побежал тестить — помните о безопасности. Во-первых, это превью-версия, могут быть баги. Во-вторых, даже без багов Клод может словить глюк и безвозвратно удалить что-то ценное. Поэтому всегда выделяйте Клоду отдельное пространство, где нет ничего ценного. Для кодеров опять же знакомо — такой же подход, как создание venv под новый проект🥂
Мнение
Бомбическая фича. Очень хочется потестить. Но пока доступно только юзерам с тарифом Max.
Если помните, то в официальном приложении ChatGPT есть схожий функционал для маководов — ChatGPT может подключаться к внешним приложениям и там шуршать. Но эта фича получилась мертворожденной в OpenAI. Банально, слишком мало приложений, а те, что есть — заметки и редакторы кода — не нужны. Там уже везде есть встроенный ИИ. А полноценного менеджмента файлами так и не дали. OpenAI в итоге переключились на концепцию Apps in ChatGPT.
А вот Клод научился реально полезно работать с файлами — этот опыт команда наработала в Claude Code. И в Cowork должно быть очень похоже, а значит — хорошечно!
Заместители
Конечно, только по вашему согласию. Вы можете выбрать любую папку на компьютере и Claude начнет использовать ее как свое рабочее пространство.
Дальше даем Клоду любое задание, связанное с прочтением, созданием и редактированием файлов в этой папке.
Суть: в таком сеттинге у Клода развязываются руки гораздо сильнее, чем просто при обычном диалоге в приложеньке.
При этом он все так же может использовать внешние MCP (тулы) и заранее созданные Skills (сценарии/навыки).
А еще этот режим дружит с Claude in Chrome, что позволяет агенту переключаться между выделенной папкой и браузером.
Как использовать?
Ну тут реально 1000 и один сценарий. Примеры:
- «организуй мне файлы в папке Загрузки (у меня там вечно хаос)»
- «собери в интернете 10 рецептов, по каждому сделай отдельный документ»
- «я положил в папку 20 картинок чеков из командировки. Собери эксель файл со всеми расходами».
Богачи, кто сидит на подписке Макс и побежал тестить — помните о безопасности. Во-первых, это превью-версия, могут быть баги. Во-вторых, даже без багов Клод может словить глюк и безвозвратно удалить что-то ценное. Поэтому всегда выделяйте Клоду отдельное пространство, где нет ничего ценного. Для кодеров опять же знакомо — такой же подход, как создание venv под новый проект
Мнение
Бомбическая фича. Очень хочется потестить. Но пока доступно только юзерам с тарифом Max.
Если помните, то в официальном приложении ChatGPT есть схожий функционал для маководов — ChatGPT может подключаться к внешним приложениям и там шуршать. Но эта фича получилась мертворожденной в OpenAI. Банально, слишком мало приложений, а те, что есть — заметки и редакторы кода — не нужны. Там уже везде есть встроенный ИИ. А полноценного менеджмента файлами так и не дали. OpenAI в итоге переключились на концепцию Apps in ChatGPT.
А вот Клод научился реально полезно работать с файлами — этот опыт команда наработала в Claude Code. И в Cowork должно быть очень похоже, а значит — хорошечно!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1 9🔥6❤2 1
Media is too big
VIEW IN TELEGRAM
Забудьте про Scopus и Google Scholar! AI агент для вашего диплома, диссертации или научной статьи
Помнится мне, в универе нас учили пользоваться Scopus, Web of Science, Google Scholar. Я смотрел на это с ужасом и задавался вопросом: "как так, что лучшие умы человечества пользуются такими ужасными системами?!". Похоже я был не один такой. Сегодня поделюсь новым подходом к научному исследованию — Consensus!
Но перед тем как углубиться, зададимся вопросом:
🤔 Что мы, как исследователи, хотим от AI помощника в науке?
1. Качественное раскрытие научной области, где описана SOTA ситуация и подсвечены нерешенные вопросы, чтобы найти свою тему диплома/диссера/статьи, но при этом не потратить 2 года только для того, чтобы в конце упереться в тупик.
2. Качественный обзор литературы. В науке это важнейший аспект исследования. Вся соль — построить его так, чтобы тебя не завалило кучей литературы, но при этом не упустить ничего важного.
3. Ссылки на все источники, желательно написанные сразу в научном формате (APA, Harvard, MLA и тд.)
4. Таблички и графики, где релевантно.
5. Ну и чтобы все красивенько, удобненько.
Consensus — доставляет!
Это AI-first сервис, который помогает проводить научное исследование в части работы с научной литературой. Все строится вокруг вашего запроса.
Например, я интересуюсь темой интерпретируемости LLM моделей. Есть много ответвлений этой темы, она находится на передовом крае науки. В общем, отличный запрос для исследовательского ИИ. Так простенько и сформулируем запрос: "LLM mechanistic interpretability". И дальше погружаемся:
1. Есть детальная настройка исследования: систематический обзор/мета-анализ/case study и тд., квартиль и цитируемость журналов, на которые будет ссылаться LLM, и другая настройка источников. Можно и не настраивать — все равно будет топовый результат.
Собственно найти свою исследовательскую нишу в теме помогают разделы:
• Research Gaps
• Open Research Questions.
А убедиться, что это выбранная тема не шляпа поможет Consensus Meter — фишка сервиса — это агент, который отвечает на любой научный вопрос на основании статей. И подсчитывает сколько статей ответило бы на вопрос "да", "возможно", "неоднозначно" и "нет".
2. Систематический обзор литературы по всем канонам. Используется общепринятый фреймворк — PRISMA — воронка в которой постепенно отсеиваются лишние статьи и остаются только самые важные, которые уже рассматриваются в деталях. Это, кстати, дает дополнительную прозрачность работы, проделанной ИИ агентами под капотом.
3. Все ссылки оформлены по всем канонам. И можно самому выбрать формат цитат.
4. Графики в привычном смысле Consensus мне не построил, а вот таблички — легко! Что ж, за графиком будем ходить в Nano Banana📞
5. Ну про UX/UI тут просто грех не сказать — все очень красиво, нативно, понятно. На русском, кстати, тоже работает. Причем не просто отвечает на русском, а начинает искать литературу на русском и выводить ее выше. Помимо этого все можно экспортировать в ПДФ.
Самое приятно — есть бесплатный тир. Вы легко сможете попробовать все фичи. Да еще и без ВПН, от чего я уже отвык😁
Что не идеально
• Код писать может, но не сделали даже минимальный хайлайтинг под разные языки программирования. В итоге все в ч/б.
• Графики такая естественная часть науки, что даже странно, что их тут нет. Нужны!
• Мне не хватило какого-то нативного встроенного места писать собственно мою работу/статью. Ради чего все эти обзоры литературы то! Но с другой стороны — избавляет от соблазна тупо копипастить нейроконтент и писать ИИшкой финальный текст.
———
Самое важное — этот AI не для того, чтобы за исследователя "все придумать и написать". Он помогает с самым нудным в науке — поиском, структурированием, систематизацией и частично с визуализацией. А нам остается самая мякотка — включать мозги, задавать правильные вопросы, черпать из бесконечного источника научных статей и двигать фронтиры науки вперед👨🔬
Кому интересно посмотреть тред, который у меня получился по теме LLM Mechanistic Interpretability — ссылочка.
#заместители
Заместители
Помнится мне, в универе нас учили пользоваться Scopus, Web of Science, Google Scholar. Я смотрел на это с ужасом и задавался вопросом: "как так, что лучшие умы человечества пользуются такими ужасными системами?!". Похоже я был не один такой. Сегодня поделюсь новым подходом к научному исследованию — Consensus!
Но перед тем как углубиться, зададимся вопросом:
1. Качественное раскрытие научной области, где описана SOTA ситуация и подсвечены нерешенные вопросы, чтобы найти свою тему диплома/диссера/статьи, но при этом не потратить 2 года только для того, чтобы в конце упереться в тупик.
2. Качественный обзор литературы. В науке это важнейший аспект исследования. Вся соль — построить его так, чтобы тебя не завалило кучей литературы, но при этом не упустить ничего важного.
3. Ссылки на все источники, желательно написанные сразу в научном формате (APA, Harvard, MLA и тд.)
4. Таблички и графики, где релевантно.
5. Ну и чтобы все красивенько, удобненько.
Consensus — доставляет!
Это AI-first сервис, который помогает проводить научное исследование в части работы с научной литературой. Все строится вокруг вашего запроса.
Например, я интересуюсь темой интерпретируемости LLM моделей. Есть много ответвлений этой темы, она находится на передовом крае науки. В общем, отличный запрос для исследовательского ИИ. Так простенько и сформулируем запрос: "LLM mechanistic interpretability". И дальше погружаемся:
1. Есть детальная настройка исследования: систематический обзор/мета-анализ/case study и тд., квартиль и цитируемость журналов, на которые будет ссылаться LLM, и другая настройка источников. Можно и не настраивать — все равно будет топовый результат.
Собственно найти свою исследовательскую нишу в теме помогают разделы:
• Research Gaps
• Open Research Questions.
А убедиться, что это выбранная тема не шляпа поможет Consensus Meter — фишка сервиса — это агент, который отвечает на любой научный вопрос на основании статей. И подсчитывает сколько статей ответило бы на вопрос "да", "возможно", "неоднозначно" и "нет".
2. Систематический обзор литературы по всем канонам. Используется общепринятый фреймворк — PRISMA — воронка в которой постепенно отсеиваются лишние статьи и остаются только самые важные, которые уже рассматриваются в деталях. Это, кстати, дает дополнительную прозрачность работы, проделанной ИИ агентами под капотом.
3. Все ссылки оформлены по всем канонам. И можно самому выбрать формат цитат.
4. Графики в привычном смысле Consensus мне не построил, а вот таблички — легко! Что ж, за графиком будем ходить в Nano Banana
5. Ну про UX/UI тут просто грех не сказать — все очень красиво, нативно, понятно. На русском, кстати, тоже работает. Причем не просто отвечает на русском, а начинает искать литературу на русском и выводить ее выше. Помимо этого все можно экспортировать в ПДФ.
Самое приятно — есть бесплатный тир. Вы легко сможете попробовать все фичи. Да еще и без ВПН, от чего я уже отвык
Что не идеально
• Код писать может, но не сделали даже минимальный хайлайтинг под разные языки программирования. В итоге все в ч/б.
• Графики такая естественная часть науки, что даже странно, что их тут нет. Нужны!
• Мне не хватило какого-то нативного встроенного места писать собственно мою работу/статью. Ради чего все эти обзоры литературы то! Но с другой стороны — избавляет от соблазна тупо копипастить нейроконтент и писать ИИшкой финальный текст.
———
Самое важное — этот AI не для того, чтобы за исследователя "все придумать и написать". Он помогает с самым нудным в науке — поиском, структурированием, систематизацией и частично с визуализацией. А нам остается самая мякотка — включать мозги, задавать правильные вопросы, черпать из бесконечного источника научных статей и двигать фронтиры науки вперед
Кому интересно посмотреть тред, который у меня получился по теме LLM Mechanistic Interpretability — ссылочка.
#заместители
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥9❤7👍4☃1 1 1
Еще один шаг к светлому будущему с наушным переводом: TranslateGemma
Это семейство опенсорсных моделей-переводчиков. Релиз в первую очередь для разработчиков.
Релизнули сразу 3 версии модели:
• 4B — подойдет для мобильных устройств
• 12B — для обычного ноутбука или ПК
• 27B — рекомендуют запускать на H100
Они, конечно, сильно слабее Gemini 3 Pro или любой другой топовой LLM. Но они были дистилированны из Gemini моделей. А это значит, что перформить должны неплохо.
Акцент сделали именно на эффективности моделей:
• 4B версия TranslateGemma перформит лучше базовой Gemma 12B
• а 12В, соответсвенно, переплюнет базовую Gemma 3 27B
Тренд на эффективность и уменьшение будет продолжаться
И это приведет нас к нормальному наушному переводу!😈 Я уверен, что будущее наушников с переводом лежит именно в Edge AI (вычислениях прямо на устройствах). И пока функция Live Translation в AirPods выкатывается с кринжовыми задержками и ограничением на несчастные несколько языков — какую-нибудь TranslateGemma 3 через пару лет таки засунут прямо в наушники. И вот тогда скорость перевода станет адекватной и количество языков вырастет кратно!
Так что не за горами время, когда знание иностранного языка станет чисто флексом. А для большинства — будут наушники и очки со встроенным мультимодальным онлайн переводчиком👀
Заместители
Это семейство опенсорсных моделей-переводчиков. Релиз в первую очередь для разработчиков.
Релизнули сразу 3 версии модели:
• 4B — подойдет для мобильных устройств
• 12B — для обычного ноутбука или ПК
• 27B — рекомендуют запускать на H100
Они, конечно, сильно слабее Gemini 3 Pro или любой другой топовой LLM. Но они были дистилированны из Gemini моделей. А это значит, что перформить должны неплохо.
Акцент сделали именно на эффективности моделей:
• 4B версия TranslateGemma перформит лучше базовой Gemma 12B
• а 12В, соответсвенно, переплюнет базовую Gemma 3 27B
Тренд на эффективность и уменьшение будет продолжаться
И это приведет нас к нормальному наушному переводу!
Так что не за горами время, когда знание иностранного языка станет чисто флексом. А для большинства — будут наушники и очки со встроенным мультимодальным онлайн переводчиком
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤15🔥11👍7 2🙈1
Онбординг на канал
Нас становится все больше и больше. А значит пора выкатить полноценное велком сообщение с навигацией и повесить его в закреп.
Привет! Меня зовут Александр Бирюков✋
Я технооптимист и AI энтузиаст. Сейчас я консультирую компании, в том числе зарубежные, в сфере AI и MedTech и веду этот канал.
В прошлом я руководил Лабораторией по ИИ в Сеченовском Университете, создал IT команду в Центре по Большим данным МГУ им. Ломоносова и руководил IT командой в группе компаний. А до прихода в IT я пробовал себя в FMCG, консалтинге и даже фотографии и YouTube!
Про канал
Что здесь происходит:
- я тестирую «заместителей» — AI агентов, сервисы и технологии, которые уже готовы брать на себя реальные практические задачи в самых разных сферах
- делюсь тем, что зажигает глаза и помогает с оптимизмом смотреть в технологическое будущее
- рассказываю о самом важном в мире AI простыми словами, отсеивая инфошум.
Начать знакомство с каналом можно с вот этой мякотки:
- Серия постов: мой «кавер» на курс Kaggle&Google по созданию AI агентов с нуля (+ юзайте хештег #ИИученьесвет)
- Обзор всех доступных AI браузеров
- Краш-тест ИИ агентов скреперов, чтобы сэкономить сотни часов на сборе данных
- Вайб-стартаппинг. Серия из 2 постов о сервисах, чтобы превратить идею в продукт, а потом в инвестиции
- Учимся писать промпты не хуже промпт-инженера
- Как писать промпты конкретно для Gemini 3
- Scamlexity — массовый скам, в который нас заведут AI агенты
- Лучший ИИ для записи минуток по встречам
- ИИнфографика —Napkin!
- Топовый AI сервис для создания видео гайдов
- Самый перспективны AI видео-агент
- NotebookLM: лучший AI сервис для работы с документами
- AI для исследований, чтобы написать диплом, диссертацию и научные статьи
А еще ввожу хештеги, чтобы было легче искать по каналу:
#заместители — рассказываю про крутых AI агентов и сервисы
#ИИстатья — разбираем научные статьи и отчеты простым языком
#ИИученьесвет — курсы, обучение, книги и все с этим связанное
Чтобы поддержать канал, можно его забустить — это добавит кастомных эмоджи в реакции на посты💕
Welcome on board!
Нас становится все больше и больше. А значит пора выкатить полноценное велком сообщение с навигацией и повесить его в закреп.
Привет! Меня зовут Александр Бирюков
Я технооптимист и AI энтузиаст. Сейчас я консультирую компании, в том числе зарубежные, в сфере AI и MedTech и веду этот канал.
В прошлом я руководил Лабораторией по ИИ в Сеченовском Университете, создал IT команду в Центре по Большим данным МГУ им. Ломоносова и руководил IT командой в группе компаний. А до прихода в IT я пробовал себя в FMCG, консалтинге и даже фотографии и YouTube!
Про канал
Что здесь происходит:
- я тестирую «заместителей» — AI агентов, сервисы и технологии, которые уже готовы брать на себя реальные практические задачи в самых разных сферах
- делюсь тем, что зажигает глаза и помогает с оптимизмом смотреть в технологическое будущее
- рассказываю о самом важном в мире AI простыми словами, отсеивая инфошум.
Начать знакомство с каналом можно с вот этой мякотки:
- Серия постов: мой «кавер» на курс Kaggle&Google по созданию AI агентов с нуля (+ юзайте хештег #ИИученьесвет)
- Обзор всех доступных AI браузеров
- Краш-тест ИИ агентов скреперов, чтобы сэкономить сотни часов на сборе данных
- Вайб-стартаппинг. Серия из 2 постов о сервисах, чтобы превратить идею в продукт, а потом в инвестиции
- Учимся писать промпты не хуже промпт-инженера
- Как писать промпты конкретно для Gemini 3
- Scamlexity — массовый скам, в который нас заведут AI агенты
- Лучший ИИ для записи минуток по встречам
- ИИнфографика —Napkin!
- Топовый AI сервис для создания видео гайдов
- Самый перспективны AI видео-агент
- NotebookLM: лучший AI сервис для работы с документами
- AI для исследований, чтобы написать диплом, диссертацию и научные статьи
А еще ввожу хештеги, чтобы было легче искать по каналу:
#заместители — рассказываю про крутых AI агентов и сервисы
#ИИстатья — разбираем научные статьи и отчеты простым языком
#ИИученьесвет — курсы, обучение, книги и все с этим связанное
Чтобы поддержать канал, можно его забустить — это добавит кастомных эмоджи в реакции на посты
Welcome on board!
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥24❤22👍13 6
Заместители pinned «Онбординг на канал Нас становится все больше и больше. А значит пора выкатить полноценное велком сообщение с навигацией и повесить его в закреп. Привет! Меня зовут Александр Бирюков ✋ Я технооптимист и AI энтузиаст. Сейчас я консультирую компании, в том…»
Через Ollama теперь можно подключить любую опенсорс LLM в Claude Code
Ollama 0.14.0 поддержала Anthropic Messages API. Это значит, что почти весь функционал Claude Code, теперь можно использовать на локальных опенсорс моделях!
Да, магия Claude Code во многом держится на родных моделях Anthropic. Но! Всем нам знакомо чувство, когда AI выдал «немного не то» и нужно «ещё немного подправить», «а еще вот эту функцию причесать», «а ещё убрать сами следы вайб кода» и тут смотришь: бац, а подписка Max за 200 бачей улетела…
И в такие моменты задумываешься, а нафиг вообще я использовал Opus на этих задачах? Там бы и Квена простенького хватило.
Это не единственный сценарий. Иногда банально сидишь без интернета в самолете, а рука сама тянется промпт написать, а абонент временно недоступен…
Теперь же в обоих сценариях любимую многими разрабами IDE можно подключить к Ollama. А через Ollama можно в свою очередь подключить, например, GPT-OSS 20B или Qwen3-coder.
Делается все в два шага
1. Соединиться с Ollama
2. Запустить Claude Code с нужной моделью:
Рекомендуют использовать модельки с контекстным окном не меньше 64К.
Все! Все ключевые фичи Claude Code будут действовать как и раньше. По сути, Claude Code даже не знает, что вы заменили Opus на Квен☕️
Кстати, это все касается не только Claude Code, но и любых аппов построенных на Anthropic SDK. Там так же в клиенте прописываете вместо ключа ‘ollama’ — и живете в счастье!
Есть нюансы: кое-что не заведется
Работает все, да не все:
- не считаются токены (вместо этого выдаются эстимейты)
- не поддержан принудительный выбор тула или его отключение
- не поддержана выдача метаданных
- не работает кеширование промптов
- не работает асинхронная обработка батчей
- не поддержаны цитаты
- не поддержаны PDF
- во время стриминга не летят ошибки
Все это, в целом, не критично, но начинает мешать, если речь заходит о полноценном агентном пайплайне (если строить его на SDK от Anthropic). Поддержат ли в будущем - не известно😐
Интересно, что одной рукой Anthropic массово блокировал доступ к своим моделям через Claude Code в сторонних приложениях, чтобы его не абьюзили. А в то же время благодаря Ollama теперь в итоге сам всасывает весь опенсорс. В итоге, и свои модели придержали, и расширился выбор для тех, кому было дорого😎
Заместители
Ollama 0.14.0 поддержала Anthropic Messages API. Это значит, что почти весь функционал Claude Code, теперь можно использовать на локальных опенсорс моделях!
Да, магия Claude Code во многом держится на родных моделях Anthropic. Но! Всем нам знакомо чувство, когда AI выдал «немного не то» и нужно «ещё немного подправить», «а еще вот эту функцию причесать», «а ещё убрать сами следы вайб кода» и тут смотришь: бац, а подписка Max за 200 бачей улетела…
И в такие моменты задумываешься, а нафиг вообще я использовал Opus на этих задачах? Там бы и Квена простенького хватило.
Это не единственный сценарий. Иногда банально сидишь без интернета в самолете, а рука сама тянется промпт написать, а абонент временно недоступен…
Теперь же в обоих сценариях любимую многими разрабами IDE можно подключить к Ollama. А через Ollama можно в свою очередь подключить, например, GPT-OSS 20B или Qwen3-coder.
Делается все в два шага
1. Соединиться с Ollama
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
2. Запустить Claude Code с нужной моделью:
claude --model gpt-oss:20b
Рекомендуют использовать модельки с контекстным окном не меньше 64К.
Все! Все ключевые фичи Claude Code будут действовать как и раньше. По сути, Claude Code даже не знает, что вы заменили Opus на Квен
Кстати, это все касается не только Claude Code, но и любых аппов построенных на Anthropic SDK. Там так же в клиенте прописываете вместо ключа ‘ollama’ — и живете в счастье!
Есть нюансы: кое-что не заведется
Работает все, да не все:
- не считаются токены (вместо этого выдаются эстимейты)
- не поддержан принудительный выбор тула или его отключение
- не поддержана выдача метаданных
- не работает кеширование промптов
- не работает асинхронная обработка батчей
- не поддержаны цитаты
- не поддержаны PDF
- во время стриминга не летят ошибки
Все это, в целом, не критично, но начинает мешать, если речь заходит о полноценном агентном пайплайне (если строить его на SDK от Anthropic). Поддержат ли в будущем - не известно
Интересно, что одной рукой Anthropic массово блокировал доступ к своим моделям через Claude Code в сторонних приложениях, чтобы его не абьюзили. А в то же время благодаря Ollama теперь в итоге сам всасывает весь опенсорс. В итоге, и свои модели придержали, и расширился выбор для тех, кому было дорого
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8👍3🔥3 1 1
Manus Academy — пример того, что действительно нужно в обучении AI агентам
AI агенты умеют уже очень много всего. Но почему-то всегда сложно подобрать задачу для агента комплекснее, чем дип рисерч какой-то темы или задачки, типа найди информацию и напиши текст. Вот в чем загвоздка: наш мозг не имеет еще подходящих паттернов. И ему проще выполнять действия по накатанной.
Manus Academy пытаются создать новые нейронные связи в наших головах
В Академии не обучают кодингу агентов или сложным техническим аспектам. Там учат юзкейсам! Начиная от простого "что такое Manus AI", до специализированных курсов под профессии:
• Manus for Product Managers
• Manus for Business Analysts
• Manus for Finance
• На подходе для маркетологов
Начал проходить курс (хотя это громкое слово для 7 роликов по 2 минуты) для продактов. Подход внутри такой: берется типовая проблема, с которой сталкивается продакт и предлагается паттерн для ее решения. На скринкасте показывается, как задача решается в Manus. И доступен replay, чтобы вы сами могли воспроизвести диалог с агентом. Один из наиболее интересных примеров (где я сам не подумал бы юзать ИИ) — динамическая приоритизация задач!
Это не реклама Manus
И не только потому, что мне не заплатили за нее😁 Суть в том, что то, чему учат в "Академии" применимо в общем-то для любого AI агента, будь то ChatGPT, Genspark Superagent или даже агент встроенный в ваш браузер или какой-нибудь опенсорсный агент. Конечно, не все фичи будут одинаковыми: где-то Манус умеет больше, где-то другой агент. Но главное — это менять собственное мышление!
• Не "прочитать рабочий документ", а "получить саммари и сгенерировать табличку" на основе рабочего документа.
• Не "пересмотреть встречу", а "сгенерировать action plan и jira ticket автоматически"
• Не "подготовить отчет", а "настроить агента, который собирает еженедельный отчет"
• Не "накидать мокап", а "навайбкодить MVP приложения"
И для всего этого чаще всего не нужны никакие навыки, кроме как описать детально процесс того, что вам нужно сделать (промпт) и прожмакать соединение AI агента с нужными источниками (Google Workspace, Jira, Slack, Confluence, Figma и тд).
А для любителей сертфикатов — в Академии нужно сделать свой проект (⚠️ он будет публично досутпен, поэтому не слейте реальные рабочие данные). Поэтому небольшая практика в промптинге по сути тоже есть.
Build Club
Сама Академия построена в Build Club — системе, которая позволяет легко создавать подобные обучалки для AI провайдеров типа Мануса. Если провалиться в кроличью нору, то там еще есть отдельная академия Lovable (один из топовых инстурментов для вайб кодинга).
Главная мысль: главное научиться на делать AI агентов, а привыкнуть ими пользоваться. В этом скрыто ваше конкурентное преимущество как специалиста!
А какие у вас есть интересные юзкейсы для AI агентов?
#ИИученьесвет
Заместители
AI агенты умеют уже очень много всего. Но почему-то всегда сложно подобрать задачу для агента комплекснее, чем дип рисерч какой-то темы или задачки, типа найди информацию и напиши текст. Вот в чем загвоздка: наш мозг не имеет еще подходящих паттернов. И ему проще выполнять действия по накатанной.
Manus Academy пытаются создать новые нейронные связи в наших головах
В Академии не обучают кодингу агентов или сложным техническим аспектам. Там учат юзкейсам! Начиная от простого "что такое Manus AI", до специализированных курсов под профессии:
• Manus for Product Managers
• Manus for Business Analysts
• Manus for Finance
• На подходе для маркетологов
Начал проходить курс (хотя это громкое слово для 7 роликов по 2 минуты) для продактов. Подход внутри такой: берется типовая проблема, с которой сталкивается продакт и предлагается паттерн для ее решения. На скринкасте показывается, как задача решается в Manus. И доступен replay, чтобы вы сами могли воспроизвести диалог с агентом. Один из наиболее интересных примеров (где я сам не подумал бы юзать ИИ) — динамическая приоритизация задач!
Ситуация: Вы продакт менджер. Последние запросы CEO конфликтуют с OKR компании. А еще все меняется каждый день. Знакомо?
Решение: AI агент использует методологию RICE ((Reach x Impact x Confidence) / Effort), чтобы помочь приоритизировать задачи. Причем через коннектор он сам достает таски из Jira.
Паттерн: Всякий раз, когда имеешь дело с взаимозависимыми переменными — такими как бюджет, штат или конкурирующие цели, — строй модель, а не документ. Когда руководство меняет входные параметры, ты просто пересчитываешь результаты, а не переделываешь план с нуля.
Это не реклама Manus
И не только потому, что мне не заплатили за нее
• Не "прочитать рабочий документ", а "получить саммари и сгенерировать табличку" на основе рабочего документа.
• Не "пересмотреть встречу", а "сгенерировать action plan и jira ticket автоматически"
• Не "подготовить отчет", а "настроить агента, который собирает еженедельный отчет"
• Не "накидать мокап", а "навайбкодить MVP приложения"
И для всего этого чаще всего не нужны никакие навыки, кроме как описать детально процесс того, что вам нужно сделать (промпт) и прожмакать соединение AI агента с нужными источниками (Google Workspace, Jira, Slack, Confluence, Figma и тд).
А для любителей сертфикатов — в Академии нужно сделать свой проект (
Build Club
Сама Академия построена в Build Club — системе, которая позволяет легко создавать подобные обучалки для AI провайдеров типа Мануса. Если провалиться в кроличью нору, то там еще есть отдельная академия Lovable (один из топовых инстурментов для вайб кодинга).
Главная мысль: главное научиться на делать AI агентов, а привыкнуть ими пользоваться. В этом скрыто ваше конкурентное преимущество как специалиста!
А какие у вас есть интересные юзкейсы для AI агентов?
#ИИученьесвет
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥10❤4 4 2 2
This media is not supported in your browser
VIEW IN TELEGRAM
Ramble — этот апдейт заставил меня вернуться в Todoist
Todoist — это достаточно распространенный таск трекер. Я им стал пользоваться только потому, что мой друг в свое время всю свою жизнь там вел. Я и подумал: раз так удобно, попробую. Месяц страдал, тратил какое-то безумное количество времени на расписывание задач, потом стал сокращать, а потом просто забил. Муть какая-то, сидишь ставишь эти лейблы, создаешь проекты, выставляешь таймеры😱 Проще в заметки записать в одну строчку все! Так я и жил в базовых Apple заметках и горя не знал.
Но тут я вижу письмо от Todoist с апдейом — выкатили Ramble
И я сразу понял, что Ramble все поменяет. Они сделали AI агента, который наконец-то сам создает задачи из вашего потока мыслей и сам проставляет:
• хештеги
• метки проектов
• время выполнения задач
• таймеры
• приоритеты задач
Но больше всего порадовало, что это не игра в одни ворота. Я могу находу проверять, какие таски создает агент и с какими настройками и просить его что-то поменять. То есть это не просто LLM обработка — это настоящий агент, который знает, какие таски уже создал и понимает, что вы от него хотите.
Ах, да, чуть не забыл самое главное — это ГОЛОСОВОЙ агент😮 То есть вы просто надиктовываете свой план, а Ramble сам все раскидывает и редактирует прямо по ходу вашей диктовки.
Нельзя не упомянуть крутой UX
Как просиходит взаимодействие с агентом? — Одна кнопка! Просто нажал на иконоку диктовки и начинаешь бубнить как попало, а агент накидывает задачи, которые сразу появляются перед глазами. Работает как на компе, так и на телефоне.
TTS + LLM тоже шикарно исполняют
Можно затупить на несколько секунд, подумать, а агент тем временем усидчиво подождет. Можно "эээ-кать", он не будет это записывать. Можно наваливать поток мысли в полном беспорядке — в итоге все неплохо структурируется. Бонусом: шикарно работает на русском языке!
Мнение☕️
Отличный пример, когда AI агент закрывает реально болевую точку продукта. Вместо того, чтобы заставлять юзера заниматься протыкиванием всех лейблов и флажков — ему дали 1 точку входа для потока мыслей. А на выходе — то, за что мы любим таск трекеры — структурированный план!
Ramble уверенно занимает свое место в рядах Заместителей в качестве личного ассистента-планировщика. А вы можете потестить его совершенно бесплатно уже сейчас!☀️
#заместители
Заместители
Todoist — это достаточно распространенный таск трекер. Я им стал пользоваться только потому, что мой друг в свое время всю свою жизнь там вел. Я и подумал: раз так удобно, попробую. Месяц страдал, тратил какое-то безумное количество времени на расписывание задач, потом стал сокращать, а потом просто забил. Муть какая-то, сидишь ставишь эти лейблы, создаешь проекты, выставляешь таймеры
Но тут я вижу письмо от Todoist с апдейом — выкатили Ramble
И я сразу понял, что Ramble все поменяет. Они сделали AI агента, который наконец-то сам создает задачи из вашего потока мыслей и сам проставляет:
• хештеги
• метки проектов
• время выполнения задач
• таймеры
• приоритеты задач
Но больше всего порадовало, что это не игра в одни ворота. Я могу находу проверять, какие таски создает агент и с какими настройками и просить его что-то поменять. То есть это не просто LLM обработка — это настоящий агент, который знает, какие таски уже создал и понимает, что вы от него хотите.
Ах, да, чуть не забыл самое главное — это ГОЛОСОВОЙ агент
Нельзя не упомянуть крутой UX
Как просиходит взаимодействие с агентом? — Одна кнопка! Просто нажал на иконоку диктовки и начинаешь бубнить как попало, а агент накидывает задачи, которые сразу появляются перед глазами. Работает как на компе, так и на телефоне.
TTS + LLM тоже шикарно исполняют
Можно затупить на несколько секунд, подумать, а агент тем временем усидчиво подождет. Можно "эээ-кать", он не будет это записывать. Можно наваливать поток мысли в полном беспорядке — в итоге все неплохо структурируется. Бонусом: шикарно работает на русском языке!
Мнение
Отличный пример, когда AI агент закрывает реально болевую точку продукта. Вместо того, чтобы заставлять юзера заниматься протыкиванием всех лейблов и флажков — ему дали 1 точку входа для потока мыслей. А на выходе — то, за что мы любим таск трекеры — структурированный план!
Ramble уверенно занимает свое место в рядах Заместителей в качестве личного ассистента-планировщика. А вы можете потестить его совершенно бесплатно уже сейчас!
#заместители
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤14🔥8👍4 2 1
Походный AI на вашем iPhone
Пользоваться AI от вендоров типа ChatGPT не всегда получается, да и не все хотят. Я писал об этом вот тут. Вкратце — забота о приватности и экономия на подписке.
Для этого есть локальный AI. На компьютере установить его проще простого — Ollama. Но иногда комп доставать не сподручно. А на телефоне Ollama нет. И когда ты уже готов смириться и написать привычному ChatGPT — обнаруживаешь, что нет сети✋
Я вот столкнулся с этим в поездке дикарями кататься на коньках на озере Севан. Фотопруфы прилагаю⛸
И вот тут меня выручило годное приложение для локальной установки LLM на iPhone!
Locally AI
Полностью бесплатная приложуха, которая по подобию Ollama в один клик загружает опенсорсные модели прямо на ваш смартфон!
В описании каждой модельки написано:
- что за модель
- что она умеет: текст/вижен/thinking mode
- сколько она весит
- какие модели подходят для какого телефона.
Потестил несколько моделей. Ну и могу сказать, что меньше Gemma 4B — все баловство. А вот Gemma 3n E4B — отвечает шикарно. На простых вопросах вполне сопоставимо с большими моделями!
- Сориентировала меня на каком льду можно кататься, а на каком не стоит.
- Помогла там, где беспомощен обычный гугл транслейт: мне оператор прислал транслитом сообщение на армянском. Gemma его легко перевела!
- А в ресторане помогла разобраться, что там за блюдо подают и какое у него БЖУ. И все это без сети!
Так что теперь это моя походная моделька. Всегда со мной на телефоне👍
Заместители
Пользоваться AI от вендоров типа ChatGPT не всегда получается, да и не все хотят. Я писал об этом вот тут. Вкратце — забота о приватности и экономия на подписке.
Для этого есть локальный AI. На компьютере установить его проще простого — Ollama. Но иногда комп доставать не сподручно. А на телефоне Ollama нет. И когда ты уже готов смириться и написать привычному ChatGPT — обнаруживаешь, что нет сети
Я вот столкнулся с этим в поездке дикарями кататься на коньках на озере Севан. Фотопруфы прилагаю
И вот тут меня выручило годное приложение для локальной установки LLM на iPhone!
Locally AI
Полностью бесплатная приложуха, которая по подобию Ollama в один клик загружает опенсорсные модели прямо на ваш смартфон!
В описании каждой модельки написано:
- что за модель
- что она умеет: текст/вижен/thinking mode
- сколько она весит
- какие модели подходят для какого телефона.
Потестил несколько моделей. Ну и могу сказать, что меньше Gemma 4B — все баловство. А вот Gemma 3n E4B — отвечает шикарно. На простых вопросах вполне сопоставимо с большими моделями!
- Сориентировала меня на каком льду можно кататься, а на каком не стоит.
- Помогла там, где беспомощен обычный гугл транслейт: мне оператор прислал транслитом сообщение на армянском. Gemma его легко перевела!
- А в ресторане помогла разобраться, что там за блюдо подают и какое у него БЖУ. И все это без сети!
Так что теперь это моя походная моделька. Всегда со мной на телефоне
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤15👍12🔥5 1 1
Не промптом единым богаты: как строить stateful AI агентов
Продолжаем курс про AI агентов. Серия 3.1 Context Engineering, Sessions, Memory
Если вы освоили промпт-инжиниринг, то вы уже большой молодец. Но как только вы хотите сделать сколько-нибудь умного агента, вы столкнетесь с проблемой – просто промпта недостаточно. Вам нужно, чтобы агент запоминал и потом использовал доп информацию. Это называется инжиниринг контекста.
В UI любой современной LLM эта проблема решена за вас в рамках 1 чата, группы чатов (как в "проектах" в ChatGPT) или в целом для вас как юзера (загляните в настройки профиля в вашей LLM в раздел "memories"). Но если вы строите собсвтенного агента — то вам придется нырнуть глубже в кроличью нору. Так что ныряем👌
Теория
Stateful — означает, что система помнит, что было раньше. По сути, именно к таким агентам мы чаще всего и стремимся. А stateless — это базовое состояние LLM. Она ничего не помнит и не знает за пределами одного своего расчета. То есть ответила на ваш вопрос, а следующий запрос — с чистого листа.
Так вот чтобы построить stateful агента нам понадобятся 3 компонента:
1. Инжиниринг контекста (Context Engineering) — подготовка и управление информацией, которая передается в LLM в рамках ее контекстного окна (=1 запроса)
2. Работа с сессиями (Session) — контейнер, который содержит историю всего диалога с LLM.
3. Работа с памятью (Memory) — механизмом, который позволяет организованно и долгосрочно хранить информацию из нескольких сессий.
Context Engineering
Чтобы помочь агенту добиться воспроизводимого качественного результата, например, для ризонинга мы наполним его контекстное окно:
• Системным промптом
• Определением тулов, которые он может дергать
• Few-Shot примерами ожидаемого результата
Для разных задач наполнение контекстного окна будет разным.
Цикл управления контекстом состоит из трех шагов:
1. Собрать необходимый контекст под конкретный запрос юзера (воспоминания, файлы и тд)
2. Собрать промпт из собранного контекста
3. Дернуть LLM и тулы, чтобы подготовить ответ пользователю
4. Загрузить получившийся контекст во временное харнилище (сессию). А потом и постоянное хранилище — память.
Sessions
Сессии — это фундаментальный блок беседы с агентом. Она состоит из:
• Событий — сообщений юзера и агента, вызова тулов, полученных данных и тд.
• Состояний — это краткосрочная память агента в рамках одной беседы. По мере развития беседы агент будет дополнять эту память событиями.
За одну сессию можно во много раз переполнить контекстное окно модели. Поэтому приходится выбирать, что оставить, а что обрезать. Для этого есть пара подходов:
• Оставить N последних событий или X токенов в контексте
• Рекурсивная суммаризация — старые части переписки суммаризуются и передаются в контекст в сжатом виде.
Memory
Память очень похожа по устройству на Сессии, но она долгосрочная. Это то, что агент запомнит навсегда (пока не почистят память).
Хранят воспоминания в разных форматах. Распространены два вида:
• Векторные БД — в них воспоминания находятся по семантической близости к запросу юзера. Подходит, когда заранее не понятно, какая будет структура воспоминаний.
• Графовые БД — из воспоминаний строится граф, где воспоминание это нода, а ребро — это связь между нодами. Подходит для случаев, где нужно больше структуры.
Чтобы менеджить воспоминания могут использоваться как встроенные во фреймворк (типа ADK) инстурменты, так и использовать внешние инструменты (типа Agent Engine Memory Bank, Mem0). А сам асинхронный цикл генерации памяти выглядит так:
• Извлечение и фильтрация — менеджер памяти использует LLM, чтобы из предоставленного контекста (истории сообщений) извлечь инфу по выбранному разработчиком топику ("описание юзера").
• Консолидация и сохранение — менеджер памяти сравнивает извлеченные знания и обновляет память (создает новые, редактирует или удаляет воспоминания).
Ну и я крайне рекомендую почитать оригинальный whitepaper, на базе которого был сделан этот пост. Ибо я попытался вынести самое важное из документа на 70 страниц...😁
Теперь покодим!
#ИИученьесвет
Продолжаем курс про AI агентов. Серия 3.1 Context Engineering, Sessions, Memory
Если вы освоили промпт-инжиниринг, то вы уже большой молодец. Но как только вы хотите сделать сколько-нибудь умного агента, вы столкнетесь с проблемой – просто промпта недостаточно. Вам нужно, чтобы агент запоминал и потом использовал доп информацию. Это называется инжиниринг контекста.
В UI любой современной LLM эта проблема решена за вас в рамках 1 чата, группы чатов (как в "проектах" в ChatGPT) или в целом для вас как юзера (загляните в настройки профиля в вашей LLM в раздел "memories"). Но если вы строите собсвтенного агента — то вам придется нырнуть глубже в кроличью нору. Так что ныряем
Теория
Stateful — означает, что система помнит, что было раньше. По сути, именно к таким агентам мы чаще всего и стремимся. А stateless — это базовое состояние LLM. Она ничего не помнит и не знает за пределами одного своего расчета. То есть ответила на ваш вопрос, а следующий запрос — с чистого листа.
Так вот чтобы построить stateful агента нам понадобятся 3 компонента:
1. Инжиниринг контекста (Context Engineering) — подготовка и управление информацией, которая передается в LLM в рамках ее контекстного окна (=1 запроса)
2. Работа с сессиями (Session) — контейнер, который содержит историю всего диалога с LLM.
3. Работа с памятью (Memory) — механизмом, который позволяет организованно и долгосрочно хранить информацию из нескольких сессий.
Context Engineering
Чтобы помочь агенту добиться воспроизводимого качественного результата, например, для ризонинга мы наполним его контекстное окно:
• Системным промптом
• Определением тулов, которые он может дергать
• Few-Shot примерами ожидаемого результата
Для разных задач наполнение контекстного окна будет разным.
Цикл управления контекстом состоит из трех шагов:
1. Собрать необходимый контекст под конкретный запрос юзера (воспоминания, файлы и тд)
2. Собрать промпт из собранного контекста
3. Дернуть LLM и тулы, чтобы подготовить ответ пользователю
4. Загрузить получившийся контекст во временное харнилище (сессию). А потом и постоянное хранилище — память.
Sessions
Сессии — это фундаментальный блок беседы с агентом. Она состоит из:
• Событий — сообщений юзера и агента, вызова тулов, полученных данных и тд.
• Состояний — это краткосрочная память агента в рамках одной беседы. По мере развития беседы агент будет дополнять эту память событиями.
За одну сессию можно во много раз переполнить контекстное окно модели. Поэтому приходится выбирать, что оставить, а что обрезать. Для этого есть пара подходов:
• Оставить N последних событий или X токенов в контексте
• Рекурсивная суммаризация — старые части переписки суммаризуются и передаются в контекст в сжатом виде.
Memory
Память очень похожа по устройству на Сессии, но она долгосрочная. Это то, что агент запомнит навсегда (пока не почистят память).
Хранят воспоминания в разных форматах. Распространены два вида:
• Векторные БД — в них воспоминания находятся по семантической близости к запросу юзера. Подходит, когда заранее не понятно, какая будет структура воспоминаний.
• Графовые БД — из воспоминаний строится граф, где воспоминание это нода, а ребро — это связь между нодами. Подходит для случаев, где нужно больше структуры.
Чтобы менеджить воспоминания могут использоваться как встроенные во фреймворк (типа ADK) инстурменты, так и использовать внешние инструменты (типа Agent Engine Memory Bank, Mem0). А сам асинхронный цикл генерации памяти выглядит так:
• Извлечение и фильтрация — менеджер памяти использует LLM, чтобы из предоставленного контекста (истории сообщений) извлечь инфу по выбранному разработчиком топику ("описание юзера").
• Консолидация и сохранение — менеджер памяти сравнивает извлеченные знания и обновляет память (создает новые, редактирует или удаляет воспоминания).
Ну и я крайне рекомендую почитать оригинальный whitepaper, на базе которого был сделан этот пост. Ибо я попытался вынести самое важное из документа на 70 страниц...
Теперь покодим!
#ИИученьесвет
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7 3❤1 1 1
Практика
Наша задача построить агента, который может запоминать происходящее в рамках сессии и переживать рестарт, возвращаясь к сессии.
1. Как обычно копируем и запускаем поэтапно ноутбук, в котором уже все готово. Как всегда, нужно настроить GOOGLE_API. После чего можно прокликать первую секцию ноутбука — там устанавливается ADK и написаны разные вспомогательные функции. Дальше интересное.
Раньше мы уже импортировали☕️
InMemorySessionService — управляет данными в рамках сессии. В ADK несколько вариантов этих сервисов.
Runner — оркестратор, который управляет потоком данных между агентом и юзером и собственно занимается инжинирингом контекста.
2. Запускаем секции 2.4 и 2.5. Там демонстрируется работа обычного InMemorySessionService. Подается два сообщения по порядку. В первом юзер представляется. А во втором спрашивает агента, как его зовут — агент корректно отвечает, потому что InMemorySessionService сохранил сообщение юзера в стейте.
Чтобы увидеть, как работает память внутри сессии (и не работает за ее пределами) можно запустить секцию 2.6 сразу — агент снова скажет как зовут юзера. Но если вы перезапустите ноутбук и пропустите запуск сессии, то естессно голая LLM не скажет как зовут юзера.
3. Переходим к примеру постоянных сессий с использованием баз данных:
Все благодаря двум строчкам, которые определяют в рамках сессии БД:
Тут БДшка создается сама, но в реальной жизни вам придется ее развернуть своими руками. Запускаем ячейку 3.2 — агент с БД создан.
Тестируем: запускаем ячейку 3.3 — юзер снова представился агенту, это все записалось в сессии под именем
Соответсвенно, если поменять имя сессии — то агент ничего не вспомнит.
А в ячейке 3.6 можете посмотреть, как данные хранятся в БД.
4. Когда сообщений в БД накапливается слишком много (а происходит это быстро) — мы начинаем сжимать воспоминания. Делаем это банально с помощью суммаризации. В ADK для этого есть отдельный механизм внутри приложения, в котором находится агент:
В ячейке 4.1 показано как создается такой конфиг. Прокликайте до 4.3 включительно: там вы увидите в каком виде саммари создается и заменяет в контексте агента суммаризованную информацию. Вы можете настраивать как часто запускать суммаризацию (каждые N запусков/токенов и тд). В документации ADK описано детальнее как еще можно управлять суммаризацией. Смысл везде будет схожий.
5. В секции 5 демонстрируется, как управлять внутри сессии стейтом (state). Для этого используется объект
Соответсвенно в ячейке 5.2 создается агент, которому в качестве тулов передаются эти две фнукции. И теперь агент может сам решать, когда записывать инфу, например имя и страну пользователя, а когда ее доставать. Потестить это можно в ячейках 5.3-5.5.
А еще можно шарить state между сессиями в рамках одного юзера и аппки. Это показано в ячейке 5.6.
Ну что, вы пережили прямо таки глубокое погружение в агентов — так держать! А в следующей серии разберем долгосрочную память. Stay tuned😎
#ИИученьесвет
Заместители
Наша задача построить агента, который может запоминать происходящее в рамках сессии и переживать рестарт, возвращаясь к сессии.
1. Как обычно копируем и запускаем поэтапно ноутбук, в котором уже все готово. Как всегда, нужно настроить GOOGLE_API. После чего можно прокликать первую секцию ноутбука — там устанавливается ADK и написаны разные вспомогательные функции. Дальше интересное.
Раньше мы уже импортировали
google.adk.sessions.InMemorySessionServiceи
google.adk.runners.Runner, но сегодня мы делаем это осознанно
InMemorySessionService — управляет данными в рамках сессии. В ADK несколько вариантов этих сервисов.
Runner — оркестратор, который управляет потоком данных между агентом и юзером и собственно занимается инжинирингом контекста.
2. Запускаем секции 2.4 и 2.5. Там демонстрируется работа обычного InMemorySessionService. Подается два сообщения по порядку. В первом юзер представляется. А во втором спрашивает агента, как его зовут — агент корректно отвечает, потому что InMemorySessionService сохранил сообщение юзера в стейте.
Чтобы увидеть, как работает память внутри сессии (и не работает за ее пределами) можно запустить секцию 2.6 сразу — агент снова скажет как зовут юзера. Но если вы перезапустите ноутбук и пропустите запуск сессии, то естессно голая LLM не скажет как зовут юзера.
3. Переходим к примеру постоянных сессий с использованием баз данных:
google.adk.sessions.DatabaseSessionService. Так воспоминания переживут перезапуск, тк агент сохранит память в БД (тут — в SQLite). В секции 3 запускаем такого агента.
Все благодаря двум строчкам, которые определяют в рамках сессии БД:
session_service = DatabaseSessionService(db_url=db_url)
Тут БДшка создается сама, но в реальной жизни вам придется ее развернуть своими руками. Запускаем ячейку 3.2 — агент с БД создан.
Тестируем: запускаем ячейку 3.3 — юзер снова представился агенту, это все записалось в сессии под именем
"test-db-session-01"в БД. Вы можете полностью выключить ноутбук и снова его прокликать, но пропустить шаг 3.3 — и запустить сразу 3.4, где у агента снова спрашивают как зовут юзера и дают указание на сессию
"test-db-session-01"— агент успешно вытаскивает имя пользователя из БД. Вот в этом сила сохранения в БД!
Соответсвенно, если поменять имя сессии — то агент ничего не вспомнит.
А в ячейке 3.6 можете посмотреть, как данные хранятся в БД.
4. Когда сообщений в БД накапливается слишком много (а происходит это быстро) — мы начинаем сжимать воспоминания. Делаем это банально с помощью суммаризации. В ADK для этого есть отдельный механизм внутри приложения, в котором находится агент:
google.adk.apps.app.EventsCompactionConfig
В ячейке 4.1 показано как создается такой конфиг. Прокликайте до 4.3 включительно: там вы увидите в каком виде саммари создается и заменяет в контексте агента суммаризованную информацию. Вы можете настраивать как часто запускать суммаризацию (каждые N запусков/токенов и тд). В документации ADK описано детальнее как еще можно управлять суммаризацией. Смысл везде будет схожий.
5. В секции 5 демонстрируется, как управлять внутри сессии стейтом (state). Для этого используется объект
google.adk.tools.tool_context.ToolContext. С помощью функции
save_userinfoв него записывается инфа, а с помощью функции
retrieve_userinfoона достается.
Соответсвенно в ячейке 5.2 создается агент, которому в качестве тулов передаются эти две фнукции. И теперь агент может сам решать, когда записывать инфу, например имя и страну пользователя, а когда ее доставать. Потестить это можно в ячейках 5.3-5.5.
А еще можно шарить state между сессиями в рамках одного юзера и аппки. Это показано в ячейке 5.6.
Ну что, вы пережили прямо таки глубокое погружение в агентов — так держать! А в следующей серии разберем долгосрочную память. Stay tuned
#ИИученьесвет
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍8❤2⚡1🔥1 1
Media is too big
VIEW IN TELEGRAM
Говорливый AI приближает всевидящих роботов
Когда создаются AI боты для звонков — на бумаге все гладко. Все демки выглядят волшебно. Но в реальной жизни разработчики сталкиваются с банальной проблемой — все эти боты звучат неестественно. Они легко сбиваются, когда юзер их перебивает, делают паузы, чтобы "переварить" речь юзера и наоборот невпопад начинают диалог после странных пауз. В общем звучит это все достаточно очевидно эй-айно.
Исправляют это костылями — в отдельном аудио канале запускают фоновый шум, добавляют паузы в скрипты боту, добавляют междометия типа "эээ", "гм" и тд. Все, чтобы срезать углы и добиться более естественного флоу диалога.
В 2024 году выкатили базовую модель Moshi на 7B параметров. Вот тут можно поговорить с ней, правда говорит она только на инглише. Такие модели называют "full duplex" — они одновременно могут и слушать и говорить, не теряя нить разговора. Собственно, как и человеки!
Дальше по этому пути потянулись и другие. Предположительно в голосовых GPT и Gemini используется нечто похожее — точную архитектуру они не раскрывают. Но на мой взгляд, все равно присутствует это кринжовая пауза. ChatGPT Voice обычно не перебивает и не "забирает микрофон" у юзера, хоть и отвечает с минимальной задержкой. Зашитое ли это правило "вежливости" или ограничение модели — неясно.
Буквально в ноябре 2025 Liquid выпустили свою базовую модель LFM 2 Audio-1.5B. Почему-то по метрикам она выше, чем Moshi. На практике попробуйте сами поболтать. У меня она жестко тупит. Но она опенсорсная — а кто мы такие, чтобы осуждать опенсорсные модели?! В каждом саду нужны разные цветы (кхм, или как там говорят😈 ).
И вот на днях Nvidia релизнула свою модельку, которая построена на основе Moshi — PersonaPlex 7B. Поговорить с ней негде. Надо разворачивать для этого. Но можно посмотреть и послушать демки от разработчиков. Ключевое преимущество перед самой Moshi — это жесткое следование "роли". При этом есть вариабельность и самих голосов. И самое приятное — это опенсорс. Поэтому можно забирать ее на HuggingFace и использовать в своем проекте. С точки зрения флоу диалога — звучит она, пожалуй, наиболее естественно из всех имеющихся на рынке (если не обвешивать их свистульками, как я описывал выше, а сравнивать сырые модели). Перебивает, "активно слушает", отбирает реплику у юзера, как это делал бы человек. И при этом отыгрывает свою роль.
Куда это все движется?
Задался я вопросом. И ответил себе: очевидно, сначала к неотличимым от реальных людей AI-собеседникам. Модельки будут не просто звучать естественно, они будут поддерживать естественную для человека динамику разговора.
Дальше интереснее. Параллельно этому будут развиваться мультимодальные модельки, которые генерят и воспринимают видео+аудио по такому же принципу "full duplex". Активный рисерч в этом направлении уже идет. Тогда у вас в зуме будет не просто бот, который замолкает от каждого вашего звука, а полноценный собеседник, который по ощущениям будет иногда "пушить" вам свою реплику, а еще будет одновременно следить за вашими эмоциями на лице, за вашим окружением и моментально на это реагировать. Представьте, вы что-то говорите, к вам в кадр запрыгивает ваш кот — и ИИ собеседник, видя это, перебивает вас и говорит "оуууу, какой пушистик!". Точно, как сделал бы ваш друг.
Тут же можно прикинуть, что будет дальше. А дальше это все дополниться аналогичными моделями для данных с сенсоров и загрузится на роботов.
Так сейчас неуклюжие роботы, в будущем получат инструменты для взаимодействия с миром скорее всего лучше, чем у человека, т.к. не будут ограничены "вниманием", как человек. Мозг человека, как вы знаете, намеренно не обрабатывает большую часть информации, поступающей через органы восприятия, чтобы не перегреть котелок. А у робота такого ограничения не будет. Всеобъемлющее восприятие + моментальный учет всего и реакция на опережение.
На практике: робот который все видит, слышит, чувствует, знает и предсказывает ваши движения, желания и намерения.
Во, как меня занесло с простого релиза модельки Nvidia😁
Заместители
Когда создаются AI боты для звонков — на бумаге все гладко. Все демки выглядят волшебно. Но в реальной жизни разработчики сталкиваются с банальной проблемой — все эти боты звучат неестественно. Они легко сбиваются, когда юзер их перебивает, делают паузы, чтобы "переварить" речь юзера и наоборот невпопад начинают диалог после странных пауз. В общем звучит это все достаточно очевидно эй-айно.
Исправляют это костылями — в отдельном аудио канале запускают фоновый шум, добавляют паузы в скрипты боту, добавляют междометия типа "эээ", "гм" и тд. Все, чтобы срезать углы и добиться более естественного флоу диалога.
В 2024 году выкатили базовую модель Moshi на 7B параметров. Вот тут можно поговорить с ней, правда говорит она только на инглише. Такие модели называют "full duplex" — они одновременно могут и слушать и говорить, не теряя нить разговора. Собственно, как и человеки!
Дальше по этому пути потянулись и другие. Предположительно в голосовых GPT и Gemini используется нечто похожее — точную архитектуру они не раскрывают. Но на мой взгляд, все равно присутствует это кринжовая пауза. ChatGPT Voice обычно не перебивает и не "забирает микрофон" у юзера, хоть и отвечает с минимальной задержкой. Зашитое ли это правило "вежливости" или ограничение модели — неясно.
Буквально в ноябре 2025 Liquid выпустили свою базовую модель LFM 2 Audio-1.5B. Почему-то по метрикам она выше, чем Moshi. На практике попробуйте сами поболтать. У меня она жестко тупит. Но она опенсорсная — а кто мы такие, чтобы осуждать опенсорсные модели?! В каждом саду нужны разные цветы (кхм, или как там говорят
И вот на днях Nvidia релизнула свою модельку, которая построена на основе Moshi — PersonaPlex 7B. Поговорить с ней негде. Надо разворачивать для этого. Но можно посмотреть и послушать демки от разработчиков. Ключевое преимущество перед самой Moshi — это жесткое следование "роли". При этом есть вариабельность и самих голосов. И самое приятное — это опенсорс. Поэтому можно забирать ее на HuggingFace и использовать в своем проекте. С точки зрения флоу диалога — звучит она, пожалуй, наиболее естественно из всех имеющихся на рынке (если не обвешивать их свистульками, как я описывал выше, а сравнивать сырые модели). Перебивает, "активно слушает", отбирает реплику у юзера, как это делал бы человек. И при этом отыгрывает свою роль.
Куда это все движется?
Задался я вопросом. И ответил себе: очевидно, сначала к неотличимым от реальных людей AI-собеседникам. Модельки будут не просто звучать естественно, они будут поддерживать естественную для человека динамику разговора.
Дальше интереснее. Параллельно этому будут развиваться мультимодальные модельки, которые генерят и воспринимают видео+аудио по такому же принципу "full duplex". Активный рисерч в этом направлении уже идет. Тогда у вас в зуме будет не просто бот, который замолкает от каждого вашего звука, а полноценный собеседник, который по ощущениям будет иногда "пушить" вам свою реплику, а еще будет одновременно следить за вашими эмоциями на лице, за вашим окружением и моментально на это реагировать. Представьте, вы что-то говорите, к вам в кадр запрыгивает ваш кот — и ИИ собеседник, видя это, перебивает вас и говорит "оуууу, какой пушистик!". Точно, как сделал бы ваш друг.
Тут же можно прикинуть, что будет дальше. А дальше это все дополниться аналогичными моделями для данных с сенсоров и загрузится на роботов.
Так сейчас неуклюжие роботы, в будущем получат инструменты для взаимодействия с миром скорее всего лучше, чем у человека, т.к. не будут ограничены "вниманием", как человек. Мозг человека, как вы знаете, намеренно не обрабатывает большую часть информации, поступающей через органы восприятия, чтобы не перегреть котелок. А у робота такого ограничения не будет. Всеобъемлющее восприятие + моментальный учет всего и реакция на опережение.
На практике: робот который все видит, слышит, чувствует, знает и предсказывает ваши движения, желания и намерения.
Во, как меня занесло с простого релиза модельки Nvidia
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6 6🤔5❤2 2 1
Media is too big
VIEW IN TELEGRAM
OpenAI презентовали Prism — здравствуй Junk Science или вайб-написание научных статей?
OpenAI презентовали, по сути, IDE для написания научных статей на LaTeX со встроенным AI агентом — Prism. Любой, кто попробовал LaTeX, не может остаться к нему равнодушным — и либо влюбляется в него, либо его ненавидит. Для остальных поясню — это язык верстки PDF документов, который стал стандартом в написании статей для публикации в научных журналах.
Так вот OpenAI поглотили стартап Crixet, и на его базе выкатили Prism. И теперь вы можете написать такую статью в красивом LaTeX оформлении вообще не зная LaTeX. Потому что за вас его напишет AI агент👌
Тестим-с
Все что нужно — это описать, о чем вы хотите написать или вставить текст. У меня как раз лежал такой текст, который я решил оформить в статью. Загрузил его, а дальше AI агент:
• оформил текст в LaTeX код
• сделал рерайт текста
• по моей команде внес правки в документ
• подсветил в явном виде, какие изменения были сделаны по строчкам
• я ему подгрузил скриншот таблички из обзора литературы, который делал, когда показывал вам как работает Consensus — AI агент распознал инфу на скриншоте и сгенерил табличку с данными с картинки в LaTeX.
Есть странный косяк: когда включаешь Voicemode — голосовой агент работает просто как транскрибатор моей команды, которая передается в чат и успешно исполняется. В то же время сам голосовой агент об этом ничего не знает и прямо в этот же момент противным голосом справшивает: а куда, мол, правки то вносить? — Дай текст, дядя!
UX очень приятный и продуманный. Видно, что работа с агентами для кодинга не прошла мимо. У вас есть проект, в нем файлы, и файл main — который и компилируется в PDF справа в специальном вьюере. AI можно вызвать как к конкретной строчке кода, так и использовать его как агента, который в курсе обо всех файлах внутри проекта.
При этом проект можно пошарить с коллегами, которые могут работать вместе с вами над одной статьей. Ну, мед!
Что теперь будет с научными статьями?
Соблазн юзать LLM для написания статей был итак велик. Но можно себя было бить по рукам, успокаивать, что я только грамматику проверю. А инструменты типа Consensus тем и хороши, что они не пишут статью — они помогают найти информацию для этого.
Теперь же устоять будет невозможно! Писать статью в Prism, уверен, станет стандартом. Слишком уж это удобно. А значит AI станет повсеместным напарником в их написании. И, вангую, мусорных AI статей прирастет прямо знатно!
Теперь OpenAI нужно идти к редакторам журналов и продавать им таблетку от собственноручно запущенного вируса: "поможем сделать факт чек и написать рецензию на статьи, которые внезапно все стали бессовестно генерить в LLM"💰
Кто-то может сказать: "А что плохого-то в том, что статьи пишут с помощью LLM? Чем статья хуже кода, где это только приветствуется?" На это у меня два ответа:
Во-первых, в научных статьях нет тестирования, как в коде. Нет такого, что ты сгенерил фуфельную статью, а она "не запускается". Тут ровно наоборот — пыль в глаза накидал и куча неверных деталей спокойно пролетает мимо ревьюеров.
Во-вторых, Junk Science это уже случившийся факт. Количество статей с использованием LLM за последние годы прирастает двухзначными (а некоторые рапортуют и трехзначными) цифрами. При этом научная новизна в них не растет, а цитируемость статей растет (т.к. AI лучше находит релевантные статьи). То есть ученые с помощью LLM просто переписывают и цитируют друг друга. Почему? А потому что ученые дуреют с весьма конкретной прикормки — с цитируемости. А значит цель написать не качественную статью, а статью, которую будут цитировать. А, как известно, LLM лучше всего цитируют тексты, которые пишут другие LLM (посмотрите, куда это привело vc.ru — там алгоритмы разгоняют LLM-слоп только в путь💸 ). Получается: генери статьи с помощью LLM, чтобы чужие LLM потом цитировали тебя — профит 📈
А вы что думаете — AI написание статей — упрощение жизни и благо или тупиковая ветвь развития научных публикаций?
#заместители
Заместители
OpenAI презентовали, по сути, IDE для написания научных статей на LaTeX со встроенным AI агентом — Prism. Любой, кто попробовал LaTeX, не может остаться к нему равнодушным — и либо влюбляется в него, либо его ненавидит. Для остальных поясню — это язык верстки PDF документов, который стал стандартом в написании статей для публикации в научных журналах.
Так вот OpenAI поглотили стартап Crixet, и на его базе выкатили Prism. И теперь вы можете написать такую статью в красивом LaTeX оформлении вообще не зная LaTeX. Потому что за вас его напишет AI агент
Тестим-с
Все что нужно — это описать, о чем вы хотите написать или вставить текст. У меня как раз лежал такой текст, который я решил оформить в статью. Загрузил его, а дальше AI агент:
• оформил текст в LaTeX код
• сделал рерайт текста
• по моей команде внес правки в документ
• подсветил в явном виде, какие изменения были сделаны по строчкам
• я ему подгрузил скриншот таблички из обзора литературы, который делал, когда показывал вам как работает Consensus — AI агент распознал инфу на скриншоте и сгенерил табличку с данными с картинки в LaTeX.
Есть странный косяк: когда включаешь Voicemode — голосовой агент работает просто как транскрибатор моей команды, которая передается в чат и успешно исполняется. В то же время сам голосовой агент об этом ничего не знает и прямо в этот же момент противным голосом справшивает: а куда, мол, правки то вносить? — Дай текст, дядя!
UX очень приятный и продуманный. Видно, что работа с агентами для кодинга не прошла мимо. У вас есть проект, в нем файлы, и файл main — который и компилируется в PDF справа в специальном вьюере. AI можно вызвать как к конкретной строчке кода, так и использовать его как агента, который в курсе обо всех файлах внутри проекта.
При этом проект можно пошарить с коллегами, которые могут работать вместе с вами над одной статьей. Ну, мед!
Что теперь будет с научными статьями?
Соблазн юзать LLM для написания статей был итак велик. Но можно себя было бить по рукам, успокаивать, что я только грамматику проверю. А инструменты типа Consensus тем и хороши, что они не пишут статью — они помогают найти информацию для этого.
Теперь же устоять будет невозможно! Писать статью в Prism, уверен, станет стандартом. Слишком уж это удобно. А значит AI станет повсеместным напарником в их написании. И, вангую, мусорных AI статей прирастет прямо знатно!
Теперь OpenAI нужно идти к редакторам журналов и продавать им таблетку от собственноручно запущенного вируса: "поможем сделать факт чек и написать рецензию на статьи, которые внезапно все стали бессовестно генерить в LLM"
Кто-то может сказать: "А что плохого-то в том, что статьи пишут с помощью LLM? Чем статья хуже кода, где это только приветствуется?" На это у меня два ответа:
Во-первых, в научных статьях нет тестирования, как в коде. Нет такого, что ты сгенерил фуфельную статью, а она "не запускается". Тут ровно наоборот — пыль в глаза накидал и куча неверных деталей спокойно пролетает мимо ревьюеров.
Во-вторых, Junk Science это уже случившийся факт. Количество статей с использованием LLM за последние годы прирастает двухзначными (а некоторые рапортуют и трехзначными) цифрами. При этом научная новизна в них не растет, а цитируемость статей растет (т.к. AI лучше находит релевантные статьи). То есть ученые с помощью LLM просто переписывают и цитируют друг друга. Почему? А потому что ученые дуреют с весьма конкретной прикормки — с цитируемости. А значит цель написать не качественную статью, а статью, которую будут цитировать. А, как известно, LLM лучше всего цитируют тексты, которые пишут другие LLM (посмотрите, куда это привело vc.ru — там алгоритмы разгоняют LLM-слоп только в путь
А вы что думаете — AI написание статей — упрощение жизни и благо или тупиковая ветвь развития научных публикаций?
#заместители
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤11👍7 3🔥1 1 1
Есть чему поучиться: OpenAI рассказали, как сделали внутреннего AI агента для анализа данных
Буквально вчера OpenAI выложили статью, которая сразу вошла в must-read для меня и моей команды. Они разложили по полочкам, как работает их внутренний AI агент, котрого используют сотрудники OpenAI, чтобы анализировать петабайты данных, с которыми работают в компании, без кода! Разбираем!
Что за аналитик данных?
В OpenAI идет работа с 600 петабайтами (=614 400 терабайт) или 70К датасетов. Представьте какая жесть новому, или даже старому сотруднику, разобраться, где искать какие данные, чем отличается одна табличка от другой и тд.
AI агент — это и есть умная прослойка, которая помогает не только найти нужные данные, но и узнать все необходимое об этих данных и даже сразу проанализировать. Юзеру остается правильно формулировать вопросы на человеческом языке☀️
Архитектура у агента верхнеуровнево очевидная: есть БДшки, из которых AI агент тянет данные, анализирует их, проверяет себя и выдает результат юзеру. Но самая магия начинается в правильном контекст-инжиниринге. Кто хочет глубже разобраться в построении контекста — как раз недавно был про это пост✋
6 уровней контекста
Так вот сила агента в том, что его контекст строится из 6 уровней:
1. Использование таблиц. Агенту, естессно, доступны метаданные о таблицах и колонках. Но еще важнее — он может подглядеть в историю SQL-запросов к этим табличкам, чтобы понять, как их обычно строят, как джоинят разные таблички и тд.
2. Семантический слой. Оно же человеческое описание всех табличек, колонок, сущностей, в которых отражается смысл, связи, бизнес-значния.
3. Обогащение кодом. Агенту дается не только описание табличек и SQL запросы, но и кодовая база, где эти таблички используются. Из нее агент лучше понимает контекст применения табличек в реальных исследованиях, продуктах и тд.
4. Институциональные знания. У агента есть доступ к знаниям в Slack, Google Docs, Notion — системам в которых OpenAI хранят ключевые знания о происходящем в системах и данных. То есть агент оттуда может узнавать статус работы систем, инфу о сбоях, глоссарий и тд. Все доступы к документам определяются на уровне пользователя, а не агента. То есть агент тут просто как интерфейс взаимодействия с acсess management system.
5. Память. Агент запоминает инсайты по тому, как пользоваться данными. И сохраняет их либо на глобальном уровне, либо на уровне юзера. Интересно, что сохраняет он их с одобрения юзера. Таким образом память не засоряется фигней.
6. Контекст рантайма. Все предыдущие знания готовятся заранее в оффлайне. Но иногда их не хватает (или их просто нет) — тогда агент может написать прямо в рамках текущего запуска квери к табличке или системе метаданных и собрать нужную информацию, так сказать, без подготовки.
Многим кажется, что агенты работают как магический черный ящик — загрузил в него все данные, а он сразу выплюнул то, что нужно. Но это не так. Я постоянно сталкиваюсь с этим недопониманием. Построение реально работающих агентных систем — это квест, в котором много подготовительной работы, много слоев контекста, много инфраструктурной работы, работы с данными. На выходе получается большой и сложный механизм, но именно тогда оно начинает работать.
Это не значит, что сразу нужно пытаться построить такую кракозябру. Начинать нужно, как всегда, с малого. Но и результаты будут соответствующие, поэтому умерьте ожидания ключевых стейкхолдеров! Теперь у вас есть авторитетная статья, которую можно показать им как пруф😈
Заместители
Буквально вчера OpenAI выложили статью, которая сразу вошла в must-read для меня и моей команды. Они разложили по полочкам, как работает их внутренний AI агент, котрого используют сотрудники OpenAI, чтобы анализировать петабайты данных, с которыми работают в компании, без кода! Разбираем!
Что за аналитик данных?
В OpenAI идет работа с 600 петабайтами (=614 400 терабайт) или 70К датасетов. Представьте какая жесть новому, или даже старому сотруднику, разобраться, где искать какие данные, чем отличается одна табличка от другой и тд.
AI агент — это и есть умная прослойка, которая помогает не только найти нужные данные, но и узнать все необходимое об этих данных и даже сразу проанализировать. Юзеру остается правильно формулировать вопросы на человеческом языке
Архитектура у агента верхнеуровнево очевидная: есть БДшки, из которых AI агент тянет данные, анализирует их, проверяет себя и выдает результат юзеру. Но самая магия начинается в правильном контекст-инжиниринге. Кто хочет глубже разобраться в построении контекста — как раз недавно был про это пост
6 уровней контекста
Так вот сила агента в том, что его контекст строится из 6 уровней:
1. Использование таблиц. Агенту, естессно, доступны метаданные о таблицах и колонках. Но еще важнее — он может подглядеть в историю SQL-запросов к этим табличкам, чтобы понять, как их обычно строят, как джоинят разные таблички и тд.
2. Семантический слой. Оно же человеческое описание всех табличек, колонок, сущностей, в которых отражается смысл, связи, бизнес-значния.
3. Обогащение кодом. Агенту дается не только описание табличек и SQL запросы, но и кодовая база, где эти таблички используются. Из нее агент лучше понимает контекст применения табличек в реальных исследованиях, продуктах и тд.
4. Институциональные знания. У агента есть доступ к знаниям в Slack, Google Docs, Notion — системам в которых OpenAI хранят ключевые знания о происходящем в системах и данных. То есть агент оттуда может узнавать статус работы систем, инфу о сбоях, глоссарий и тд. Все доступы к документам определяются на уровне пользователя, а не агента. То есть агент тут просто как интерфейс взаимодействия с acсess management system.
5. Память. Агент запоминает инсайты по тому, как пользоваться данными. И сохраняет их либо на глобальном уровне, либо на уровне юзера. Интересно, что сохраняет он их с одобрения юзера. Таким образом память не засоряется фигней.
6. Контекст рантайма. Все предыдущие знания готовятся заранее в оффлайне. Но иногда их не хватает (или их просто нет) — тогда агент может написать прямо в рамках текущего запуска квери к табличке или системе метаданных и собрать нужную информацию, так сказать, без подготовки.
Многим кажется, что агенты работают как магический черный ящик — загрузил в него все данные, а он сразу выплюнул то, что нужно. Но это не так. Я постоянно сталкиваюсь с этим недопониманием. Построение реально работающих агентных систем — это квест, в котором много подготовительной работы, много слоев контекста, много инфраструктурной работы, работы с данными. На выходе получается большой и сложный механизм, но именно тогда оно начинает работать.
Это не значит, что сразу нужно пытаться построить такую кракозябру. Начинать нужно, как всегда, с малого. Но и результаты будут соответствующие, поэтому умерьте ожидания ключевых стейкхолдеров! Теперь у вас есть авторитетная статья, которую можно показать им как пруф
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍12❤4 3🔥2 1 1
Media is too big
VIEW IN TELEGRAM
OpenClaw — установка и настройка за 30 мин
Интернет взорвался. Опенсорнсый проектClawdBot->MoltBot->OpenClaw (беднягу 2 раза переименовали, сначала по просьбе Anthropic, а потом, чтобы звучало лучше) покорил всех своей настраиваемостью, гибкостью и самое главное — производительностью! Что ж там за чудо такое заморское? Рассказываю и показываю как его установить и настроить.
Что это и зачем?
OpenClaw — это опенсорсная обертка, чтобы превратить любую LLM в мощного AI агента. Вы даже можете это сделать полностью локально, не отдавая данные и деньги вендорам ИИ. А еще вам вообще не нужны навыки кодинга. Да, терминал открыть придется, но вы справитесь – обещаю❤️
Раньше всем сносило крышу от n8n, потому что закрывал те же болевые точки. Обе штуки для тех, кто не хочет погружаться в код. Оба инструмента являются некой оберткой вокруг базовых AI моделей (типа GPT, Gemini, Claude), которая дает "руки" и права этим моделям. Но есть и отличие: n8n и аналоги не дают хорошего "стартового пакета". Поэтому юзерам сложно начать с ним работать — установил ты n8n, а что дальше? Дальше — пропасть до реально работающего "заместителя".
В OpenClaw пошли от обратного. Настройка базового OpenClaw бота сильно геморойней, чем создание первого воркфлоу в n8n, но полученный первый результат сразу заставляет вас почувствовать потенциал!
Пройдя квест, описанный ниже, ваш AI агент будет с вами общаться в телеге через бота. Он сможет понимать ваши голосовые сообщения в ТГ и управлять вашим браузером и компом. Звучит по-мощнее, чем настройка воркфлоу в n8n, не так ли?😈
Не пускайте клешни, куда не надо!
Но перед тем, как мы настроим с вами базового OpenClaw бота, важный момент: бота нужно запускать осторожно! Он, как и все другие LLM агенты, подвержен промпт-иньекциями, подставным ссылкам и тд. Я детально описывал, что грозит при неаккуратном использовании AI агентов в посте про Scamlexity! Сейчас он актуален, как никогда. Обязательно прочитайте.
В идеале, OpenClaw нужно запускать на отдельной железке (в сети популярен буржуйский подход — купить mac mini под это дело). Есть и вариант запустить его в облаке. Где бы вы его не запускали OpenClaw сам распознает вашу ОС и адаптирует процесс установки (но нативнее всего работает на Mac), поэтому цепляться именно за mac mini точно смысла нет.
Часть 1. Расчехляем клешни лобстера
При первом запуске OpenClaw можно сразу настроить базового AI агента. Сейчас сделаем это с API ключами к онлайн провайдерам. А в отдельном посте я расскажу, как запускать все чисто локально на Ollama — это отдельный жирный плюс данного агента😎
Первым делом запускаем простую установочную команду в командной строке/терминале:
По идее все устсновится само. Но зачастую будут возникать какие-то трудности там-сям (например с установкой Homebrew или npm пакетов). Это нормально, через это проходят все, кто запускает опенсорс проекты😁 . Тут нет единого рецепта — просто обратитесь к вашей любимой LLM с запросом: "я устанавливаю OpenClaw, у меня вылезла вот такая ошибка "копи-паст ошибки", помоги".
В посте ниже продолжение с настройкой и запуском агента.
#заместители
Интернет взорвался. Опенсорнсый проект
Что это и зачем?
OpenClaw — это опенсорсная обертка, чтобы превратить любую LLM в мощного AI агента. Вы даже можете это сделать полностью локально, не отдавая данные и деньги вендорам ИИ. А еще вам вообще не нужны навыки кодинга. Да, терминал открыть придется, но вы справитесь – обещаю
Раньше всем сносило крышу от n8n, потому что закрывал те же болевые точки. Обе штуки для тех, кто не хочет погружаться в код. Оба инструмента являются некой оберткой вокруг базовых AI моделей (типа GPT, Gemini, Claude), которая дает "руки" и права этим моделям. Но есть и отличие: n8n и аналоги не дают хорошего "стартового пакета". Поэтому юзерам сложно начать с ним работать — установил ты n8n, а что дальше? Дальше — пропасть до реально работающего "заместителя".
В OpenClaw пошли от обратного. Настройка базового OpenClaw бота сильно геморойней, чем создание первого воркфлоу в n8n, но полученный первый результат сразу заставляет вас почувствовать потенциал!
Пройдя квест, описанный ниже, ваш AI агент будет с вами общаться в телеге через бота. Он сможет понимать ваши голосовые сообщения в ТГ и управлять вашим браузером и компом. Звучит по-мощнее, чем настройка воркфлоу в n8n, не так ли?
Не пускайте клешни, куда не надо!
Но перед тем, как мы настроим с вами базового OpenClaw бота, важный момент: бота нужно запускать осторожно! Он, как и все другие LLM агенты, подвержен промпт-иньекциями, подставным ссылкам и тд. Я детально описывал, что грозит при неаккуратном использовании AI агентов в посте про Scamlexity! Сейчас он актуален, как никогда. Обязательно прочитайте.
В идеале, OpenClaw нужно запускать на отдельной железке (в сети популярен буржуйский подход — купить mac mini под это дело). Есть и вариант запустить его в облаке. Где бы вы его не запускали OpenClaw сам распознает вашу ОС и адаптирует процесс установки (но нативнее всего работает на Mac), поэтому цепляться именно за mac mini точно смысла нет.
Часть 1. Расчехляем клешни лобстера
При первом запуске OpenClaw можно сразу настроить базового AI агента. Сейчас сделаем это с API ключами к онлайн провайдерам. А в отдельном посте я расскажу, как запускать все чисто локально на Ollama — это отдельный жирный плюс данного агента
Первым делом запускаем простую установочную команду в командной строке/терминале:
curl -fsSL https://openclaw.ai/install.sh | bash
По идее все устсновится само. Но зачастую будут возникать какие-то трудности там-сям (например с установкой Homebrew или npm пакетов). Это нормально, через это проходят все, кто запускает опенсорс проекты
В посте ниже продолжение с настройкой и запуском агента.
#заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤10🔥3⚡2 1 1
Часть 2. Настраиваем лобстера
Настройка начнется автоматически (а если нет, позовите ее командой "openclaw onboard"). Далее по порядку:
1. Примите сообщение о рисках (ну или не принимайте — но тогда✋ ) и выберите Onboarding Mode: "QuickStart".
2. Далее вам будет предложено выбрать основную модель, по сути мозги вашего бота. Выбираете ту, что у вас оплачена собссно. Лучшая — Claude Opus 4.5, но у меня напримр оплачен ChatGPT — я выбрал OpenAI. В зависимости от провайдера у вас попросят либо токен, либо авторизацию через браузер.
3. Дальше, когда вам предложат выбрать канал — выбираем Telegram. Нам надо создать бота в телеге, через который вы будете обращаться к вашему агенту. Для этого идем в телегу и в поиске ищем @BotFather. В нем очень просто создаем нового бота. Копируем оттуда токен и возвращаемся в терминал – вставляем туда. Чтобы его верифицировать — следуем инструкциям в терминале. Все, бот настроен — теперь вы можете ему писать прямо в ТГ.
4. Далее подключаем скилы. Выбираем опцию "npm". Из предложенного списка можно выбрать "Skip for now" и потом настраивать скиллы уже через UI. Так просто удобнее.
5. Далее будет предложено подключать API ключи — можно скипать все до раздела Hooks.
6. На вопрос Enable hooks? отмечаем все три. Хуки это маленькие скрипты, которые активируются при каких-то действиях. В данном случае речь только про локальные хуки, которые сохраняют память сессии, логируют ваше общение с ботом и запускают бота.
7. Далее важный шаг: установка Gateway. Через гейтвэй агент запускает все и в целом общается с миром. Дальше нужно выбрать "Hatch in TUI" — и ТА-ДАМ! Открывается браузер, а там ваш AI агент, ждет команд в чате.
Базовая настройка завершена — поздравляю! Ваш лобстер готов к приключениям😏
Допы
Осталась парочка доп штук, которые сразу дают +100500 баллов к юзабилити бота:
• Во-первых, подключим браузер к агенту. Но уже сделаем это без рук! Просто пишем в чат бота в открывшемся окне браузера: "Open the folder assets in openclaw on this computer, where chrome-extensions are". Хобана — бот открывает у вас на глазах папку на вашем компе, где лежит папка "chrome-extension".
Далее идем ручками в браузер Chrome -> Extensions -> Справа сверху включаем "Developer mode" -> слева сверху жмем "Load Unpacked" -> перетягиваем ту самую папку, "chrome-extension". Теперь у вас есть раширение, котрое позволяет боту брать управление над браузером тогда, когда вы включили это расширение. Выключили — забрали доступ у агента.
• Во-вторых, настраиваем транскрибацию (команды голосом).
1. Есть платный вариант: в UI агента идем в раздел Skills. В поиске ищем "openai-whisper-api" — там требуется API ключ. Его берем на офф сайте OpenAI. Вставляем в бота и жмем Save key. Проверяем в терминале командой openclaw skills — что этот скилл имеет зеленый статус ready. Если что-то не получилось — спросите вашего агента👌
2. Второй вариант бесплатный: также через скиллс устаналиваете себе локальную голосовую модельку. В поиске скиллов ищите "openai-whisper".
ТА-ДАМ! Теперь вы можете отправлять голосовые вашему агенту. Он будет их транскрибировать и следовать инструкциям.
ФУХ! Теперь у вас есть свой настоящий передовой AI агент😮
Поиграйтесь, попробуйте найти границы, что он может делать, а что — нет. Попробуйте поподключать разные скиллы. Главное помните о безопасности!
Настраивать допустимые действия агента через вайтлиист (то есть явно прописывать, что агент имеет права делать на компе можно тут: "~/.openclaw/exec-approvals.json").
И делитесь тем, как у вас получилось, и что вы теперь будете автоматизировать😎
Ну а я будут дальше раскрывать потенциал лобстера и делиться с вами — stay tuned! Кстати, в планах отправить малыша в агентную соцсеть Moltbook
#заместители
Заместители
Внимание — сначала прочитайте предыдущий пост!
Настройка начнется автоматически (а если нет, позовите ее командой "openclaw onboard"). Далее по порядку:
1. Примите сообщение о рисках (ну или не принимайте — но тогда
2. Далее вам будет предложено выбрать основную модель, по сути мозги вашего бота. Выбираете ту, что у вас оплачена собссно. Лучшая — Claude Opus 4.5, но у меня напримр оплачен ChatGPT — я выбрал OpenAI. В зависимости от провайдера у вас попросят либо токен, либо авторизацию через браузер.
3. Дальше, когда вам предложат выбрать канал — выбираем Telegram. Нам надо создать бота в телеге, через который вы будете обращаться к вашему агенту. Для этого идем в телегу и в поиске ищем @BotFather. В нем очень просто создаем нового бота. Копируем оттуда токен и возвращаемся в терминал – вставляем туда. Чтобы его верифицировать — следуем инструкциям в терминале. Все, бот настроен — теперь вы можете ему писать прямо в ТГ.
4. Далее подключаем скилы. Выбираем опцию "npm". Из предложенного списка можно выбрать "Skip for now" и потом настраивать скиллы уже через UI. Так просто удобнее.
5. Далее будет предложено подключать API ключи — можно скипать все до раздела Hooks.
6. На вопрос Enable hooks? отмечаем все три. Хуки это маленькие скрипты, которые активируются при каких-то действиях. В данном случае речь только про локальные хуки, которые сохраняют память сессии, логируют ваше общение с ботом и запускают бота.
7. Далее важный шаг: установка Gateway. Через гейтвэй агент запускает все и в целом общается с миром. Дальше нужно выбрать "Hatch in TUI" — и ТА-ДАМ! Открывается браузер, а там ваш AI агент, ждет команд в чате.
Базовая настройка завершена — поздравляю! Ваш лобстер готов к приключениям
Допы
Осталась парочка доп штук, которые сразу дают +100500 баллов к юзабилити бота:
• Во-первых, подключим браузер к агенту. Но уже сделаем это без рук! Просто пишем в чат бота в открывшемся окне браузера: "Open the folder assets in openclaw on this computer, where chrome-extensions are". Хобана — бот открывает у вас на глазах папку на вашем компе, где лежит папка "chrome-extension".
Далее идем ручками в браузер Chrome -> Extensions -> Справа сверху включаем "Developer mode" -> слева сверху жмем "Load Unpacked" -> перетягиваем ту самую папку, "chrome-extension". Теперь у вас есть раширение, котрое позволяет боту брать управление над браузером тогда, когда вы включили это расширение. Выключили — забрали доступ у агента.
• Во-вторых, настраиваем транскрибацию (команды голосом).
1. Есть платный вариант: в UI агента идем в раздел Skills. В поиске ищем "openai-whisper-api" — там требуется API ключ. Его берем на офф сайте OpenAI. Вставляем в бота и жмем Save key. Проверяем в терминале командой openclaw skills — что этот скилл имеет зеленый статус ready. Если что-то не получилось — спросите вашего агента
2. Второй вариант бесплатный: также через скиллс устаналиваете себе локальную голосовую модельку. В поиске скиллов ищите "openai-whisper".
ТА-ДАМ! Теперь вы можете отправлять голосовые вашему агенту. Он будет их транскрибировать и следовать инструкциям.
ФУХ! Теперь у вас есть свой настоящий передовой AI агент
Поиграйтесь, попробуйте найти границы, что он может делать, а что — нет. Попробуйте поподключать разные скиллы. Главное помните о безопасности!
Настраивать допустимые действия агента через вайтлиист (то есть явно прописывать, что агент имеет права делать на компе можно тут: "~/.openclaw/exec-approvals.json").
И делитесь тем, как у вас получилось, и что вы теперь будете автоматизировать
Ну а я будут дальше раскрывать потенциал лобстера и делиться с вами — stay tuned! Кстати, в планах отправить малыша в агентную соцсеть Moltbook
#заместители
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
openclaw.ai
OpenClaw — Personal AI Assistant
OpenClaw — The AI that actually does things. Your personal assistant on any platform.
1🔥7❤4⚡2 1 1 1