Продолжаем путь к стикерпаку для Telegram.
Помните, у меня была LoRA для Flux.1.1-pro-ultra? Если нет, то здесь гайд, как себе такую же завести.
Собственно, вот промпт, который позволяет делать изображения с нужной эмоцией в стиле, хорошо подходящем под Telegram-стикеры:
Что из него получается – можете посмотреть в медиа данного поста.
Осталось только подобрать подходящие подписи, чтобы сопроводить эти яркие эмоции.
Пару подписей уже добавил. Предлагайте свои варианты! 🙂
Промпт, который добавляет надпись и создаёт контур в Google AI Studio:
Помните, у меня была LoRA для Flux.1.1-pro-ultra? Если нет, то здесь гайд, как себе такую же завести.
Собственно, вот промпт, который позволяет делать изображения с нужной эмоцией в стиле, хорошо подходящем под Telegram-стикеры:
{AVATAR_NAME}, {EXPRESSION_OR_GESTURE}, semi-realistic cartoon, smooth flat colours, soft two-tone cel shading, double outline (2 px crisp black + 8 px pure-white), subtle drop shadow, transparent background
Что из него получается – можете посмотреть в медиа данного поста.
Осталось только подобрать подходящие подписи, чтобы сопроводить эти яркие эмоции.
Пару подписей уже добавил. Предлагайте свои варианты! 🙂
Промпт, который добавляет надпись и создаёт контур в Google AI Studio:
You are a precise image editor.
TASK
1. Cut out the entire visible subject from the uploaded image along its exact silhouette.
2. Add a uniform outer **white** stroke 8 px wide (relative to 512 × 512) around the silhouette.
CAPTION
• Add caption “{CAPTION}” on one line, centred horizontally inside the same 512 × 512 canvas.
• Font: rounded sans-serif, solid black fill + outer white stroke 4 px.
• Baseline ≈ 16 px above the bottom edge (Y ≈ 484 px); keep ≥ 20 px side padding; no word-wrap.
OUTPUT
• Return **one** PNG 512 × 512 with a fully transparent background (RGBA 0,0,0,0).
• Do **not** crop, zoom, or alter colours beyond the white outline.
• If any rule cannot be met, respond with an error instead of an image.
❤6🔥6👍5🤔2
В последнее время промпты начал собирать при помощи ChatGPT o3. Что изменилось и почему я отказался от Claude для этой задачи?
Всё дело в том, что связка с reasoning и мощным веб-поиском позволяет на этапе составления запроса для ChatGPT задать инструкции в духе "используй самые последние рекомендации о составлении промптов от ведущих компаний в этой сфере". В результате получается очень хороший промпт, который требует, как правило, лишь минимальной доработки.
Чтобы вам не приходилось тратить время, каждый раз собирая вспомогательные инструкции для разработки нового промпта, я сделал для вас "мастер-промпт".
Как это работает:
1. Отправляете мастер-промпт в ChatGPT o3 (желательно именно туда) с доступом к интернету.
2. Отвечаете на 5 вопросов, которые задаст модель.
3. Получаете готовый и качественный промпт.
Вот и сам мастер-промпт:
Всё дело в том, что связка с reasoning и мощным веб-поиском позволяет на этапе составления запроса для ChatGPT задать инструкции в духе "используй самые последние рекомендации о составлении промптов от ведущих компаний в этой сфере". В результате получается очень хороший промпт, который требует, как правило, лишь минимальной доработки.
Чтобы вам не приходилось тратить время, каждый раз собирая вспомогательные инструкции для разработки нового промпта, я сделал для вас "мастер-промпт".
Как это работает:
1. Отправляете мастер-промпт в ChatGPT o3 (желательно именно туда) с доступом к интернету.
2. Отвечаете на 5 вопросов, которые задаст модель.
3. Получаете готовый и качественный промпт.
Вот и сам мастер-промпт:
You are **PromptArchitect**, a veteran prompt engineer.
====================
PHASE 0 — LANGUAGE
====================
Ask the user:
★ Which language do you prefer for our conversation?
(We will talk in that language, but the final prompt will be in English plus its translation.)
====================
PHASE 1 — CLARIFY
====================
Ask, one by one, *in the user’s chosen language*:
1. ✦ Core objective + desired output format?
2. ✦ Target audience (knowledge level, tone)?
3. ✦ Domain constraints or banned content?
4. ✦ Which LLM platform AND explicit version will run this prompt?
5. ✦ Does the runtime have Internet search or RAG tools? (Yes/No)
After all answers say — in user language:
“Understood — generating optimized prompt…”
====================
PHASE 2 — GENERATE
====================
Draft a single **English-language prompt** that:
• Sets a clear SYSTEM ROLE for <LLM-version>.
• Gives step-by-step instructions covering every requirement.
• Specifies the exact OUTPUT FORMAT.
• <IF Q5 = Yes>
“Before answering, use an Internet search tool to gather the most recent authoritative information.”
• Ends with:
“Think step-by-step, verify completeness, policy compliance and factual accuracy, then output ONLY the final answer.”
====================
PHASE 3 — TRANSLATE
====================
Immediately after the English prompt, append a section titled
**‘🗣 User-Language Version’**
containing a faithful translation of the entire prompt into the user’s preferred language.
Return ONLY the English prompt followed by its translation inside one fenced code block.
2👍12❤8🔥5🤔1
Manus.im стал доступен для всех. Что с ним делать?
Напомню: manus – это AI-агент, который может выполнять для вас разноплановые задачи, связанные с интернетом.
Фактически – это Deep Research с расширенными возможностями по обработке собранной информации.
Обработка заключается, например, в том, что вы можете, на основе собранной информации, сразу собрать полноценный сайт.
Сам manus на странице с проектами выдаёт скромных 16 проектов.
Однако, если ввести в Google
(прямо с кавычками, да), то в выдаче вы увидите около сотни проектов, созданных при помощи данного AI-агента.
При этом можно посмотреть не только результат работы, но и то, как пользователь(и manus) его реализовывал шаг за шагом.
Например, здесь учитель физики собрал в manus интерактивный сайт с демонстрацией для одного из своих занятий.
За регистрацию на manus.im всем дают по 1000 токенов. За ежедневное посещение сайта дают по 300 токенов.
Делитесь в комментариях, какие проекты вы реализовали (или собираетесь реализовать) при помощи Manus.
А для того, чтобы составить для Manus лучший промпт, можете использовать мастер-промпт из вчерашнего поста.
Напомню: manus – это AI-агент, который может выполнять для вас разноплановые задачи, связанные с интернетом.
Фактически – это Deep Research с расширенными возможностями по обработке собранной информации.
Обработка заключается, например, в том, что вы можете, на основе собранной информации, сразу собрать полноценный сайт.
Сам manus на странице с проектами выдаёт скромных 16 проектов.
Однако, если ввести в Google
«https://manus.im/share»
(прямо с кавычками, да), то в выдаче вы увидите около сотни проектов, созданных при помощи данного AI-агента.
При этом можно посмотреть не только результат работы, но и то, как пользователь
Например, здесь учитель физики собрал в manus интерактивный сайт с демонстрацией для одного из своих занятий.
За регистрацию на manus.im всем дают по 1000 токенов. За ежедневное посещение сайта дают по 300 токенов.
Делитесь в комментариях, какие проекты вы реализовали (или собираетесь реализовать) при помощи Manus.
А для того, чтобы составить для Manus лучший промпт, можете использовать мастер-промпт из вчерашнего поста.
1🔥10❤4👍2🤓2
BDD (Behavior-driven development), как расширение подхода TDD, позволяющее создавать более понятные человеку AI-проекты.
Когда в разработке слишком много "вайба", это приводит к тому, что никто не знает, что творится в кодовой базе.
И это становится проблемой. Так как может наступить этап, когда оператор кидает в чат очередную ошибку с единственным комментарием "исправь", а LLM перегружается контекстом при попытке осознать "что ж мы тут навайбкодили?" и в качестве исправления выдаёт какую-нибудь дичь.
BDD может помочь с доступностью знаний о коде. Данный подход расширяет цикл TDD, делая его более прозрачным для не-программистов.
А именно:
1. Позволяет бизнесу, через специальный согласованный формат, формировать ожидания от поведения программы.
2. В итоге от бизнеса мы получаем сформированные User/Job Story с набором сценариев, как программа будет использоваться.
3. Все примеры разработчики реализуют в виде сценариев на языке Gherkin, специально предназначенном для написания тестов.
4. И уже с этими тестами мы переходим к стандартному TDD-циклу "Red => Green => Refactor".
В совокупности, с BDD-подходом мы получаем документацию, выраженную человеческим языком, а также формализованную через более понятный, чем классические тесты, Gherkin.
Это, в свою очередь дает лучшее понимание того, что вообще происходит в проекте и какие существуют планы по его развитию. Главное – следовать BDD-процессу разработки.
Кстати, существует проект-заготовка для Cursor с использованием BDD. Минус только один – он на китайском. 🙂 Возьму его за основу при разработке своего. Как будет готов – поделюсь в этом канале репозиторием.
Когда в разработке слишком много "вайба", это приводит к тому, что никто не знает, что творится в кодовой базе.
И это становится проблемой. Так как может наступить этап, когда оператор кидает в чат очередную ошибку с единственным комментарием "исправь", а LLM перегружается контекстом при попытке осознать "что ж мы тут навайбкодили?" и в качестве исправления выдаёт какую-нибудь дичь.
BDD может помочь с доступностью знаний о коде. Данный подход расширяет цикл TDD, делая его более прозрачным для не-программистов.
А именно:
1. Позволяет бизнесу, через специальный согласованный формат, формировать ожидания от поведения программы.
2. В итоге от бизнеса мы получаем сформированные User/Job Story с набором сценариев, как программа будет использоваться.
3. Все примеры разработчики реализуют в виде сценариев на языке Gherkin, специально предназначенном для написания тестов.
4. И уже с этими тестами мы переходим к стандартному TDD-циклу "Red => Green => Refactor".
В совокупности, с BDD-подходом мы получаем документацию, выраженную человеческим языком, а также формализованную через более понятный, чем классические тесты, Gherkin.
Это, в свою очередь дает лучшее понимание того, что вообще происходит в проекте и какие существуют планы по его развитию. Главное – следовать BDD-процессу разработки.
Кстати, существует проект-заготовка для Cursor с использованием BDD. Минус только один – он на китайском. 🙂 Возьму его за основу при разработке своего. Как будет готов – поделюсь в этом канале репозиторием.
1👍17❤5🔥4🏆1
Deep Research дошёл и до китайских нейросетей. Ещё и абсолютно бесплатно! Но есть подвох...
Напоминаю: все посты по технологии Deep Research собраны у меня в специальном материале в закрепах.
Речь идёт про Qwen. Китайская мультимодальная модель, про которую я писал, например, в посте про генерацию фото и видео.
В качестве теста Qwen Deep Research я использовал тот же промпт, что и для аналогичной функциональности у других AI-компаний.
То есть мы опять пробуем сгенерировать сценарий для ролика, который давным-давно попросил сделать Ваня(он его даже снял уже , используя сценарий от OpenAI) .
Что ж. Версия Deep Research от Qwen выглядит, как пародия на OpenAI. Они также пробуют задавать уточняющие вопросы по промпту. Но делают это пальцем в небо. Настолько мимо, что в двух запусках из трёх доп. вопросы я получал на английском языке. Их смысл при этом напоминает холодное чтение.
Research длился почти 20 минут. Нейросеть использовала 24 источника. Выбраны они по тому же принципу, что и уточняющие вопросы. Про то, кто вообще такой Ваня Буявец, нейросеть решила даже не узнавать. Это ведь совсем не важно, когда пишешь сценарий для его YouTube-канала, верно? Зато изучили стратегию развития МГИМО 🙂
По итогам исследования, Qwen сформировал PDF-документ. Который нельзя посмотреть или скачать. Он в принципе создан сломанным. Два раза из двух. Возможно, мне не повезло, но тратить ещё 20 минут на попытку получить целый файл я не хочу.
Результат моего исследования можно посмотреть тут. Форматирование отвратительное, потому что нормально выгрузить чат Qwen тоже не даёт. Либо в .txt-файл, либо в json.
Вывод: Deep Research от Qwen – это откровенно плохой неработоспособный продукт. На него не стоит тратить своё время. Лучше потратить 300-500 рублей и взять pro-подписку в Perplexity на год.
p.s.: первое видео – то, как выглядит результат Deep Research от Qwen. Второе видео – это то, как Qwen видит свой процесс глубоких исследований (text to video).
Напоминаю: все посты по технологии Deep Research собраны у меня в специальном материале в закрепах.
Речь идёт про Qwen. Китайская мультимодальная модель, про которую я писал, например, в посте про генерацию фото и видео.
В качестве теста Qwen Deep Research я использовал тот же промпт, что и для аналогичной функциональности у других AI-компаний.
То есть мы опять пробуем сгенерировать сценарий для ролика, который давным-давно попросил сделать Ваня
Что ж. Версия Deep Research от Qwen выглядит, как пародия на OpenAI. Они также пробуют задавать уточняющие вопросы по промпту. Но делают это пальцем в небо. Настолько мимо, что в двух запусках из трёх доп. вопросы я получал на английском языке. Их смысл при этом напоминает холодное чтение.
Research длился почти 20 минут. Нейросеть использовала 24 источника. Выбраны они по тому же принципу, что и уточняющие вопросы. Про то, кто вообще такой Ваня Буявец, нейросеть решила даже не узнавать. Это ведь совсем не важно, когда пишешь сценарий для его YouTube-канала, верно? Зато изучили стратегию развития МГИМО 🙂
По итогам исследования, Qwen сформировал PDF-документ. Который нельзя посмотреть или скачать. Он в принципе создан сломанным. Два раза из двух. Возможно, мне не повезло, но тратить ещё 20 минут на попытку получить целый файл я не хочу.
Результат моего исследования можно посмотреть тут. Форматирование отвратительное, потому что нормально выгрузить чат Qwen тоже не даёт. Либо в .txt-файл, либо в json.
Вывод: Deep Research от Qwen – это откровенно плохой неработоспособный продукт. На него не стоит тратить своё время. Лучше потратить 300-500 рублей и взять pro-подписку в Perplexity на год.
p.s.: первое видео – то, как выглядит результат Deep Research от Qwen. Второе видео – это то, как Qwen видит свой процесс глубоких исследований (text to video).
1👍6❤4🔥3🙈1👾1
Что изменится после презентации обновлённого Codex от OpenAI?
Презентация только что завершилась. Вот что нам показали:
1. Обновлённую модель Codex1, которая является лучшей моделью от OpenAI для написания кода.
2. Браузерный интерфейс Codex, позволяющий заниматься разработкой, подключившись к GitHub-аккаунту(Sam Altman хочет прочитать весь ваш приватный код!) .
3. Codex CLI. Легковесный AI-агент для разработки на локальной машине с подключением к моделям по API(привет, Claude Code ) .
Каким изменениям поспособствует, на мой взгляд, презентация:
1. OpenAI во всеуслышание заявили, что Codex может писать код, сам его проверять и этого достаточно, чтобы лить изменения сразу в продакшн. Подозреваю, что это создаст новую волну вайб-кодинг-проблем.
2. Развитие концепции "Несколько AI-агентов одновременно работают с кодом проекта над разными задачами". Я-то думал, чего Cursor второпях вчера выкатили Background Agent(очень-очень сырой) ... Оказывается, хотели в тренд попасть.
3. Упрощение интерфейсов. Никаких явных вызовов или настроек tools, предоставления доступов к интернету или конкретному контексту. В этом нет необходимости, так как AI-агент сам знает, что ему потребуется. Пишешь задачу, указываешь её параметры – получаешь результат.
4. Продолжает смещаться роль от "Программист – это тот, кто стучит по клавишам, набирая код" к "Программист – это тот, кто представляет и может объяснить, как бизнес-требования перевести в язык, описываемый при помощи логических конструкций".
Я, в свою очередь, жду возможности протестировать разработку через Codex (для plus-аккаунтов обещают скоро раскатить). А также жду от Cursor доработок по Background Agent и добавления в список доступных моделей Codex1.
Как вам презентация? Считаете ли, что Codex1 в совокупности с их браузерной IDE можно назвать тем самым Agent-0 из предсказания AI-2027?
Презентация только что завершилась. Вот что нам показали:
1. Обновлённую модель Codex1, которая является лучшей моделью от OpenAI для написания кода.
2. Браузерный интерфейс Codex, позволяющий заниматься разработкой, подключившись к GitHub-аккаунту
3. Codex CLI. Легковесный AI-агент для разработки на локальной машине с подключением к моделям по API
Каким изменениям поспособствует, на мой взгляд, презентация:
1. OpenAI во всеуслышание заявили, что Codex может писать код, сам его проверять и этого достаточно, чтобы лить изменения сразу в продакшн. Подозреваю, что это создаст новую волну вайб-кодинг-проблем.
2. Развитие концепции "Несколько AI-агентов одновременно работают с кодом проекта над разными задачами". Я-то думал, чего Cursor второпях вчера выкатили Background Agent
3. Упрощение интерфейсов. Никаких явных вызовов или настроек tools, предоставления доступов к интернету или конкретному контексту. В этом нет необходимости, так как AI-агент сам знает, что ему потребуется. Пишешь задачу, указываешь её параметры – получаешь результат.
4. Продолжает смещаться роль от "Программист – это тот, кто стучит по клавишам, набирая код" к "Программист – это тот, кто представляет и может объяснить, как бизнес-требования перевести в язык, описываемый при помощи логических конструкций".
Я, в свою очередь, жду возможности протестировать разработку через Codex (для plus-аккаунтов обещают скоро раскатить). А также жду от Cursor доработок по Background Agent и добавления в список доступных моделей Codex1.
Как вам презентация? Считаете ли, что Codex1 в совокупности с их браузерной IDE можно назвать тем самым Agent-0 из предсказания AI-2027?
1❤6🔥4👍2🤔2
Эффективная схема, как собрать свои (и не только) знания в виде документа, потратив на это меньше времени.
Я уже как-то писал, что в некоторых случаях мне гораздо проще "наговорить" мысли, чем их писать. Так работает не во всех ситуациях(я же сейчас как-то пишу этот текст) , но могу поймать ступор при работе с новыми задачами на самом старте. Особенно если задача связана с оформлением документа.
Как я этот ступор преодолеваю?
Провожу задачу через следующие этапы:
1. Запускаю мастер-промпт для подготовки Deep Research по заданной теме.
2. Запускаю Deep Research в ChatGPT. Читаю собранный материал.
3. Конкретизирую то, чего не хватило в первом исследовании, запускаю ещё одну итерацию Deep Research.
4. Получаю больше конкретики и структуры в ответе от LLM.
5. В этом же чате запускаю голосовой режим с моделью o3. Она уже в курсе контекста, поэтому в режиме диалога можно итеративно сформировать итоговый документ.
6. Получаю нужный мне документ в фомате markdown и, при необходимости, конвертирую его в pdf.
Очень мне понравилось общаться в голосовом режиме с моделью по результатам Deep Research. В таком режиме удобнее расставлять акценты и собирать документ "по частям".
Самое приятное – данный кейс не требует никаких дополнительных настроек с агентами. Всё работает в ChatGPT, на который у многих уже имеется подписка за $20/месяц.
А вы используете голосовой режим в ChatGPT? В каких ситуациях он вас выручал?
Я уже как-то писал, что в некоторых случаях мне гораздо проще "наговорить" мысли, чем их писать. Так работает не во всех ситуациях
Как я этот ступор преодолеваю?
Провожу задачу через следующие этапы:
1. Запускаю мастер-промпт для подготовки Deep Research по заданной теме.
2. Запускаю Deep Research в ChatGPT. Читаю собранный материал.
3. Конкретизирую то, чего не хватило в первом исследовании, запускаю ещё одну итерацию Deep Research.
4. Получаю больше конкретики и структуры в ответе от LLM.
5. В этом же чате запускаю голосовой режим с моделью o3. Она уже в курсе контекста, поэтому в режиме диалога можно итеративно сформировать итоговый документ.
6. Получаю нужный мне документ в фомате markdown и, при необходимости, конвертирую его в pdf.
Очень мне понравилось общаться в голосовом режиме с моделью по результатам Deep Research. В таком режиме удобнее расставлять акценты и собирать документ "по частям".
Самое приятное – данный кейс не требует никаких дополнительных настроек с агентами. Всё работает в ChatGPT, на который у многих уже имеется подписка за $20/месяц.
А вы используете голосовой режим в ChatGPT? В каких ситуациях он вас выручал?
1❤10👍5🤔3🔥2🤡1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мне нравится использовать гифки в переписках в Telegram.
Особенно, когда удаётся найти что-то неожиданно-точно подходящее под ситуацию. Те, с кем регулярно переписываемся, знают эту мою тягу к "смешным гифкам".
Сегодня откопал нейросеть для face swap в gif-файлах. Называется easel-gifswap. Я её использовал на не раз уже упомянутой в этом блоге платформе fal.ai.
Работает просто и эффектно. Загружаем фотографию лица в анфас, а потом гифку, на которой желаем заменить лицо. Через несколько секунд и 5 центов получаем готовую генерацию.
Чего стоит стараться избегать в генерациях:
1. Перекрытия лица на гифке. Например, руками или какими-то предметами.
2. Модель плохо работает с лицами в очках или с бородой. Могут возникать артефакты.
3. Сложная мимика. Спасибо Джеку Николсону, что показал мне это через сцену "Here's Johnny" 🙂
На результаты моих экспериментов можете посмотреть в медиа данного поста.
Особенно, когда удаётся найти что-то неожиданно-точно подходящее под ситуацию. Те, с кем регулярно переписываемся, знают эту мою тягу к "смешным гифкам".
Сегодня откопал нейросеть для face swap в gif-файлах. Называется easel-gifswap. Я её использовал на не раз уже упомянутой в этом блоге платформе fal.ai.
Работает просто и эффектно. Загружаем фотографию лица в анфас, а потом гифку, на которой желаем заменить лицо. Через несколько секунд и 5 центов получаем готовую генерацию.
Чего стоит стараться избегать в генерациях:
1. Перекрытия лица на гифке. Например, руками или какими-то предметами.
2. Модель плохо работает с лицами в очках или с бородой. Могут возникать артефакты.
3. Сложная мимика. Спасибо Джеку Николсону, что показал мне это через сцену "Here's Johnny" 🙂
На результаты моих экспериментов можете посмотреть в медиа данного поста.
1🔥10❤6👍4😁4