Сергей Булаев AI 🤖

Так же жителям Штатов (или тем у кого есть возможность использовать штатовский IP адрес) бесплатно доступна Imagen 3 - новая версия модели Google для генерации изображений. Опробовал сам, модель отлично справляется с разными задачами: от фотореалистичных пейзажей до богато текстурированных масляных картин и сцен в стиле пластилиновой анимации.

Впечатляет работа с деталями - модель точно передаёт мелкие морщинки на руках, сложные текстуры вроде вязаного игрушечного слона, тонкие особенности освещения и композиции. Она лучше понимает естественный язык и специфические термины - например, можно указать конкретный тип объектива или особенности композиции.

Заявлена улучшенная работа с текстами (но с кириллицей ничего хорошего не выходит, см. мой пример)

По человеческим субъективным бенчмаркам Imagen 3 получила самые высокие оценки среди всех существующих моделей как за визуальное качество, так и за точность следования промптам.

Модель прошла обширное тестирование на предвзятость и потенциально вредный контент. Все изображения автоматически помечаются водяным знаком SynthID.

Сергей Булаев AI 🤖 - об AI и не только

1852

2.21K views04:50

Сергей Булаев AI 🤖

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

Но больше всего понравился Whisk. Это новый инструмент от Google Labs для генерации изображений, где вместо длинных текстовых промптов можно просто использовать три картинки: одну для субъекта, вторую для сцены, третью для стиля.

А Gemini автоматически создаёт описания загруженных изображений и передаёт их в Imagen 3. Модель извлекает только ключевые характеристики, что позволяет создавать креативные и неожиданные комбинации. Также в любой момент можно подправить автоматически сгенерированные промпты. Получается некий визуальный brainstorming с мгновенной обратной связью.

Сергей Булаев AI 🤖 - об AI и не только

2282

2.05K views05:20

Сергей Булаев AI 🤖

В Midjourney появились Moodboards, и это выглядит как подарок для тех, кто любит мыслить визуально. Если раньше вы собирали рефы в Pinterest, теперь это можно сделать напрямую в Midjourney. Загружаете до 100 изображений, создаёте свой "профиль стиля" и получаете на выходе генерации, передающие атмосферу борда. Типа фиксируем творческий якорь и реализуем идеи вокруг него.

Moodboards — это не просто про стабильность стиля, они решают кучу других задач. Помогают визуализировать абстрактные идеи: все те размытые "что-то между винтажем и минимализмом" превращаются в конкретные цвета, формы и текстуры. Наглядно показывают направление работы — особенно полезно в команде, когда нужно, чтобы все смотрели в одну сторону. Ну и избегать креативного выгорания с ними попроще — референсы всегда под рукой, а Midjourney вдохновляется тем, что вы сами считаете важным.

Немного напоминает родительские времена, когда маркетологи собирали огромные коллажи с отрывками фотографий, фрагментами текста и ключевыми цветами для брендинга или дизайна. Разница в том, что теперь всё происходит онллайн и быстрее в разы.

Результатов в твиттере - масса. Одни создают стабильные стили для иллюстраций или аниме, другие жалуются, что "comic book" пока сыроват и требует доработки. Самое интересное — можно поддерживать несколько профилей для разных проектов и переключаться между ними. Чтобы "настроить" модель, нужно всего 40 оценок вместо тысяч. Быстро и удобно.

Moodboards и style references (--sref) — это не одно и то же. Если sref даёт больше свободы и вариативности, то тут всё про стабильность и простоту. Работает даже на Niji, что особенно полезно для тех, кто рисует мангу или аниме-стилистику. В итоге это больше похоже на тюнинг модели под себя лично, а не классический, универсальный промпт.

Делиться Moodboard-профилями в Midjourney нельзя. Профиль создаётся под ваш аккаунт и сохраняется только для личного использования. Возможно, в будущем добавят возможность обмениваться профилями или даже публиковать их, как это было со стилевыми настройками и "style references".

Сам ещё не дошёл до тестов, но вижу здесь крутые возможности. Это явно инструмент, который ускоряет и упрощает творческий процесс. Можно буквально показывать Midjourney, что у вас в голове, — и, судя по отзывам, он слушает внимательнее, чем когда-либо.

Сергей Булаев AI 🤖 - об AI и не только

2152

2.29K views05:57

Сергей Булаев AI 🤖

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.

TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.

Основные преимущества:

- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениями

Что уже собирают на TEN:

- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голоса

Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.

Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.

TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.

Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.

Сергей Булаев AI 🤖 - об AI и не только

2773

3.43K views09:56

About

Blog

Apps

Platform