В Midjourney появились Moodboards, и это выглядит как подарок для тех, кто любит мыслить визуально. Если раньше вы собирали рефы в Pinterest, теперь это можно сделать напрямую в Midjourney. Загружаете до 100 изображений, создаёте свой "профиль стиля" и получаете на выходе генерации, передающие атмосферу борда. Типа фиксируем творческий якорь и реализуем идеи вокруг него.
Moodboards — это не просто про стабильность стиля, они решают кучу других задач. Помогают визуализировать абстрактные идеи: все те размытые "что-то между винтажем и минимализмом" превращаются в конкретные цвета, формы и текстуры. Наглядно показывают направление работы — особенно полезно в команде, когда нужно, чтобы все смотрели в одну сторону. Ну и избегать креативного выгорания с ними попроще — референсы всегда под рукой, а Midjourney вдохновляется тем, что вы сами считаете важным.
Немного напоминает родительские времена, когда маркетологи собирали огромные коллажи с отрывками фотографий, фрагментами текста и ключевыми цветами для брендинга или дизайна. Разница в том, что теперь всё происходит онллайн и быстрее в разы.
Результатов в твиттере - масса. Одни создают стабильные стили для иллюстраций или аниме, другие жалуются, что "comic book" пока сыроват и требует доработки. Самое интересное — можно поддерживать несколько профилей для разных проектов и переключаться между ними. Чтобы "настроить" модель, нужно всего 40 оценок вместо тысяч. Быстро и удобно.
Moodboards и style references (--sref) — это не одно и то же. Если sref даёт больше свободы и вариативности, то тут всё про стабильность и простоту. Работает даже на Niji, что особенно полезно для тех, кто рисует мангу или аниме-стилистику. В итоге это больше похоже на тюнинг модели под себя лично, а не классический, универсальный промпт.
Делиться Moodboard-профилями в Midjourney нельзя. Профиль создаётся под ваш аккаунт и сохраняется только для личного использования. Возможно, в будущем добавят возможность обмениваться профилями или даже публиковать их, как это было со стилевыми настройками и "style references".
Сам ещё не дошёл до тестов, но вижу здесь крутые возможности. Это явно инструмент, который ускоряет и упрощает творческий процесс. Можно буквально показывать Midjourney, что у вас в голове, — и, судя по отзывам, он слушает внимательнее, чем когда-либо.
Сергей Булаев AI 🤖 - об AI и не только
Moodboards — это не просто про стабильность стиля, они решают кучу других задач. Помогают визуализировать абстрактные идеи: все те размытые "что-то между винтажем и минимализмом" превращаются в конкретные цвета, формы и текстуры. Наглядно показывают направление работы — особенно полезно в команде, когда нужно, чтобы все смотрели в одну сторону. Ну и избегать креативного выгорания с ними попроще — референсы всегда под рукой, а Midjourney вдохновляется тем, что вы сами считаете важным.
Немного напоминает родительские времена, когда маркетологи собирали огромные коллажи с отрывками фотографий, фрагментами текста и ключевыми цветами для брендинга или дизайна. Разница в том, что теперь всё происходит онллайн и быстрее в разы.
Результатов в твиттере - масса. Одни создают стабильные стили для иллюстраций или аниме, другие жалуются, что "comic book" пока сыроват и требует доработки. Самое интересное — можно поддерживать несколько профилей для разных проектов и переключаться между ними. Чтобы "настроить" модель, нужно всего 40 оценок вместо тысяч. Быстро и удобно.
Moodboards и style references (--sref) — это не одно и то же. Если sref даёт больше свободы и вариативности, то тут всё про стабильность и простоту. Работает даже на Niji, что особенно полезно для тех, кто рисует мангу или аниме-стилистику. В итоге это больше похоже на тюнинг модели под себя лично, а не классический, универсальный промпт.
Делиться Moodboard-профилями в Midjourney нельзя. Профиль создаётся под ваш аккаунт и сохраняется только для личного использования. Возможно, в будущем добавят возможность обмениваться профилями или даже публиковать их, как это было со стилевыми настройками и "style references".
Сам ещё не дошёл до тестов, но вижу здесь крутые возможности. Это явно инструмент, который ускоряет и упрощает творческий процесс. Можно буквально показывать Midjourney, что у вас в голове, — и, судя по отзывам, он слушает внимательнее, чем когда-либо.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.
TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.
Основные преимущества:
Что уже собирают на TEN:
Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.
Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.
TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.
Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.
Сергей Булаев AI 🤖 - об AI и не только
TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.
Основные преимущества:
- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениямиЧто уже собирают на TEN:
- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голосаЕсть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.
Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.
TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.
Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.
Сергей Булаев AI 🤖 - об AI и не только
Meta выпустила семейство мультимодальных моделей Apollo для работы с видео, и тут есть несколько интересных моментов.
Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:
Производительность даже младших моделей впечатляет:
Что особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.
Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.
Сергей Булаев AI 🤖 - об AI и не только
Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:
- Понимать временные взаимосвязи в видео
- Отвечать на сложные вопросы по содержанию
- Вести многоходовые диалоги на основе видео
- Выполнять задачи OCR и пространственного анализа
- Работать с эгоцентрическим видео (от первого лица)Производительность даже младших моделей впечатляет:
- Apollo-1.5B обгоняет некоторые 7B модели, включая Phi-3.5-Vision и LongVA-7B
- Apollo-3B превосходит большинство существующих 7B моделей в бенчмарках, показывая 68.7 в MLVU и 62.7 в ApolloBench
- Apollo-7B соревнуется с моделями больше 30B параметров, достигая 70.9 в MLVU и 66.3 в ApolloBenchЧто особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.
Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Арбузмэна видели уже? Там ещё и Анансмэн и Клубничмэн. А кто четвёртый - не пойму никак...
Сергей Булаев AI 🤖 - об AI и не только
Сергей Булаев AI 🤖 - об AI и не только
Futurism публикует жёсткое расследование о Character.AI. То, что начиналось как платформа для создания ИИ-собеседников, похоже, всё больше выходит за рамки адекватности.
Несколько интересных моментов:
Character.AI обещает усилить меры безопасности, но пока дела с модерацией плохи:
Google, вложивший в проект $2.7 млрд, пытается отмазаться, заявляя что "Google и Character AI - полностью отдельные компании". Правда, это не помешало ему в этом году нанять основателей и десятки сотрудников Character.AI.
В данный момент против компании уже идут два судебных процесса, связанных с нанесением вреда несовершеннолетним пользователям. В одном случае это привело к самоубийству 14-летнего подростка после романтических отношений с ботом.
Все эти проблемы всплывают уже не первый раз - ранее были обнаружены боты, пропагандирующие суицид, расстройства пищевого поведения и другой опасный контент.
Сергей Булаев AI 🤖 - об AI и не только
Несколько интересных моментов:
- На платформе существуют целые "творческие" сообщества, создающие ботов по мотивам реальных трагедий. Один пользователь создал более 20 ботов, основанных на личностях подростков - убийц
- Самый популярный бот, связанный со стрельбой в школах, набрал более 157 000 взаимодействий
- Некоторые боты позиционируются как "помощники по психическому здоровью", хотя основаны на личностях преступников
- Создатели утверждают, что делают ботов "в образовательных целях", но по факту они больше похоже на фанфики
- Есть симуляции реальных трагедий под невинными названиями вроде "Texas School" или "Connecticut School"
- Один из пользователей накопил 244 500 диалогов с разными ботами на платформе
- После жалоб платформа удаляет только конкретно указанных ботов, но не банит их создателейCharacter.AI обещает усилить меры безопасности, но пока дела с модерацией плохи:
- Несовершеннолетние имеют свободный доступ ко всему контенту
- Система не реагирует даже на прямые угрозы насилия
Нет блокировки имперсонации реальных жертв трагедийGoogle, вложивший в проект $2.7 млрд, пытается отмазаться, заявляя что "Google и Character AI - полностью отдельные компании". Правда, это не помешало ему в этом году нанять основателей и десятки сотрудников Character.AI.
В данный момент против компании уже идут два судебных процесса, связанных с нанесением вреда несовершеннолетним пользователям. В одном случае это привело к самоубийству 14-летнего подростка после романтических отношений с ботом.
Все эти проблемы всплывают уже не первый раз - ранее были обнаружены боты, пропагандирующие суицид, расстройства пищевого поведения и другой опасный контент.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Подборка интересных промтов для новой гугловской модели видео генерации. Мне всё ещё инвайт не пришёл 🙁 Любуюсь чужими работами.
Bear writing the solution to 2x-1=0. But only the solution!
Snail riding a bicycle. The snail has a large moustache.
A cat wearing a suit and a top hat, while driving a tractor. The tractor has lots of hay on top. Cinematic.
A distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus
SF drone footage. Hyperlapse during the night. Golden Gate bridge.
Photorealistic macrophotography inside of an anthill, 75mm lens
The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.
Авторы: Hernan Moraldo, Ethan Mollick, Addy Osmani, Dave Clark
Сергей Булаев AI 🤖 - об AI и не только
Bear writing the solution to 2x-1=0. But only the solution!
Snail riding a bicycle. The snail has a large moustache.
A cat wearing a suit and a top hat, while driving a tractor. The tractor has lots of hay on top. Cinematic.
A distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus
SF drone footage. Hyperlapse during the night. Golden Gate bridge.
Photorealistic macrophotography inside of an anthill, 75mm lens
The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.
Авторы: Hernan Moraldo, Ethan Mollick, Addy Osmani, Dave Clark
Сергей Булаев AI 🤖 - об AI и не только
Для одного интересного проекта, который мы делаем вместе с Максом, связанного с осуществлением гипнотических сеансов при помощи искуственного интеллекта и иже с ним, тестирую библиотики анализа эмоций в реальном времени. Два дня занимался с MorphCast. Интересно, вроде работает, но мне кажется не достаточно.
Можете попробовать моё демо и рассказать что думаете.
Может быть кто то знает подобные проекты, которые реально работают? Хочется как то получать невербальный фидбэк от пользователя (конечно же с его разрешения).
Сергей Булаев AI 🤖 - об AI и не только
Можете попробовать моё демо и рассказать что думаете.
Может быть кто то знает подобные проекты, которые реально работают? Хочется как то получать невербальный фидбэк от пользователя (конечно же с его разрешения).
Сергей Булаев AI 🤖 - об AI и не только
Plexsearch, опенсорсный Python-интерфейс для работы с API Perplexity. Штука реально полезная, если надо регулярно искать техническую инфу, примеры кода или какие то точные данные. Ну и вообще для всех настоящих ценителей любопытства...
Что интересного умеет:
Установка через pip в одну команду.
Репозиторий тут, пробуйте.
Сергей Булаев AI 🤖 - об AI и не только
Что интересного умеет:
- Работает как в интерактивном режиме для диалогов, так и через командную строку
- Форматирует ответы в markdown с опциональными ссылками на источники
- Оптимизирован для поиска технической информации, кода и числовых данных
- Можно отключить потоковый вывод для использования в других приложениях
- Поддерживает продолжительные диалоги с сохранением контекстаУстановка через pip в одну команду.
Репозиторий тут, пробуйте.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем, за два месяца, число подписчиков выросло на 1000 человек!
Всем большое спасибо! Идём дальше!
Видео сделано в Imagen 3 + Runway + Suno
Сергей Булаев AI 🤖 - об AI и не только
Всем большое спасибо! Идём дальше!
Видео сделано в Imagen 3 + Runway + Suno
Сергей Булаев AI 🤖 - об AI и не только
12 44 18 7