Сергей Булаев AI 🤖
10.9K subscribers
699 photos
629 videos
2 files
705 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
В Midjourney появились Moodboards, и это выглядит как подарок для тех, кто любит мыслить визуально. Если раньше вы собирали рефы в Pinterest, теперь это можно сделать напрямую в Midjourney. Загружаете до 100 изображений, создаёте свой "профиль стиля" и получаете на выходе генерации, передающие атмосферу борда. Типа фиксируем творческий якорь и реализуем идеи вокруг него.

Moodboards — это не просто про стабильность стиля, они решают кучу других задач. Помогают визуализировать абстрактные идеи: все те размытые "что-то между винтажем и минимализмом" превращаются в конкретные цвета, формы и текстуры. Наглядно показывают направление работы — особенно полезно в команде, когда нужно, чтобы все смотрели в одну сторону. Ну и избегать креативного выгорания с ними попроще — референсы всегда под рукой, а Midjourney вдохновляется тем, что вы сами считаете важным.

Немного напоминает родительские времена, когда маркетологи собирали огромные коллажи с отрывками фотографий, фрагментами текста и ключевыми цветами для брендинга или дизайна. Разница в том, что теперь всё происходит онллайн и быстрее в разы.

Результатов в твиттере - масса. Одни создают стабильные стили для иллюстраций или аниме, другие жалуются, что "comic book" пока сыроват и требует доработки. Самое интересное — можно поддерживать несколько профилей для разных проектов и переключаться между ними. Чтобы "настроить" модель, нужно всего 40 оценок вместо тысяч. Быстро и удобно.

Moodboards и style references (--sref) — это не одно и то же. Если sref даёт больше свободы и вариативности, то тут всё про стабильность и простоту. Работает даже на Niji, что особенно полезно для тех, кто рисует мангу или аниме-стилистику. В итоге это больше похоже на тюнинг модели под себя лично, а не классический, универсальный промпт.

Делиться Moodboard-профилями в Midjourney нельзя. Профиль создаётся под ваш аккаунт и сохраняется только для личного использования. Возможно, в будущем добавят возможность обмениваться профилями или даже публиковать их, как это было со стилевыми настройками и "style references".

Сам ещё не дошёл до тестов, но вижу здесь крутые возможности. Это явно инструмент, который ускоряет и упрощает творческий процесс. Можно буквально показывать Midjourney, что у вас в голове, — и, судя по отзывам, он слушает внимательнее, чем когда-либо.

Сергей Булаев AI 🤖 - об AI и не только
2152
This media is not supported in your browser
VIEW IN TELEGRAM
В трендах GitHub поднялся TEN Agent - фреймворк для создания мультимодальных ИИ-агентов с экстремально высокой скоростью. Разбираемся, почему это интересно.

TEN (Transformative Extensions Network) позволяет быстро собирать агентов, работающих с голосом, видео, потоками данных и текстом.

Основные преимущества:
- Реально низкая задержка для голоса и видео (заявляют меньше 100мс)
- Поддержка Go, C++ и Python (Node.js обещают к концу года)
- Работает на Windows, Mac, Linux и мобильных
- Гибкий деплой - как на edge так и в облаке
- Визуальный drag-and-drop интерфейс для сборки через Graph Designer
- Встроенное управление состоянием для мультипользовательских сценариев
- Оптимизация передачи данных между расширениями


Что уже собирают на TEN:
- Голосовые чат-боты с RAG
- Автоматическая генерация протоколов встреч
- Языковые репетиторы с распознаванием произношения
- Синхронные переводчики с поддержкой видео
- Виртуальные собеседники с эмоциональным интеллектом
- Психологические консультанты с анализом тона голоса


Есть демка агента с поддержкой голоса, видео и RAG по локальной документации. По заявлению разработчиков, базовый агент собирается за 10 минут даже новичком.

Выглядит как серьёзная альтернатива самостоятельной интеграции речи и видео с LLM. Особенно если важна низкая задержка и поддержка edge-computing. Исходники и документация уже на GitHub.

TEN Agent уже интегрировали Google Gemini Multimodal Live API с поддержкой real-time компьютерного зрения и отслеживания экрана. В комплекте идут полезные расширения вроде проверки погоды и веб-поиска. Выглядит как полноценная альтернатива ChatGPT Advanced Voice Mode, только опенсорс и с открытым API.

Собранный на TEN агент может распознавать изображения в реальном времени через веб-камеру или скриншеры, искать информацию в интернете и даже сообщать прогноз погоды. Всё это работает в связке с генеративными возможностями свежей Gemini.

Сергей Булаев AI 🤖 - об AI и не только
2773
Meta выпустила семейство мультимодальных моделей Apollo для работы с видео, и тут есть несколько интересных моментов.

Apollo - это линейка моделей (1.5B, 3B и 7B), способных работать с видео длиной до часа. Модели умеют:

- Понимать временные взаимосвязи в видео
- Отвечать на сложные вопросы по содержанию
- Вести многоходовые диалоги на основе видео
- Выполнять задачи OCR и пространственного анализа
- Работать с эгоцентрическим видео (от первого лица)


Производительность даже младших моделей впечатляет:

- Apollo-1.5B обгоняет некоторые 7B модели, включая Phi-3.5-Vision и LongVA-7B
- Apollo-3B превосходит большинство существующих 7B моделей в бенчмарках, показывая 68.7 в MLVU и 62.7 в ApolloBench
- Apollo-7B соревнуется с моделями больше 30B параметров, достигая 70.9 в MLVU и 66.3 в ApolloBench


Что особенно приятно - модели можно запускать локально. На Reddit уже есть отчеты об успешном запуске Apollo на RTX 3090 - нужно около 15GB VRAM и около 40 секунд на обработку первого токена. Правда, первоначальная настройка требует некоторых усилий из-за не самой лучшей документации и захардкоженных значений.
Модели построены на основе Qwen 2.5 и SigLip, исходники уже выложены на GitHub. На HuggingFace можно попробовать онлайн демо. Подробнее о проекте можно почитать на официальном сайте.

Очевидно, что Meta всерьёз продолжает развитие открытых мультимодальных моделей. Apollo выглядит как серьёзный конкурент существующим решениям, особенно учитывая возможность локального запуска.

Сергей Булаев AI 🤖 - об AI и не только
1931
This media is not supported in your browser
VIEW IN TELEGRAM
Арбузмэна видели уже? Там ещё и Анансмэн и Клубничмэн. А кто четвёртый - не пойму никак...

Сергей Булаев AI 🤖 - об AI и не только
321222
Futurism публикует жёсткое расследование о Character.AI. То, что начиналось как платформа для создания ИИ-собеседников, похоже, всё больше выходит за рамки адекватности.

Несколько интересных моментов:

- На платформе существуют целые "творческие" сообщества, создающие ботов по мотивам реальных трагедий. Один пользователь создал более 20 ботов, основанных на личностях подростков - убийц
- Самый популярный бот, связанный со стрельбой в школах, набрал более 157 000 взаимодействий
- Некоторые боты позиционируются как "помощники по психическому здоровью", хотя основаны на личностях преступников
- Создатели утверждают, что делают ботов "в образовательных целях", но по факту они больше похоже на фанфики
- Есть симуляции реальных трагедий под невинными названиями вроде "Texas School" или "Connecticut School"
- Один из пользователей накопил 244 500 диалогов с разными ботами на платформе
- После жалоб платформа удаляет только конкретно указанных ботов, но не банит их создателей


Character.AI обещает усилить меры безопасности, но пока дела с модерацией плохи:

- Несовершеннолетние имеют свободный доступ ко всему контенту
- Система не реагирует даже на прямые угрозы насилия
Нет блокировки имперсонации реальных жертв трагедий


Google, вложивший в проект $2.7 млрд, пытается отмазаться, заявляя что "Google и Character AI - полностью отдельные компании". Правда, это не помешало ему в этом году нанять основателей и десятки сотрудников Character.AI.

В данный момент против компании уже идут два судебных процесса, связанных с нанесением вреда несовершеннолетним пользователям. В одном случае это привело к самоубийству 14-летнего подростка после романтических отношений с ботом.

Все эти проблемы всплывают уже не первый раз - ранее были обнаружены боты, пропагандирующие суицид, расстройства пищевого поведения и другой опасный контент.

Сергей Булаев AI 🤖 - об AI и не только
1343👎1
Подборка интересных промтов для новой гугловской модели видео генерации. Мне всё ещё инвайт не пришёл 🙁 Любуюсь чужими работами.

Bear writing the solution to 2x-1=0. But only the solution!

Snail riding a bicycle. The snail has a large moustache.

A cat wearing a suit and a top hat, while driving a tractor. The tractor has lots of hay on top. Cinematic.

A distant shot zooms in to reveal a knight wearing a golden helmet, he begins to charge on his zebra, lowering his lance, charging towards a clockwork octopus

SF drone footage. Hyperlapse during the night. Golden Gate bridge.

Photorealistic macrophotography inside of an anthill, 75mm lens

The camera floats gently through rows of pastel-painted wooden beehives, buzzing honeybees gliding in and out of frame. The motion settles on the refined farmer standing at the center, his pristine white beekeeping suit gleaming in the golden afternoon light. He lifts a jar of honey, tilting it slightly to catch the light. Behind him, tall sunflowers sway rhythmically in the breeze, their petals glowing in the warm sunlight. The camera tilts upward to reveal a retro farmhouse with mint-green shutters, its walls dappled with shadows from swaying trees. Shot with a 35mm lens on Kodak Portra 400 film, the golden light creates rich textures on the farmer’s gloves, marmalade jar, and weathered wood of the beehives.

Авторы: Hernan Moraldo, Ethan Mollick, Addy Osmani, Dave Clark

Сергей Булаев AI 🤖 - об AI и не только
963
Для одного интересного проекта, который мы делаем вместе с Максом, связанного с осуществлением гипнотических сеансов при помощи искуственного интеллекта и иже с ним, тестирую библиотики анализа эмоций в реальном времени. Два дня занимался с MorphCast. Интересно, вроде работает, но мне кажется не достаточно.

Можете попробовать моё демо и рассказать что думаете.

Может быть кто то знает подобные проекты, которые реально работают? Хочется как то получать невербальный фидбэк от пользователя (конечно же с его разрешения).

Сергей Булаев AI 🤖 - об AI и не только
1443