Константин Доронин
3.89K subscribers
622 photos
313 videos
1 file
337 links
По любым вопросам, которые не хотите задавать в комментариях, можете писать напрямую – @kdoronin
Download Telegram
Рецепт успеха Open Source AI-проекта на примере ElizaOS. Стремительный взлёт за 3 месяца с момента старта!

Подтверждение того, что взлёт действительно состоялся:

1. Почти 15000 звёзд на github (для сравнения, у официального репозитория iOS-клиента Telegram за 4 года его существования набралось около 6600 звёзд).

2. 4800 форков. То есть клонов основного репозитория с доработками "под себя".

3. Почти 150 contributors у одного из последних релизов.

Что же они такого сделали? Думаю, секрет в их подходе к работе и организации взаимодействия с сообществом.

Вот список того, что впечатлило меня:

1. Уже в первой версии ElizaOS они проработали документацию и создали отдельный репозиторий с примерами, как с системой работать.

2. У них есть отдельный аккаунт на github исключительно под плагины системы. Туда заливают плагины в том числе от сторонних разработчиков. Их там уже 161!

3. Им показалось мало подробной документации, поэтому они записали 4 объёмные видео-лекции, не менее часа длиной каждая.

4. Основная сущность в ElizaOS – это агенты. Конфигурации которых настраиваются через JSON-файл. И вы только посмотрите, какой у них шикарный конструктор агентов на сайте.

5. Регулярные релизы. И не "для галочки", а каждый раз с весьма внушительным списком изменений.

6. Работа с сообществом. Как я понимаю, изначально разработчики сделали удачную ставку на криптосообщество. Это видно по количеству плагинов вокруг криптобирж, а также токен в сети Solana как бы намекает 🙂

Вообще, всё моё знакомство с проектом ElizaOS сопровождалось мыслями "Ого! Они и это сделали? Круто!".

Я уже начал пробовать ElizaOS в своих практических кейсах. Обязательно вам о них расскажу! 🙂

А какие вы знаете Open Source проекты, которые быстро взлетели за счёт грамотной работы с сообществом и своего подхода к работе?
1🔥104👍1
Что делать с "Избранное" в Telegram?

По статистике от Telegram, у меня на постах достаточно много "Поделились непублично". Порой их даже больше, чем реакций (это, признаться, слегка огорчает).

Мы с вами знаем, что многие репосты – это просто пересылка материала в "Избранное". С надеждой "потом к нему вернуться".

Ну и как? Возвращаетесь? Я вот не особо (вообще ни разу).

Но ведь "Я из прошлого" посчитал эту информацию ценной и полезной. Раз уж добавил в "Избранное".

Перечитывать всё это по одному посту, выискивая именно ту информацию, которая нужна в моменте... Точно не самый оптимальный путь.

Пришла пора научить AI-агента работать с моими диалогами в Telegram. По крайней мере с одним.

Какой план:

1. AI-агент. Я взял goose, про которого писал в этом посте. Он будет отвечать за взаимодействие с инструментами.

2. MCP-сервер для Telegram. Связь между агентом и Telegram Apps API.

3. NotebookLM от Google, в который и отправится файл со всем "Избранным" для дальнейшего изучения.

Всё хорошо в этой схеме, кроме пункта №2. Единственный MCP-сервер для доступа в Telegram, который мне удалось найти, лежит тут.

И я, признаться, так и не смог его нормально запустить.

Так у меня появился на github проект с MCP-сервером для Telegram Apps (и первый пост, который выходит после 2-х часов ночи). Лежит он здесь.

Он очень простой, при этом позволяет агенту выполнять любые API-запросы для Apps и получать необходимую информацию.

Как запустить и подключить к AI-агенту:

1. Само собой, придётся получить api_id и api_hash на этой странице.

2. Далее ставим node.js и настраиваем файл .env с константами (подробное описание есть в readme проекта).

3. Запускаем проект через npm start.

4. При первом запуске проекта нужно будет авторизоваться в Telegram. Используя одноразовый код и 2FA (если подключена. Если не подключена – подключите. Мошенники не дремлют).

5. Добавляем сервер в Goose. Тип ExtensionServer-Sent Events, URL указываем http://localhost:3000/mcp . Остальные обязательные поля заполняем по своему усмотрению.

6. Goose выдаст ошибку при добавлении. Версия MCP-сервера ещё примерно на стадии пре-альфы, так что это нормально.

7. В диалог с агентом скидываем URL http://localhost:3000/mcp/manifest , чтобы он изучил, какие команды можно выполнять с сервером.

8. Далее просим его получить сообщения из чата "Избранное". Просите сразу выгрузить 10000-30000 сообщений. С написанием ruby-скрипта для нормальной выгрузки, с шагом и смещением, у Claude-3.5.-sonnet, например, возникли проблемы.

9. Прежде, чем выгрузить сообщения, Goose также спросит ваш номер, привязанный к Telegram (тот, через который вы авторизовывались в https://my.telegram.org/apps). Вводим через международный код.

10. В результате (достаточно недолгой) работы, goose сохраняет json-файл в папке, куда у него расшарен доступ. После чего его уже можно загружать в NotebookLM и изучать на предмет "скрытых кладов".

Вот такой путь к получению всех данных из "Избранного" получился. Делитесь, как часто вы изучаете собственный аналогичный чат?

p.s.: Сегодня я пытался при помощи text-to-image моделей сгенерировать "Цветик-семицветик". У которого две ключевых характеристики: лепестков ровно 7; все лепестки разного цвета. Это совсем не тривиальная задача для нейросети. Свои лучшие попытки прикрепил в медиа. Попробуйте сгенерировать сами. Скидывайте попытки в комментарии! 🙂
111👍10🔥6🌚1
Онлайн-инструмент для быстрого преобразования REST API в инструменты для MCP-сервера.

Находится тут: https://mcpcreator.com/

1. Создаём проект.

2. Заполняем переменные окружения, если необходимо.

3. Добавляем туда все необходимые endpoints и заполняем поля (на скриншоте в медиа поста).

4. Обязательно выполняем запрос, чтобы сгенерировать схему данных, которую мы ожидаем получить.

5. Сохраняем endpoint.

6. Когда собрали все нужные endpoint-ы, скачиваем проект через download server.

На выходе получаем ts-проект, который соответствует всем спецификациям MCP и готов к работе.

Всё абсолютно бесплатно и позволяет не разбираться со всеми MCP-правилами.
4🔥84👍3
Появилось image-to-video от veo2 на fal.ai. Похоже, что произошёл Sora-момент.

Помните, как OpenAI с помпой рассказывали о своей новой AI-video-модели, которая должна была порвать рынок?

Не сложилось.

Спустя некоторое время, тем же самым занялись ребята из Google. Рассказывали про свою Veo2.

И опять интернет-сообщество часто верило этому маркетингу.

Сегодня я проверил за вас image-to-video от Veo2. На fal.ai каждая генерация – от $2.5 до $4. Минимум на счёте нужно иметь $5.

Для сравнения залил видео от Kling по тем же входным данным (у них есть watermark).

И вот что я вам скажу. Лучше эти деньги на подписку в Kling потратить. Там видео куда как предсказуемее. Особенно в сложных задачах с движением.

Возможно, у кого-то в комментариях найдутся кейсы, где Veo2 показывает себя настолько лучше, что действительно есть смысл отдавать по $2.5 за видео. Было бы интересно почитать.
1🔥91👍1
Куда инвестировать, чтобы выиграть от "революции" AI

Предлагаю собраться в режиме онлайн и обсудить темы на стыке финансов и AI. Встреча пройдёт в формате панельной дискуссии. Разберём конкретные компании и способы инвестирования в них.

Спикеры:

📌 Искусственный интеллект и технологии – @kdoronin
Как использовать AI-инструменты для бизнеса и жизни? Обзоры актуальных сервисов и технологий, которые помогают решать прикладные задачи.

💰 Финансист с велосипедом@apozharenko
Разбор реальных кейсов по инвестициям в Европе и управлению деньгами.

ЧТ 20.03, в 18:00 по Варшаве, 19:00 по Вильнюсу, 20:00 по Москве и 21:00 по ОАЭ

👉 Для добавления вас к звонку пришлите вашу почту в личку @apozharenko
🔥65👍2
Видели эти бесконечные комментарии от AI в крупных каналах? Те самые, которые своими формулировками вызывают испанский стыд.

Я самые "умные" из них даже приложу в медиа поста. Те, которые были чуть умнее стандартных и поэтому попали в мой "Музей развития AI-спама" 🙂

На самом деле задача написать "похожий на человека AI-комментарий" не так проста, как кажется на первый взгляд, и содержит в себе несколько уровней:

1. Семантический. Если вы желаете писать от своего имени, то неплохо бы было, чтобы нейросеть использовала ваш индивидуальный стиль. Берём просто тексты, которые вы написали за какой-то длительный период и дообучаем LLM писать, соблюдая ваш стиль.

2. Структурный. Вы ведь ещё и сам текст собираете как-то по-своему. Разбиваете на абзацы определённым образом, используете списки, цитаты. И это может выходить за рамки семантики. Плюс – структуру AI копирует чуть хуже. Нужно отдельно дообучить его для лучшего формирования структуры.

3. Информационный. Откуда-то именно ваши знания надо брать. Примерно те же тексты, что в п.1, но теперь из них надо получать информацию на ту или иную тему. И с учётом этой информации формировать текст.

4. Контекстный. Ваша нейросеть, которая по первым трём пунктам может собирать достаточно высокого уровня посты, не напишет человекоподобный комментарий. Потому что комментарий по своей сути отличается от поста. Так как, фактически, комментарий – это диалог с автором поста. Помимо вашей базы знаний из п.3, комментарий содержит контекст родительского поста. Зачастую, данные о предыдущих комментариях также должны попадать в контекст.

5. Логический. Здесь больше про то, как ведёт себя человек, комментируя посты. Как правило, он выбирает одну мысль, которая его "зацепила", обрабатывает её и пишет комментарий с использованием собственного, не всегда информационного (но и эмоционального, к примеру), контекста. Нейросети по-умолчанию ведут себя иначе. Они пытаются использовать весь контекст поста. Поэтому даже небольшой комментарий они пишут сразу по всему посту. Подход абсолютно разный. И LLM необходимо донастроить, чтобы она ушла от привычных паттернов.

Всё это мы накопали за время очень интересного созвона с Феликсом Шапиро. Помимо разговора про LLM-комментарии, обсудили также идеи относительно разработки ПО с помощью AI.

К чему я это? Хотите поговорить про AI – напишите мне. Договоримся о времени созвона и точно принесём друг-другу пользы. Заодно получше познакомимся 🙂
1👍83🔥2
Немного про Wan Effects.

Помните, в посте про Wan я говорил, в том числе, о том, что появится большое количество кастомизаций?

Всё так и происходит. Уже появилось множество LoRA под эту модель, которые позволяют, например, генерировать FullHD-видео вместо стандартного 720p.

Сегодня – про Wan Effects.

Если следите за рынком AI-видео, то, скорее всего, вы натыкались на видео от Pika labs, на которых с предметами на видео происходят всякие вирусные метаморфозы.

По ссылке на сайте fal.ai можно создавать аналогичные эффекты при помощи LoRA для Wan.

Доступно на выбор целых 25 эффектов!

Важно: выбирайте входную фотографию 16:9 или 9:16. Так её не будет плющить в пропорциях.

Некоторые из доступных эффектов – в медиа поста. Если захотите попробовать что-то ещё – скиньте свои генерации в комментарии 🙂

Занимательный факт: изначально fal.ai загрузили вместо Wan Effects модель под названием Wan LoRA. И можно было по URL загружать LoRA с Huggingface, например. Думаю, из-за потока NSFW лавочку решили достаточно быстро прикрыть 🙂
1🔥7👍53
Media is too big
VIEW IN TELEGRAM
Deep Research от Google и его сравнение с конкурентами.

Если раньше был тренд на reasoning-модели, то сейчас, судя по всему, каждая уважающая себя компания обязана сделать AI-агента для проведения глубоких исследований.

Как будто бы у Google должно быть преимущество в этой задаче, поскольку они могут более нативно получать данные из YouTube и поиска (ох уж эти монополисты).

Инструмент на данный момент бесплатный и доступен по ссылке. Среди моделей в левом-верхнем углу экрана нужно выбрать "Deep Research" и можно приступать к работе.

Я использовал такие же промпты, как в постах про Grok, Perplexity и OpenAI (которому, напомню, потребовался всего один запрос, так как он задаёт доп. вопросы перед стартом исследования).

Результаты исследования можете прочитать тут: базовый и со стилем Вани. Разница при взаимодействии с Gemini в том, что после второго запроса они почему-то выдали мне документ под названием «Адаптация сценария под стиль Вани» с рекомендациями о том, что же мне делать с исходным сценарием. Поэтом пришлось делать дополнительный запрос, чтобы получить именно сценарий.

Сам сценарий, по моему мнению, получился весьма посредственным. Каких-то необычных свежих мыслей в нём нет. Структура тоже не лучшая.

Из всех моделей с Deep Research, которые я тестировал на этой задаче на текущий момент, Gemini смог обогнать, разве что, Grok. Потому что тот ещё и в стиль конкретного автора не попал из-за кривой реализации поиска.

Но тут есть нюанс. Я не готовил специально промпт, как, например, описывал в этом посте. И есть ощущение, что правильно приготовленный запрос в Gemini может дать свои плоды и существенно улучшить результат.

Мне очень понравилось, как Gemini форматирует ответ, показывая в конкретных абзацах используемые для написания источники.

Также хорошая идея с делением списка источников на "используемые при написании статьи" и "не используемые при написании статьи". В отличие от Grok, который выводит просто (громадный) список.

Само собой, у Gemini отлично работает поиск информации по индексу. На то он и Google.

Также есть кнопка, позволяющая в один клик сформировать из ответа Google Doc. Удобно.

Вывод: Gemini имеет отличную реализацию работы с поиском и хорошо оптимизированное извлечение информации из документов. Но над агентской частью, которая выстраивает план и следует ему, а также формирует текст ответа, стоит ещё поработать. Полагаю, что оператору, чтобы получить качественный ответ, стоит дополнительно углубиться в вопрос правильной постановки задачи.

Скажите, пробовали ли вы уже Deep Research от Gemini? Если да, то какое впечатление на вас произвёл данный инструмент?
👍73🔥2❤‍🔥1