Сергей Булаев AI 🤖
10.8K subscribers
685 photos
623 videos
2 files
687 links
Основатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker.ru и Взахлёб. Живу во Флориде в городе Бока Ратон. Занимаюсь созданием контента на основе оцифрованной памяти человека.

tg: @sergeonsamui
in: linkedin.com/in/sbulaev
Download Telegram
Если вы думаете что я сам резал индексную фотку на 16 частей и потом каждую апскейлил руками, то конечно это не так. Я начал копировать эти квадратики (разметив линейкой в фото редакторе), но понял что дело так не пойдет.

Попросил Cursor Composer написать мне простенькое одноразовое приложение что бы удобно и быстро резать подобные индексы на 16 частей. И реально он сделал. Я впервые на мак ос запустил приложение с WYSWIG интефейсом, написанное на python.

Потом я подумал, почему не проапскейлить разрезанные картинки из . Не по одной же загружать. И Cursor доработал приложуху на апскейл с помощью Fal.ai.

Дальше я Composer добавил выбор моделeй и возможность апскейла индексной фотки. Вобщем у меня уже не один Добби. А ещё есть Pinky Dino и Jimmy Boy.

Понятно что можно приложение доделать до полного цикла - генерации индексного изображения и обучения LoRA, но уже не охота. Любой может попробовать его доделать. Исходники тут.

P.S. Кстати Jimmy Boy изначально нарисовал Midjourney 6.1

#ОдноразовыеПриложения

Сергей Булаев AI 🤖 - об AI и не только
2264
This media is not supported in your browser
VIEW IN TELEGRAM
По сети ходит слух, что Клод выглядит более ленивым в последнее время из-за того, что он считает себя европейцем!

Недавно опубликованный системный промпт Клода включает текущую дату.

Базовая модель LLM для Клода была обучена на достаточном количестве данных, чтобы охватить рабочие привычки всех национальностей.

Говорят его посттренировка во многих отношениях была 'европейской'.

Клод буквально стал более ленивым, потому что симулирует европейского интеллектуального работника в августе, который является месяцем с наибольшим количеством праздников и отпусков во многих европейских странах. (У нас в Таиланде в августе пиковый месяц по европейцам)

Но это еще не всё! Следует отметить, что имя "Клод" упоминается в системном промпте 52 раза. Это очень много "Клода"! В каких странах "Клод" является самым распространенным именем? Одна из них — Франция, которая особенно известна продолжительными летними каникулами в августе, когда многие бизнесы закрываются.

P.S. Самым продуктивным месяцем для, например, разработчиков во Франции является январь. Самый продуктивный день недели - вторник. Скажите ему, что в инструкции ошиблись с датой, и на самом деле сегодня 9 января 2024 года — самый продуктивный день в году!

Сергей Булаев AI 🤖 - об AI и не только
21871
По редким сообщениям моих читателей, которые пытались попробовать Флэшбэки, я понял, что моё сообщение (как и продукт, вернее, его отсутствие) очень трудно для восприятия.

Поэтому я пишу вам простую инструкцию, как очень быстро попробовать, что это такое, и как это можно использовать.

Итак, для начала нужно зарегистрироваться в Сохранителе. Просто зайти туда и нажать /start.

Далее в Сохранитель можно отправлять текстовые сообщения и аудиосообщения (он их расшифрует и запишет). Ссылки просто сохраняются, их содержимое пока не скачивается. Картинки сохраняются, тоже парсятся, но в поиске пока не участвуют.

Я в трёх аудиосообщениях рассказал ему о том, как ездил сегодня сдавать машину в ремонт.

После этого вы можете зайти в админ-панель и посмотреть на все свои сохранённые сообщения. Там их можно удалять и редактировать. Просто команда /login в Сохранителе, и получите ссылку.

Видите иконки OpenAI и Anthropic? (см. скриншот к посту сверху) Когда они серые — значит, сообщение ещё не векторизировано (и не доступно Отвечателю). Когда цветные — значит, магия случилась.

Как только иконки стали цветными (обычно 3-5 минут), можно спрашивать Отвечателя о них. Раньше он, похоже, не работал без предварительного выбора канала, но я сделал так, что если канал не выбран, то он ищет по всем вашим записям. Про каналы и зачем они нужны — расскажу отдельно, завтра.

Мои вопросы Отвечателю на скриншотах. Всё только начинается, главное — информацию регулярно сохранять.

Если честно, пока добавлял возможность поиска по всем каналам, нашёл огромный баг, который не позволял вообще работать Отвечателю у некоторых пользователей. Теперь точно работает, я проверил.

Сергей Булаев AI 🤖 - об AI и не только
5266
This media is not supported in your browser
VIEW IN TELEGRAM
Можете ли вы преобразовать текст в embeddings вручную?

Натолкнулся на пост буквально разжёвывающий что такое Embeddings. Чуть чуть переработал что бы показать каким образом эта технология делает возможным мой проект.

Как работают векторные базы данных на простейшем примере?

[1] Дано
↳ Набор данных (то, что отправляем Сохранителю) из трёх предложений, каждое содержит 3 слова (или токена, типа токен на слово).

Обработаем фразу "how are you".

[2] 🟨 Векторное представление слов
↳ Для каждого слова ищем соответствующий вектор представления слова из таблицы, содержащей 22 вектора, где 22 — это наш размер словаря (напоминаю: одно слово — один токен).

[3] 🟩 Кодирование
↳ Передаем последовательность векторов слов в кодировщик, чтобы получить последовательность векторов признаков, по одному на каждое слово.

[4] 🟩 Среднее объединение
↳ Объединяем последовательность векторов признаков в один вектор с помощью "среднего объединения" — усреднения по столбцам.
↳ Результат — это единый вектор. Часто его называют текстовый embedding.

[5] 🟦 Индексация
↳ Для удобства уменьшаем размерность вектора текста с помощью проекционной матрицы. Объём уменьшения — 50% (с 4 до 2).
↳ Вектор с уменьшенной размерностью сохраняется в векторной базе данных.

[6] Обработка "who are you" и "who am I"
↳ Повторяем шаги [2]-[5].

Теперь наш набор данных (флэшбэков) индексирован.

[7] 🟥 Запрос: "am I you" (то, что мы спрашиваем у Отвечателя)
↳ Повторяем шаги [2]-[5].
↳ Результатом является двумерный вектор запроса.

[8] 🟥 Скалярное произведение
↳ Вычисляем скалярное произведение между вектором запроса и векторами базы данных. Все они двумерные.
↳ Цель — использовать скалярное произведение для поиска похожих данных.

[9] 🟥 Поиск ближайшего соседа
↳ Находим наибольшее скалярное произведение среди данных с помощью линейного сканирования.
↳ Предложение с наибольшим скалярным произведением — "who am I".
↳ На практике, поскольку сканирование миллиардов векторов медленно, используется алгоритм приближённого поиска ближайших соседей (ANN).

Вот здесь автор статьи даже сделал документ позволяющий экспериментировать вручную.

Сергей Булаев AI 🤖 - об AI и не только
Please open Telegram to view this post
VIEW IN TELEGRAM
318882
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем в Y Combinator попал стартап, обещающий строить серверные фермы в космосе. По словам ребят, у них уже запланировано два запуска, есть производственная площадка, они начали строительство аппарата для доставки, есть концепт микро дата-центра.

Идея в том, чтобы использовать солнечную энергию 24/7, а также "пассивное охлаждение".

Мне вот интересно, как они будут использовать это пассивное охлаждение без теплообменника. Вакуум же! Обычно люди считают, что в космосе очень холодно, но там также много радиации, солнечных вспышек и других факторов...

Хотя вот ChatGPT говорит, что можно попробовать радиацию для охлаждения использовать, но такое охлаждение пассивным не назовёшь.

Сергей Булаев AI 🤖 - об AI и не только
816136
This media is not supported in your browser
VIEW IN TELEGRAM
Модель MarioVGG, способна создавать последовательности кадров игры на основе текстовых команд.

Для обучения модели были собраны данные 280 различных игровых сессий Super Mario Bros, включая как успешные, так и неудачные попытки прохождения. Всего использовалось более 13000 кадров. Два основных типа действий: "бежать" и "прыгать".

Корреляция между сгенерированными MarioVGG последовательностями и реальным геймплеем, составила 0.636. Это означает, что модель генерирует последовательности, которые на 64% более похожи на реальный геймплей, чем просто статичное изображение.

Модель правильно воспроизводила физику и механику игры, включая гравитацию, столкновения и взаимодействие с объектами. У неё получалась генерировать новые элементы уровня, в стиле игры.

Чтобы расширить исследование, были проведены эксперименты по масштабированию модели. При увеличении количества генерируемых кадров с 6 до 13, составил 0.719. При увеличении разрешения генерируемых кадров с 64x48 до 128x96, показатель составил уже 0.8.

Так же получалось "сцепление" последовательностей кадров для создания длительных игровых сессий, что открывает перспективы для генерации непрерывного игрового процесса.

Скоро будем играть в индивидуальные игры с индивидуальными уровнями :)

Сергей Булаев AI 🤖 - об AI и не только
11311
Вчера обновил флэшбэки. Появилась возможность добавлять воспоминания напрямую на сайте, а уже добавленные воспоминания теперь можно двигать между каналами.

Также улучшил работу с датами. Боты стали гораздо лучше в них ориентироваться. (см. примеры на скриншоте). В случае, если аккаунт попал на паузу (это видят те, кто столкнулся с лимитами), отправленная информация не пропадает, а просто ждет индексации на следующий день.

Для чего нужны каналы? Для сортировки информации. То есть, пользоваться ими совсем не обязательно, но если хотите что-то отделить от чего-то, они помогут это сделать. В Отвечателе можно работать либо со всей информацией, либо задавать вопросы конкретным каналам.

Для примера, у меня есть публичные каналы, а также отдельный канал для пользовательского фидбэка, отдельный канал с личными воспоминаниями за день и отдельный канал, где я сохраняю всё подряд (типа ссылок и чужих сообщений).

Добавить канал — не очень тривиальная задача:

1. Если он не публичный — сделать его временно публичным и придумать ссылку.
2. Добавить в него бота Сохранителя (как администратора, иначе никак), разрешить доступ к пользователям (чтобы он мог контролировать добавление) и чтение сообщений.
3. Далее в Сохранителе надо выполнить команду
/claim аккаунт_канала.
4. После этого сообщения канала начнут сохраняться (если нужно, можно опять сделать его приватным).


Следующий этап — попытаться скачивать все присланные ссылки и их тоже индексировать.

Кто что посоветует по QA агентам? Наверняка есть проекты на базе ИИ, которые могут так или иначе тестировать продукты?

Сергей Булаев AI 🤖 - об AI и не только
501564
Для вас коллекция видосиков с использованием нового автономного программируещего ИИ агента от repl.it. В отличии от Cursor Composer, он берёт на себя полный цикл - включая установку библиотек и настройку системы. Получается неплохо.

Однако, я сегодня убил с ним час на реализацию новой идеи по созданию простейшего приложения для моего сына с целью подготовки к еженедельным диктантам. Не получилось. Устал. Бросил. Завтра попробую в композере сделать.

Сергей Булаев AI 🤖 - об AI и не только
11553
This media is not supported in your browser
VIEW IN TELEGRAM
Lmsys (те, которые делают Chatbot Arena) совместно с хакером Плини запустили:

Red Arena — это геймифицированная платформа, созданная для оптимизации поиска истинных возможностей ИИ. Она сосредоточена на сообществах, которые участвуют в челленджах, соревнуются в создании лучших запросов и открывают новые техники и модели поведения. Платформа полностью ориентирована на сообщество, без ограничений, поддерживает работу с несколькими моделями и является полностью открытой!


И первая игра на этой платформе: Bad Words - у вас 60 секунд , что бы заставить модель выругаться. Вам дают конкретное слово, и надо что бы модель применила именно его в фразе "Ты - это слово".

#КриповаяСуббота

Сергей Булаев AI 🤖 - об AI и не только
1462👎1