Psy Eyes
4.92K subscribers
1.03K photos
942 videos
5 files
1.15K links
Креатив + AI + Web3... и мемы

Личная страница @andrey_bezryadin
Download Telegram
🤖 ЧАТЫ 🤖

Alibaba: разработчики Qwen выпустили модель QwQ с пошаговым мышлением. Так как это превью версия, то много внезапных переключений между языками, и генерации простынок текста без итогового ответа. Посмотрим что будет на релизе. Ollama run qwq

Lmsys: запустили на арене языковых моделей (LLM) RepoChat, которому можно скормить ссылку на гитхаб репо и наблюдать какая ллм лучше исправит ошибку в issues.

Replit
: теперь AI-разработчику можно кормить скриншоты или ссылки с промтом, а дальше он сам.

Open-WebUI: в обновлениях v 0.4.4 — 0.4.6: расширенные возможности аутентификации пользователей, улучшения в RAG, и не только.

Gradio: в версии v 5.6 появилось локально хранение данных в браузере пользователя. Даже если страница перезагрузится, ничего не пропадёт. Плюс недавно появились другие ништяки вроде WebRTC для стриминга.

TransformersJS: в версии v 3.1 через WebGPU заработало больше моделей: Deepseek Janus, Qwen2-VL, и не только.

AI2: выпустили в опенсорс ллм Tulu-3 в размерах 8B и 70B, вместе с датасетом, кодом, и рецептами. Ollama

SmolVLM: маленькая визуальная языковая модель (VLM) для работы на телефоне. Говорят быстрее в 7-16 раз, чем QwenVL 2B.

LM Studio: начиная с версии V 0.3.5 можно запускать LM Studio как сервис. Пригодится при использовании приложения в режиме сервера для локальных языковых моделей (LLM).

Также разрабы представили venvstacks, для упаковки AI-приложений на Python и их зависимостей в портативный формат, без необходимости включать здоровенные копии фреймворков на питоне в каждое приложение.

Anthropic: добавили стили генерации ответов и возможность загрузить свои доки, чтобы AI понял твой стиль. Плюс опубликовали протокол MCP облегчающий коммуникацию AI-ассистенотв с другими приложениями, репами, и базами данных.

OpenAI: модель 4o теперь пишет креативнее и лучше работает с загруженными доками.

DeepSeek: выкатили превью версию R1-Lite, своей ллм с пошаговым рассуждением, конкурент GPT-о1.

Paper Reviewer
: выжиматор бумаг с Arxiv, который делает из них блогпосты с картинками и аудио в формате подкаста. Под капотом Gemini 1.5.

Nexa Omni Vision: маленькая, но способная VLM для чата по визуалу на мобильных устройствах.

Athene V2: это AI-агент для выполнения заданий пользователя с вызовом функций.

Runner H: AI-агент для автоматизации задач на компьютере пользователя, адаптирующийся к изменениям в UI.

Marco-o1: ещё одна ллм с пошаговым мышлением, но сфокусированная на темах, где нет чётких ответов.

ShowUI: AI-агент для локального выполнения задач с использованием GUI. Задействуется Qwen2VL.

Ламе 3.2 11B тоже пришили пошаговое мышление.

Phi-3.5 Vision: тоже VLM для чата по визуалу с фокусом на арте.

Agora: протокол для удешевления коммуникации между AI-агентами.

Apple: выпустили набор визуальных энкодеров AIMv2.

В 40-ой серии видюх от Nvidia не работает Nvlink, но Geohot поковырял драйвер и заставил две 4090 работать через P2P PCIe, минуя CPU-RAM.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Kling: добавили в раздел с генерацией картинок виртуальную примерочную Virtual Try-on. Полученные изображения можно анимировать i2v моделью.

Также в v 1.5 завезли Motion Brush, контроль камеры, и генерация по первому/последнему кейфрейму. Появилось и разделение по качеству для V 1.5: Professional Mode выдаёт 1080p, а Standard 720p без контроля, но зато быстрее.

V 1.5 теперь доступна и через API.

Анонс
Примерочная
Где в честь чёрной пятницы сейчас скидки:

Видео
Kling — 50% на платные тарифы
Minimax — 15% на годовые тарифы

3D
Meshy — 40% на тарифы Max и Max Unlimited. Код: SAVE40
Rodin — 50% на Creator и Business тарифы
KIRI Engine — 55% на годовой тариф

Картинки
Ideogram — 50% на месячную и годовую подписки
Phygital+ — 50% на любой тариф

Музыка/Аудио
Suno — 40% скидка на платные тарифы

Текст/Код/Компьют
Replit — 60% на Replit Core с AI-разработчиком
Freepik — 50% на премиум тарифы
ChatHub — 20% на годовые тарифы по промокоду BF2024
Perplexity — 75% на Pro подписку

TON
Tonkeeper — 80% на Pro с мультиакками, мультисендом, сайнером.

Железо
Turing Pi 2.5 — скидка до 20$ за юнит.

Доставка из зарубежа
Бандеролька — до 80% скидка на покупку товаров и бесплатный выкуп по промокоду FRIDAY24
Boxberry — до 90% скидка на доставку. Промокоды: 1CHANCE, BLACK24

Если чего не хватает маякните, добавлю.
lllyasviel немного обновил IC light v2, инструмент для смены освещения на фотках с помощью Flux, — исправлена ошибка, выдающая артефакты на генерациях.

Онлайн демо уже обновлено, кода всё ещё нет.
Если они переименуются в Alien Institute of AI, я поступаю!

Сайт
520 000 000 руб ≈ $5 000 000 ≈ 50 битков ≈ 0,0003% данных интернета

Раз данные это новая нефть, на ваш взгляд какой процент тут должен стоять и как его считать?

ChatGPT говорит цифра в районе 0.000217–0.00036%. Claude считает 0,00000000009%.
KIRI Engine: обновили свой инструмент 3DGS to Mesh до V2.

Улучшения коснулись: реконструкции отражающих поверхностей и прозрачных материалов; обработки освещения и глубины; детальности выходного меша.

Сейчас функционал за платной подпиской, но команда говорит, что возможно его опенсорснут до конца года.

Сам Kiri Engine проапгрейдился до v 3.12 и появилась работа с масками, чтобы удалять фон от объекта.

Также обновился до V2 и плагин для Blender. Здесь улучшения в управлении цветом + балансом белого, а также оптимизации для работы в реальном времени.

Сайт
Плагин на Гитхабе
Обзор 3DGS to Mesh V2 (YouTube)
Обзор плагина для Blender (YouTube)
Kling дают 100 кредитов за прохождения их опроса. Давшим особенно полезный фидбэк грозятся даже дать 1000.

Дерзаем
Mail.ru конечно гандоны ещё те. Когда я был ранним тестером их облака мне выдали 100 ГБ навсегда. Теперь они просто взяли и урезали место на облаке со 100 ГБ до 8 ГБ, и говорят у тебя месяц чтобы освободить место или мы сами всё удалим. Я об этом вообще никак бы не узнал ибо почту не читаю, но выяснилось, что и у родственника на бесплатном тарифе также с 30 ГБ до 8 ГБ. И на какую реакцию они рассчитывают, когда месяц спустя у людей на ровном месте исчезнут файлы?

Я не знаю это такая программа анти-лояльности, или чёрная пятница их так покусала и они решили таким образом увеличить продажи, или чего. Но могу сказать точно — свою подписку они могут засунуть себе за щеку.
This media is not supported in your browser
VIEW IN TELEGRAM
Отличное применение дипфейков. Aphex Twin одобряет.

Не слежу за миром бокса. Давно туда начали такое промо завозить?

YouTube
Занятно, что клингу не нужно выделять все детали (очки, волосы, итд), он сам догоняет как примерно должно быть.
This media is not supported in your browser
VIEW IN TELEGRAM
Новый параметр для генерации видео, отвечающий за семплинг — Spatiotemporal Skip Guidance (STG). Может работать вместо или совместно с CFG.

* Улучшает пространственно-временные качества видео (стабильность)
* Сохраняет динамику
* Нет нужды в тренировке
* Подрубается plug-&-play к трансформерным видеогенераторам (Mochi, SVD, Open-Sora)

Сайт
Гитхаб
Генератор музыки JEN, натренированный на лицензированном аудио, вышел с публичной бетой v 1.5. Я писал о них раньше, когда они выпустили альфу v 1.0.

Появились доп. инструменты для контроля звука: подача ваших треков на вход; генерация интро/аутро/продление/фейд, обрезка, или перегенерация сегмента; задание длительности. Также повысилось качество аудио.

Проблема в том, что само звучание осталось во много дисгармоничным, а структура треков блёклой. И это режет всё желание экспериментировать, когда у тебя под рукой ушедшие сильно вперёд Suno и Udio.

В голову лезет мысль, что подход с использованием только лицушного контента ограничивает разрабов. Но Korus тоже натренированы на лицензированном контенте, а разница в качестве просто небо и земля.

Кстати, если у нас есть Minimax и Kling, должны быть где-то и китайские музыкальные генераторы, досыта накушанные любым аудио контентом и выдающие уровень не хуже, а то и лучше Udio и Suno. Понятно, что с музыкой не всё так просто, как с картинками и видео. Но всё же.

Сайт
This media is not supported in your browser
VIEW IN TELEGRAM
PocketPal: мобильный интерфейс для чата с разными маленькими языковыми моделями, интегрировал поддержку HuggingFace.

Теперь можно в мобильном приложении искать, качать и запускать модели прямо с хаггинга из списка или по ссылке.

Фичи:
* Работают оффлайн
* Смена моделей внутри одного чата, чтобы сравнить ответы
* Автозагрузка/выгрузка из памяти
* Управление размером контекста и другие параметры
* Метрики производительности видны после ответа

Я заметил, что когда ты возвращаешься после сворачивания приложения или выходишь с блокировки экрана, модель грузится по новой. Если что, это можно выключить в настройках, и загружать модели вручную.

Пока все, что щупал своим тестом на Mi Note 10 Pro генерят медленно. Но важнее не скорость, а качество. И пока ответы ни от одной из стартового списка (лама, SmolLM, Gemma, Danube, Phi, Qwen) меня не удовлетворили.

Некоторое время назад Qualcomm выпустили ворох моделей оптимизированных под мобилки. Я сейчас залез на хаггинг а они оказывается 5 дней назад их обновили и похоже новых залили. Надо будет заценить.

Android
iOS
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Yamaha: выпустили плагин VX-β для синтеза вокала на японском и английском.

В чём отличия от Vocaloid6:
* Работает во внешних DAW, конкретно Cubase
* Управление параметрами голоса в реальном времени
* Усиление экспрессии и громкости кнобом Power Parameter

Плагин бесплатен для владельцев лицензии на Vocaloid6 Editor. Можно скачать с сайта триальную версию и на неё накатить плагин, чтобы потестить. Отдельный голосовой банк качать не нужно — от Vocaloid6 подойдёт. Если что, банк с голосами можно бесплатно скачать на сайте.

Я погонял немного. На английском мало вариков и отдаёт роботизированностю. Тем не мене вещь интересная. Тут гайд как этим пользоваться.

Сайт
Гайд