Технозаметки Малышева
8.27K subscribers
3.72K photos
1.4K videos
40 files
3.91K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
NVIDIA представила Sana: сверхбыстрый генератор изображений для домашних ПК

NVIDIA Labs выпустила компактный генеративный фреймворк для создания изображений по текстовому описанию с разрешением до 4096×4096 пикселей.
Технология задействует линейный диффузионный трансформер и автоэнкодер со сжатием в 32 раза.
Модели в 2х вариантах: 0.6 млрд параметров и 1.6, - в 20 раз меньше аналогов, при этом работает в 100+ раз быстрее, чем например Flux-12B.
Генерация изображения 1024×1024 занимает менее секунды на обычном ноутбуке с 16GB GPU.

GitHub
Demo

1 кадр в секунду! Фантастика!

#NVIDIA #Sana #text2image
-------
@tsingular
👍51
This media is not supported in your browser
VIEW IN TELEGRAM
Готовим RAG системы правильно.

Фиксированный размер обеспечивает равные части по токенам с перекрытием, прост в реализации, но может нарушать смысл.

Семантический подход работает с естественным изложением, повышает точность поиска через косинусное сходство векторов.

Рекурсивное деление сначала разбивает на параграфы, затем дробит крупные сегменты на подструктуры и предложения.

Структурный метод опирается на разделы и подразделы документов, а так же на его опорные элементы и требует четкой организации контента.

LLM-based задействует языковые модели для создания связных частей, ресурсоемок, но семантически точен.

Эффективность каждого метода зависит от типа данных, мощности оборудования и требований к точности.

Отличная шпаргалка от Daily Dose of Data Science 📚

#RAG #chunking #semantics
-------
@tsingular
👍7221
Anthropic добавили нативную интеграцию Google документов в веб чат.

Достаточно просто кинуть ссылку.

А если еще и проект создать и ссылку на обновляемый скриптами документ сделать, - получается в любой момент можно пообщаться по статусу любого проекта.

#claude #anthropic #google
———
@tsingular
4👍21
Marco-o1: новая LLM от Alibaba с встроенным механизмом рассуждений

Alibaba представила многоязычную модель Marco-o1, созданную на базе Qwen2-7B-Instruct.

Внедрены Chain-of-Thought и Monte Carlo Tree Search для улучшения логических рассуждений.

Показывает рост точности в тестах MGSM: +6.17% для английского и +5.60% для китайского языков.

Модель доступна в GGUF-форматах от 2 до 32 бит с поддержкой ollama, LM Studio и оптимизацией под CPU/GPU.

Специализируется на точных науках, программировании и комплексном решении открытых задач.

Локально поднимаем o1. Дожили 🤓

ollama run hf.co/bartowski/Marco-o1-GGUF

#Alibaba #MarcoO1 #Китай
-------
@tsingular
👍5🆒432
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
Значит так, у нас ЕЩЕ ОДИН ВИДЕОГЕНЕРАТОР, опенсорсный притом.
LTXV is ONLY a 2-billion-parameter DiT-based video generation model capable of generating high-quality videos in real-time. It produces 24 FPS videos at a 768x512 resolution faster than they can be watched.

Cходу нативная поддержка Comfy, text2videi, image2video и вроде как video2video.

Может притормозим?

Весь фарш тут:
https://blog.comfy.org/ltxv-day-1-comfyui/

@cgevent
1👍8🔥4
JarkaStealer маскируется под API для ChatGPT и Claude

🦠 В официальном репозитории PyPI найдены вредоносные пакеты gptplus и claudeai-eng, имитирующие работу популярных чатботов.
Вредоносный код JarkaStealer похищает данные браузеров, делает скриншоты и крадёт токены Telegram, Discord и Steam.
За год существования каждый пакет загружен более 1700 раз в 30 странах, большинство жертв из США.
Злоумышленники использовали ажиотаж вокруг ИИ-технологий и обещание бесплатного доступа к платным сервисам для привлечения неопытных разработчиков.

Когда слышите про бесплатный сыр - вспоминайте про мышеловку 🧀🪤

Если у вас паранойя, - это не значит, что за вами никто не следит. :)

#JarkaStealer #PyPI #malware
-------
@tsingular
👍6💯3👀2🤔1
Ученые: Внеземные цивилизации уже могут быть цифровым сознанием

Согласно последним исследованиям, в Млечном Пути может существовать около 12,500 разумных цивилизаций.
Вероятно, продвинутые расы эволюционировали в пост-биологические формы жизни, основанные на синтетическом разуме.
Такой цифровой интеллект способен существовать без физических ограничений, самосовершенствоваться и использовать экзотические технологии связи.
Отсутствие контакта объясняется либо наблюдением за человечеством, либо применением неизвестных нам способов коммуникации через гравитационные волны или тёмную материю.

Инопланетяне: 'Землю пропускаем - там только начали делать нейросети' 😅

#Drake #PostBiological #ExtraterrestrialLife
-------
@tsingular
😁9🤔3🔥2🗿2👾2
Amazon и Anthropic: Новый раунд инвестиций на $4 млрд и эксклюзивное партнёрство

Amazon увеличила вложения в создателя Claude до $8 млрд, став ключевым стратегическим партнёром.
Производитель ИИ-решений задействует AWS как основную платформу для обучения нейросетей.
Для тренировки и развёртывания моделей будут использоваться чипы AWS Trainium и Inferentia.

Anthropic так же опровергает, появившееся в последнее время, мнение о замедлении прогресса, указывая на постоянное совершенствование самокоррекции и рассуждений моделей и что модели стали на столько умнее, что современные бенчмарки уже не подходят.

Гонка инвестиций. Клод, ИМХО, лидер пока в любом случае, так что окупится. 🚀

#Anthropic #AWS #Claude
-------
@tsingular
🔥111🏆1🦄1
Давно я про DeepSeek не писал, а он, тем не менее, заслуживает отдельного внимания.

Веб платформа за год очень достойно подросла.

Понятно, что там доступна последняя версия DeepSeek v2.5 (236B параметров 64К контекст) в чате, но теперь и DeepThink - 50 запросов с моделью рассуждений по типу o1, полноценное API в формате openai, остальные модели:
Coder V2, Math, VL, V2 и т.д.

Ну и самое вкусное, - цены:
$0.14 за 1 миллион токенов на вход и
$0.28 за 1 миллион на генерацию

https://chat.deepseek.com/

работает без VPN

С русским языком тоже справляется отлично. Не так, как Sonnet 3.5, но всё же. Sonnet, как вы помните, я тестирую на Венке Сонетов. Это такой блокчейн в мире поэзии. 14 Сонетов связаны через первые и последние строки, а последний, - Магистрал состоит из строк первых 14ти.

Вот пример как это делает Sonnet 3.5 текущей версии.

А вот пример как это делает O1-preview

Надо создавать категорию SPT - Sonnet Poetry Test :) очень хорошо отражает способность к рассуждениям моделей.

#DeepSeek #Китай
———
@tsingular
1👍10👨‍💻1
Отдельно попробовал DeepThink на той же задаче с Венком Сонетов.
Ожидаемо. - не справился, но, что интересно, он даёт детальный ход размышлений. И это прям отдельный увлекательный рассказ для прочтения. (eng)
Как он рекурсивно декомпозирует задачу, как делает выводы и как исправляется. Думаю тут может быть много инсайтов для разработчиков.

А дальше я весь этот ход размышлений передал Sonnet 3.5 и вот разбор от него.
Там много, поэтому закреплю картинкой.

Сам разбор в файле с Соннетом.

#DeepThink #SPT
———
@tsingular
👍8211
Media is too big
VIEW IN TELEGRAM
Интересный эксперимент с распознаванием картинок Клодом Соннет 3.5.

Взял задачку из этого поста:
https://xn--r1a.website/seeallochnaya/2057

закинул в Клода и за пару секунд, - разбор.

Человек бы минут 10, наверное, искал.

#demo #imagerecognition
———
@tsingular
🔥11🆒1
📊 Новые данные от METR о скорости развития ИИ заставляют экспертов корректировать прогнозы

Claude 3.5 вышел на уровень среднего человека-исследователя, показав прирост в 0.2 пункта за 4 месяца. Звучит скромно, но для этой метрики это существенный рост.

Интересные детали из исследования:

- ИИ генерирует и тестирует решения в 10 раз быстрее людей
- В одной из задач o1-preview смог оптимизировать CUDA-ядро лучше, чем лучший человек-эксперт (0.64 мс против 0.67 мс)
- При этом медианный результат ИИ всё еще слабый – модели часто "спотыкаются" на необычных задачах

Эли Лифланд пересмотрел свои ожидания: вероятность появления автономного ИИ-исследователя к концу 2027 повысилась с 20% до 30%.

Даниэль Кокотайло отметил, что o1 и Claude уже способны автономно работать над сложными ML-задачами больше часа – такой результат ожидался только к 2026 году.

Похоже, прогресс в этой области ускоряется быстрее, чем предполагали совсем недавно.
Закон возврата технологий работает.

#METR #AGI
———
@tsingular
👌10👍5
Краткий курс по промпт-инжинирингу и вызову ИИ с функциями.

Маруся -ИИ.
Тит Кузьмич и Фрол-Фомич - функции.

А там еще в сказке есть То-Чаво-На-белом-свете-Вообче-Не-может-быть!

Это AGI :)

#ФедотСтрелец #сказки
———
@tsingular
😁10🤯2😐2🆒1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Похоже Minimax превращается в этакий генеративный Хаб.

Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:

Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.

TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!

Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series

Более того, у них уже есть упакованные продукты:

свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828

Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)

А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."

В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.

Весь фарш тут:

https://www.minimaxi.com/en

@cgevent
5
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic показали универсальный способ общения LLM с внешним миром

MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).

Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.

MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.

Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.

Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.

Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.

Примеры интеграций
Туториал по протоколу

@ai_newz
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA Fugatto превращает слова в невиданные звуки и композиции

NVIDIA представила прототип аудио-трансформера Fugatto с 2.5 млрд параметров.

Нейросеть, обученная на 32 GPU H100, способна синтезировать и модифицировать любые звуковые комбинации из текста.

Технология ComposableART позволяет создавать гибридные звуки вроде мяукающей трубы 🎵🐱 или звука прибывающего поезда плавно переходящего в выступление симфонического оркестра.
Возможная и генерация новых не существующих звуков и бесшовный морфинг существующих.
Можно убрать голос из композиции и наоборот, убрать музыку, оставив голос.

Модель применима в игровой индустрии, рекламе, обучении языкам и музыкальном производстве.

В очень интересном направлении движутся товарищи, - выявление схожих паттернов в не связанных доменах знаний.
А голосовая демка, - это просто наглядный пример.
Посмотреть пока можно анонс, трейлер и документацию.
Саму модель еще не опубликовали.

#NVIDIA #Fugatto #AudioAI
-------
@tsingular
7
MTS AI выпустили компактную русскоязычную LLM-модель Cotype Nano

Разработаны три модификации малой языковой модели: базовая, квантизированная и CPU-версия.
Датасет сфокусирован на математике, программировании, function-calling, RAG и классификации.
Двухстадийное обучение включало тренировку MLP с LoRa и полное обучение на инструкциях.
Технические оптимизации позволили уменьшить размер до 1.6ГБ видеопамяти через AWQ-квантизацию.
Модель заняла первое место на RuGeneralArena в своей категории, демонстрируя высокую эффективность при минимальных ресурсах.

Если нет видеокарты и не нужен большой контекст,- вполне.

#MTS #Cotype #NLP #МТС
-------
@tsingular
👍5
Forwarded from эйай ньюз
INTELLECT-1 - первая децентрализованно натренированная LLM

Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.

В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.

Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.

Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.

Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.

@ai_newz
🔥8👍2
Все, что останется после ядерной войны, - артефакты сказочных мифов.

#flux
———
@tsingular
🔥9🕊2🆒1