Forwarded from Data Secrets
Sakana AI релизнули модель для генерации моделей
Она называется Text-to-LoRA. LoRA – это метод файнтюнинга, когда мы вместо полного дообучения всей сети настраиваем для нужных нам задач специальные низкоранговые адаптеры.
Это довольно эффективный метод, но и он требует сбора данных и какого-никакого обучения.
Sakana же предлагают модель, которая на лету генерирует сразу готовые LoRA адаптеры из обычного текстового промпта. Например, на вход: «хочу модель для анализа отзывов в картах». На выход: готовые веса адаптера, которые не надо обучать, а остается только запустить.
Под капотом у T2L лежит классический hypernetwork-подход. Гиперсеть получает на вход эмбеддинг описания задачи вместе с эмбеддингами для каждого слоя исходной модели, а потом через серию MLP-блоков генерирует нужные низкоранговые матрицы A и B, которые сразу прикладываются к базовым весам. Это и есть готовый LoRA-адаптер.
На тестах это работает хорошо: в среднем +8 % к точности над исходником. Это примерно на уровне или даже лучше, чем ручные LoRA и мульти-задачные LoRA.
Представьте, насколько это снижает порог входа в тюнинг моделей для не-инженеров
Статья | GitHub
Она называется Text-to-LoRA. LoRA – это метод файнтюнинга, когда мы вместо полного дообучения всей сети настраиваем для нужных нам задач специальные низкоранговые адаптеры.
Это довольно эффективный метод, но и он требует сбора данных и какого-никакого обучения.
Sakana же предлагают модель, которая на лету генерирует сразу готовые LoRA адаптеры из обычного текстового промпта. Например, на вход: «хочу модель для анализа отзывов в картах». На выход: готовые веса адаптера, которые не надо обучать, а остается только запустить.
Под капотом у T2L лежит классический hypernetwork-подход. Гиперсеть получает на вход эмбеддинг описания задачи вместе с эмбеддингами для каждого слоя исходной модели, а потом через серию MLP-блоков генерирует нужные низкоранговые матрицы A и B, которые сразу прикладываются к базовым весам. Это и есть готовый LoRA-адаптер.
На тестах это работает хорошо: в среднем +8 % к точности над исходником. Это примерно на уровне или даже лучше, чем ручные LoRA и мульти-задачные LoRA.
Представьте, насколько это снижает порог входа в тюнинг моделей для не-инженеров
Статья | GitHub
🔥9⚡4❤1
This media is not supported in your browser
VIEW IN TELEGRAM
🎉23👍10🫡7🔥3🗿2❤🔥1🕊1
Forwarded from Sber AI
This media is not supported in your browser
VIEW IN TELEGRAM
Собрано в России: 8 датасетов от отечественных разработчиков💡
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
💳 Golos — это корпус аудиозаписей русской речи с транскрипциями объёмом 1 240 часов. Используется для обучения моделей распознавания речи. А с помощью датасета Dusha нейросети учатся определять эмоции в речи. В нём собраны короткие аудиофрагменты с аннотациями четырёх типов настроения: грусть, радость, злость или нейтральная эмоция. Оба корпуса созданы командой Сбера.
Национальный корпус русского языка
✉️ Крупнейший и наиболее репрезентативный корпус текстов на русском языке, созданный специалистами из Института русского языка РАН, МГУ и СПбГУ. В него входят художественные произведения, научные статьи, документы и публицистика, расшифровки устной речи, а также переводы. Общий объём — более 2 млрд токенов. Лингвисты разметили все тексты с высокой точностью. Это позволяет качественно обучать LLM с учётом русской грамматики, синтаксиса и культурного контекста.
Slovo
💚 Крупнейший датасет русского жестового языка от Сбера. С его помощью модели компьютерного зрения обучаются распознавать дактилемы — буквы жестового алфавита. Cостоит из 20 400 видео, записанных с помощью 194 носителей языка и экспертов.
∇²DFT
👨💻 Набор данных о квантовых свойствах и пространственной геометрии атомов в 1,9 млн молекул. На нём модели учатся прогнозировать свойства химических соединений. Датасет и бенчмарк на его основе создали специалисты из Института AIRI, Сколтеха и Санкт-Петербургского отделения Математического института имени В.А. Стеклова (ПОМИ) РАН.
Skoltech3D
💻 Датасет, с помощью которого модели учатся реконструировать поверхности сложных 3D-объектов. Содержит около 1,4 млн снимков 107 пространств и объектов под 14 различными видами освещения. Данные собрали исследователи из Сколтеха, AIRI и МФТИ.
Museum exhibits dataset
⭐️ Библиотека содержит около 16 000 размеченных изображений экспонатов из открытого музейного каталога Минкульта России. На этих данных модели обучаются распознавать объекты и анализировать визуальное сходство.
MosMedData Chest CT Scans
🔥 В этом датасете собрано более тысячи КТ-снимков лёгких российских пациентов, перенёсших COVID-19. Все данные обезличены. С помощью снимков модели обучаются распознавать признаки заболеваний.
❤️ — если хотите больше историй о российских AI-разработках
Распознавать эмоции, предсказывать структуру молекул, понимать жестовый язык и культурный контекст — всему этому нейросети учатся на наборах данных. Их собирают и размечают большие команды исследователей. В День России рассказываем об отечественных датасетах и корпусах.
Golos и Dusha
Национальный корпус русского языка
Slovo
∇²DFT
Skoltech3D
Museum exhibits dataset
MosMedData Chest CT Scans
❤️ — если хотите больше историй о российских AI-разработках
Please open Telegram to view this post
VIEW IN TELEGRAM
❤22👍5🔥3
LightAutoML - быстрый AutoML фреймворк от Сбера
LightAutoML (LAMA) — opensource фреймворк для создания ML моделей за несколько строк кода от команды Sber AI Lab.
Поддерживает табличные данные, временные ряды, изображения и тексты. Можно использовать готовые пресеты или собирать кастомные пайплайны из блоков.
Особенности:
- Быстрое прототипирование моделей
- Готовые решения для разных типов задач
- Гибкая настройка под конкретные нужды
- GPU и Spark поддержка в разработке
#AutoML #Сбер #OpenSource
------
@tsingular
LightAutoML (LAMA) — opensource фреймворк для создания ML моделей за несколько строк кода от команды Sber AI Lab.
Поддерживает табличные данные, временные ряды, изображения и тексты. Можно использовать готовые пресеты или собирать кастомные пайплайны из блоков.
Особенности:
- Быстрое прототипирование моделей
- Готовые решения для разных типов задач
- Гибкая настройка под конкретные нужды
- GPU и Spark поддержка в разработке
#AutoML #Сбер #OpenSource
------
@tsingular
✍6
Microsoft Copilot вломали через промпт иньекцию
Исследователи обнаружили критическую уязвимость в Microsoft Copilot под названием EchoLeak.
Хакеры могли украсть данные пользователей через обычное письмо.
Атака работала через скрытые инструкции в email, которые активировались когда пользователь задавал вопрос ИИ.
Copilot извлекал письмо как релевантное и выполнял команды злоумышленника.
Данные передавались через автоматически загружаемые ссылки в Teams и SharePoint, обходя защиту.
Microsoft присвоил уязвимости статус критической (CVE-2025-32711) и выпустил исправление в мае.
Компания заверила, что эксплойтов не было.
#Microsoft #Copilot #Security
------
@tsingular
Исследователи обнаружили критическую уязвимость в Microsoft Copilot под названием EchoLeak.
Хакеры могли украсть данные пользователей через обычное письмо.
Атака работала через скрытые инструкции в email, которые активировались когда пользователь задавал вопрос ИИ.
Copilot извлекал письмо как релевантное и выполнял команды злоумышленника.
Данные передавались через автоматически загружаемые ссылки в Teams и SharePoint, обходя защиту.
Microsoft присвоил уязвимости статус критической (CVE-2025-32711) и выпустил исправление в мае.
Компания заверила, что эксплойтов не было.
#Microsoft #Copilot #Security
------
@tsingular
✍7👍2
Media is too big
VIEW IN TELEGRAM
CLONE: дистанционное управление роботом Unitree через систему VR погружения с большим радиусом действия!
🏃♂️🧍 CLONE позволяет выполнять сложные и скоординированные интерактивные задачи:
🥊 бокс
🏓 настольный теннис
🤲 подбор предметов
📦 обустройство помещения
🤝 передача
… и многое другое!
🌀 Замкнутая система коррекции ошибок на основе одометрии LiDAR обеспечивает точность, а обучение на анализе движений motion capture повышает качество, раскрывая весь потенциал робота G1.
Полная видеодемонстрация и страница проекта здесь:
humanoid-clone.github.io
Сегодня пересматриваем Суррогаты
Или, кстати, Соловей против Ильи Муромца :)
#Clone #Unitree #Avatar #Китай
———
@tsingular
🏃♂️🧍 CLONE позволяет выполнять сложные и скоординированные интерактивные задачи:
🥊 бокс
🏓 настольный теннис
🤲 подбор предметов
📦 обустройство помещения
🤝 передача
… и многое другое!
🌀 Замкнутая система коррекции ошибок на основе одометрии LiDAR обеспечивает точность, а обучение на анализе движений motion capture повышает качество, раскрывая весь потенциал робота G1.
Полная видеодемонстрация и страница проекта здесь:
humanoid-clone.github.io
Сегодня пересматриваем Суррогаты
Или, кстати, Соловей против Ильи Муромца :)
#Clone #Unitree #Avatar #Китай
———
@tsingular
🔥8👾2❤1
Forwarded from Machinelearning
Первая полностью open-source, готовая к продакшену PBR 3D генеративная модель!
PBR (Physically Based Rendering) - это технология, при которой внешний вид 3D-объектов рассчитывается с учётом реальных физических законов взаимодействия света и поверхности.
✅ Модель выдает кинематографичное качество: синтез PBR-материалов — кожа, бронза и другие поверхности выглядят фотореалистично с красивыми эффектами освещения.
✅ Open source: доступны веса модели, код для обучения и инференса, пайплайны — всё можно доработать под себя.
✅ Запускается даже на потребительских GPU (Модель тестировалась на GPU A100 с Python 3.10 и PyTorch 2.5.1+cu124.) — с моделью создавать 3D-контент могут не только студии, но и любые разработчики и малые команды.
▪ Модель: https://huggingface.co/tencent/Hunyuan3D-2.1
▪ Github: https://github.com/Tencent-Hunyuan/Hunyuan3D-2.1
▪ Hunyuan 3D Creation Engine: https://3d.hunyuan.tencent.com
@ai_machinelearning_big_data
#Hunyuan3D #OpenSource #3DCreation #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
✍5👍3⚡2❤1
Forwarded from эйай ньюз
Advancing AI 2025 — выжимка из презентации AMD
Хоть Nvidia и лидер на рынке GPU, но они там не одни. Выбрал для вас самое сочное:
➖ MI350x и MI355x (тот же кристалл, выше TDP) будут доступны в третьем квартале — 288 ГБ HBM3e, поддержка FP4/FP6, 8TB/s пропускной способности, до 20 петафлопс в FP4, держат больше полутриллиона параметров на одной карте.
➖ Такие характеристики позволяют нехило сэкономить — AMD обещают прирост в токенах в секунду до 40% за те же деньги, по сравнению с Nvidia Blackwell.
➖ MI400x — 40 петафлопс в fp4, 432 гигабайта HBM4 на скорости 19.6TB/s, релиз в 2026. MI450 уже проектируют вместе с OpenAI — об этом лично сказал Сэм Альтман на сцене.
➖ Helios AI-Rack — прямой конкурент NVL144 Vera Rubin от Nvidia. 72 MI400x дают 2.9 экзафлопса в FP4, 1.4PB/s пропускной способности и 31TB VRAM, при этом давая такой же уровень интерконнекта внутри. Выйдет тоже в 2026.
➖ Helios и вся линейка строятся на открытом интерконнекте, вместо проприетарного NVLink.
➖ AMD Developer Cloud — официальное облако от AMD, специально для разработчиков, для регистрации нужен всего лишь GitHub аккаунт. Предлагают MI300x за $2 в час, что заметно дешевле других провайдеров.
Видяхи AMD выглядят очень вкусно для инференса — при схожей производительности по компьюту, они дают больше VRAM и пропускной способности, что означает заметно больший батчсайз и более дешёвые токены. А за последний год уровень поддержки видях AMD стандартным софтом для инференса, вроде SGLang, вырос на голову. Но тренировать на них пока что всё ещё рано — всё ещё слишком нестабильно. Хотя прогресс за последнее время всё равно впечатляет.
Полная презентация
@ai_newz
Хоть Nvidia и лидер на рынке GPU, но они там не одни. Выбрал для вас самое сочное:
➖ MI350x и MI355x (тот же кристалл, выше TDP) будут доступны в третьем квартале — 288 ГБ HBM3e, поддержка FP4/FP6, 8TB/s пропускной способности, до 20 петафлопс в FP4, держат больше полутриллиона параметров на одной карте.
➖ Такие характеристики позволяют нехило сэкономить — AMD обещают прирост в токенах в секунду до 40% за те же деньги, по сравнению с Nvidia Blackwell.
➖ MI400x — 40 петафлопс в fp4, 432 гигабайта HBM4 на скорости 19.6TB/s, релиз в 2026. MI450 уже проектируют вместе с OpenAI — об этом лично сказал Сэм Альтман на сцене.
➖ Helios AI-Rack — прямой конкурент NVL144 Vera Rubin от Nvidia. 72 MI400x дают 2.9 экзафлопса в FP4, 1.4PB/s пропускной способности и 31TB VRAM, при этом давая такой же уровень интерконнекта внутри. Выйдет тоже в 2026.
➖ Helios и вся линейка строятся на открытом интерконнекте, вместо проприетарного NVLink.
➖ AMD Developer Cloud — официальное облако от AMD, специально для разработчиков, для регистрации нужен всего лишь GitHub аккаунт. Предлагают MI300x за $2 в час, что заметно дешевле других провайдеров.
Видяхи AMD выглядят очень вкусно для инференса — при схожей производительности по компьюту, они дают больше VRAM и пропускной способности, что означает заметно больший батчсайз и более дешёвые токены. А за последний год уровень поддержки видях AMD стандартным софтом для инференса, вроде SGLang, вырос на голову. Но тренировать на них пока что всё ещё рано — всё ещё слишком нестабильно. Хотя прогресс за последнее время всё равно впечатляет.
Полная презентация
@ai_newz
👍10⚡3❤1🤔1
Forwarded from Data Secrets
Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»
Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.
Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:
1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.
2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».
3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.
Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025☠️
Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.
Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».
Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡9🔥7👍5❤3🤯1
Сотни MCP серверов в контейнерах
Проект mcp-containers решает главную проблему экосистемы MCP - сложность настройки серверов. Теперь сотни MCP серверов упакованы в Docker-контейнеры и автоматически обновляются при изменении исходного кода.
В каталоге представлены серверы для работы с популярными сервисами: GitHub, Notion, Slack, PostgreSQL, MongoDB, Stripe, OpenAI, Kubernetes и многими другими.
Теперь подключить любой MCP сервер к Claude Desktop или другим совместимым клиентам стало максимально просто - достаточно одной команды docker pull.
Например MCP для Telegram:
Pull the Docker image:
Run the container:
Usage with Claude:
#MCP #Docker #mcpcontainers
------
@tsingular
Проект mcp-containers решает главную проблему экосистемы MCP - сложность настройки серверов. Теперь сотни MCP серверов упакованы в Docker-контейнеры и автоматически обновляются при изменении исходного кода.
В каталоге представлены серверы для работы с популярными сервисами: GitHub, Notion, Slack, PostgreSQL, MongoDB, Stripe, OpenAI, Kubernetes и многими другими.
Теперь подключить любой MCP сервер к Claude Desktop или другим совместимым клиентам стало максимально просто - достаточно одной команды docker pull.
Например MCP для Telegram:
Pull the Docker image:
docker pull ghcr.io/metorial/mcp-container--chigwell--telegram-mcp--telegram-mcp
Run the container:
docker run -i --rm \
-e TELEGRAM_API_ID=telegram-api-id -e TELEGRAM_API_HASH=telegram-api-hash -e TELEGRAM_SESSION_NAME=telegram-session-name \
ghcr.io/metorial/mcp-container--chigwell--telegram-mcp--telegram-mcp "python main.py"
Usage with Claude:
{
"mcpServers": {
"telegram-mcp": {
"command": "docker",
"args": [
"run",
"-i",
"--rm",
"ghcr.io/metorial/mcp-container--chigwell--telegram-mcp--telegram-mcp",
"python main.py"
],
"env": {
"TELEGRAM_API_ID": "telegram-api-id",
"TELEGRAM_API_HASH": "telegram-api-hash",
"TELEGRAM_SESSION_NAME": "telegram-session-name"
}
}
}
}#MCP #Docker #mcpcontainers
------
@tsingular
✍9⚡4👍3
Армия США создает техно-подразделение из топ-менеджеров IT-гигантов
Армия США официально запускает Отряд 201 — новый резервный корпус из руководителей технологических компаний.
В звании подполковников присягу принесут: CTO Palantir Шам Санкар, CTO Meta* Эндрю Босворт, CPO OpenAI Кевин Вейл и экс-CRO OpenAI Боб МакГрю.
Их задача — внедрение технологических решений в армии и привлечение IT-талантов в военную службу. Подразделение будет работать над концептуальными проектами без конфликта интересов с их основными компаниями.
Это часть стратегии администрации Трампа по интеграции венчурного капитала и стартапов в оборонную индустрию.
Будут делать дружелюбных военных советников, само-собой.
*Meta - запрещённая в РФ организация
#Army #Defense
———
@tsingular
Армия США официально запускает Отряд 201 — новый резервный корпус из руководителей технологических компаний.
В звании подполковников присягу принесут: CTO Palantir Шам Санкар, CTO Meta* Эндрю Босворт, CPO OpenAI Кевин Вейл и экс-CRO OpenAI Боб МакГрю.
Их задача — внедрение технологических решений в армии и привлечение IT-талантов в военную службу. Подразделение будет работать над концептуальными проектами без конфликта интересов с их основными компаниями.
Это часть стратегии администрации Трампа по интеграции венчурного капитала и стартапов в оборонную индустрию.
Будут делать дружелюбных военных советников, само-собой.
*Meta - запрещённая в РФ организация
#Army #Defense
———
@tsingular
✍11🤨3👍2🫡2👾2❤1😁1👨💻1
Forwarded from Machinelearning
SEAL - это методика от MiT, позволяющая LLM самостоятельно генерировать обучающие данные и настраивать параметры обучения, чтобы адаптироваться к новым задачам. Вместо традиционного файнтюна на внешних данных модель учится рефлексировать: анализировать контекст, создавать из него синтетические данные и применять их для корректировки собственных весов через механизм усиленного обучения.
SEAL, по сути, это два разделенных цикла:
Этот процесс повторяется, постепенно формируя у модели навык преобразования исходных данных в полезные обучающие сигналы.
SEAL протестили на 2 задачах: интеграции новых знаний и few-shot обучении. В первом случае модель генерирует логические следствия из текста, дообучается на них и улучшает точность ответов на вопросы без доступа к исходному тексту.
Во втором случае SEAL выбирает оптимальные аугментации данных и гиперпараметры для обучения на примерах задач ARC-AGI.
В обоих сценариях SEAL превзошел подходы с фиксированными шаблонами (ICL, TTT+Self Edit без RL и) и даже синтетическими данными от GPT-4.1.
Метод скорее академический и по большей части экспериментальный, у него есть ограничения:
@ai_machinelearning_big_data
#AI #ML #LLM #SEAL #RL #MiT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4✍3⚡2