382K subscribers
4.44K photos
853 videos
17 files
4.88K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Media is too big
VIEW IN TELEGRAM
✔️ ШАД Яндекса начал обучать ученых.

В Школе анализа данных, где готовят специалистов по ИИ, началось обучение по применению ИИ в естественно-научных исследованиях. На программу подали заявки ученые из 37 регионов - больше всего запросов получили от экспертов в областях физики, медицины и химии. В итоге зачислили 50 молодых исследователей: от магистрантов до кандидатов наук из Москвы, Петербурга, Уфы, Иркутска, Владивостока и Екатеринбурга.

Участники изучают основы ИИ и сразу применяют инструменты в своих задачах. С каждой командой работает эксперт ШАДа: помогает выбрать методы и спланировать эксперимент. Если проекту нужны тяжелые вычисления, подключаются мощности Yandex Cloud.

✔️ ИИ научили считывать активность скрытых мышц кисти по видео.

Команда из Institute of Science Tokyo анонсировала фреймворк PianoKPM Net, способный с высокой точностью определять активность мышц рук без использования нательных датчиков. Обычно для этого требуется инвазивная и дорогая электромиография, но новая архитектура реконструирует паттерны мышечных сокращений, анализируя только видеозапись.

В основе системы - уникальный датасет, собранный на базе 12 часов игры профессиональных пианистов, где визуальные данные синхронизированы с реальными сигналами мышц. Технология превращает обычную камеру в диагностический инструмент, что важно для реабилитационной медицины, спортивной аналитики и создания продвинутых интерфейсов «человек-компьютер». Авторы планируют выложить датасет и модель в открытый доступ.
techxplore.com

✔️ ИИ-проект Джеффа Безоса купил стартап General Agents.

Project Prometheus поглотил разработчика агентного ИИ General Agents. Сделка прошла в закрытом режиме еще летом и сопровождалась переходом команды инженеров из DeepMind и Tesla в структуру Prometheus. Цель Prometheus: создание ИИ-систем для поддержки сложных производств автомобилестроения и космической отрасли.

Главный актив General Agents - технология Ace для автономного управления интерфейсами и приложениями. Хотя изначально Ace создавался для автоматизации рутинны на ПК, в рамках Prometheus эти наработки, судя по всему, будут масштабированы для индустриальных сценариев.
wired.com

✔️ OpenAI и Google резко ограничили лимиты в Sora и Nano Banana Pro.

Глава направления Sora в OpenAI Билл Пиблз сообщил, что бесплатные аккаунты теперь ограничены всего 6 видеогенерациями в сутки, так как текущие графические процессоры буквально плавятся от запросов. Это ограничение не выглядит временным: компания прямо предлагает докупать генерации по мере необходимости, хотя условия для подписчиков ChatGPT Plus и Pro пока остались прежними.

Google приняла аналогичные меры, урезав бесплатный доступ к инструменту Nano Banana Pro до 2 изображений в день. Техгигант предупредил, что лимиты могут меняться динамически и без уведомлений. Кроме того, под ограничения попал и доступ бесплатных пользователей к модели Gemini 3 Pro.
theverge.com

✔️ Perplexity добавила функцию долгосрочной памяти.

ИИ-поисковик получил функцию "persistent memory", которая позволяет запоминать предпочтения, интересы и детали предыдущих диалогов. Теперь система автоматически создает "постоянный контекст" пользователя, а ответы становятся персонализированными и требуют меньше уточняющих запросов.

Perplexity извлекает факты из хранилища памяти и напрямую использует их при формировании ответа. Этот контекстный слой работает поверх любой выбранной модели без потери накопленных знаний о пользователе. Функция полностью управляема: сбор данных можно отключить в настройках, а в режиме инкогнито история не сохраняется.
perplexity.ai

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
59👍26🔥8😁4🦄4
⚡️ В Ai Toolkit появилась поддержка обучения LoRA для Z-Image Turbo.

Ostris, разработчик популярного пакета для обучения диффузионных моделей добавил поддержку обучения для Z-Image Turbo с помощью De-Distill адаптера.

AI Toolkit — это универсальный набор инструментов для обучения диффузионных моделей на потребительском оборудовании. Он может запускаться как в GUI, так и в командной строке. Набор разработан так, чтобы быть простым в использовании, но при этом обладать всеми возможными функциями.


По первым тестам, обучение возможно на 12+ VRAM, а обучение персонажа на 17 изображениях длительностью 3000 шагов на RTX 5090 занимает примерно полтора часа.

Подробный гайд по процессу автор тулкита обещает выпустить в ближайшие дни.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
140🔥15🥰5🦄3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Unitree R1 и G1 демонстрируют свои навыки на одной сцене

Выбери своего БОЙЦА:

❤️ Новый, более доступный и компактный R1
или
🔥 Мощный и уже зарекомендовавший себя на рынке G1, который остаётся флагманом линейки.

@ai_machinelearning_big_data

#ai #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥141👍2824😨17🦄3😁2
🌟 MedSAM-3: адаптация SAM 3 для медицины.

MedSAM-3 - исследовательский проект, который переносит возможности сегментации по текстовым запросам из общего домена в медицинский.

Несмотря на мощь оригинальной SAM 3, тесты показали ее слабую применимость к клиническим данным: базовая модель часто путает анатомические структуры и не понимает специфические термины.

MedSAM-3 решает эту проблему, позволяя врачам выделять объекты на снимках МРТ, КТ, УЗИ и гистопатологии с помощью естественного языка. Например, по запросу «сегментируй опухоль молочной железы».

В основе - дизайн SAM 3 с двойным трансформером. На обучении заморозили энкодеры изображений и текста, чтобы сохранить сильные визуальные приоритеты оригинала, а вот компоненты детектора прошли SFT на медицинских датасетах. Это позволило сохранить мощный базис оригинальной SAM 3, но добавить ей понимание медицинской специфики.

В посттрейн-тестах наилучшую производительность показала конфигурация MedSAM-3 T+I, где текстовые подсказки были объединены с ограничивающими рамками. Такой подход позволил тестовой модели обойти классический U-Net и первую версию MedSAM на бенчмарках BUSI (Dice score - 0.7772) и Kvasir-SEG.

🟡Помимо самой модели, разработчики собрали агентный фреймворк MedSAM-3 Agent.

Он использует мультимодальную LLM (в экспериментах - Gemini 3 Pro) в качестве планировщика, который анализирует запрос, выстраивает цепочку рассуждений и итеративно управляет процессом сегментации.

В эксперименте c Gemini 3 Pro, на том же тестовом наборе BUSI, метрика Dice выросла с 0.7772 до 0.8064.

⚠️ Проект пока на стадии техотчета, но разработчики обещают опубликовать код и веса модели в ближайшее время. Так что тем, кто занимается ИИ в медицине - рекомендуем следить за репозиторием на Github.


📌Лицензирование: Apache 2.0 License.


🟡Arxiv
🖥Github


@ai_machinelearning_big_data

#AI #ML #Segmentation #MedSAM3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥54👍2016💋5🥰3🦄3🤔2🗿1
🚀 GELab-Zero - первый полноценный open-source стек “Model + Infra” для GUI-агентов.

Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.

Что внутри:

• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.

Производительность:

• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).

Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.

🟠HuggingFace: https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
🟠GitHub: https://github.com/stepfun-ai/gelab-zero
🟠Blog: https://opengelab.github.io/index.html

@ai_machinelearning_big_data

#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
39👍19🔥11🥱3🦄1
⚡️ KlingAI запустит новую омни-модель на этой неделе.

Kling AI — это сервис для генерации видео китайской компании Kuaishou (Kwai). Наибольшую известность он получил как аналог OpenAI Sora, способный создавать по текстовому описанию видеоролики с поддержкой консистентности персонажей и продвинутыми инструментами.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥20🥰42👏2🦄1
🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах.

Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.

Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.

🏆 Производительность

• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.

🤖 Новый подход к обучению агентов

• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.

💻 API

• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.

📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

@ai_machinelearning_big_data

#deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
56🔥24👍17🦄2👏1
Media is too big
VIEW IN TELEGRAM
⚡️ Runway представили новый видеогенератор **Gen-4.5** - заметный шаг вперёд по качеству и управляемости видео.

Что улучшили:
- более детализированное и чистое изображение
- реалистичную динамику и движения объектов
- улучшенную физику, освещение и поведение материалов
- точное следование промпту, включая сложные сцены

Gen-4.5 уверенно работает с быстрыми движениями, сложными ракурсами и умеет контролировать камеру, композицию, звук и другие параметры сцены.
Поддерживаются разные стили-— от фотореализма до пластилиновой анимации.

Что может:
- Image-to-Video
- Video-to-Video
- Keyframes
- Управление движением камеры

Runway заявляет, что скорость и потребление ресурсов сопоставимы с Gen-4, но качество заметно выше.
На сайте модель пока помечена как *soon*, цены ещё не отображаются, API пока недоступен. Доступ пользователям будут открывать постепенно.

По метрикам тоже впечатляет: Gen-4.5 набрала 1 247 Elo в рейтинге *Artificial Analysis Text-to-Video*, установив новый рекорд и обойдя все существующие AI-модели для генерации видео.

Анонс: https://app.runwayml.com/video-tools/

@ai_machinelearning_big_data

#runway #runwayml #gen45 #gen4_5 #videogen #ai_
🔥3214👍10🤗2🦄2👌1🤨1
Media is too big
VIEW IN TELEGRAM
✔️ Дженсен Хуанг потребовал тотальной автоматизации внутри Nvidia.

CEO Nvidia обратился к сотрудникам с директивой использовать ИИ-инструменты для решения абсолютно любой задачи, где это технически возможно. Хуанг считает, что компания должна не только давать миру железо для вычислений, но и сама служить эталоном ИИ-эффективности.

Особое внимание он уделил инструментам разработки, настаивая на их тотальном внедрении в инженерные процессы. Несмотря на автоматизацию, компания продолжает расти. За год штат Nvidia увеличился с 29,6 до 36 тысяч человек, и для покрытия текущих задач требуется нанять еще около 10 тысяч специалистов.

NVIDIA не первая, кто требует от сотрудников использования ИИ - Google и Microsoft также начали привязывать использование нейросетей к KPI сотрудников.
techspot.com

✔️ В тестовой версии ChatGPT для Android нашли признаки рекламы.

Разработчик Тибор Блахо обнаружил в тестовой версии ChatGPT для Android отсылки на рекламный функционал. Строки содержат формулировки: «рекламная функция», «поисковая реклама» и «карусель поисковой рекламы», что указывает на то, что OpenAI, возможно, разрабатывает функцию показа рекламы в ChatGPT.
Tibor Blaho в сети X

✔️ Pinokio обновился до версии 5.0.

Мажорное обновление платформы Pinokio, позиционирует пятую версию как «Vercel для localhost». Инструмент позволяет разворачивать на macOS, Windows и Linux любые веб-серверы, CLI-приложения и ИИ-модели в один клик. Система полностью автоматизирует рутину по настройке окружения, самостоятельно подтягивая необходимые пакетные менеджеры.

Pinokio может создавать лаунчеры для любых проектов с помощью ИИ-агентов. Интерфейс стал универсальным, добавлена поддержка интерактивных терминалов и режим Cells для параллельной работы с фронтендом, бэкендом и логами в одном окне. В новой версии появился «локальный интернет»: Pinokio присваивает запущенным приложениям короткие HTTPS-домены и делает их доступными для других устройств в сети, автоматически активируя сервисы при входящем запросе.
Автор Pinokio в сети X

✔️ Пятая часть научных рецензий на ICLR были полностью написаны ИИ.

Организаторы конференции ICLR опубликовали результаты проверки контента, проведенной совместно с Pangram Labs. Анализ массива из 75 800 отзывов показал, что почти 16 тыс. рецензий (около 21%) были полностью сгенерированы ИИ, а не написаны людьми. Проблема затронула и сами научные статьи: 199 поданных рукописей были распознаны как полностью написанные ИИ, а еще в 9% работ доля сгенерированного текста превысила 50%.

Хотя регламент ICLR допускает использование ИИ-инструментов для правки текста или генерации кода при условии явного указания, создание синтетических рецензий подрывает доверие к процессу ревью. В ответ на инцидент организаторы вводят обязательный автоматизированный скрининг всех материалов на использование ИИ.
nature.com

✔️ Slop Evader: расширение, которое очищает поиск от ИИ-контента.

Проект позиционируется как попытка вернуть пользователям достоверный интернет эпохи до ChatGPT. Расширение использует Google Search API для жесткой фильтрации выдачи, отсекая любые материалы, опубликованные после 30 ноября 2022 года. Автор называет этот подход тактикой «выжженной земли»: по ее мнению, это единственный надежный способ гарантировать, что контент создан человеком, в условиях тотального ИИ-слопа.

Slop Evader работает с YouTube, Reddit, Stack Exchange и архивами других крупных платформ. Очевидный технический недостаток полной потери доступа к актуальным новостям является осознанной частью концепции. Создатель расширения надеется, что растущий запрос пользователей на «человеческий» контент в итоге вынудит поисковые системы внедрить маркировку генеративных материалов.
404media.co


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2926🔥10🦄2
📌NVIDIA на NeurIPS 2025.

NVIDIA анонсировала, о чем расскажет на конференции NeurIPS, которая началась сегодня и пройдет до 7 декабря в Сан-Диего.

🟡Автономный транспорт.

NVIDIA DRIVE Alpamayo-R1, или сокращенно AR1.
Это первая в мире открытая ризонинг-VLA модель специально для исследований в области автопилотов. Модель построена на базе NVIDIA Cosmos Reason и отлично поддается дообучению с помощью RL.

Alpamayo-R1 будет доступна на GitHub и Hugging Face, а фреймворк AlpaSim для тестов уже опубликован.

🟡Инструменты для создания физических роботов и симуляций.

Cosmos Cookbook - руководство с рецептами для физического ИИ и генерации синтетических данных и оценки моделей.

LidarGen - "модель мира", которая генерирует данные лидаров для симуляций.

Omniverse NuRec Fixer - инструмент мгновенного исправления артефактов в нейронных реконструкциях а робототехнике и БПЛА.

ProtoMotions3 - открытый фреймворк на базе Isaac Lab, позволяющий тренировать цифровых людей с невероятно реалистичной физикой.

🟡Но не только железом и роботами живет NVIDIA.

MultiTalker Parakeet - модель для ASR нескольких спикеров даже в быстром темпе и с перекрытиями.

В паре с ней идет Sortformer - инструмент для диаризации, т. е. разделения спикеров в аудиопотоке в реальном времени.

Ну и, конечно, NeMo Gym - библиотека для создания сред обучения с RL в комплекте с NeMo Data Designer, комплексом для создания и проверки синтетических наборов данных.

🟡И, наконец, о чистой науке.

К конференции NVIDIA подготовила более 70 научных работ. Вот лишь несколько жемчужин из этого списка:

Audio Flamingo 3. Это большая аудио-языковая модель, которая может "понимать" и анализировать аудиозаписи длительностью до 10 минут.

Minitron-SSM. Техника прунинга, которая позволила уменьшить модель Nemotron-H 8B с 8 до 4 млрд. параметров, при этом удвоив скорость инференса.

ProRL, или Prolonged Reinforcement Learning. Концепция, которая доказала, что продление процесса RL выводит модели на совершенно новый уровень в ризонинге.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3022🔥8🤗3🦄2❤‍🔥1