Machinelearning

🌟 Bamba-9B: эффективная Hybrid Mamba2 модель.

Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.

Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.

Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.

Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.

По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.

Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.

▶️ Планы разработчиков на дальнейшее развитие Bamba:

🟠увеличение длины контекста модели Bamba-9B (сейчас - 4096);
🟠улучшение модели путем обучения на дополнительных данных и точной настройки на наборах данных SFT.

▶️ Опубликованный набор моделей:

🟢

Bamba 9B - финальная версия модели после 2-х этапов обучения

🟢

Bamba 9B 2T - чекпоинт после 1 этапа трейна с датасетом Dolma v1.7

🟠

Bamba 9B 1.8T - промежуточный чекпоинт 1 этапа обучения

🟢

Bamba 9B FP8 - квантованная с помощью llm-compressor версия Bamba 9B

🟢

Bamba 9B 2T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 2Т

🟠

Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 1.8Т

▶️Пример инференса на Transformers с Bamba-9B:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")

message = ["Mamba is a snake with following properties  "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #Bamba #IBM

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍14🔥5❤‍🔥1

14.4K views12:00

Machinelearning

⚡️

Релиз IBM Granite 3.1.

IBM представила Granite 3.1, обновление семейства открытых и высокопроизводительных LLM, оптимизированных для корпоративного использования. Обновление принесло семейству повышение производительности, точности в критически важных корпоративных сценариях: использование инструментов, RAG и рабочие процессы на основе AI агентов.

В этом релизе особое внимание уделялось улучшению обработки длинных текстов благодаря расширенному контекстному окну и детекту галлюцинаций. Все модели семейства Granite 3 получили длину контекстного окна в 128 тысяч токенов. Для сравнения, это примерно 300-страничная книга.

Набор LLM Granite 3.1 8B и 2B, базовые и инструктивные версии. Флагманская Granite 3.1 8B достигает одних из самых высоких средних баллов среди открытых моделей своего класса на Hugging Face OpenLLM Leaderboard.

MoE-модели Granite 3.1 3B и 1B c 800M и 400M активных параметров соответственно и их инструктивные версии.

Granite Embedding в 4 размерах (125M и 30M для английского языка и 278M и 107М - мультиязычные), которые поддерживают 12 языков: английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский.

Granite Guardian 3.1 8B и 2B - специализированные модели обнаружения галлюцинаций при вызовах функций. Они отслеживают каждый вызов функции на предмет синтаксических и семантических отклонений, повышая достоверность и управляемость в рабочих процессах.

▶️Вместе с моделями, IBM представила инструменты и фреймворки с открытым исходным кодом:

🟠

Docling - инструмент для подготовки документов к RAG, предобучению и тонкой настройке ( извлечение информации из форматов PDF, DOCX, изображения, PPTX, XLSX, HTML и AsciiDoc).

🟠

Bee - фреймфорк создания масштабируемых приложений на основе AI агентов.

⚠️ Все модели Granite 3.1, Granite Guardian 3.1 и Granite Embedding доступны в средах: IBM watsonx.ai, Hugging Face, LM Studio, Ollama и Replicate.

📌Лицензирование: Apache 2.0 license.

🟡

Статья

🟡

Набор моделей

🟡

Документация

@ai_machinelearning_big_data

#AI #ML #LLM #Embeddings #IBM #Granite

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍23❤6🔥4👌1

12.1K views16:02

Machinelearning

🎉 18 декабря в Петровском путевом дворце состоялся Ed.Future — один из главных форумов России, посвященных будущему образования и HR!

На форуме прошла церемония награждения в рамках премии «Эффективное образование». Жюри, включающее ведущих экспертов отрасли (Плехановский университет, МГУ, Фонд социальных инвестиций, МГИМО и другие), определило лучшие проекты, ориентированные на развитие образования как внутри компаний, так и вовне.

Среди лауреатов — ИТ-чемпионат True Tech Champ от МТС, который стал победителем в номинации «Инновационный образовательный проект года»! Чемпионат был отмечен за свою важную роль в привлечении молодежи в IT-индустрию.

Кроме того, награды получили проекты от таких крупных игроков рынка, как Альфа-Банк, ВТБ, «Вкусно — и точка», Skillbox и Сбер 🏆

#EdFuture #ОбразованиеБудущего #HRФорум

@ai_machinelearning_big_data

👍11❤5🔥3😁2🌭1🦄1

9K viewsedited 17:51

Machinelearning

📌

Топ 10 статей NVIDIA Developer Technical Blog за 2024 год.

NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.

🟢

NVIDIA NIM - оптимизированные микросервисы инференса для мастшабного развертывания моделей ИИ

🟢

Открытие бесплатного доступа к NVIDIA NIM для участников Developer Program

🟢

NVIDIA GB200 NVL72 - обучение LLM с триллионами параметров и инференсом в реальном времени

🟢

NVIDIA полностью переходит на GPU Kernel Modules с открытым исходным кодом

🟠

Введение в мультимодальный RAG
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.

🟠

Создание агента для анализа данных на основе LLM
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.

🟠

StarCoder2 - раскройте свой потенциал в программировании
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.

🟠

Как обрезать и дистиллировать Llama 3.1 8B в модель NVIDIA MiniTron 4B
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.

🟠

Как за 4 шага перевести приложение RAG из пилотной версии в продакшен
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.

🟠

RAPIDS cuDF ускоряет pandas почти в 150 раз без изменения кода
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.

🔜 Блогпост на developers.nvidia.com

@ai_machinelearning_big_data

#AI #ML #NVIDIA #Digest

Please open Telegram to view this post

VIEW IN TELEGRAM

👍20❤8🔥6

13.2K views18:54

Machinelearning

✔️

Gemini 2.0 Flash Thinking - модель "рассуждения" от Google.

Google выпустила новую экспериментальную модель Gemini 2.0 Flash Thinking Experimental, предназначенную для "рассуждений". Модель доступна в AI Studio. Согласно описанию, модель лучше всего подходит для мультимодального понимания и способна "рассуждать над самыми сложными задачами" в программировании, математике и физике.

Gemini 2.0 Flash Thinking Experimental основана на модели Gemini 2.0 Flash. Модель делает паузу перед ответом, рассматривая несколько связанных запросов и объясняя свои рассуждения, после чего формирует наиболее точный ответ. Тем не менее, как показывает пользовательское тестирование, модель иногда испытывает трудности, например, при подсчете букв в словах.
techcrunch.com

✔️

Judge-модель Glider от Patronus AI превосходит GPT-4 в оценке ИИ.

Стартап Patronus AI, представил открытую модель Glider с 3.8 млрд. параметров, которая превосходит GPT-4o-mini. Glider разработана для автоматической оценки ответов ИИ по сотням критериев, предоставляя подробные объяснения своих решений. Glider может работать в реальном времени, с задержкой менее секунды, и оценивает точность, безопасность и тон одновременно.

Glider была обучена на 183 различных бенчмарках из 685 доменов. Демо уже работает на HF Space, технический отчет Glider опубликован на arxiv.org, веса модели - на Huggingface.
patronus.ai

✔️

Cineverse запускает Matchpoint Reel Visuals AI для монетизации контента в сфере ИИ.

Cineverse объявила о запуске новой службы управления правами в ИИ - Matchpoint Reel Visuals AI. Этот сервис позволяет владельцам библиотек фильмов, телешоу и подкастов извлекать выгоду из растущего спроса со стороны ИИ-компаний на аудио/видео контент для обучения моделей ИИ.

Используя технологию Matchpoint, партнеры Cineverse получают возможность быстро загружать, нормализовать и хранить большие объемы видеоконтента с интегрированными возможностями управления правами. На сегодняшний день компания представляет права на обучение ИИ для более чем 350,000 часов видео и аудио контента
investor.cineverse.com

✔️

Apptronik и Google DeepMind объединяют усилия для развития человекоподобных роботов c ИИ.

Apptronik объявила о стратегическом партнерстве с командой робототехники Google DeepMind для объединения ИИ с роботизированным оборудованием. Цель сотрудничества - создание более эффективных человекоподобных роботов для работы в динамичных средах. Ключевым продуктом партнерства является робот Apollo, разработанный Apptronik, высотой 172.2 см и весом 72.5 кг, предназначенный для выполнения физически сложных задач в промышленных условиях.

Mercedes-Benz уже тестирует Apollo в автомобильном производстве, а GXO Logistics проводит испытания робота на складах. Команда Google DeepMind привнесет в партнерство свой опыт в машинном обучении, инженерии и физическом моделировании, используя Gemini для робототехники.
therobotreport.com

✔️

OpenAI показала новые возможности ChatGPT для Mac.

На предпоследнем стриме цикла 12 Days, OpenAI представила новые функции для приложения ChatGPT на Mac: улучшенную интеграцию с другими приложениями и расширенный голосовой режим. Теперь пользователи могут предоставлять ChatGPT доступ к контенту в других приложениях для получения контекста и помощи.

ChatGPT для Mac OS также получил возможность работы с Apple Notes, Quip и Notion. Новые возможности "Работа с приложениями" и "Расширенный голосовой режим" уже доступны для пользователей приложения ChatGPT на Mac, а для пользователей Windows они появятся в скором времени.
openai.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍12🔥11

8.64K views06:24

Machinelearning

🌟 FlashRNN: оптимизация RNN на современном оборудовании.

FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.

В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.

FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.

🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.

🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.

За автоматизацию настройки параметров FlashRNN отвечает библиотека ConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.

Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.

▶️ Локальная установка и пример запуска FlashRNN:

# Install FlashRNN
pip install flashrnn


# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:

import torch
from flashrnn import flashrnn

device = torch.device('cuda')
dtype = torch.bfloat16
B = 8        # batch size
T = 1024     # sequence length
N = 3        # number of heads
D = 256      # head dimension
G = 4        # number of gates / pre-activations for LSTM example
S = 2        # number of states

Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)

# available functions
# lstm, gru, elman, slstm

# available backend
# cuda_fused, cuda, triton and vanilla

states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")

# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]

📌Лицензирование: NXAI Community License:

🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;

🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #RNN #FlashRNN

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30🔥7❤4

16.7K views13:51

Machinelearning

Российская LLM от MTS AI опережает иностранные в задачах на русском языке

В первом квартале 2025 года планируется релиз новой большой языковой модели от MTS AI. О выходе программы из бета-версии упомянул председатель совета директоров МТС Вячеслав Николаев в рамках Дня инвестора. Модель Cotype продемонстрировала лучшие результаты в этом году в области понимания текстов и работы с информацией.

В лидерборде бенчмарка MERA технология заняла второе место после ChatGPT, однако она лучше ответила на вопросы на русском языке из категорий:
• RWSD и RCB — понимание и интерпретация текста;
• MultiQ — рассуждение и связывание фактов;
• ruOpenBookQA — общие знания о мире.

Cotype можно будет интегрировать в любые системы благодаря встроенному API.

@ai_machinelearning_big_data

#news #AI #LLM #news

😁33❤20🤔9👍7🔥5🤣4🥱2

9.49K views14:30

Machinelearning

⚡️

ModernBERT: новое и улучшенное поколение BERT.

ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.

Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs, что упрощает ее использование.

ModernBERT доступна в двух вариантах:

🟢

base с 22 слоями и 149 млн. параметров;

🟢

large с 28 слоями и 395 млн. параметров.

Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.

Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.

Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.

ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.

Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.

Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .

⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков

📌Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #ModernBERT

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22🔥11❤6🤨3

10.7K views15:30

Machinelearning

✔️

OpenAI анонсировала новые модели o3 и o3 mini.

В последний день цикла 12 Days, OpenAI анонсировала новые модели "рассуждений" o3 и o3-mini, которые, со слов самой OpenAI, превосходят предыдущие поколения по производительности. Обе модели являются преемниками o1 и используют новый подход к "рассуждению", разбивая инструкции на более мелкие задачи.

o3 превзошла o1 в SWE-Bench Verified на 22,8 процента, а также продемонстрировала высокие результаты в математических и научных задачах в бенчмарках, проведенных самой компанией. Публичный релиз пока не запланирован, но OpenAI начала принимать заявки для тестирования новых моделей.
openai.com

✔️

Поиск Google получит режим "AI Mode" с интерфейсом, похожим на чат-бота Gemini.

Google планирует добавить в свою поисковую систему новый режим "AI Mode". Эта опция, расположенная в верхней части страницы результатов, позволит переключаться на интерфейс, аналогичный чат-боту Gemini. Вкладка "AI Mode" будет находиться слева от вкладок "Все", "Изображения", "Видео" и "Покупки".

При получении ответа в режиме "AI Mode" будут отображаться ссылки на соответствующие веб-страницы и строка поиска с подсказкой "Задать дополнительный вопрос...". Google, вероятно, испытывает давление из-за запуска поиска в ChatGPT и стремится объединить поиск и AI, уже отображая AI-сводки для некоторых поисковых запросов.
theinformation.com

✔️

Еврокомиссия одобрила сделку Nvidia по приобретению Run:ai

Европейская комиссия безоговорочно одобрила предложение Nvidia о приобретении компании Run:ai за 700 млн. долларов. Расследование ЕС по данной сделке было сосредоточено на практиках, которые могли бы усилить контроль Nvidia над GPU-рынком в ЕС.

Однако, комиссия пришла к выводу, что приобретение Run:ai не вызовет опасений относительно конкуренции. Таким образом, сделка получила одобрение, и Nvidia сможет продолжить свое развитие не опасаясь препятствий со стороны европейских регуляторов.
reuters.com

✔️

Cloudflare проставила Calls: бэкэнд для real-time AI-приложений.

Cloudflare Calls состоит из сессий и треков, позволяя подключать AI, например ChatGPT, в качестве трека к текущей сессии. В сочетании с Realtime API от OpenAI позволяет создавать приложения, поддерживающие мультипользовательское взаимодействие с голосовым и видео AI в реальном времени.

Cloudflare Calls использует WebRTC для передачи аудио и видеоданных и берет на себя сложность ее инфраструктуры, включая маршрутизацию медиа и TURN-серверы, предоставляя разработчикам готовую сеть для подключения пользователей к ближайшим серверам. Все видео и аудиопотоки шифруются по умолчанию, обеспечивая конфиденциальность и безопасность.
blog.cloudflare.com

✔️

ReDrafter: ускорение инференса LLM на NVIDIA GPU.

Apple в сотрудничестве с NVIDIA интегрировала новый метод спекулятивного декодирования ReDrafter в фреймворк NVIDIA TensorRT-LLM, что позволяет значительно ускорить инференс LLM на NVIDIA GPU. ReDrafter использует RNN в качестве черновой модели и динамический алгоритм древовидного внимания, повышая скорость генерации токенов до 3.5 раз за шаг по сравнению с другими методами.

Интеграция в TensorRT-LLM потребовала от NVIDIA добавления новых операторов, расширив возможности фреймворка. В результате, при тестировании на производственной модели с десятками миллиардов параметров, наблюдалось ускорение генерации токенов в секунду в 2.7 раз . ReDrafter доступен через TensorRT-LLM.
machinelearning.apple.com

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27❤9🔥7🥰1

9.14K views08:11

About

Blog

Apps

Platform