382K subscribers
4.43K photos
851 videos
17 files
4.87K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ ChatGPT через телефонный звонок и в WhatsApp.

OpenAI представила еще один способ доступа к ChatGPT - через обычный телефонный звонок. Теперь пользователи в США могут просто набрать бесплатный номер 1-800-ChatGPT для доступа к AI-ассистенту. Сервис предоставляет 15 бесплатных минут разговора в месяц и работает на любом телефоне - от современных смартфонов до классических дисковых аппаратов.

Для пользователей за пределами США компания предлагает ChatGPT через WhatsApp, где общение происходит в формате текстовых сообщений. Нововведение является частью праздничной серии стримов "12 дней OpenAI".
openai.com

✔️ Microsoft приобрела почти полмиллиона чипов Nvidia Hopper в 2024 году.

В 2024 году Microsoft купила 485 000 чипов Nvidia Hopper, что более чем в 2 раза превышает закупки любого из ее конкурентов. Для сравнения, компания Марка Цукерберга купила 224 000 штук. Закупки Microsoft чипов Nvidia в 2024 году более чем втрое превысили количество, приобретенное компанией в 2023 году.

Помимо закупки ускорителей NVIDIA, Microsoft разрабатывает собственные специализированные AI - Maia, о которых было объявлено на конференции Ignite в конце 2023 года.
techcrunch.com

✔️ AI-стартап Odyssey разрабатывает инструмент Explorer для создания фотореалистичных 3D-миров.

Odyssey, основанный пионерами в области беспилотных автомобилей Оливером Кэмероном и Джеффом Хоком, разрабатывает инструмент на основе ИИ, способный преобразовывать текст или изображение в 3D-рендеринг.

Инструмент, под названием Explorer, может генерировать интерактивные сцены в реальном времени на основе текстового описания. Explorer обучен на реальных ландшафтах, снятых с помощью 360-градусной камерной системы компании. Odyssey утверждает, что их инструмент "особенно настроен" для создания фотореалистичных сцен. Сцены, сгенерированные Explorer, могут быть загружены в Unreal Engine, Blender и Adobe After Effects для редактирования.
odyssey.systems

✔️ Microsoft представляет SPARROW: AI-инструмент для измерения и защиты биоразнообразия в самых отдаленных уголках планеты.

SPARROW (Solar-Powered Acoustic and Remote Recording Observation Watch) - ИИ-комплекс для автономного сбора данных о биоразнообразии в удаленных регионах. Устройство на солнечной энергии оснащено датчиками, которые собирают данные с камерных ловушек, акустических мониторов и других детекторов. Эти данные обрабатываются с использованием моделей ИИ на энергоэффективных GPU.

Затем SPARROW передает информацию через низкоорбитальные спутники в облако, обеспечивая исследователям доступ к данным в реальном времени. Все компоненты SPARROW, включая программное обеспечение, аппаратное обеспечение и 3D-печатные чертежи, будут иметь открытый исходный код. В ближайшие три месяца SPARROW будет развернут в Северной и Южной Америке, а к концу 2025 года планируется внедрить SPARROW на всех континентах.
blogs.microsoft.com

✔️ Исследование выявило тревожные тенденции в данных для обучения ИИ.

Аудиторская группа Data Provenance опубликовала отчет, в котором констатировала, что более 90% наборов данных для ИИ поступают из Европы и Северной Америки и лишь 10% - из других регионов.

Источники данных для обучения ИИ существенно изменились за последнее десятилетие. Если раньше данные поступали из разных источников, то после 2018 года интернет-контент стал доминирующим для всех типов медиа. Синтетические данные также показывают стремительный рост: если в 2020 году их доля составляла менее 0.1% от веб-энциклопедических данных, то к 2024 году она достигла 10%. Основными генераторами синтетических данных стали модели OpenAI.

Это приводит к концентрации власти в руках крупных технологических компаний и затрудняет доступность данных для небольших организаций и исследователей. Недостаточное представление других культур и языков может искажать модели ИИ, отражая преимущественно западный взгляд на мир.
technologyreview.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2417😁12🔥6
🌟 Bamba-9B: эффективная Hybrid Mamba2 модель.

Bamba-9B - модель, разработанная IBM, Princeton, CMU и UIUC на основе полностью открытых данных. Модель демонстрирует улучшение пропускной способности в 2.5 раза и снижение задержки инференса в 2 раза по сравнению с Transformers в vLLM. Bamba-9B доступна для использования в HF Transformers, vLLM, TRL и llama.cpp.

Bamba-9B использует уникальный распределенный, не сохраняющий состояние data loader, обеспечивающий бесшовное возобновление работы, автоматическое масштабирование, потоковую передачу данных с zero-overhead for shuffling.

Модель основана на архитектуре NVIDIA hybrid Mamba2, но с некоторыми изменениями. Bamba-9B имеет 32 слоя, из которых 3 полноценных слоя внимания и 29 слоев Mamba2, в то время как NVIDIA hybrid Mamba2 имеет 29 слоев, из которых 4 слоя внимания и 25 слоев Mamba2.

Bamba-9B была обучена на 2.2T токенов с датасетом Dolma v1.7 на первом этапе и FineWeb-edu и Cosmopedia на втором.

По проведенным замерам, средняя производительность Bamba-9B почти сравнима с Llama 3.1 8B (45.53 против 44.68), при том что Llama 3.1 8B была обучена на 7x большем объеме данных.

Bamba-9B превзошла Olmo 7B, обученную на идентичном количестве токенов и наборах данных. В сравнении с другими моделями на базе Mamba/Mamba2, Bamba-9B показывает хорошие результаты, при этом обеспечивая значительное улучшение (до 5x) эффективности логического вывода.

▶️ Планы разработчиков на дальнейшее развитие Bamba:

🟠увеличение длины контекста модели Bamba-9B (сейчас - 4096);
🟠улучшение модели путем обучения на дополнительных данных и точной настройки на наборах данных SFT.

▶️ Опубликованный набор моделей:

🟢Bamba 9B - финальная версия модели после 2-х этапов обучения
🟢Bamba 9B 2T - чекпоинт после 1 этапа трейна с датасетом Dolma v1.7
🟠Bamba 9B 1.8T - промежуточный чекпоинт 1 этапа обучения

🟢Bamba 9B FP8 - квантованная с помощью llm-compressor версия Bamba 9B
🟢Bamba 9B 2T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 2Т
🟠Bamba 9B 1.8T FP8 - квантованная с помощью llm-compressor версия Bamba 9B 1.8Т

▶️Пример инференса на Transformers с Bamba-9B:

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("ibm-fms/Bamba-9B")
tokenizer = AutoTokenizer.from_pretrained("ibm-fms/Bamba-9B")

message = ["Mamba is a snake with following properties "]
inputs = tokenizer(message, return_tensors='pt', return_token_type_ids=False)
response = model.generate(**inputs, max_new_tokens=64)
print(tokenizer.batch_decode(response, skip_special_tokens=True)[0])


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #Bamba #IBM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍14🔥5
⚡️ Релиз IBM Granite 3.1.

IBM представила Granite 3.1, обновление семейства открытых и высокопроизводительных LLM, оптимизированных для корпоративного использования. Обновление принесло семейству повышение производительности, точности в критически важных корпоративных сценариях: использование инструментов, RAG и рабочие процессы на основе AI агентов.

В этом релизе особое внимание уделялось улучшению обработки длинных текстов благодаря расширенному контекстному окну и детекту галлюцинаций. Все модели семейства Granite 3 получили длину контекстного окна в 128 тысяч токенов. Для сравнения, это примерно 300-страничная книга.

Набор LLM Granite 3.1 8B и 2B, базовые и инструктивные версии. Флагманская Granite 3.1 8B достигает одних из самых высоких средних баллов среди открытых моделей своего класса на Hugging Face OpenLLM Leaderboard.

MoE-модели Granite 3.1 3B и 1B c 800M и 400M активных параметров соответственно и их инструктивные версии.

Granite Embedding в 4 размерах (125M и 30M для английского языка и 278M и 107М - мультиязычные), которые поддерживают 12 языков: английский, немецкий, испанский, французский, японский, португальский, арабский, чешский, итальянский, корейский, голландский и китайский.

Granite Guardian 3.1 8B и 2B - специализированные модели обнаружения галлюцинаций при вызовах функций. Они отслеживают каждый вызов функции на предмет синтаксических и семантических отклонений, повышая достоверность и управляемость в рабочих процессах.

▶️Вместе с моделями, IBM представила инструменты и фреймворки с открытым исходным кодом:

🟠Docling - инструмент для подготовки документов к RAG, предобучению и тонкой настройке ( извлечение информации из форматов PDF, DOCX, изображения, PPTX, XLSX, HTML и AsciiDoc).

🟠Bee - фреймфорк создания масштабируемых приложений на основе AI агентов.

⚠️ Все модели Granite 3.1, Granite Guardian 3.1 и Granite Embedding доступны в средах: IBM watsonx.ai, Hugging Face, LM Studio, Ollama и Replicate.


📌Лицензирование: Apache 2.0 license.


🟡Статья
🟡Набор моделей
🟡Документация


@ai_machinelearning_big_data

#AI #ML #LLM #Embeddings #IBM #Granite
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍236🔥4👌1
🎉 18 декабря в Петровском путевом дворце состоялся Ed.Future — один из главных форумов России, посвященных будущему образования и HR!

На форуме прошла церемония награждения в рамках премии «Эффективное образование». Жюри, включающее ведущих экспертов отрасли (Плехановский университет, МГУ, Фонд социальных инвестиций, МГИМО и другие), определило лучшие проекты, ориентированные на развитие образования как внутри компаний, так и вовне.

Среди лауреатов — ИТ-чемпионат True Tech Champ от МТС, который стал победителем в номинации «Инновационный образовательный проект года»! Чемпионат был отмечен за свою важную роль в привлечении молодежи в IT-индустрию.

Кроме того, награды получили проекты от таких крупных игроков рынка, как Альфа-Банк, ВТБ, «Вкусно — и точка», Skillbox и Сбер 🏆

#EdFuture #ОбразованиеБудущего #HRФорум
 
@ai_machinelearning_big_data
👍115🔥3😁2🌭1🦄1
📌Топ 10 статей NVIDIA Developer Technical Blog за 2024 год.

NVIDIA подвела итоги публикаций для разработчиков за 2024 год. От новаторских разработок в области AI-инференса до вклада в опенсорс - эти статьи о прорывах, которые вызвали наибольший резонанс у читателей.

🟢NVIDIA NIM - оптимизированные микросервисы инференса для мастшабного развертывания моделей ИИ

🟢Открытие бесплатного доступа к NVIDIA NIM для участников Developer Program

🟢NVIDIA GB200 NVL72 - обучение LLM с триллионами параметров и инференсом в реальном времени

🟢NVIDIA полностью переходит на GPU Kernel Modules с открытым исходным кодом

🟠Введение в мультимодальный RAG
Руководство демонстрирует, как сочетание поиска по тексту и изображению улучшает приложения ИИ. От чат-ботов до поисковых систем - мультимодальный ИИ теперь доступен как никогда.

🟠Создание агента для анализа данных на основе LLM
Пошаговый туториал о том, как создавать агенты на базе LLM, позволяющие разработчикам улучшать и автоматизировать анализ данных с помощью интерфейсов на естественном языке.

🟠StarCoder2 - раскройте свой потенциал в программировании
Появление StarCoder2, ИИ-ассистента в задачах программирования повышает производительность разработки за счет предложений по коду и сокращения повторяющихся задач по программированию.

🟠Как обрезать и дистиллировать Llama 3.1 8B в модель NVIDIA MiniTron 4B
Глубокое погружение в методы pruning и дистилляции модели Llama 3.1 8B в более эффективную MiniTron 4B, оптимизируя производительность без ущерба для точности.

🟠Как за 4 шага перевести приложение RAG из пилотной версии в продакшен
Учебное пособие, которое описывает прямой путь к масштабированию RAG-приложений с упором на лучшие практики для обеспечения готовности к производственной эксплуатации.

🟠RAPIDS cuDF ускоряет pandas почти в 150 раз без изменения кода
150-кратное Zero Code ускорение рабочих процессов Pandas которое преобразует конвейеры обработки данных и повышает производительность Python.


🔜 Блогпост на developers.nvidia.com


@ai_machinelearning_big_data

#AI #ML #NVIDIA #Digest
Please open Telegram to view this post
VIEW IN TELEGRAM
👍208🔥6
✔️ Gemini 2.0 Flash Thinking - модель "рассуждения" от Google.

Google выпустила новую экспериментальную модель Gemini 2.0 Flash Thinking Experimental, предназначенную для "рассуждений". Модель доступна в AI Studio. Согласно описанию, модель лучше всего подходит для мультимодального понимания и способна "рассуждать над самыми сложными задачами" в программировании, математике и физике.

Gemini 2.0 Flash Thinking Experimental основана на модели Gemini 2.0 Flash. Модель делает паузу перед ответом, рассматривая несколько связанных запросов и объясняя свои рассуждения, после чего формирует наиболее точный ответ. Тем не менее, как показывает пользовательское тестирование, модель иногда испытывает трудности, например, при подсчете букв в словах.
techcrunch.com

✔️ Judge-модель Glider от Patronus AI превосходит GPT-4 в оценке ИИ.

Стартап Patronus AI, представил открытую модель Glider с 3.8 млрд. параметров, которая превосходит GPT-4o-mini. Glider разработана для автоматической оценки ответов ИИ по сотням критериев, предоставляя подробные объяснения своих решений. Glider может работать в реальном времени, с задержкой менее секунды, и оценивает точность, безопасность и тон одновременно.

Glider была обучена на 183 различных бенчмарках из 685 доменов. Демо уже работает на HF Space, технический отчет Glider опубликован на arxiv.org, веса модели - на Huggingface.
patronus.ai

✔️ Cineverse запускает Matchpoint Reel Visuals AI для монетизации контента в сфере ИИ.

Cineverse объявила о запуске новой службы управления правами в ИИ - Matchpoint Reel Visuals AI. Этот сервис позволяет владельцам библиотек фильмов, телешоу и подкастов извлекать выгоду из растущего спроса со стороны ИИ-компаний на аудио/видео контент для обучения моделей ИИ.

Используя технологию Matchpoint, партнеры Cineverse получают возможность быстро загружать, нормализовать и хранить большие объемы видеоконтента с интегрированными возможностями управления правами. На сегодняшний день компания представляет права на обучение ИИ для более чем 350,000 часов видео и аудио контента
investor.cineverse.com

✔️ Apptronik и Google DeepMind объединяют усилия для развития человекоподобных роботов c ИИ.

Apptronik объявила о стратегическом партнерстве с командой робототехники Google DeepMind для объединения ИИ с роботизированным оборудованием. Цель сотрудничества - создание более эффективных человекоподобных роботов для работы в динамичных средах. Ключевым продуктом партнерства является робот Apollo, разработанный Apptronik, высотой 172.2 см и весом 72.5 кг, предназначенный для выполнения физически сложных задач в промышленных условиях.

Mercedes-Benz уже тестирует Apollo в автомобильном производстве, а GXO Logistics проводит испытания робота на складах. Команда Google DeepMind привнесет в партнерство свой опыт в машинном обучении, инженерии и физическом моделировании, используя Gemini для робототехники.
therobotreport.com

✔️ OpenAI показала новые возможности ChatGPT для Mac.

На предпоследнем стриме цикла 12 Days, OpenAI представила новые функции для приложения ChatGPT на Mac: улучшенную интеграцию с другими приложениями и расширенный голосовой режим. Теперь пользователи могут предоставлять ChatGPT доступ к контенту в других приложениях для получения контекста и помощи.

ChatGPT для Mac OS также получил возможность работы с Apple Notes, Quip и Notion. Новые возможности "Работа с приложениями" и "Расширенный голосовой режим" уже доступны для пользователей приложения ChatGPT на Mac, а для пользователей Windows они появятся в скором времени.
openai.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍12🔥11
🌟 FlashRNN: оптимизация RNN на современном оборудовании.

FlashRNN - библиотека, которая реализует традиционные RNN, такие как LSTM, GRU и сети Элмана, а также новейшую архитектуру sLSTM в CUDA и Triton.

В отличие от распространенных современных моделей архитектуры Transformers, RNN обладают возможностями отслеживания состояния, оставаясь актуальными для решения задач моделирования временных рядов и логического мышления.

FlashRNN предлагает два варианта оптимизации: чередующийся и объединенный.

🟢Чередующийся позволяет обрабатывать данные с большим размером скрытых состояний и значительно превосходит по скорости базовую реализацию PyTorch.

🟢Объединенный вариант агрегирует операции умножения матриц и вычисления функций в одно ядро, снижая количество обращений к памяти и позволяет хранить рекуррентные матрицы весов непосредственно в регистрах GPU.

За автоматизацию настройки параметров FlashRNN отвечает библиотека ConstrINT, которая решает задачи целочисленного удовлетворения ограничений, моделируя аппаратные ограничения в виде равенств, неравенств и ограничений делимости.

Эксперименты с FlashRNN показали существенное увеличение скорости работы: до 50 раз по сравнению с PyTorch. FlashRNN также позволяет использовать большие размеры скрытых состояний, чем нативная реализация Triton.

▶️ Локальная установка и пример запуска FlashRNN:

# Install FlashRNN
pip install flashrnn


# FlashRNN employs a functional structure, none of the parameters are tied to the `flashrnn` function:

import torch
from flashrnn import flashrnn

device = torch.device('cuda')
dtype = torch.bfloat16
B = 8 # batch size
T = 1024 # sequence length
N = 3 # number of heads
D = 256 # head dimension
G = 4 # number of gates / pre-activations for LSTM example
S = 2 # number of states

Wx = torch.randn([B, T, G, N, D], device=device, dtype=dtype, requires_grad=True)
R = torch.randn([G, N, D, D], device=device, dtype=dtype, requires_grad=True)
b = torch.randn([G, N, D], device=device, dtype=dtype, requires_grad=True)
states_initial = torch.randn([S, B, 1, N, D], device=device, dtype=dtype, requires_grad=True)

# available functions
# lstm, gru, elman, slstm

# available backend
# cuda_fused, cuda, triton and vanilla

states, last_states = flashrnn(Wx, R, b, states=states_initial, function="lstm", backend="cuda_fused")

# for LSTM the hidden h state is the first of [h, c]
# [S, B, T, N, D]
hidden_state = states[0]


📌Лицензирование: NXAI Community License:

🟠бесплатное использование в некоммерческих целях с маркировкой при публикации в отрытых источниках;

🟠получение коммерческой лицензии при годовом доходе свыше 100 млн.евро


🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #RNN #FlashRNN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30🔥74
Российская LLM от MTS AI опережает иностранные в задачах на русском языке

В первом квартале 2025 года планируется релиз новой большой языковой модели от MTS AI. О выходе программы из бета-версии упомянул председатель совета директоров МТС Вячеслав Николаев в рамках Дня инвестора. Модель Cotype продемонстрировала лучшие результаты в этом году в области понимания текстов и работы с информацией.

В лидерборде бенчмарка MERA технология заняла второе место после ChatGPT, однако она лучше ответила на вопросы на русском языке из категорий:
• RWSD и RCB — понимание и интерпретация текста;
• MultiQ — рассуждение и связывание фактов;
• ruOpenBookQA — общие знания о мире.

Cotype можно будет интегрировать в любые системы благодаря встроенному API.

@ai_machinelearning_big_data

#news #AI #LLM #news
😁3320🤔9👍7🔥5🤣4🥱2
⚡️ ModernBERT: новое и улучшенное поколение BERT.

ModernBERT - улучшенная и переработанная на уровне архитектуры модель, основанная на достижениях BERT, которая в 2-4 раза быстрее, чем DeBERTa и RoBERTa.

Модель позиционируется как преемник BERT и совместима с большинством инструментов, при этом не использует token type IDs, что упрощает ее использование.

ModernBERT доступна в двух вариантах:

🟢base с 22 слоями и 149 млн. параметров;
🟢large с 28 слоями и 395 млн. параметров.

Модель поддерживает длину контекста в 8192 токена против 512 в оригинальном BERT, это позволяет ей обрабатывать длинные документы и большие объемы текста.

Архитектурные улучшения включают в себя: использование RoPE (вместо механизмов позиционного кодирования), GeGLU слои, удаление смещений, дополнительный слой нормализации после эмбедингов и чередование глобального (Flash Attention 3) и локального (Flash Attention 2) внимания.

Каждые 3 слоя используют глобальное внимание с RoPE theta 160 000, а остальные слои – локальное скользящее окно с 128 токенами и RoPE theta 10 000. Для повышения эффективности ModernBERT использует метод unpadding, удаляя padding токены и обрабатывая последовательности как один пакет.

ModernBERT обучалась на 2 трлн. токенов данных (веб-документы, код и научная литература) на английском языке и использует новый токенизатор BPE, модифицированную версию токенизатора OLMo, с размером словаря в 50 368 токенов.

Результаты тестов показали, что ModernBERT превосходит другие модели в задачах поиска, понимания естественного языка и в задачах программирования.

Например, ModernBERT-base превосходит другие модели своего размера на GLUE и показала высокие результаты на CodeSearchNet и StackQA в кодинге, а ModernBERT-large уступает только Deberta-v3-large .

⚠️ ModernBERT обучалась только на английском языке, поэтому ее производительность может быть ниже для других языков


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #ModernBERT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥116🤨3