Forwarded from Machinelearning
InternLM2.5-20B-chat - базовая модель с 20 миллиардами параметров ориентированная на чат-взаимодействие. Модель обладает математическими возможностями, поддерживает сбор информации с веб-страниц и получила улучшенный навык следования инструкциям.
Модель может быть развернута с помощью Transformers, vLLM и LMDeploy.
Доступна также версии GGUF для запуска в llama.cpp, LMStudio и Ollama с половинной точностью FP16 (39.7GB) и в малоразрядных квантованных вариациях c шагом в 1 bit : от 2-bit (7.55 GB) до 8-bit (21 GB).
InternLM2.5-1.8B-chat - модель с 1.8 миллиардами параметров и точно такой же направленности и возможностями, как и 20B-chat версия.
Для InternLM2.5-1.8B-chat тоже доступны GGUF версии с разрядностью от FP16 (3.78 GB) до до 2-bit (772 Mb), с шагом в 1 bit.
@ai_machinelearning_big_data
#AI #LLM #ML #InternLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2🔥2
🚀 NVIDIA Llama 3.1 Minitron 4B создана на основе Llama 3.1 8B.
- В 40 раз меньше токенов
- В 1,8 раза меньше затрат
- На 16% выше производительность
- 4 миллиарда параметров
⚖️ работает наравне с моделями 8B
✅ Обрезка и дистилляция
✅ Создание эффективной модели искусственного интеллекта
✅ Требуется меньше данных для обучения
https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/
- В 40 раз меньше токенов
- В 1,8 раза меньше затрат
- На 16% выше производительность
- 4 миллиарда параметров
⚖️ работает наравне с моделями 8B
✅ Обрезка и дистилляция
✅ Создание эффективной модели искусственного интеллекта
✅ Требуется меньше данных для обучения
https://developer.nvidia.com/blog/how-to-prune-and-distill-llama-3-1-8b-to-an-nvidia-llama-3-1-minitron-4b-model/
NVIDIA Technical Blog
How to Prune and Distill Llama-3.1 8B to an NVIDIA Llama-3.1-Minitron 4B Model
Large language models (LLM) are now a dominant force in natural language processing and understanding, thanks to their effectiveness and versatility. LLMs such as Llama 3.1 405B and NVIDIA Nemotron-4…
👍4❤2🔥2
Искусственный интеллект / Машинное обучение
Предсказываем цены на квартиры // Машинное обучение
Предсказываем кто Выжил на Титанике // Машинное обучение. Питон.
Строим Нейронную Сеть для Распознавания Изображений за 20 минут
Различие между Искусственным Интеллектом, Машинным обучением и Глубоким обучением
Искусственный Интеллект: История развития
#video
https://www.youtube.com/playlist?list=PL2bxgPsd_Jd5E_fxEje1OIr8b6EKFY_JV
Предсказываем цены на квартиры // Машинное обучение
Предсказываем кто Выжил на Титанике // Машинное обучение. Питон.
Строим Нейронную Сеть для Распознавания Изображений за 20 минут
Различие между Искусственным Интеллектом, Машинным обучением и Глубоким обучением
Искусственный Интеллект: История развития
#video
https://www.youtube.com/playlist?list=PL2bxgPsd_Jd5E_fxEje1OIr8b6EKFY_JV
👍4❤3🔥2
Forwarded from Machinelearning
Llama-3.1-Storm-8B - инструктивная модель, сочетающая в себе баланс размера и производительности, ориентированная на использование в приложениях и сервисах, генерацию текста, вызов функций и чат-ботов.
Модель обучалась на 1 миллионе высококачественных образцах из большого датасета (2.8M), отобранных вручную. Образцы оценивались на основе образовательной ценности и уровня сложности, чтобы модель могла получить релевантные и сложные данные в качестве тренировочной базы.
Полученный набор данных использовался для контролируемого файнтюна базовой Llama-3.1-8B-Instruct c применением методологии SPECTRUM. В завершении, полученная модель была объединена с моделью Llama-Spark методом сферической линейной интерполяции SLERP.
Локальный запуск Llama-3.1-Storm-8B поддерживается в Transformers, vLLM и LitGPT.
You are a function calling AI model.
You may call one or more functions to assist with the user query.
Don't make assumptions about what values to plug into function.
The user may use the terms function calling or tool use interchangeably.
Here are the available functions:
<tools>LIST_OF_TOOLS</tools>
For each function call return a json object with function name and arguments within <tool_call></tool_call> XML tags in the format:
<tool_call>{"tool_name": <function-name>, "tool_arguments": <args-dict>}</tool_call>
⚡️Лицензирование : Llama 3.1 Community License
▪Demo
▪Набор моделей
▪Google Collab (инференс)
@ai_machinelearning_big_data
#AI #Llama #LLM #ML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥2💩1
Forwarded from Machinelearning
Liger (Linkedin GPU Efficient Runtime) Kernel — набор оптимизированных ядер Triton, применение которых в задачах обучения LLM на нескольких GPU повышает производительность на 20 % и снижает потребление VRAM на 60%. Это дает возможность использовать более длинные контексты, более крупные размеры пакетов и увеличенные словари в обучении.
Liger предоставляет простой API для операций с оптимизированными ядрами и совместим с Hugging Face: RMSNorm, RoPE, SwiGLU, CrossEntropy, FusedLinearCrossEntropy
Liger работает с Flash Attention, PyTorch FSDP и Microsoft DeepSpeed без необходимости дополнительной настройки.
Зависимости:
Liger Kernel доступен в pip. Выберите стабильную версию для продакшена или nightly c последними новыми функциями и исправлениями:
# Stable version
pip install liger-kernel
# Nightly version
pip install liger-kernel-nightly
Патч существующей модели с Hugging Face:
# Import modules
import transformers
from liger_kernel.transformers import apply_liger_kernel_to_llama
# Load Hugging Face model:
model = transformers.AutoModelForCausalLM.from_pretrained("<some llama model>")
# Apply Liger Kernel patches:
apply_liger_kernel_to_llama(model)
После установки патча, модель будет использовать операции ядра Liger для поддерживаемых слоев, что приведет к повышению производительности и снижению потребления VRAM.
Если вы хотите построить собственные модели с помощью Liger Kernel, вы можете импортировать отдельные модули ядра и использовать их в качестве строительных блоков. Например:
# Import the Liger Kernel module:
from liger_kernel.transformers import LigerFusedLinearCrossEntropyLoss
#Create your model:
import torch.nn as nn
import torch
model = nn.Linear(128, 256).cuda()
loss_fn = LigerFusedLinearCrossEntropyLoss()
#Use the model:
input = torch.randn(4, 128, requires_grad=True, device="cuda")
target = torch.randint(256, (4, ), device="cuda")
loss = loss_fn(model.weight, input, target)
loss.backward()
Модель пропатчена, вы можете продолжить обучение как обычно. Liger Kernel будет автоматически выполнять оптимизированные операции во время обучения.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2❤1
Познакомьтесь с ключевыми концепциями и алгоритмами, лежащими в основе глубокого обучения, начав с самого простого структурного блока.
Please open Telegram to view this post
VIEW IN TELEGRAM
Toptal
A Deep Learning Tutorial: From Perceptrons to Deep Networks
Are you joining the growing group of developers who want to know more about Deep Learning? This introductory tutorial covers it all.
👍2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥3❤2
@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
#курс #datascience #python
@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1🔥1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://xn--r1a.website/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://xn--r1a.website/addlist/BkskQciUW_FhNjEy
МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
АНАЛИЗ Данных: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Linux: t.me/linuxacademiya
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://xn--r1a.website/addlist/mzMMG3RPZhY2M2Iy
😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno
🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://xn--r1a.website/addlist/BkskQciUW_FhNjEy
Особенности:
@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Open FinLLM Leaderboard - a Hugging Face Space by finosfoundation
Compare the performance of large language models in financial tasks using this interactive leaderboard. No input is required; simply explore the results to see how different models perform across v...
❤3
#курс #dataanalysis
@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍2🔥1
Нарезка митапа Яндекса ML-Party, которая прошла 17 октября 2024 года в Белграде. Вырезаны перерывы и длинные панчи ведущего в начале и в конце.
▶️ Всего было 4 доклада:
🟡 Илья Ирхин, руководитель подразделения аналитики в Яндекс Еде. Подробно рассказал про рекламу ресторанов в сервисе: аукцион, ранжирование, ценообразование.
🟡 Дмитрий Солодуха, руководитель группы в Алисе и Умных устройствах Яндекса.
Показал, как Яндекс учил Алису откликаться без имени.
🟡 Антон Клочков, руководитель подгруппы распознавания текста в VLM в Яндекс Поиске.
Рассказал о развитии навыков распознавания текста в VLM.
🟡 Пётр Вытовтов, руководитель группы в Яндекс Погоде.
Показал трансформеры сервиса и рассказал, как прогнозировать до миллиметра осадков.
@dataanlitics
Показал, как Яндекс учил Алису откликаться без имени.
Рассказал о развитии навыков распознавания текста в VLM.
Показал трансформеры сервиса и рассказал, как прогнозировать до миллиметра осадков.
@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤1
#курс #ai #claude
@dataanlitics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
AutoGPT, BabyAGI, GPT Engineer и других!▪ 150+ ИИ-агентов и фреймворков.
▪ Фильтр по сценариям использования.
▪ Фильтр по открытому/закрытому исходному коду.
▪ Фильтр новых продуктов ИИ
▪ Возможность получать обновления о конкретном агенте ИИ.
▪️Github
Please open Telegram to view this post
VIEW IN TELEGRAM