Машинное обучение RU
17.7K subscribers
1.57K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Forwarded from Machinelearning
🔥 Вышла новая модель MiniMax-01 456B с открытым исходным кодом с контекстом 4M !

🚀 Функции MiniMax-Text-01 и MiniMax-VL-01 основаны на ультрасовременной архитектуре "Lightning Attention".

→ В MiniMax-Text-01 реализован гибридный подход, при котором в 7 из каждых 8 слоев используется Lightning Attention, а в одном - SoftMax для улучшения баланса модель.

Такая архитектура позволяет эффективно обрабатывать сверхдлинные последовательности.

→ Версия с открытым исходным кодом включает в себя полный набор весов и API. По цене примерно 0,2 доллара за миллион входных токенов и 1,1 доллара за миллион выходных токенов — вполне конкурентоспособные цены.

На тестах модель превосходит платный Deep Seek v3 ! 💥

→ В задачах с длинным контекстом MiniMax-Text-01 достиг 100% точности в тесте поиска "Needle-in-a-Haystack" с использованием 4 миллионов токенов, превосходя топовые модели в реальных задачах с использованием искусственного интеллекта.

🖥 Github: https://github.com/MiniMax-AI/MiniMax-01
📑Paper:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
📖Read more: https://minimaxi.com/en/news/minimax-01-series-2

@ai_machinelearning_big_data

#llm #MiniMax #ai #agents #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62🔥2
🔥 Cline — автономный помощник по программированию, интегрированный непосредственно в вашу среду разработки (IDE)!

💡 Cline способен создавать и редактировать файлы, выполнять команды в терминале, использовать браузер и многое другое, получая ваше разрешение на каждом этапе.

🌟 Интегрируясь с моделями OpenAI, Google и Anthropic, Cline может пошагово выполнять сложные задачи разработки ПО. Он анализирует структуру файлов и абстрактные синтаксические деревья (AST) вашего проекта, выполняет регулярные выражения и читает соответствующие файлы, чтобы эффективно интегрироваться в существующие проекты.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥1🥰1
🥁🎷JASCO 🎶🪇 training & inference code + model weights are out!

JASCO состоит из модели для токенизации звука и модели согласования потоков, основанной на архитектуре transformer для музыкального моделирования.

Модель представлена в 2х размерах: 400 м и 1B; и в настоящее время имеет два варианта управления: text-to-music + {аккорды, ударные} и text-to-music + {аккорды, ударные, мелодия}.

Сатья📜: https://arxiv.org/abs/2406.10970
Примеры🔊: https://pages.cs.huji.ac.il/adiyoss-lab/JASCO/
Код🐍: https://github.com/facebookresearch/audiocraft/blob/main/docs/JASCO.md
Модели🤗: https://huggingface.co/facebook/jasco-chords-drums-melody-1B

@machinelearning_ru
3👍2🔥2
🔥 Agentarium — это мощный фреймворк на Python для создания и управления симуляциями с ИИ-агентами!

🌟 Он предоставляет интуитивную платформу для разработки сложных и интерактивных сред, где агенты могут действовать, обучаться и развиваться.

🌟 Фреймворк поддерживает управление агентами, взаимодействие между ними, создание синтетических данных через их действия и сохранение состояния с помощью контрольных точек. Agentarium оптимизирован для производительности и масштабируемости, а также предлагает гибкую конфигурацию окружения через YAML.

🔐 Лицензия: Apache-2.0

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21🥰1
Forwarded from Machinelearning
🥥 Training Large Language Models to Reason in a Continuous Latent Space

Только что был выпущен код для нового подхода в обучении LLM ризонингу - "Coconut"(Chain of Continuous Thought).

Coconut позволяет LLM рассуждать более эффективно и результативно, особенно при комплексных задачах планирования.

Основная идея алгоритма - это улучшения рассуждений моделей с использованием латентного пространства, вместо выходных лексем

При таком подходе - цепочка мыслей генерирует не в виде текстовых токенов, а в виде эмбеддингов, а затем циклично подаются обратно в LLM.

В «Coconut» у LLM есть два режима. Языковой режим работает как обычная языковая модель, генерируя текст и латентный режим, который использует скрытые состояния в качестве следующего входного сигнала, обозначенного специальными токенами <bot> и <eot>.

Скрытые состояния Coconut работают как дерево поиска, а не как линейная цепочка рассуждений, что позволяет модели исследовать несколько потенциальных путей одновременно.

На каждом шаге модель отдает приоритет перспективным узлам, отсекая менее релевантные.

Это помогает эффективнее справляться с задачами планирования и логики, по сравнению с традиционным методом работы CoT.

Как это работает:
1️⃣ Сначала модели подается промпт, за которым следует специальный токен <bot>, чтобы инициировать скрытое рассуждение.
2️⃣ Последнее скрытое состояние LLM после обработки <bot> используется в качестве первой "непрерывной мысли"
3️⃣ Непрерывная мысль подается обратно в модель как новый вход, генерируя новое скрытое состояние (новую мысль). Это повторяется в течение K итераций → цепочка непрерывных мыслей.
4️⃣ Далее добавляется маркер <eot> после последней непрерывной мысли, чтобы завершить скрытое рассуждение.
5️⃣ Последняя непрерывная мысль и <eot> затем используются для генерации ответа.
Такой подход, разумеется, требует большого количества ресурсов при обучении модели.

Плюсы такого подхода:
🏅 Превосходит CoT в задачах, где требуется планирования и сложные рассуждения, таких как ProntoQA и ProsQA
📉 Генерирует значительно меньше лексем во время размышлений по сравнению с CoT
🔀 Может выполнять поиск с широким охватом (BFS), кодируя одновременно несколько альтернативных следующих шагов

git clone git@github.com:facebookresearch/coconut.git
cd coconut


Github
Paper

@ai_machinelearning_big_data


#deeplearning #nlp #reasoning #llm #ml
7
🔥 Это видео объясняет проблемы понимания больших языковых моделей и инновационный подход разреженных автоэнкодеров к извлечению понятных человеку признаков, проливая свет на скрытые сложности моделей ИИ!

🕞 Продолжительность: 24:08

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
how it feels watching a training run as loss falls
12🔥3👍2👎2
🤖 Отличная, иллюстрированная статья, чтобы разобраться в устройстве трансформеров.

https://jalammar.github.io/illustrated-transformer/

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥1🥰1😁1
⚡️Легкий способ получать свежие обновления и следить за трендами в разработке на вашем языке. Находите свой стек и подписывайтесь:

МАШИННОЕ ОБУЧЕНИЕ: t.me/ai_machinelearning_big_data
C++ t.me/cpluspluc
Python: t.me/pythonl
Linux: t.me/linuxacademiya
Хакинг: t.me/linuxkalii
Devops: t.me/DevOPSitsec
Data Science: t.me/data_analysis_ml
Javascript: t.me/javascriptv
C#: t.me/csharp_ci
Java: t.me/javatg
Базы данных: t.me/sqlhub
Python собеседования: t.me/python_job_interview
Мобильная разработка: t.me/mobdevelop
Docker: t.me/DevopsDocker
Golang: t.me/Golang_google
React: t.me/react_tg
Rust: t.me/rust_code
ИИ: t.me/vistehno
PHP: t.me/phpshka
Android: t.me/android_its
Frontend: t.me/front
Big Data: t.me/bigdatai
Собеседования МЛ: t.me/machinelearning_interview
МАТЕМАТИКА: t.me/data_math
Kubernets: t.me/kubernetc
Разработка игр: https://xn--r1a.website/gamedev
Haskell: t.me/haskell_tg
Физика: t.me/fizmat

💼 Папка с вакансиями: t.me/addlist/_zyy_jQ_QUsyM2Vi
Папка Go разработчика: t.me/addlist/MUtJEeJSxeY2YTFi
Папка Python разработчика: t.me/addlist/eEPya-HF6mkxMGIy
Папка ML: https://xn--r1a.website/addlist/2Ls-snqEeytkMDgy
Папка FRONTEND: https://xn--r1a.website/addlist/mzMMG3RPZhY2M2Iy

😆ИТ-Мемы: t.me/memes_prog
🇬🇧Английский: t.me/english_forprogrammers
🧠ИИ: t.me/vistehno

🎓954ГБ ОПЕНСОРС КУРСОВ: @courses
📕Ит-книги бесплатно: https://xn--r1a.website/addlist/BkskQciUW_FhNjEy
👍2
🔥 AI Engineering Hub — это коллекция обучающих материалов и примеров приложений для работы с LLM и RAG!

🌟 Этот репозиторий включает проекты по созданию чат-ботов, автоматизации анализа данных, генерации текстов и работы с мультимодальными данными. Репозиторий полезен для разработчиков, исследователей и инженеров, желающих освоить современные методы применения ИИ.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
👏52
🚨Только что были выпущены веса для новой ризонинг моделей DeepSeek-R Zero.

Модель 685B основана на 3V.

Размер: 720GB 🤯

Ждем официального анонса, который с высокой степенью вероятности состоится сегодня или завтра.



https://huggingface.co/deepseek-ai/DeepSeek-R1
3🔥2👎1