374K subscribers
4.35K photos
828 videos
17 files
4.84K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⭐️ Вышел PyTorch 2.6 !
В релиз добавлен ряд улучшений:
🔥 torch.compile теперь поддерживает Python 3.13
🔥 Новый torch.compiler.set_stance
🔥 Улучшения в AOTInductor
🔥 Поддержка FP16 на процессорах X86.
🟢 Релиз

⭐️ OpenAi поделились результатами раннего тестирования o3. Они превосходят практически всех экспертов-людей.
Сегодня утром был опубликован Международный отчет о безопасности искусственного интеллекта, и OpenAI поделилась предварительными результатами тестов o3.
«значительно более высокие показатели, чем у любой предыдущей модели, в ряде самых сложных тестов в области программирования, абстрактного мышления и научного мышления»
🟢International AI Safety Report

⭐️ Цукерберг хайлатит основные моменты из отчета о финансовых результатах:
- LLama 4 и LLama 4 mini (на претренинге)
- Подтверждает ризонинг в LLaMa!
- Llama 4 будет изначально мультимодальной
- это омни-модель
- она будет иметь агентские возможности.
- 👓 — идеальный форм-фактор для ИИ
- строительство центра обработки данных размером с Манхэттен

⭐️ DeepSeek был взломан — все данные, чаты, секретные ключи и бэкенд-системы оказались слиты.
Компания Wiz Research обнаружила «DeepLeak» — общедоступную базу данных ClickHouse, принадлежащую DeepSeek, которая раскрывает крайне конфиденциальную информацию, включая секретные ключи, текстовые сообщения чата, сведения о бэкэнде и журналы.

⭐️ Codegen - новая открытая библиотека Python для работы с кодом.
Codegen - это новый SDK к мощному многоязычному языковому серверу,
Который позволяет делать рефакторинг, применение паттернов, анализ целых проектов и т. д.
🟢Docs: 🟢 Github: 🟢 Community:

⭐️ Microsoft сделали модель R1 от DeepSeek доступной на Azure AI и GitHub. Microsoft на удивление быстро предоставила R1 своим клиентам Azure и планирует выпустить ее уменьшенную версию для Copilot+.
🟢Новость

🍪 Luma LabsAI обновили свой генератор видео Ray2. Теперь он поддерживает вывод 1080p и апскейлинг до 4k!
🟢Dream machine

Трамп предложил ввести 100%-ные пошлины на микросхемы, произведенные на Тайване. Эти меры направлены на то, чтобы вернуть производство полупроводников в США.
Несмотря на открытие завода в Аризоне, TSMC по-прежнему производит большую часть своих чипов на Тайване.
А поскольку чипы TSMC обычно отправляются в Китай и другие азиатские страны для сборки, прежде чем попасть в США, эти пошлины в случае их введения могут привести к росту стоимости такой электроники, как iPhone, игровые графические процессоры и ноутбуки.

⭐️ Atla Selene Mini - новая мощная маленькая модель 8B (SLMJ).
- превосходит лучшие малые модели в задачах оценки на 11 бенчмарках
- превосходит GPT-4o в RewardBench и EvalBiasBench
- отлично работает в реальных приложениях
🟢Ссылка

⭐️Выпущены гайды по работе с Qwen2.5-VL!
Коллекция записных книжек, демонстрирующих варианты использования Qwen2.5-VL, включая локальную модель и API. Примеры включают в себя использование вычислений, пространственное понимание, разбор документов, мобильный агент, распознавание текста, Универсальное распознавание, понимание видео.
🟢Cookbook

@ai_machinelearning_big_data

#pytorch #pytorchrelease #opensource #LLama #LLama4 #openai #chatgpt #ai #news #ml #llm #ainews #LumaLabsAI #Microsoft #DeepSeek #qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥86👍3127💯2😁1🕊1
🐋 DeepClaude

Высокопроизводительный LLM-интерфейс, который позволяет использовать возможности рассуждений DeepSeek R1 и творческие способности Claude с помощью единого и простого API и удобного иинтерфейса.

Особенности
🚀 Нулевая задержка - Очень быстрые ответы на базе высокопроизводительного API, написанного на Rust.
⚙️ Гибкая настройка соответствии с вашими потребностями
🌟 Открытый исходный код
🤖 Двойная мощь ИИ - объедините рассуждения DeepSeek R1 с и возможностями Claude

⭐️ DeepClaude объединяет обе модели, чтобы обеспечить:

- Новая SOTA 64,0% на бенчмарке aider polyglot
- 14-кратное снижение затрат по сравнению с предыдущей SOTA
- Повышенную точность генерации кода для различных языков программирования

git clone https://github.com/getasterisk/deepclaude.git
cd deepclaude

Github
Docs

@ai_machinelearning_big_data


#DeepSeek #Claude #llm #ml #ai #DeepClaude #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
50🔥22👍19🐳6👏3🥰1😁1
⭐️ Ночью OpenAI выпустила Deep Research — ИИ-агента для проведения исследований анализа и поиска информации.

Вводите промпт и ChatGPT найдет, проанализирует и синтезирует сотни онлайн-ресурсов, чтобы создать развернутый отчет за 10 минут работы, вместо нескольких часов, которые потребовались бы человеку.

Основные моменты:

— Уже доступен для пользователей Pro.
— Агент предоставит полный список источников, а также прокомментирует каждый из них;
— Хорошо подходит для решения задач, связанных с поиском в интернете.
Набрал 26.6 % на «Последнем экзамене человечества».
🟢Подробнее

⭐️WeatherNext продвинутый искусственный интеллект от Google DeepMind для прогнозирования погоды с открытым исходным кодом!

ИИ превосходит существующие методы как по точности, так и по вычислительной эффективности, предлагая обновления прогнозов в реальном времени четыре раза в день через Google Cloud, BigQuery и Earth Engine.
Исследователи могут получить доступ как к текущим, так и к историческим прогнозам для анализа и планирования.

Внутри 2 мощных инструмента:
WeatherNext Graph:
- Формирует единый сверхточный прогноз.
- Обновления происходят каждые 6 часов.
- Предсказания делаются на 10 дней вперёд.
- Выдает прогнозы с максимальной точностью.

WeatherNext Gen:
- Генерирует ансамблевые прогнозы из 50 вероятных сценариев.
- Обновление прогноза происходит каждые 12 часов.
- Модель позволяет лучше оценивать риски экстремальных погодных явлений.

Преимущества над традиционными методами:
- Более высокая скорость обработки данных.
- Значительное повышение точности по сравнению с физическими моделями.
- Опенсорс
🟢Blog

⭐️ Вышло пятичасовое интервью от Lex Fridman с Dylan Patel и Nathan Lambert (Ai2).

Внутри много интересного о DeepSeek, Китае, OpenAI, NVIDIA, xAI, Google, Anthropic, Meta, Microsoft, TSMC, Stargate, строительстве мегакластеров, RL, ризонинге и множестве других тем на передовых ИИ тематик.

Очень интересная и наполненная техническими деталями беседа.
🟢 YouTube 🟢Podcast

⭐️ Ряд интересных обновлений в Qwen Chat!

- Новая модель: Qwen2.5-Plus теперь обновлен до qwen-plus-0125-exp, с новыми методами пост-тренинга. Разрыв с Qwen2.5-Max значительно сократился.
- Гибкие режимы: Убрали все ограничения на переключение между режимами в течение одной сессии! С.
- Неограниченный ввод: Поддержка текстов длиной более 10 000 символов
- Возможность загружайть файлы txt, pdf, docx, xlsx, pptx, md и другие. Теперь длинный ввод не требует усилий.
🟢Попробовать

⭐️ Open-R1: Большой гайд посвященный экспериментам, инструментами, исследованиям и разборам DeepSeek R1!

Резюме самых интересных открытий за первую неделю с момента появления DS.
🟢HF 🟢Github:

⭐️ Гонка ИИ продолжается. Самый богатый человек Индии хочет построить крупнейший в мире центр обработки данных, в пять раз превышающий по мощности крупнейший датацентр Microsoft

Компания Reliance Group Мукеша Амбани, один из крупнейших и наиболее влиятельных индийских конгломератов, строит крупный центр обработки данных в Джамнагаре - небольшом городке в штате Гуджарат, где уже расположены крупные нефтеперерабатывающие и нефтехимические предприятия Reliance.
По сообщениям Bloomberg, общая мощность центра обработки данных, который может стать крупнейшим в мире, составит 3 гигаватта, что значительно увеличит текущую мощность индийских центров обработки данных, которая оценивается менее чем в 1 гигаватт.

Таким образом, он будет в пять раз больше, чем 600-мегаваттный центр Microsoft в Бойдтоне, штат Вирджиния.
🟢Подробнее

⭐️ Google представили метахранилище для Lakehouse!

Метахранилище - это высокомасштабируемый сервис метаданных во время выполнения, который работает с несколькими движками: BigQuery, Apache Spark, Apache Hive и Apache Flink, и поддерживает открытый формат таблиц Apache Iceberg
🟢Подробнее


@ai_machinelearning_big_data


#DeepSeek #opensource #ai #ml #llm #machinelearning #guide #news #chatgpt #openai #google #deepmind #qwen #DataAnalytics #ainews #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10226🔥10👀2
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Новый релиз от Deepseek: DeepSeek-VL2-small (16B MoE) для vision-language задач.

Демо новой модели стало доступно на huggingface 🚀

Отличная модель для OCR задач, извлечения текста, распознания картинок и использования в чате.

🤗 HF: https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

@ai_machinelearning_big_data


#deepseek #OCR #demo #prerelease
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥197😁3
✔️ Неделя Опенсорса от DeepSeek продолжается!

Только что китайцы представили DeepEP — это библиотека, разработанная для оптимизации работы моделей с архитектурой Mixture-of-Experts (MoE) и параллелизмом экспертов (EP).

Ее основная задача — обеспечить высокую пропускную способность и низкую задержку при обмене данными между GPU, что критически важно для эффективного обучения и инференса крупных моделей.

Что внутри
Высокая производительность:
- Библиотека предоставляет оптимизированные all-to-all GPU ядра для операций распределения (dispatch) и объединения (combine) данных, что улучшает скорость и эффективность коммуникации между экспертами в модели.

- DeepEP поддерживает операции с пониженной точностью, включая формат FP8, что способствует снижению требований к памяти и увеличению скорости вычислений без значительной потери точности.

- Оптимизация под различные домены: В соответствии с алгоритмом группового ограниченного гейтинга, предложенным в работе DeepSeek-V3, библиотека предлагает набор ядер, оптимизированных для асимметричной передачи данных между различными доменами, такими как NVLink и RDMA. Это обеспечивает высокую пропускную способность при обучении и инференсе.

- Низкая задержка для инференса: Для задач, чувствительных к задержкам, DeepEP включает набор ядер с чистой RDMA, минимизируя задержки и обеспечивая быструю обработку данных во время инференса.

- Работает как с NVLink, так и с RDMA, что позволяет организовать высокопроизводительную связь между GPU как в рамках одного сервера, так и между разными серверами.

Принцип работы:

DeepEP интегрируется в существующие рабочие процессы обучения и инференса моделей с архитектурой MoE, предоставляя эффективные механизмы для обмена данными между GPU. Используя оптимизированные коммуникационные ядра, библиотека обеспечивает быструю и надежную передачу данных, что особенно важно при работе с крупными моделями и распределенными системами. Поддержка операций с пониженной точностью и оптимизация под различные домены позволяют гибко настраивать систему под конкретные требования и аппаратные возможности.

Использование DeepEP способствует повышению эффективности и производительности моделей MoE, облегчая их масштабирование и ускоряя процессы обучения и инференса.

Github

@ai_machinelearning_big_data


#ai #deepseek #opensource #DeepEP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45🔥168