364K subscribers
4.5K photos
894 videos
17 files
4.95K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 На BiliBili вышло видео: парень управляет роботом через motion-capture.

…и из-за лага робот возвращает команду ему прямо в … 😬

— «Пацаны, откатите… ОТКАТИТЕ!» 🤖🔥

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
😁164👍7115🔥13😭9🎄1
Media is too big
VIEW IN TELEGRAM
✔️ Nvidia закрыла сделку по покупке акций Intel на 5 млрд. долларов.

Компания выполнила условия сентябрьского соглашения, приобретя более 214,7 млн. акций Intel. Для Intel это вливание капитала стало критически важной финансовой поддержкой: производитель серьезно истощил свои резервы из-за многолетних стратегических просчетов и затрат на расширение производственных мощностей.

Инвестиция уже прошла проверку американских регуляторов - Федеральная торговая комиссия одобрила сделку. Теперь, когда все формальности улажены, Intel получает необходимую ликвидность для стабилизации бизнеса на фоне жесткой конкуренции в полупроводниковой отрасли.
reuters.com

✔️ CEO Microsoft раскритиковал качество Copilot и лично возглавил работу над продуктом.

Сатья Наделла выразил жесткое недовольство текущим состоянием потребительской версии ИИ-ассистента. В письме менеджерам он заявил, что интеграции Copilot с Gmail и Outlook «по большей части не работают», назвав их реализацию «недостаточно умной».

Чтобы исправить ситуацию, глава компании фактически перешел в режим антикризисного управления продуктом, делегировав часть коммерческих задач, чтобы сосредоточиться на технологиях.

Теперь Наделла глубоко погружен в инженерную рутину: он состоит в рабочих чатах с ведущими разработчиками, проводит еженедельные разборы полетов и дает прямые технические указания, вплоть до требований по консолидации процессов тренировки моделей.
theinformation.com

✔️ Китайская AgiBot запустила сервис посуточной аренды гуманоидных роботов.

Компания представила платформу Qingtian Rent, на которой можно нанять роботов для работы на выставках, конференциях и частных мероприятиях. Флагманская антропоморфная модель Yuanzheng A2 обойдется в $1380 в день, а в качестве бюджетной альтернативы предлагается робопес Unitree Go2 за $138 в сутки.

Запуск сервиса происходит на фоне роста интереса к коммерческому использованию робототехники в Китае. По данным аналитиков, объем местного рынка аренды роботов в 2025 году составил $140 млн., однако уже в следующем году ожидается десятикратный скачок до $1,4 млрд.
interestingengineering.com

✔️ Крупнейшая мировая ассоциация бухгалтеров отменяет онлайн-экзамены из-за ИИ.

Ассоциация сертифицированных бухгалтеров (ACCA), объединяющая более полумиллиона студентов, полностью сворачивает практику дистанционной сдачи тестов с марта 2026 года. Руководство организации признало поражение в технологической гонке.

Генеральный директор ACCA Хелен Брэнд пожаловалась, что изощренность методов списывания опережает любые внедряемые защитные меры. Студенты используют чат-боты, способные решать сложные задачи по фотографии экрана быстрее, чем это фиксирует система наблюдения.

Интересно, что одновременно с запретом удаленного тестирования ассоциация обновляет учебную программу, добавляя туда изучение того самого ИИ и блокчейна, но проверять знания теперь будут исключительно в офф-лайне.
ft.com

✔️ Звезды Голливуда объединились для создания правил использования ИИ в медиа-индустрии.

Организация под названием «Creators Coalition on AI» (CCAI), будет разработать единые стандарты внедрения нейросетей в кино и музыке. Участники коалиции не выступают против технологий как таковых, но требуют прозрачных правил игры.

Ключевые пункты повестки касаются датасетов: использование чужих работ для обучения моделей должно происходить только с согласия авторов и за справедливое вознаграждение.

Кроме того, CCAI намерена бороться с бесконтрольным распространением дипфейков, защищать рабочие места в индустрии и отстаивать приоритет человеческого творчества над генерацией.
creatorscoalitionai.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
96🆒30🎃27👾27💅24👍15🔥5🐳2❤‍🔥1💘1
📌GPU Glossary: исчерпывающая база по GPU.

Modal Labs составили подробный глоссарий, чтобы решить проблему, с которой сами столкнулись при работе с графическими процессорами в сервисе Modal : документация фрагментирована и зачастую очень сложно сопоставить концепции на разных уровнях стека.

Modal Labs (бренд Modal) – компания, основанная в 2021 году, которая предоставляет высокопроизводительную серверную вычислительную платформу для разработчиков, работающих с данными, ИИ и машинным обучением.


Они прочитали PDF-документацию от NVIDIA, порылись в тематических Discord-сообществах и даже купили бумажные учебники, чтобы составить базу знаний, охватывающую весь стек в одном месте:

🟢Ядра CUDA, SM, тензорные ядра, warp-планировщики;

🟢Потоки, PTX, иерархию памяти;

🟢Roofline, дивергенцию;

🟢Nvcc, nvidia-smi, cuBLAS, Nsight, libcuda.

В руководстве все страницы связаны между собой, поэтому вы можете перейти к разделу о Warp Scheduler , чтобы лучше понять потоки, о которых вы читали в статье о модели программирования CUDA.

Сам проект открыт и доступен на Github.


🟡Страница
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GPU #Glossary #Modal
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9735🔥15👏11🤩8👨‍💻6🦄1
💰 Forbes назвал самых молодых миллиардеров в мире и это основатели AI-платформы

Сказанная история трёх 22-летних сооснователей AI-стартапа Mercor. До успеха они были друзьями со школы и начали компанию сразу после учёбы.

Для них этот стартап стал первой работой и он сделал каждого из них миллиардером.

📈 Оценка компании: около $10 млрд,
💰 состояние каждого: примерно $2,2 млрд.

Mercor это платформа, которая с помощью ИИ автоматизирует подбор персонала и помогает компаниям находить разработчиков по всему миру.

В эпоху ИИ можно построить глобальный бизнес даже без опыта или крутых связей.

https://www.forbes.com/sites/alexyork/2025/11/07/a-startup-was-their-first-ever-job-now-theyre-the-worlds-youngest-self-made-billionaires/

@ai_machinelearning_big_data
1🎉12041🔥31👍27🤩8👏7😁5🤣5🌭2🤷‍♂1🤬1
⚡️ Tencent выпустили новые open-source модели перевода HY-MT 1.5

Модель доступна в двух версиях: 1.8B и 7B. Обе работают как на устройстве, так и в облаке и показывают высокую скорость и точность.

Модель идет в двух размерах:

1) 8B для устройств
Оптимизирована под потребительское железо, занимает около 1 ГБ памяти.
Благодаря on-policy distillation достигает задержки 0.18 секунды на 50 токенов, обходя многие коммерческие API.

2) 7B новая SOTA
Превосходит большинство средних по размеру open-source моделей и сопоставима с закрытых решений.

Поддержка 33 языков и 5 китайских диалектов с высокой точностью.

Модели уже используются в сервисах Tencent. Связка двух моделей обеспечивает стабильную работу как на устройствах, так и в облаке.

🔹 Попробовать: https://hunyuan.tencent.com/modelSquare/home/list
🔹 GitHub: https://github.com/Tencent-Hunyuan/HY-MT
🔹 Hugging Face: https://huggingface.co/collections/tencent/hy-mt15

@ai_machinelearning_big_data

#opensource, #Tencent,
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89🎉2819😍8👏5🔥3🦄3🤬2💯1
Media is too big
VIEW IN TELEGRAM
✔️ Цукерберг купил Manus.

По информации WSJ, сумма сделки превысила $2 млрд, что соответствует оценке, которую стартап рассчитывал получить в ходе нового раунда финансирования. Manus показал феноменальную динамику, выйдя на уровень годовой выручки более $100 млн. всего через 8 месяцев после запуска.

Флагманский продукт Manus — агент общего назначения, способный самостоятельно выполнять многоступенчатые задачи: написание кода, анализ больших данных и маркетинговые исследования.

Критическим условием поглощения стало полное сворачивание операций в Китае, где компания была изначально основана, и исключение любых китайских интересов в структуре собственности. Действующие сервисы и подписки Manus продолжат работать.
wsj.com

✔️ США одобрили поставки оборудования для Samsung и SK Hynix на 2026 год.

Власти США выдали Samsung Electronics и SK Hynix лицензии, разрешающие ввоз оборудования для производства чипов на их заводы в Китае в 2026 году. Это решение обеспечит непрерывность технологических процессов на фоне ужесточения правил экспортного контроля.

Ранее южнокорейские вендоры, наравне с TSMC, обладали статусом «проверенных компаний», который освобождал их от ограничений Вашингтона. Срок действия этой привилегии истекает 31 декабря, после чего начинает действовать система ежегодного лицензирования поставок.

Для Samsung и SK Hynix китайские площадки остаются ключевыми в производстве памяти, цены на которую растут из-за дефицита и высокого спроса со стороны дата-центров для ИИ.
reuters.com

✔️ FAL Ai сделали FLUX.2 Dev Turbo.

FLUX.2 [dev] Turbo — оптимизированная версия модели от Black Forest Labs в формате LoRA, которая сокращает инференс до 8 шагов.

FAL обещает шестикратный прирост скорости по сравнению со стандартной 50-шаговой версией, при этом сохраняя высокую детализацию изображений и точность следования промпту.

Сразу после релиза инструмент возглавил рейтинг Artificial Analysis Image Arena, обойдя по ELO-баллам даже крупные коммерческие закрытые модели. Веса доступны на Hugging Face под некоммерческой лицензией Black Forest.
Fal в сети X

✔️ Tencent релизнула диффузионную языковую модель, которая в 6 раз быстрее классических LLM.

WeDLM 8B Instruct использует диффузионный подход к генерации текста вместо привычного для LLM авторегрессионного метода. Преимущество архитектуры в радикальном приросте производительности. В задачах математического рассуждения WeDLM работает в 3–6 раз быстрее, чем Qwen3-8B с оптимизацией vLLM.

Релиз опровергает стереотип о том, что диффузионные модели не подходят для точных текстовых задач и доказывает их способность превосходить трансформеры в скорости инференса.

Модель доступна на HuggigingFace под максимально свободной лицензией Apache 2.0.
wedlm.github.io

✔️ Алгоритмы YouTube рекомендуют новым пользователям ИИ-слоп.

Компания Kapwing проанализировала выдачу для новых аккаунтов и выяснила, что 21% рекомендаций приходится на слоп, созданный в ИИ исключительно для фарма просмотров. Этот контент представляет собой автоматизированный поток мусорных видео, который рекомендательные системы платформы активно продвигают в топы.

Экономика этого сегмента процветает: лидеры ниши собирают миллиарды просмотров и зарабатывают миллионы долларов на рекламе. Основными потребителями такого контента оказались зрители из Южной Кореи, Пакистана и США.

Ситуация наглядно иллюстрирует проблему «мертвого интернета»: пока подобные видео генерируют высокую вовлеченность - будь то от реальных людей или ботов, платформа продолжает их рекомендовать, создавая финансовый стимул для дальнейшего замусоривания хостинга.
kapwing.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58💯5024🔥12👏6🤔4🤬4🌭3🦄1
This media is not supported in your browser
VIEW IN TELEGRAM
🎄🎄 Qwen-Image: обновление как раз к Новому году

Свежая версия Qwen-Image получила заметный апгрейд качества.

Модель стала генерировать намного реалистичнее и аккуратнее, особенно в сложных сценах.

Что изменилось:

• более естественные генерации людей, меньше «искусственного» эффекта
• детальнее лица и мимика
• улучшены натуральные текстуры: вода, шерсть, материалы, пейзажи
• намного аккуратнее текст на картинках: лучше верстка и точность в композиции (с русским все грустно)

Модель прошла более 10 000 слепых сравнений на AI Arena и показала результат уровня топов среди open-source, оставаясь конкурентной даже рядом с закрытыми решениями.

Qwen Chat: https://chat.qwen.ai/?inputFeature=t2i
Hugging Face: https://huggingface.co/Qwen/Qwen-Image-2512
ModelScope: https://modelscope.ai/models/Qwen/Qwen-Image-2512
GitHub: https://github.com/QwenLM/Qwen-Image
Блог: https://qwen.ai/blog?id=qwen-image-2512
Демо HF: https://huggingface.co/spaces/Qwen/Qwen-Image-2512
Демо ModelScope: https://modelscope.cn/aigc/imageGeneration
API: https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=group-qwen-image-max

@ai_machinelearning_big_data

#qwen #qwenimage #openaimodels #imagemodels
👍91🎄6629🔥15👏11🤬2🤗2🦄1
🚨 🚨 DeepSeek в первый день года показала реально важную штуку: улучшение трансформеров.

Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.

В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.

Это помогает информации проходить через много слоёв, не теряясь.

Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.

Перед каждым шагом модель выбирает, какие потоки подать на вычисления.

Во время шага часть сигнала идёт «в обход»,
чтобы ничего не потерять.

После всё снова аккуратно объединяется.


То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.

Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.

mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.

Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.

Что это даёт на практике:

- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.

Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.

Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.

И трансформеры стали гибче и стабильнее.

https://arxiv.org/abs/2512.24880

@ai_machinelearning_big_data

#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
👍505😘9289🔥82👏55😎28🤗2114🙈10🎉7🥱3🦄2
📌Интервью 23-летнего сотрудника OpenAI, который выучил DL без учебы в университете.

Интересная история, которая заставляет задуматься об образовании и карьере.

Знакомьтесь - Габриэль Петерссон. Ему всего 23 года, он бросил школу в глухом шведском городке, не учился в ВУЗе, но прямо сейчас работает научным сотрудником в OpenAI, в команде Sora.

🟡Мы живем во время, когда монополия ВУЗов на фундаментальные знания пошатнулась.

Традиционное образование - это путь "снизу вверх". Хочешь заниматься машинным обучением? Сначала выучи линейную алгебру, потом матан, потом тервер. Это долго и зачастую теряется мотивация и понимание, зачем тебе это нужно прямо сейчас.

Масла в котел демотивации подливают компании, которые тоже не очень хотят ждать. Palantir, например, уже нанимает старшеклассников, минуя вузы. И история Габриэля — показательный пример тенденции.

Он не проходил классический путь "школа — бакалавриат — магистратура". Вместо этого он использовал ChatGPT как персонального ментора. И речь не о том, чтобы попросить чат-бот «напиши код за меня». Габриэль использовал метод, который он сам называет «рекурсивным заполнением пробелов».

Его суть том, чтобы идти как бы "сверху вниз". Он берет сложный проект: например, хочет разобраться, как работают модели диффузии. Он просит ChatGPT написать код. Естественно, сначала он ничего не понимает.

И вот тут он начинает задавать вопросы к каждому непонятному модулю. «Что делает этот блок?». Допустим, это блок ResNet. Он спрашивает: «Почему это помогает модели учиться?». И копает глубже. Если всплывает незнакомое понятие - он просит объяснить математическую базу, лежащую в его основе.

Это и есть рекурсия: слой за слоем, пока не заполнятся все пробелы в знаниях. Он не учит математику впрок, он учит ту математику, которая нужна ему прямо сейчас для работы кода.

🟡Но как иностранец без диплома получил визу в США и работу в Кремниевой долине?

Для получения визы талантов (O1) он использовал свою репутацию на Stack Overflow и рекомендации, которые просмотрели миллионы людей, как доказательство вклада в индустрию.

Габриэль советует: забудьте про HR. Резюме и дипломы не важны, если вы можете показать результат. Его стратегия — MVP или демо продукта и написать напрямую топ-менеджменту компании с предложением бесплатной работы на неделю. Это снимает риски для нанимателя и дает вам шанс показать себя.

Его главный посыл: если вы готовы активно задавать вопросы и не боитесь выглядеть глупо перед ИИ, изучая основы, вы уже входите в 1% лучших. Потому что большинство людей просто плывут по течению.

🔜 Посмотреть полное интервью


@ai_machinelearning_big_data

#AI #ML #Interview #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍20375🔥41🤓30🥱29👏11🤔11🦄6🐳4🗿4🏆1
📌Как ИИ-гиганты обеспечивают себя энергией.

Semianalysis выпустили любопытный материал о том, как ИИ-компании преодолевают энергетический кризис.

🟡Американская энергосистема не выдерживает напора ИИ.

Еще 2 года назад эксперты предсказывали, что спрос на мощность для ИИ-ЦОДов вырастет с 3 ГВт в 2023 до 28 ГВт к 2026 году.

Уже сейчас в Техасе ежемесячно поступают заявки на десятки гигаватт, но за год одобряют не более гигаватта. Электросети перегружены.

ИИ-компании не могут ждать много лет на подключение к сетям. Задержка в полгода для дата-центра мощностью 400 МВт означает потерю миллиардов долларов. Поэтому они адаптируются: строят собственные газовые электростанции прямо на территории дата-центров.

Первой удивила индустрию xAI, запустив кластер из 100 тыс. GPU всего за 4 месяца на полностью независимых от общих сетей мобильных газовых турбинах. На конец 2025 года детище Илона Маска развернуло суммарно более 500 МВт таких мощностей. И за ними пошли OpenAI с Oracle в Техасе и Марк Цукерберг в Огайо.

🟡Концепция альтернативного питания ЦОДов получила свое название - BYOG (Bring your own generation)

Она объединяет 3 основных типа генерации:

🟢Аэродеривативные турбины от GE Vernova LM2500 (34 МВт) и LM6000 (57 МВт). Самые дорогие, но быстро запускаемые (5-10 минут от старта до полной мощности);

🟢Промышленные газовые турбины (Siemens SGT-800 и Solar Titan), включая адаптированные под выработку электричества поршневые двигатели Enbacher J624 (4,5 МВт) и Wärtsilä (7-20 МВт). Они дешевле, но медленнее запускаются.

🟢Твердооксидные топливные элементы от Bloom Energy, которые не требуют согласования от агентства по охране окружающей среды США.

🟡Подводный камень BYOG - надежность.

Чтобы достичь 99% аптайма как в общих электросетях, приходится серьезно перестраховываться. Для дата-центра на 200 МВт устанавливают 26 двигателей по 11 МВт или 9 турбин по 30 МВт, а, например, ЦОД в Огайо на гибридном решении: 3 типа турбин и 15 поршневых двигателей для максимального покрытия аварий.

🟡Драйвер кризиса - экономика.

Стоимость собственной генерации обычно выше сетевой, но для ИИ-бизнеса скорость ввода в эксплуатацию важнее. Один ГВт ИИ-вычислений приносит $10-12 млрд годового дохода. Так что ускоренный запуск ЦОДа окупает любые затраты на энергетическую независимость.

Производители BYOG-решений борются с дефицитом. GE Vernova и Siemens Energy принимают заказы уже только на 2028-2029 годы.

🟡Спрос не остался незамеченным - появились новые игроки.

Boom Supersonic (производитель самолетов) использует свои авиационные наработки для создания турбин на базе двигателей самолётов Mach 2, а корейская Doosan Enerbility, благодаря опыту производства паровых турбин запустила производство турбин H-класса.

Пока в перспективе ИИ-гиганты выбирают гибридные решения где собственная генерация сначала выводит ЦОД в работу, а потом становится резервом при подключении к сетям, это однозначно повлияет еще на пару-тройку смежных сфер деятельности.

Так что "энергетический" и "чиповый" кризис - не последние, кого породила ИИ-гонка.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
172🔥32🤔29👍27🤬5🥱5👨‍💻2🦄2
🌟 IQuest-Coder-V1: китайская модель, которая обошла лидеров в кодинге.

Quest Research, поддержанная фондом Ubiquant, представила 40-миллиардную модель c контекстным окном в 128K токенов, которая, со слов авторов, выбивает 81,4% на SWE-Bench Verified, 49,9% на BigCodeBench и 81,1% на LiveCodeBench v6.

Это превосходит показатели Claude Sonnet 4.5 и GPT-5.1, несмотря на значительно меньшее количество параметров.

Модель использует технику "code-flow" — обучение на эволюции репозиториев и коммитах, и разделена на 2 ветки:

🟠Dense Models : Base и Instruct версии для дообучения и следованию инструкциям

🟢Loop Models: оптимизированная версия с максимальной эффективностью по VRAM (int4 может запускаться на 3090\4090)

Архитектура LoopCoder использует циклическую конструкцию трансформера, где одни и те же параметры модели используются в 2-х последовательных проходах обработки данных.

На первом проходе модель обрабатывает эмбеддинги через свои слои с учетом позиций слов.

На втором проходе модель одновременно использует два типа внимания: глобальное внимание, которое обращается ко всей информации из первого прохода для понимания общего контекста, и локальное внимание, которое смотрит только на предыдущие слова во втором проходе для сохранения последовательности текста.

Оба типа внимания комбинируются с помощью механизма, который решает, сколько веса дать глобальному контексту, а сколько локальной последовательности.

В техотчете заявлены еще 7B и 14B версии, но сроки их публикации неизвестны.


📌Лицензирование: Modified MIT License


🟡Страница проекта
🟡Техотчет
🟡Набор моделей
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #IQuest #QuestResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍136🤩92👨‍💻8740🤔23🔥20👏20👌12🥰85🎉5