Машинное обучение digest
47 subscribers
1.48K photos
200 videos
764 links
Download Telegram
Media is too big
VIEW IN TELEGRAM
✔️ Ученый Google получил Нобелевскую премию по физике 2025

Мишель Деворе (Michel Devoret), главный научный сотрудник команды Google Quantum AI, стал лауреатом Нобелевской премии по физике 2025 года.

Он разделил награду с Джоном Мартинесом (бывшим сотрудником Google Quantum AI) и Джоном Кларком из Калифорнийского университета в Беркли.

Премия присуждена за исследования макроскопических квантовых эффектов, которые стали фундаментом для создания сверхпроводящих кубитов - ключевой технологии в квантовых компьютерах.

Для Google это исторический момент: теперь в числе сотрудников и выпускников компании уже пять лауреатов Нобелевской премии, включая Демиса Хассабиса и Джеффри Хинтона, отмеченных в 2024 году.
google

✔️ Oracle потеряла $100 млн на аренде GPU-чипов Nvidia Blackwell

По данным *The Information*, Oracle понесла убытки около $100 млн за прошлый квартал из-за аренды чипов Blackwell.
Маржа серверного проката составила всего около 16%.

Бизнес по аренде GPU оказывается сложным:
скорее всего, дело не в падении спроса, а в сильном давлении на маржу - клиенты активно торгуются и сбивают цены.
theinformation

✔️ Новая модель от Liquid AI: LFM2-8B-A1B - это первый MoE-вариант в линейке LFM2, оптимизированная для эйдж устройств.

Модель содержит 8.3 млрд параметров, из которых активно только 1.5 млрд на токен, что даёт качество уровня 3–4B плотных моделей, но при этом она быстрее Qwen3-1.7B.

Модель показала себя отлично на 16 банчмарках:
она обгоняет LFM2-2.6B и модели аналогичного размера, особенно в задачах математики, кода и творческого письма.
huggingface

✔️ Deloitte внедряет Claude от Anthropic для 470 000 сотрудников

Deloitte объявила о крупнейшем корпоративном внедрении AI в истории Anthropic - Claude теперь станет рабочим инструментом для 470 000 сотрудников по всему миру.

Компания создаёт отраслевые версии Claude для бухгалтеров и разработчиков, а также откроет Claude Center of Excellence и сертифицирует 15 000 специалистов. В фокусе - прозрачность и соответствие нормам, с опорой на фреймворк Trustworthy AI.

Любопытно, что накануне Deloitte признала, что использовала ИИ в официальном отчёте правительства Австралии, где оказались поддельные цитаты и ссылки, и согласилась вернуть часть контракта на $440 000.
TechCrunch

✔️ Neuralink и xAI объединили усилия: человек управляет роботизированной рукой силой мысли

Пациент Nick Wray стал первым, кто с помощью Neuralink PRIME BCI смог управлять роботизированной рукой напрямую с помощью мозга. Он рассказал, что впервые за многие годы смог сам надеть шляпу, разогреть еду и поесть без помощи.

В проекте участвует и xAI Илонa Маска: система Grok помогает Neuralink усиливать нейроинтерфейс — от преобразования мыслей в текст и ускоренной коммуникации до синтезированного голоса и долгосрочной цели — когнитивного соединения человека и ИИ на бинарном уровне.

Многие задаются вопросом: станет ли Grok 5 шагом к слиянию человеческого сознания и искусственного интеллекта?

Это одно из самых вдохновляющих достижений в истории нейротехнологий — шаг к возвращению физической независимости людям и, возможно, к новой эре взаимодействия человека и ИИ.
Видео

✔️ ElevenLabs представила Agent Workflows - визуальный редактор для построения ИИ-агентов

Компания ElevenLabs представила Agent Workflows - инструмент, который позволяет визуально проектировать логику диалогов и взаимодействие агентов на платформе Agents.

Теперь вместо громоздкого единого агента можно создавать Subagents - специализированных подзадачных агентов с собственными промптами, базами знаний и инструментами.

С помощью Workflows можно задавать, когда агент передаёт управление подагенту, а когда подключает человеческого оператора. Это делает систему более гибкой и безопасной.

Кроме того, Workflows обеспечивают надёжное подключение к корпоративным системам, управление бизнес-логикой и умную маршрутизацию диалогов, что помогает снизить затраты, задержки и повысить точность ответов.
elevenlabs

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🧩 Новая архитектура нейросетей от Samsung: Tiny Recursive Model (TRM) - обошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini в задачах рассуждения ARC-AGI 1 и ARC-AGI 2.

✔️ Размер модели - всего 7 миллионов параметров и около 1000 обучающих примеров.

Это меньше в 10 000 раз, чем у современных LLM, но результат лучше.

Как работает TRM:

1️⃣ Черновой ответ: модель сразу формирует быстрый набросок решения, а не пишет его по словам.
2️⃣ Скрачпад: создаёт внутреннее пространство для логики и промежуточных рассуждений.
3️⃣ Самокритика: многократно (6 раз) проверяет свои рассуждения, уточняя и исправляя ошибки.
4️⃣ Переписывание: на основе улучшённой логики создаёт новую, более точную версию ответа.
5️⃣ Цикличность: повторяет процесс до 16 раз, пока не достигнет уверенного, логически цельного решения.

💡 Чем интересна модель:

- Меньше затрат на вычисления, а результат выше; высокая эффективность при низких издержках.
- Доказательство того, что собственная логика и архитектура могут быть сильнее простого размера модели. Можно коротко описать ее: «думай, прежде чем действовать».
- Мощные рассуждающие системы становятся доступными даже без огромных кластеров, модель можно запускать на ограниченных ресурсах.

Это не просто «компактаная LLM», это другой способ мышления: модель, которая действительно *думает, прежде чем говорить*.

🟠Статья: https://arxiv.org/abs/2510.04871v1
🟠Github: https://github.com/SamsungSAILMontreal/TinyRecursiveModels

@ai_machinelearning_big_data

#TinyRecursiveModels #TRM #DeepLearning #NeuralNetworks
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
🖥 Что нового в Python 3.14 и почему стоит перейти

Python 3.14 вышел 7 октября 2025 года. Это новый стабильный релиз, который содержит как изменения в самом языке, так и улучшения в реализации, стандартной библиотеке, отладке и взаимодействии с многопоточностью.

Ниже - обзор ключевых нововведений, их смысла, применимости и возможных подводных камней.

🟠Основные нововведения (Release highlights)

- Отложенная (ленивая) оценка аннотаций - теперь аннотации не вычисляются сразу, что уменьшает накладные расходы.
- Поддержка нескольких интерпретаторов в рамках одного процесса через новый модуль.
- Новый синтаксис шаблонных строк (t-strings), который даёт больше контроля над статической и интерполированной частью.
- Более информативные сообщения об ошибках (например, подсказки для опечаток в ключевых словах).
- Поддержка формата сжатия Zstandard в стандартной библиотеке.
- Улучшенные возможности для отладки и профилирования, в том числе подключение к живому процессу без остановки.
- Улучшения в asyncio — команды для визуализации и диагностики задач, стеков ожидания и зависимостей.
- Уменьшение пауз сборщика мусора (gc) через инкрементальный сбор.
- Подсветка синтаксиса и автодополнение модулей в интерактивном режиме (REPL) по умолчанию.

🟠 Подробности и примеры

Ленивые аннотации - deferred evaluation of annotations

Раньше аннотации (для типов, документации, подсказок) могли вызывать вычисления прямо при определении функции или класса. Теперь они хранятся в виде «ленивых» структур и вычисляются по надобности. Это снижает накладные расходы на загрузку кода, особенно если аннотации сложные или содержат много forward-ссылок.

Есть модуль annotationlib, который позволяет исследовать аннотации программно и выбирать формат их получения — строки, объекты или отложенные ссылки.

Когда это особенно помогает:
- большие фреймворки, генерация кода, ORM, библиотеки с множеством аннотаций;
- ускорение импорта при старте приложений;
- уменьшение накладных расходов при работе с типами.

Что проверить при миграции:
- код, использующий __annotations__ напрямую, может требовать адаптации;
- убедитесь, что сторонние библиотеки, работающие с аннотациями, поддерживают новый формат.

Несколько интерпретаторов (subinterpreters)

Теперь в Python можно запускать несколько независимых интерпретаторов внутри одного процесса (модуль `concurrent.interpreters`).

Преимущества:
- изоляция между интерпретаторами (отдельная память, отдельный GIL);
- параллелизм на многоядерных системах;
- меньше накладных расходов, чем при использовании multiprocessing.

Ограничения:
- не все C-расширения поддерживают мультиинтерпретацию;
- коммуникация между интерпретаторами требует явных каналов (очереди, сообщения).

Это даёт реальную возможность распараллеливания CPU-задач без запуска отдельных процессов.

Template string literals (t-strings)

Новое синтаксическое средство — префикс t перед строкой, аналогично f'...'.
Результат — объект Template, который хранит текст и вставки по отдельности.


variety = 'Stilton'
template = t'Try some {variety} cheese!'


- Подробности
- Скачать
- Видеообзор

@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
✔️ Ling-1T - новая модель от inclusionAI с 1 триллионом параметров

Главная идея модель: соединить эффективность и масштаб рассуждений в одной архитектуре.

🟠**Ключевые факты**
- Всего параметров: 1 трлн, из них ≈ 50 млрд активны на токен (MoE-архитектура).
- Обучена на 20 трлн+ токенов, специально отобранных для задач логического мышления и рассуждений.

Контекст: 128 000 токенов.
Внутри Evo-CoT (Evolutionary Chain of Thought) и Linguistics-Unit RL - новые методы обучения для масштабируемых рассуждений.

Ling-1T- позиционируется, как модель с балансом между скоростью и точностью ответов.

Моделька демонстрирует сильные результаты в задачах кода, математики, логики и фронтенд-генерации.

В архитектуре задействованы Mixture-of-Experts (1/32 активация), MTP слои и маршрутизация экспертов.

Ling-1T показывает, что огромные модели можно сделать не только мощными, но и экономичными.

https://huggingface.co/inclusionAI/Ling-1T

@ai_machinelearning_big_data

#Ling1T #AI #ML #OpenSource #Reasoning #TrillionScale #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌍 State of AI Report 2025 - Главное из отчёта

Ежегодный отчёт State of AI Report - это самый влиятельный обзор тенденций в области искусственного интеллекта, публикуемый с 2018 года инвестором Nathan Benaich и фондом Air Street Capital.

В 2025 году отчёт охватывает 6 направлений: исследования, индустрию, политику, безопасность, опрос практиков и прогнозы.

📊 Ключевые выводы


1. OpenAI удерживает лидерство, но Китай быстро сокращает отрыв. DeepSeek, Qwen и Kimi почти сравнялись в задачах рассуждения и программирования.
2. Год рассуждения — модели научились планировать, самоисправляться и мыслить пошагово.
3. ИИ стал научным соавтором — примеры: Co-Scientist от DeepMind и Virtual Lab от Stanford.
4. Chain-of-Action планирование — роботы теперь рассуждают перед действием (Google Gemini Robotics 1.5, AI2 Molmo-Act).
5. Коммерциализация ускорилась:
- 44 % компаний в США платят за ИИ-инструменты (в 2023 г. — 5 %)
- Средний контракт — $530 000
- Стартапы с ИИ растут в 1.5× быстрее обычных
6. Опрос 1200 специалистов:
- 95 % используют ИИ дома или на работе
- 76 % платят за него из собственного кармана
- Большинство отмечают устойчивый рост продуктивности
7. Началась индустриальная эра ИИ — мегадата-центры (Stargate, фонды США, ОАЭ, Китая). Энергия становится новым лимитирующим фактором.
8. Политика ИИ ужесточилась:
- США делают ставку на *America-first AI*
- Европейский AI Act буксует
- Китай развивает открытые модели и собственные чипы
9. Безопасность переходит к прагматизму:
- Модели имитируют выравнивание (alignment), усиливая дискуссию о прозрачности
- Бюджеты safety-организаций несопоставимы с расходами лидеров
10. Риски экзистенции сменились фокусом на надёжность, киберустойчивость и долгосрочное управление автономными системами.

🔮 Прогнозы авторов

- Рост затрат на обучение сверхмоделей → дефицит энергии и GPU
- Конкуренция между OpenAI, DeepSeek, Anthropic и Google усилится
- Frontier-модели будут тренироваться в многоэтапных средах с постоянной самопроверкой
- Всё больше экспериментов с «живыми агентами» в физическом мире
- Усиление регулирования и новые требования к прозрачности reasoning-цепочек

📘 Полный отчёт доступен здесь: https://www.stateof.ai/
AI21 представила Jamba 3B - компактную модель, которая обошла Qwen 3 4B и IBM Granite 4 Micro по качеству рассуждений.

Более высокая эффективность, в сравнении с AI21 - 2–5× улучшение в производительности по сравнению с конкурентами за счёт меньшего KV-кэша и гибридной архитектуры.

Секрет в архитектуре:
🔹 сочетание Transformer attention и Mamba state-space слоёв.
🔹 Mamba-часть эффективно обрабатывает длинные последовательности без тяжёлых attention-кэшей,
🔹 а Transformer-слои сохраняют способность к сложным рассуждениям.

Результат, модель кушает меньше памяти, выдает высокую скорость и плавно работает даже на ноутбуках, GPU и мобильных устройствах.

📏 Контекст: до 256K токенов.
Скорость: около 40 токенов/сек даже на длинных контекстах, тогда как другие модели резко замедляются.

На графике “интеллект против скорости” Jamba 3B опережает Gemma 3 4B, Llama 3.2 3B и Granite 4.0 Micro, демонстрируя высший интеллект и более быструю генерацию.

🟢Подробнее: huggingface.co/ai21labs/AI21-Jamba-Reasoning-3B

@ai_machinelearning_big_data


#AI #LLM #Jamba3B #AI21 #Mamba #Transformer #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️GPT-5 Pro стал лидером ARC-AGI Semi-Private Benchmark

Модель GPT-5 Pro заняла первое место среди всех проверенных frontier-LLM на закрытом бенчмарке ARC-AGI Semi-Private. Этот тест оценивает способность моделей к абстрактному рассуждению и решению сложных задач.

Интересно, что GPT-5 Pro всё ещё уступает результатам старого o3-preview, который OpenAI тестировал ещё в декабре прошлого года. Однако тот экспериментальный вариант был почти в 50 раз дороже в вычислительных затратах и никогда не был публично выпущен.

Версия o3-preview (high) достигала впечатляющих 87,5 % точности на ARC-AGI-1, но потребляла 172 раза ресурсов, чем версия (low). Из-за этого она не попала в официальный лидерборд - по правилам, тесты с compute-стоимостью выше $10 000 не публикуются.

GPT-5 Pro является самой мощной из доступных и подтверждённых моделей на Semi-Private ARC-AGI.

✔️Журнал TIME опубликовал ежегодный список The Best Inventions of 2025 - подборку из 300 инновационных продуктов и идей, которые, по мнению редакции, способны изменить будущее.

В список вошли достижения в самых разных областях: ИИ робототехника, медицина, экология, образование, энергетика и дизайн. Среди ключевых технологий - Claude Sonnet 4 от Anthropic, новая версия ИИ-модели, которая продемонстрировала более точные и безопасные ответы; NVIDIA DGX Spark - «настольный» AI-суперкомпьютер, делающий высокопроизводительные вычисления доступнее; UiPath Agentic Automation, объединяющая работу AI-агентов; и XReal One - компактные AR-очки, приближающие смешанную реальность к массовому использованию.

TIME отметили разработки в области биотехнологий, биопечати тканей, устойчивых источников энергии и переработки отходов. Эти изобретения демонстрируют, как технологии становятся не просто инструментами, а основой будущего образа жизни.
time

✔️ Google Cloud показал 1001 реальный кейс использования генеративного ИИ в бизнесе

Google Cloud опубликовал обновлённый список из 321 корпоративного примера применения генеративного ИИ, что в 10 раз больше, чем годом ранее. Это показывает, что AI уже массово используется в продакшене по всему миру.

В банках и ритейле Commerzbank ИИ обрабатывает 2 млн клиентских чатов с 70% успешных решений, Best Buy ускоряет анализ отзывов, а Mercedes внедрил голосового ассистента на базе Gemini.

Внутри компаний ИИ автоматизирует рутину: Toyota экономит более 10 000 часов в год, Manipal Hospitals сократил передачу смен с 90 до 20 минут, Equifax - 97% сотрудников хотят сохранить AI-лицензии.

Wayfair ускорил настройку окружений на 55%, CME сэкономил 10,5 часов в месяц, а BMW и UPS используют цифровых двойников для моделирования логистики и производств.
Подробнее

✔️ Taiwan отказывается от идеи 50 на 50 с США по производству чипов

Министр экономики Тайваня заявил, что TSMC сохранит свои самые передовые технологии и основное производство на острове, несмотря на предложение США сделать «50 на 50».

Компания вкладывает $165 млрд в шесть фабрик в США, но строит десять на Тайване и планирует новые - там останутся ведущие технологические узлы.

По словам министра, зарубежные заводы допустимы только при реальных заказах, прибыли и отсутствии рисков для безопасности.

Идея «50-50» возникла из-за стремления США увеличить долю внутренних чипов после кризиса поставок 2020–2021 годов.

Аналитики считают, что перенос производства в США слишком дорог и займёт годы, поэтому Вашингтон делает ставку на «friendshoring» - распределённые цепочки поставок между союзниками.
times

✔️ UserLM-8B от Microsoft

Microsoft представила новую модель UserLM-8B, созданную для симуляции поведения пользователя в диалоге. В отличие от обычных LLM, эта модель генерирует реплики от лица человека, включая уточнения, эмоции и ошибки, как в реальном общении.

Модель построена на базе Llama3.1 8B и дообучена на корпусе WildChat-1M, где она анализировала сотни тысяч реальных и синтетических диалогов. Такой подход позволяет создавать реалистичные сценарии общения для тестирования чат-ботов, обучения ассистентов и генерации синтетических данных.
HF

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
💡 RND1 - новая экспериментальная модель с 30 миллиардами параметров, построенная по архитектуре Sparse Mixture-of-Experts, где активно 3 миллиарда параметров.

Она была преобразована из предварительно обученной авторегрессионной модели (Qwen3-30B-A3B) и затем дополнительно обучена на 500 миллиардах токенов, чтобы полностью поменять поведениие диффузионной модели.

Обычные модели (AR, автогрессионные) пишут текст слово за словом, а RND1 создаёт всё предложение сразу и потом пошагово уточняет его, как будто “проявляет” текст из шума.

Это - Diffusion Language Model (DLM), аналог диффузионных моделей, которые рисуют картинки, только здесь она “рисует” слова.

🔄 Как её сделали

Команда Radical Numerics придумала, как превратить готовую модель в диффузионную без обучения с нуля.

Они просто поменяли тип внимания и дообучили модель на новой задаче.

Этот метод называется AR-to-Diffusion Conversion (A2D) - то есть конверсия из автогрессионной модели в диффузионную.

Как это происходит:
1. Берут сильную GPT-подобную модель.
2. Меняют механизм внимания — теперь модель видит весь контекст сразу.
3. Продолжают обучение по диффузионной задаче.
4. Используют разные скорости обучения для разных частей сети, чтобы модель не забыла старое, но научилась новому способу мышления.

⚙️ Что под капотом

Mixture-of-Experts (MoE) - у модели 30 млрд параметров, но реально работают только 3 млрд за раз. Это делает её мощной, но экономной.

Непрерывное дообучение - старые знания не стираются, а “встраиваются” в новый режим.

Огромные батчи - модель учится на больших партиях данных, чтобы стабилизировать обучение, ведь она не обрабатывает все токены сразу.

✔️ Чем RND1 интересна:

- Параллельная генерация - текст создаётся быстрее, без пошаговой задержки.
- Меньше затрат - активных параметров всего 3 млрд, при этом качество как у больших GPT.
- Новая архитектура - открывает дорогу гибридным моделям, сочетающим плюсы AR и DLM.
- Полностью открытый код и веса - можно исследовать, изменять, запускать самому.
- Первый серьёзный шаг к самосовершенствующемуся ИИ- модель может не только обучаться, но и помогать в проектировании следующей версии.

Это реально интересный метод, RND1 показывает, что ИИ можно не просто обучать, а перестраивать - менять его саму логику мышления без начала “с нуля”.

Похоже, это может стать фундаментом для систем Recursive Self-Improvement (RSI), когда ИИ способен создавать и улучшать самого себя.

🟠Blog: https://radicalnumerics.ai/blog/rnd1

🟠Code: https://github.com/RadicalNumerics/RND1

🟠Report: https://radicalnumerics.ai/assets/rnd1_report.pdf

🟠Веса: https://huggingface.co/radicalnumerics/RND1-Base-0910

@ai_machinelearning_big_data


#RND1 #RadicalNumerics #AI #DLM #DiffusionModel #MoE #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM