Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
По словам Павла Дурова, его платформа и компания Илона Маска xAI заключили годовое соглашение. xAI заплатит Telegram $300 млн. за интеграцию чат-бота Grok прямо в мессенджер. Помимо этого, Telegram также будет получать 50% от выручки с подписок на Grok, которые будут продаваться внутри платформы.
Илон Маск позже написал в X: "Контракт еще не подписан". Однако он не стал уточнять детали, оставив вопрос открытым. Пока что официальная позиция Telegram – сделка есть, и она принесет пользователям лучший ИИ на рынке уже этим летом.
Новость пришла на фоне важных для Telegram событий: сервис преодолел отметку в 1 млрд. активных пользователей в месяц в этом году и разместил облигации на $1.5 млрд.
Pavel Durov
Anthropic сняла ограничения с функции веб-поиска в Claude: теперь даже бесплатные пользователи смогут получать ответы на основе актуальных данных из интернета. Ранее, доступ к этой опции, которая анализирует информацию в реальном времени, был эксклюзивом для платных подписчиков. Это изменение позволит чаще обновлять знания модели и точнее решать задачи.
Параллельно стартовало тестирование голосового режима в мобильном приложении. Пользователи могут общаться с Claude в формате диалога, выбирая из 5 вариантов голоса и получать краткие текстовые сводки прошлых бесед. По умолчанию для диалогов задействована модель Sonnet 4.
support.anthropic
OpenAI активно прорабатывает функцию "Вход через ChatGPT", позволяющую пользователям авторизовываться в сторонних приложениях через свои аккаунты ChatGPT. Компания уже собирает заявки от разработчиков, желающих интегрировать эту опцию в свои сервисы. Пилотный запуск для тестирования уже доступен в Codex CLI — инструменте для работы с ИИ в терминале. Разработчики могут подключить ChatGPT Free, Plus или Pro к своим API-аккаунтам, получая бонусные кредиты ($5 для Plus и $50 для Pro).
Это стратегический ход для расширения экосистемы. С 600 млн активных пользователей ежемесячно, "Вход через ChatGPT" может стать ключевым элементом, помогая OpenAI конкурировать с Google и Apple в сфере единого входа и онлайн-сервисов. Точные сроки публичного релиза пока неизвестны.
techcrunch
К своему юбилею Google Photos получает мощное обновление, сфокусированное на ИИ-редактировании. Сервис, где ежемесячно редактируют 210 млн. снимков, теперь предлагает умные подсказки по улучшению кадра одним нажатием. Можно тыкнуть пальцем или обвести область — нейросеть предложит подходящий инструмент. Главные новинки — "Reimagine" и "Auto Frame", ранее доступные только на Pixel 9.
"Reimagine" меняет выбранный объект или добавляет новый по текстовому запросу через генеративный ИИ. "Auto Frame" автоматически кадрирует фото, а нейросеть дорисовывает фон. Плюс Google добавит QR-коды для альбомов, чтобы удобно собирать фото с мероприятий. Правда, обновленный редактор появится на Android в июне, а владельцам iPhone ждать до конца года.
arstechnica
С 28 мая стартовал прием заявок на ежегодную премию Yandex ML Prize 2025. Эта награда — реальное признание и поддержка для тех, кто растит новые кадры ML в России. Премия существует с 2019 года как память об Илье Сегаловиче, и за шесть лет её получили уже 60 выдающихся педагогов и руководителей.
Податься могут вузовские преподаватели, ученые из исследовательских центров и руководители образовательных программ в области Сomputer Science. Победителей ждут денежные призы и полезные гранты на Yandex Cloud, которые точно пригодится в работе: делать новые курсы, организовывать хакатоны и проводить исследования вместе со студентами.
Заявки принимают до 22 июня. Само награждение, как обычно, пройдет осенью.
habr.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👎1🥰1
🎯 AI в математическом решении проблем — современные достижения и тренды
Недавние прорывы демонстрируют, как искусственный интеллект постепенно осваивает задачи, которые ранее считались пределом человеческого разума.
🎓 Прорыв от DeepMind
• AlphaProof + AlphaGeometry 2 научились решать задачи уровня Международной математической олимпиады
• AI получил серебро: 4 из 6 задач IMO решены, включая сложную геометрию
• Одна из задач была решена за 19 секунд — уровень мирового финалиста
🧠 Прогресс в больших языковых моделях
• GPT-4, Qwen2‑Math, rStar‑Math достигают 80–90% точности на математических задачах (MATH, AIME)
• Используют рассуждение по цепочке (Chain-of-Thought) и поисковые деревья
• Это повышает точность и уменьшает количество логических ошибок
📐 Формальная и творческая математика
• AI учится использовать proof-ассистенты (формальные доказательства)
• Метрика CreativeMath оценивает «творчество» AI — насколько оригинальны решения
• Это делает модели не просто калькуляторами, а потенциальными открывателями новых идей
📊 Что это даёт
🧭 Куда движемся дальше
• Новый бенчмарк FrontierMath проверяет научные способности моделей
• Гибридные архитектуры: нейросети + символика + формальные системы
• Применения в науке, финансах, образовании — становятся повседневными
💬 А вы как думаете?
• Может ли AI когда-нибудь доказать теорему, которую не смог человек?
• Какие приложения AI в математике вам кажутся самыми перспективными?
Статья
#AI #Mathematics #DeepMind #LLM #FormalProof #Innovation
Недавние прорывы демонстрируют, как искусственный интеллект постепенно осваивает задачи, которые ранее считались пределом человеческого разума.
🎓 Прорыв от DeepMind
• AlphaProof + AlphaGeometry 2 научились решать задачи уровня Международной математической олимпиады
• AI получил серебро: 4 из 6 задач IMO решены, включая сложную геометрию
• Одна из задач была решена за 19 секунд — уровень мирового финалиста
🧠 Прогресс в больших языковых моделях
• GPT-4, Qwen2‑Math, rStar‑Math достигают 80–90% точности на математических задачах (MATH, AIME)
• Используют рассуждение по цепочке (Chain-of-Thought) и поисковые деревья
• Это повышает точность и уменьшает количество логических ошибок
📐 Формальная и творческая математика
• AI учится использовать proof-ассистенты (формальные доказательства)
• Метрика CreativeMath оценивает «творчество» AI — насколько оригинальны решения
• Это делает модели не просто калькуляторами, а потенциальными открывателями новых идей
📊 Что это даёт
Сфера | Возможности AI
-----|----------------------
Образование | Интерактивные помощники, обучение математике
Исследования | Генерация гипотез, автоматическое доказательство
Бизнес | Оптимизация, логистика, криптография, финтех🧭 Куда движемся дальше
• Новый бенчмарк FrontierMath проверяет научные способности моделей
• Гибридные архитектуры: нейросети + символика + формальные системы
• Применения в науке, финансах, образовании — становятся повседневными
💬 А вы как думаете?
• Может ли AI когда-нибудь доказать теорему, которую не смог человек?
• Какие приложения AI в математике вам кажутся самыми перспективными?
Статья
#AI #Mathematics #DeepMind #LLM #FormalProof #Innovation
❤9👍4🤔2👎1
🧠 Одно из величайших уравнений в истории — на грани разгадки
Испанский математик Хавьер Гомес Серрано совместно с Google DeepMind приблизился к решению уравнений Навье — Стокса — одного из семи Millennium Prize Problems, за которое обещан $1 000 000.
📌 Эти уравнения описывают поведение жидкостей и газов:
от движения воздуха и волн — до потока крови в капиллярах.
⏳ Учёные не могут доказать, существует ли гладкое решение в 3D — уже 200 лет.
🤖 Что изменилось?
• Серрано и DeepMind используют современные нейросети для численного анализа
• Команда утверждает: модель на грани открытия
• ИИ помогает выявить структуры и закономерности, которые сложно уловить вручную
🌊 Что даст решение:
• Улучшенные модели погоды и климата
• Прогнозирование цунами и турбулентности
• Прорыв в медицине: моделирование кровотока и работы сердца
• Новый фундамент в прикладной математике и физике
📌 Вывод:
Если им удастся — это будет не просто научная победа.
Это будет момент, когда ИИ помог человечеству решить задачу, с которой оно не справлялось столетиями.
#ai #математика #deepmind #наука #навиестокс
👉 Подробнее
@data_math
Испанский математик Хавьер Гомес Серрано совместно с Google DeepMind приблизился к решению уравнений Навье — Стокса — одного из семи Millennium Prize Problems, за которое обещан $1 000 000.
📌 Эти уравнения описывают поведение жидкостей и газов:
от движения воздуха и волн — до потока крови в капиллярах.
⏳ Учёные не могут доказать, существует ли гладкое решение в 3D — уже 200 лет.
🤖 Что изменилось?
• Серрано и DeepMind используют современные нейросети для численного анализа
• Команда утверждает: модель на грани открытия
• ИИ помогает выявить структуры и закономерности, которые сложно уловить вручную
🌊 Что даст решение:
• Улучшенные модели погоды и климата
• Прогнозирование цунами и турбулентности
• Прорыв в медицине: моделирование кровотока и работы сердца
• Новый фундамент в прикладной математике и физике
📌 Вывод:
Если им удастся — это будет не просто научная победа.
Это будет момент, когда ИИ помог человечеству решить задачу, с которой оно не справлялось столетиями.
#ai #математика #deepmind #наука #навиестокс
👉 Подробнее
@data_math
🔥51❤13👍6😨5😁3💩2🤯1
Forwarded from Machinelearning
Alibaba Group разработали HumanOmniV2, модель на базе
Qwen2.5-Omni-7B-thinker, которая получила навык осмысления визуального контекста за счет изменения самого процесса мышления модели. Ее научили следовать строгому формату: сначала описать контекст, потом рассуждать и только затем давать ответ.Теперь, прежде чем отвечать на вопрос, модель генерирует подробное описание сцены в теге
<context>. На этом этапе она фиксирует, кто что делает, какой фон, какие звуки слышны. Только после этого в теге <think> она строит логическую цепочку рассуждений, связывая вопрос с собранным контекстом. И лишь в конце выдает результат в теге <answer> .Чтобы этот подход работал, его усилили системой вознаграждений на основе RL. За точность и правильный формат модель получает стандартные награды, но были введены и две новых:
Для оценки HumanOmniV2 создали бенчмарк IntentBench (633 видео, 2689 вопросов) на основе Social-IQ 2.0, EMER и MDPE.
Его фишка в том, что вопросы требуют одновременного анализа: видеоряда (жесты, микровыражения), диалогов (тон, смысл реплик) и социального контекста (ирония, обман, скрытые намерения).
Тестовая модель обошла открытые аналоги на 3 бенчмарках:
@ai_machinelearning_big_data
#AI #ML #MMLM #HumanOmniV2 #Alibaba
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9❤6
This media is not supported in your browser
VIEW IN TELEGRAM
🏅 OpenAI взяли золото на Международной математической олимпиаде 2025 — самое громкое AI-событие года!
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
И это не была модель для математики. Просто внутренняя разработка общего назначения… случайно показала уровень золотой медали на самой престижной олимпиаде в мире.
📉 Ещё пару месяцев назад их модели были внизу рейтингов. Сейчас — вершина.
📈 Эксперименты с “test-time compute” (как в Strawberry/Q*) дали в итоге универсального reasoner'а, который думает лучше большинства людей.
💥 Шансы на победу вчера — 20%. Сегодня — уже 86%. Никто не ожидал. Даже внутри OpenAI были в шоке.
Почему это важно:
• Математика — фундамент всей науки: физика, квант, инженерия
• AI, который умеет думать в числах — это новый уровень
• Самоулучшающийся ИИ → доступный PhD-тренер по математике у каждого в кармане
Добро пожаловать в эру AI, который *действительно* понимает.
#OpenAI #MathOlympiad #AI #GPT #PostLabor
💩16❤15🔥2🥰1🤡1
Forwarded from Machinelearning
OpenReasoning-Nemotron - набор LLM на архитектуре Qwen 2.5 и дистиллированных из DeepSeek-R1-0528 ( 671 млрд. параметров):
Семейство было обучено на 5 млн. примеров рассуждений в математике, естественных науках и программировании.
Модели показали достойные результаты pass@1 на бенчах GPQA, MMLU-PRO, AIME, HMMT и LiveCodeBench - без использования RL.
Старшая модель, 32B, выбила 96,7% по HMMT с декодированием GenSelect.
@ai_machinelearning_big_data
#AI #ML #LLM #Reasoning #Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍3🔥2🥰1😁1
Forwarded from Machinelearning
Hierarchical Reasoning Model, (HRM) - рекуррентная архитектура, которая черпает вдохновение в принципах работы человеческого мозга. В ее основе лежат 2 взаимозависимых рекуррентных модуля:
Эта структура дает модели достигать вычислительной глубины, необходимой для сложных рассуждений, при этом сохраняя стабильность и эффективность во время обучения, чего так не хватает стандартным трансформерам.
Процесс кардинально отличается от того, что происходит в обычных рекуррентных сетях, которые склонны к преждевременной сходимости, когда их скрытое состояние быстро стабилизируется, и дальнейшие вычисления практически прекращаются. В HRM все иначе:
Таким образом, вычислительный путь низкоуровневого модуля перезапускается, направляя его к новой точке локального равновесия. Механизм не дает системе застрять и позволяет ей последовательно выполнять множество различных, но взаимосвязанных этапов решения, выстраивая длинные логические цепочки.
Тестовая модель HRM с 27 млн. параметров, обученная всего на 1000 примерах без какого-либо претрейна или CoT-пар, показала неожиданно высокие результаты .
На задачах, требующих глубокого поиска и перебора вариантов ( Sudoku-Extreme ) и поиск оптимального пути ( Maze 30x30 ), HRM достигла почти идеальной точности, а вот CoT-методы полностью провалились с результатом 0%.
На бенчмарке ARC-AGI-1, HRM показывает точность в 40.3%. Для сравнения, o3-mini-high показала 34.5%, а Claude 3.7 с контекстом 8K - 21.2%.
@ai_machinelearning_big_data
#AI #ML #HRM #SapientInc
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥6🥰2👍1🤔1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
DeepMind выпустили Perch 2.0 — компактную supervised-модель для биоакустики.
Без миллиардов параметров, без сложного self-supervised обучения — просто аккуратная модель, которая побила все бенчмарки и уже работает в полевых исследованиях.
🌱 Почему это важно
Звуки природы — это источник данных о биоразнообразии.
По аудиозаписям можно понять:
- какие животные живут в лесу,
- сколько их,
- размножаются ли они,
- не вытесняются ли они человеком.
Но расшифровка аудио — адский труд: в одном часе записи из тропиков десятки накладывающихся голосов.
Perch 2.0 — универсальный эмбеддер для звуков животных.
Берёт 5 секунд аудио → выдаёт вектор, с которым можно:
- находить похожие записи,
- кластеризовать звуки,
- обучать простой классификатор для новых видов (few-shot).
⚡ Работает без GPU и без дообучения.
🛠 Архитектура
- Основa: EfficientNet-B3 (12M параметров).
- Три головы:
1. Классификация ~15k видов.
2. Прототипная — создаёт семантические логиты для distillation.
3. Source prediction — угадывает источник записи.
- Обучение в два шага:
1. Прототипная голова учится сама.
2. Её логиты становятся soft-label’ами для основной (**self-distillation**).
📊 Результаты
- SOTA на BirdSet и BEANS (ROC-AUC, mAP).
- Отличная переносимость на морских данных (киты, дельфины), которых почти не было в тренировке.
- Всё это — без fine-tuning, только фиксированные эмбеддинги.
Главный вывод
Perch 2.0 показывает, что:
могут быть важнее, чем «бесконечные параметры» и сложные LLM.
🌍 Что это меняет
- Биологам — быстрый анализ джунглей Бразилии или рифов без написания своих моделей.
- ML-инженерам — наглядный пример, как обучать компактные сети без потери качества.
- Исследователям — напоминание: не всегда нужен GPT-4, чтобы сделать полезный инструмент.
@ai_machinelearning_big_data
#DeepMind #AI #Bioacoustics #MachineLearning #Perch #Ecology
Please open Telegram to view this post
VIEW IN TELEGRAM
❤12👍7
📚 Mathos (ранее MathGPT Pro) — ИИ-репетитор по математике
Mathos — это умная платформа на базе искусственного интеллекта, которая помогает решать задачи по математике: от алгебры до высшей математики. Подходит и школьникам, и студентам, и преподавателям.
✨ Возможности:
- На 20% точнее GPT-4o при решении задач по математике и STEM
- Поддерживает ввод с фото, PDF, голосом, текстом или рисунком
- Пошаговые объяснения + интерактивные графики и аннотации
- Доверие более 1 млн студентов в 200+ странах
- Стартап из акселератора Y Combinator (Winter 2024), офис в Калифорнии
Идеально для самоподготовки, помощи с домашкой, подготовки к экзаменам и для учебных занятий.
http://mathgptpro.com/
#AI #EdTech #Math #Образование
Mathos — это умная платформа на базе искусственного интеллекта, которая помогает решать задачи по математике: от алгебры до высшей математики. Подходит и школьникам, и студентам, и преподавателям.
✨ Возможности:
- На 20% точнее GPT-4o при решении задач по математике и STEM
- Поддерживает ввод с фото, PDF, голосом, текстом или рисунком
- Пошаговые объяснения + интерактивные графики и аннотации
- Доверие более 1 млн студентов в 200+ странах
- Стартап из акселератора Y Combinator (Winter 2024), офис в Калифорнии
Идеально для самоподготовки, помощи с домашкой, подготовки к экзаменам и для учебных занятий.
http://mathgptpro.com/
#AI #EdTech #Math #Образование
❤7👍6👎1🔥1🙏1
Forwarded from Machinelearning
Google Research придумали новый способ сделать большие языковые модели быстрее и дешевле.
Что это такое:
Сначала отвечает маленькая модель. Если задача слишком сложная - подключается большая. Так экономятся ресурсы, но качество может прыгать.
Маленькая модель угадывает сразу несколько слов вперёд. Большая быстро проверяет данные и подтверждает. Скорость выше, но большая модель всё равно тратит много ресурсов.
Это комбинация: маленькая модель иногда отвечает полностью сама, а иногда используется как ускоритель для большой. В итоге получаем меньше затрат, больше скорости и то же качество.
- быстрее, чем обычная спекулятивная декодировка
- дешевле и качественнее, чем каскады
- удобнее настраивать баланс «скорость ↔ качество»
При том же уровне качества, что и у спекулятивной декодировки, новый метод работает быстрее (генерирует больше токенов за один вызов большой модели).
А в задачах математических рассуждений получен явный апгрейд по скорости при сохранении или даже улучшении качества.
LLM всё чаще используются в поиске, чатах, ассистентах. Чтобы они реально были полезными, их нужно ускорять и удешевлять. *Speculative cascades* помогают это сделать без потери качества.
🔗 Подробнее: https://research.google/blog/speculative-cascades-a-hybrid-approach-for-smarter-faster-llm-inference/
@ai_machinelearning_big_data
#AI #LLM #Inference #SpeculativeDecoding #Cascades #GoogleResearch
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍3💩2💔1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
Теперь он создаёт не только исследовательские отчёты, но и готовые веб-страницы и подкасты по вашим ресерчам.
Работаем связка Qwen3-Coder, Qwen-Image и Qwen3-TTS.
@ai_machinelearning_big_data
#Qwen #AI #DeepResearch #Qwen3 #AItools
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6
Forwarded from Machinelearning
🔥 GOOGLE AI опубликовали пост о настоящем прорыве в области QUANTUM AI
Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».
Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.
Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.
🟠 Что это значит простыми словами
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.
Проще говоря:
1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.
2) Затем применяют обратные операции, как будто “перематывают” процесс назад.
3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.
4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.
Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.
Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.
«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.
*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.
🟢 Статья: https://www.nature.com/articles/s41586-025-09526-6
@ai_machinelearning_big_data
#QuantumComputing #Google #AI #Nature #Physics
Сегодня в журнале Nature команда Google впервые показали проверяемое квантовое преимущество с помощью метода, называемого *out-of-time-order correlator (OTOC), или «квантовые эхо».
Эксперимент проведён на квантовом чипе Willow, и он показывает, что квантовые устройства уже способны решать задачи, которые невозможно эффективно симулировать на классических компьютерах.
Квантовый процессор Google выполнил алгоритм под названием Quantum Echoes - в 13 000 раз быстрее, чем лучший классический алгоритм на одном из самых мощных суперкомпьютеров в мире.
Учёные научились буквально «отматывать время» в квантовой системе и смотреть, когда она переходит от упорядоченного поведения к хаосу. Этот переход - ключ к пониманию, где начинается настоящее квантовое преимущество.
Проще говоря:
1) Учёные запускают квантовую систему вперёд во времени, позволяя ей запутаться и “рассеять” информацию.
2) Затем применяют обратные операции, как будто “перематывают” процесс назад.
3) Если всё сделано идеально, система должна вернуться в исходное состояние,но из-за квантового хаоса это происходит лишь частично.
4) Разница между “до” и “после” показывает, насколько глубоко информация ушла в хаос.
Работа показывает, что можно извлекать информацию из хаотичных квантовых состояний, ранее считавшихся полностью случайными.
Такой эффект невозможно воспроизвести на обычных суперкомпьютерах. Это шаг к практическим квантовым вычислениям, которые смогут моделировать материалы, молекулы и сложные физические процессы с точностью, недостижимой ранее.
«Quantum Echoes может стать основой будущих квантовых разработок для реального применения.
*Out-of-time-order correlator (сокращённо OTOC) - это специальная метрика, с помощью которой физики измеряют, как быстро информация "распространяется" и смешивается внутри квантовой системы.
@ai_machinelearning_big_data
#QuantumComputing #Google #AI #Nature #Physics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤5🔥5🤯1
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
Sakana AI представили Sudoku-Bench - набор классических и продвинутых судоку-задач, который проверяет не память модели, а её способность рассуждать, понимать новые правила и держать всю логику пазла в голове.
Они протестировали современные модели, включая GPT-5 и методы тонкой настройки вроде GRPO и thought-cloning.
Главное:
GPT-5 стала первой моделью, которая уверенно решает часть сложных задач и показала около 33 % успешных решений на наборе challenge_100. Ранее ни одна LLM не справлялась даже с обычным 9×9.
Но треть решённых - это всё ещё мало: большая часть задач остаётся нерешённой, особенно варианты с необычными правилами.
Ключевая трудность в том, что такие головоломки требуют не просто следовать правилам, а уметь понять незнакомые ограничения, найти стратегию «входа», просчитывать ходы вперёд и сохранять глобальную согласованность. Модели часто делают правильные локальные шаги, но теряют общую структуру.
GRPO и thought-cloning дают улучшения, но пока не позволяют моделям преодолеть сложные варианты. Даже с обучением на человеческих примерах ИИ быстро «запутывается» в длинных логических цепочках.
Sudoku-Bench - это тест на реальное рассуждение, а не на подбор паттернов. Он проверяет пространственное мышление, логику, способность адаптироваться и работать с новыми правилами. Прогресс на таких задачах - показатель движения к более структурному и осмысленному ИИ.
Авторы предлагают Sudoku-Bench как стандарт, по которому можно судить, насколько модели действительно умеют думать. Для будущих систем важны не просто большие параметры, а развитая логика, планирование и умение работать с новыми структурами задач.
@ai_machinelearning_big_data
#ai #ml #sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7😁4