Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Ух ты: ученая из Университета Йювяскюля в Финляндии решила задачу, на которую математики не могли найти ответ 40 лет

Это настоящий прорыв в топологии. Задача касается классификации квазирегулярно эллиптических 4-многообразий, то есть понимания того, какие четырехмерные пространства могут быть образованы путем деформации стандартной четырехмерной евклидовой геометрии.

Проблему сформулировал еще в 1981 Михаил Громов. Больше 40 лет в ней не было почти никаких подвижек, пока на днях свою докторскую дисертацию не опубликовала Сусанна Хейккиля.

Девушка, кстати, любит вязание и говорит, что это самый простой способ понять и представить топологию на практике. На презентации этой работы она также объясняла свою идею с помощью вязаной сферы 🙂

Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
4435🔥160👍73🏆12🤓11😁7💅53❤‍🔥2💘2🍌1
⚡️ Вышел ARC-AGI-2

Это вторая версия того самого бенчмарка от ребят из Google, на котором гоняют все ризонинг модели и который считается основным тестом на AGI способности (немного больше про бенч в этом и этом постах).

Отличается он тем, что это не просто ответы на вопросы, а решение головоломок, которое требует от системы умения рассуждать, рекомпозировать и обобщаться на новые задачи.

В предыдущей версии задачи выглядели, как на картинке 2, и в целом бенчмарк был побежден моделькой o3, которая выбила > 85%.

Так что авторы пошли дальше и сегодня объявили, что выпускают вторую, еще более сложную версию бенчмарка специально для теста моделей нового поколения. Задачи в нем будут выглядеть примерно как на картинке 3, 4 и 5.

А картинка 1 – это скоры сегодняшних LLM на ARC-AGI-2. Абсолютно все модели выбивают < 5%, даже o3 и o1-pro. Не ризонинг вообще ни с чем не справляются, там рейтинг около 0.

При этом надо сказать, что люди все еще решают эти задачи легко (авторы тестировали на выборке из 400 человек). То есть это все еще не про какие-то сверхспособности, а про простое «человеческое» умение применять символьную интерпретацию, контекст и композиционное рассуждение.

Кайф youtu.be/z6cTTkVqAyg
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥107👍2817🌭1
Google, кажется, готовится к большому релизу

На Lmarena появились результаты двух новых моделей компании. Первая, под кодовым названием Nebula, обходит последнюю o1 и Sonnet 3.7. Вторая – phantom – где-то на уровне Grok-3 и GPT-4.5 (но дисперсия какая-то конская). Вероятно, это новые Gemini 2.0 Pro Thinking и Gemini 2.0 Flash Thinking.

Еще в лидерборде фигурирует centaur – видимо какая-то небольшая, возможно не reasoning модель уровня o3-mini.

Выглядит многообещающе, так что ждем
🔥84👍239🐳2🎉1
Тест на IQ 2.0: оказывается, плюсом ко всему создатели нового ARC-AGI-2 сделали песочницу, в которой можно порешать задачки бенчмарка самому (и убедиться, что ты все еще умнее LLM)

По данным создателей, в среднем человек решает 60% без какой-либо предварительной подготовки.

И задачки, кстати, действительно интересные. Всего их 120, хватит на целую неделю: arcprize.org/play?task=1ae2feb7

Делитесь самыми сложными в комментариях
65😎21👍156🤪2
Data Secrets
Там мощно обновился DeepSeek-v3 Вообще, это должно было быть рядовое обновление, как время от времени обновляют чекпоинты 4o или других моделей. Но пользователи говорят, что в данном случае разница в способностях с предыдущей версией разительная, особенно…
А вот и официальный анонс нового чекпоинта DeepSeek-V3 с бенчмарками

Зацените: прирост на LiveCodeBench + 10 процентных пунктов, а на AIME 2024 аж +20. При этом цена не изменилась.

Лучшая не-ризонинг модель для математики и программирования, получается?
🔥118👍2810👌2😐1💘1
Сегодня в 21:00 – новый стрим OpenAI

Кажется, собираются показывать встроенную в чат генерацию и редактирование изображений

Вторая картинка – реакция инженеров из Google :)
😁150👍17🔥141
Итак, нативная обработка изображений от OpenAI вышла, работает супер и даже доступна бесплатным пользователям

Но... Google затмил сегодня вечером всех, выпустив Gemini 2.5 Pro. Это та самая модель, которая на арене висела на первом месте под названием Nebula.

Контекст – миллион (!) токенов, на бенчмарках почти везде обходит o3-mini, GPT-4.5, R1, Sonnet 3.7, Grok-3 и остальных. Естественно, мультимодальная + есть ризонинг.

Попробовать уже можно здесь, а вот блогпост
👍81🔥3811🦄2
Пока новый фотошоп от OpenAI продолжают раскатывать на юзеров, примеры его работы можно посмотреть здесь: openai.com/index/introducing-4o-image-generation/

Как видите, в примерах из блогпоста у модели все более чем нормально с текстом, его написанием / заменой / обработкой на картинках. Также поддерживает изменение ratio, и инструкциям следует просто отлично. Может даже сгенерировать картинку по коду. Ну и реализм в генерациях фото на высоте.

В общем, наслаждаемся черипиками и надеемся, что на тестах пользователей все будет также сказочно (фри юзерам тоже будет доступно)
👍78🔥4022