Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Gemini 2.5 Pro набрала 118 баллов IQ

Это достаточно большой отрыв от предыдущих результатов: для сравнения, o1-pro набирает 110, Claude 3.7 – 107, o3-mini – 104, GPT-4.5 и o1 – 97. Средний результат человека – 100.

Вопросов из датасета нет в интернете (по крайней мере, так говорит создатель). Все тесты проводит единственный человек – журналист Максим Лотт. Кстати, он также занимается тем, что трекает политические предубеждения моделек. Выходит довольно интересно (картинка 3).

trackingai.org
👍77🔥348🤨6😁4🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Многообещающе: к 2028 Авито планируют сделать из своей платформы монолитного интеллектуального ассистента и заработать на этом 21 миллиард рублей

За три года компания вложит в ИИ-технологии 12 миллиардов и планирует получить с этого более 21 миллиарда выручки. При этом часть денег также пойдет на образовательные программы в коллабе с вузами.

Интересно, что изначально Авито расчитывали на окупаемость 5 лет, но внезапно в 2024 у них уже появился реальный экономический эффект от внедрения первых ИИ-функций – 670 млн рублей. Теперь на 2025 запланирована реализация еще 20 новых сценариев использования.

В том числе в компании уже показали собственное семейство генеративных моделей – текстовую A-Vibe и мультимодальную А-Vision. Они обучены на базе Qwen2.5 7В с использованием более 10 терабайт данных. А еще инженеры прикрутили собственный токенизатор – и это помогло ускорить инференс в 2 раза.

Модельки помогут писать продающие тексты-описания, отвечать на вопросы о товаре, суммаризировать отзывы и многое другое. Потенциал домена действительно огромный.

P.S. Если хотите понять, как именно ИИ работает и приносит деньги в e-comm, почитайте нашу авторскую статью про ML в Авито: там много интересных тех. подробностей про LLM, рекомендашки и монетизацию.
👍47😁177🔥54🤯2🐳2🗿1
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить

Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.

А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.

Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
1👍9319👏11🔥10👌1
⚡️ Сэм Альтман купил DeepSeek

Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:

«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»


Также CEO пообещал в скором времени выпустить и другие модели, которые разрабатывались в DeepSeek: R1.5, R2, D2 и ☭2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁778🤯55🗿36❤‍🔥35🤔13🤨8😎74🤩43👀3
Data Secrets
Сэм Альтман: GPT 4.5 ощущается как AGI В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное Альтман…
Ладно, друзья, теперь серьезно: OpenAI (о чудо!) планирует выпустить опенсорсную модель

Последним опенсорсным релизом компании была GPT-2, это было 5 лет назад. И вот сейчас Альтман объявил, что стартап вновь выпустит что-то открытое.

Что конкретно это будет – неизвестно, но напоминаем, что чуть больше месяца назад Сэм проводил в X опрос о том, какой опенсорс хотели бы видеть пользователи. Варианты были такие: локальная модель, которую можно запустить на утюге, или модель уровня o3-mini, которая запускается на GPU. С небольшим отрывом тогда победила вторая.

Возвращаясь к новости: сейчас разаботчики могут подать заявку на фидбэк сессии, то есть прийти, попробовать раннюю версию и оставить обратную связь.
👍7116🔥9🗿5🤨3🤯1
⚡️ MTS AI выпустила новую версию корпоративной LLM – Cotype Pro 2

Новая модель вошла в пятерку лучших русскоязычных LLM в бенчмарке MERA. Она адаптирована под более чем 100 бизнес-сценариев по таким направлениям, как взаимодействие с клиентами, поддержка HR-функции, аналитика данных, маркетинг, финансовая отчетность и проверка документации. При этом модель может быть развернута в закрытом контуре компании без внешних API.

Ключевые апгрейды:
+40% к скорости;
+50% к точности при обработке длинных текстов до 128K токенов.
Также Cotype Pro 2 продемонстрировала улучшенные результаты в решении основных задач: генерация идей (+13%), креативное письмо (+4%), суммаризация (+6%), чаты (+9%), извлечение информации (+5%). Точность в задачах классификации остается на высоком уровне - 87%.

Перед релизом модель прошла трехмесячное тестирование в реальных условиях: в банковской сфере она использовалась для категоризации клиентских обращений в службу поддержки, а в сервисе продажи билетов MTS Live — для генерации описаний мероприятий.

"Cotype Pro 2 можно считать первым шагом MTS AI к корпоративному агентскому ИИ. Эта модель станет основой для линейки ИИ-помощников и ИИ-агентов для госсектора, банков, промышленности, ритейла, телекома, медицины и IT", – сообщают разработчики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4211🗿11😁10🔥6🤔1
Еще одна приятная новость от OpenAI: обновленная нативная генерация изображений наконец-то доступна всем бесплатным пользователям

Несмотря на то, что несколько дней к ряду сервера стартапа буквально умирали, фичу все-таки докатили на фри юзеров, как и обещали.

Возможно, так в компании "отпраздновали" закрытие нового раунда инвестиций. Они привлекли рекордные 40 миллиардов долларов при оценке в $300 миллиардов. Теперь OpenAI официально делит второе место в списке единорогов мира с ByteDance (300 млрд). Дороже них остался только SpaceX (350 млрд).

А еще, на секундочку, это крупнейший раунд финансирования за всю историю частных тех.компаний. Однако пока OpenAI получит только 10 миллиардов. Остальное должно поступить к концу года, но только при условии, что к тому моменту стартап все-таки станет коммерческой организацией.
👍67🦄23😎114🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Amazon показали собственного веб-агента Nova Act

На внутренних бенчмарках компании (?) по показателям управления текстом и визуальными элементами сайтов он обходит Sonnet 3.7 и Computer Use OpenAI. Особенно они подчеркивают свой фокус на надежности использования.

Самим агентом воспользоваться пока нельзя, но Amazon открывают ричерч-превью в виде библиотеки Nova Act SDK, и вот это интересно. Либа дает возможность бить процессы на атомарные команды и именно таким образом выстраивать работу агента.

При этом к каждому этапу можно дописать "заметки" (типа "при входе на сайт не принимай куки"), прикрутить дополнительные APIшки, вставить тесты, распараллеливание и др.

Примеры | Документация | Блогпост
34👍15👀10🔥5
Media is too big
VIEW IN TELEGRAM
Figure AI снова показали, как их роботы трудятся на заводе BMW

Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.

Работяги 🧑‍🏭
🔥122😁22👍158🤯62
Как LLM выучивают факты: новое исследование от Google DeepMind

LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?

В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.

Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:

Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.

Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.

Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.

И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.

arxiv.org/pdf/2503.21676
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍114🔥3625🤔42
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тоже решили пошутить на 1 апреля и добавили в ChatGPT новый голос «Monday»

Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.

Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.

Осторожно, можно случайно заработать депрессию ☠️
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8740🔥11👍52🗿2
Заехал новый бенчмарк ArithmeticBench по математике

Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.

Текущие скоры топовых моделей:

🟦 Gemini 2.5 – 8% на умножении
🟦 GPT-4.5 – 5% на сложении, но с делением все плохо
🟦 Claude 3.7 Sonnet – абсолютно мимо 🔤

x.com/EpochAIResearch/status/1907199415678578804
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7020🫡10😁5🗿4
OpenAI официально запустили свою OpenAI Academy для всех

Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.

В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.

Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.

Стоит заглянуть, в общем: academy.openai.com
3🤯74🔥50👍2310😁2🗿2❤‍🔥1
Вышла статья, в которой доказали, что GPT 4.5 прошла тест Тьюринга

Сразу оговорка: может показаться, что языковые модели уже давно прошли Тьюринга и вообще этот тест устарел. Но на самом деле это первая работа, в которой показаны такие устойчивые результаты LM в классическом культовом трёхстороннем варианте теста, а не его суррогатах.

Что подразумевает трехсторонний вариант теста? Это значит, что в каждом эксперименте участвуют два человека и бот. Участник-интеррогатор получает в руки две параллельные переписки с человеком и ботом, 5 минут задает любые вопросы и использует любые стратегии, чтобы понять, где кто, а затем голосует. На картинке 3, кстати, показано, как именно чаще всего люди пытались выяснить правду.

Так вот, ученые из Сан-Диего протестировали GPT-4.5, LLaMa-3.1-405B, GPT-4o и старенькую классическую ELIZA. Им давали промпт "веди себя, как молодой интроверт, интересующийся интернет-культурой и активно использующий сленг".

Win Rate GPT-4.5 составил (внимание) 73%. Это значит, что в 3/4 случаев моделька "переигрывала" обоих людей и заставляла интеррогатора думать, что живой собеседник – это бот, а она – человек.

У ламы результат тоже ничего – 56%, но это все-такие ближе к случайной догадке. ELIZA выбила 23%, а GPT-4o и того меньше – 21%.

И как теперь админам ботов в комментариях ловить?
😁121👍35🔥2015🗿1
Из Meta уходит руководитель отдела AI research

Джоэль Пино работала в компании 8 лет, из которых 2 года возглавляла FAIR вместе с Лекуном. Пино принимала участие в таких проектах, как PyTorch, FAISS, Roberta, Dino, Llama, SAM, Codegen, Audiobox и др.

Причина не уточняется, и немедленной замены у компании нет. Сама Джоэль пишет: "Сегодня, когда гонка за ИИ ускоряется и Meta готовится к следующей главе, пришло время освободить место для других".

Напоминаем, что в этом году Meta планирует потратить на ИИ 65 миллиардов долларов.
🤯110🤔1514😁3🕊3🔥1🤓1
OpenAI релизнули агентский бенчмарк PaperBench

Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).

Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.

Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше 🚬

cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6820🔥20