Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
xAI поглотил X или история о том, как Илон Маск будет платить долги Твиттера деньгами ИИ-инвесторов

Поехали разбираться:

Маск купил Твиттер за 44$ млрд два с половиной года назад, но за это время оценка компании успела сильно упасть. В какой-то момент сообщалась, что она стоит менее 10 млрд. Но после инагурации Трампа оценка снова выросла, потому что платформа стала "более влиятельной".

Маск сообщил о поглощении в эту субботу и написал, что X при покупке оценили в в 33 миллиарда (45 - долги 12 млрд). При этом он также сообщил, что xAI теперь стоит 80 миллиардов. Это почти в два раза больше, чем в декабре: тогда озвучивалась сумма в 45 миллиардов.

Итого уже получаем высокую (и, что важно, фактически доказанную сделкой) стоимость X + подорожание xAI + вероятно более широкий доступ xAI к данным X. И это все, можно сказать, бесплатно: покупка была полностью оплачена акциями.

Интересно, что пишет WSJ: "Руководители обеих компаний посчитали, что будет проще привлекать деньги для объединенной компании". То есть теперь Маск будет получать больше инвестиций на мощный ИИ с огромным доступом к данным X, но тратить эти деньги сможет на покрытие долгов соцсети.

Это не первый случай стирания границ между компаниями Маска. На самом деле, у него уже даже были юридические проблемы на этой почве. Посмотрим, чем все закончится в этот раз.
Please open Telegram to view this post
VIEW IN TELEGRAM
😎77🤔26😁12👍11🔥732
Краткое содержание предыдущего поста:
😁159😎2310👍5🦄5🔥2
Там OpenAI тонет под тяжестью Ghibli генераций

Вчера Альтман написал, что команда почти не спит, чтобы серверы выдерживали натиск спроса, и напрямую попросил аудиторию остыть.

Можно подумать, что это был маркетинговый ход чтобы, наоборот, еще больше подогреть интерес. Но нет: сегодня новым пользователям временно ограничили возможность генерировать картиночки в SORA.

А еще Сэм заявил, что «AGI, возможно, появится быстрее, если вы перестанете грузить наши GPU генерациями» 🫠

Видимо деплоя на фри юзеров не видать еще долго
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁218👍1713🫡6🤩3🔥1🤨1
Тем временем русскоязычный Твиттер:
😁262😎3510❤‍🔥5🤗4🔥2🤯1
Кажется, Llama-4 появилась на LMSYS Arena

На арене появились три новые модели под кодовыми названиями Spider, Cybele и Themis. Все они утверждают, что созданы компанией Meta AI и принадлежат к семейству Llama.

Ждем? 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
69🤯19👍12🔥9🗿3🤔1
Gemini 2.5 Pro набрала 118 баллов IQ

Это достаточно большой отрыв от предыдущих результатов: для сравнения, o1-pro набирает 110, Claude 3.7 – 107, o3-mini – 104, GPT-4.5 и o1 – 97. Средний результат человека – 100.

Вопросов из датасета нет в интернете (по крайней мере, так говорит создатель). Все тесты проводит единственный человек – журналист Максим Лотт. Кстати, он также занимается тем, что трекает политические предубеждения моделек. Выходит довольно интересно (картинка 3).

trackingai.org
👍77🔥338🤨6😁4🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Многообещающе: к 2028 Авито планируют сделать из своей платформы монолитного интеллектуального ассистента и заработать на этом 21 миллиард рублей

За три года компания вложит в ИИ-технологии 12 миллиардов и планирует получить с этого более 21 миллиарда выручки. При этом часть денег также пойдет на образовательные программы в коллабе с вузами.

Интересно, что изначально Авито расчитывали на окупаемость 5 лет, но внезапно в 2024 у них уже появился реальный экономический эффект от внедрения первых ИИ-функций – 670 млн рублей. Теперь на 2025 запланирована реализация еще 20 новых сценариев использования.

В том числе в компании уже показали собственное семейство генеративных моделей – текстовую A-Vibe и мультимодальную А-Vision. Они обучены на базе Qwen2.5 7В с использованием более 10 терабайт данных. А еще инженеры прикрутили собственный токенизатор – и это помогло ускорить инференс в 2 раза.

Модельки помогут писать продающие тексты-описания, отвечать на вопросы о товаре, суммаризировать отзывы и многое другое. Потенциал домена действительно огромный.

P.S. Если хотите понять, как именно ИИ работает и приносит деньги в e-comm, почитайте нашу авторскую статью про ML в Авито: там много интересных тех. подробностей про LLM, рекомендашки и монетизацию.
👍47😁177🔥54🤯2🐳2🗿1
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить

Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.

А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.

Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
1👍9319👏11🔥10👌1
⚡️ Сэм Альтман купил DeepSeek

Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:

«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»


Также CEO пообещал в скором времени выпустить и другие модели, которые разрабатывались в DeepSeek: R1.5, R2, D2 и ☭2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁778🤯54🗿36❤‍🔥35🤔13🤨8😎74🤩43👀3
Data Secrets
Сэм Альтман: GPT 4.5 ощущается как AGI В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное Альтман…
Ладно, друзья, теперь серьезно: OpenAI (о чудо!) планирует выпустить опенсорсную модель

Последним опенсорсным релизом компании была GPT-2, это было 5 лет назад. И вот сейчас Альтман объявил, что стартап вновь выпустит что-то открытое.

Что конкретно это будет – неизвестно, но напоминаем, что чуть больше месяца назад Сэм проводил в X опрос о том, какой опенсорс хотели бы видеть пользователи. Варианты были такие: локальная модель, которую можно запустить на утюге, или модель уровня o3-mini, которая запускается на GPU. С небольшим отрывом тогда победила вторая.

Возвращаясь к новости: сейчас разаботчики могут подать заявку на фидбэк сессии, то есть прийти, попробовать раннюю версию и оставить обратную связь.
👍7116🔥9🗿5🤨3🤯1
⚡️ MTS AI выпустила новую версию корпоративной LLM – Cotype Pro 2

Новая модель вошла в пятерку лучших русскоязычных LLM в бенчмарке MERA. Она адаптирована под более чем 100 бизнес-сценариев по таким направлениям, как взаимодействие с клиентами, поддержка HR-функции, аналитика данных, маркетинг, финансовая отчетность и проверка документации. При этом модель может быть развернута в закрытом контуре компании без внешних API.

Ключевые апгрейды:
+40% к скорости;
+50% к точности при обработке длинных текстов до 128K токенов.
Также Cotype Pro 2 продемонстрировала улучшенные результаты в решении основных задач: генерация идей (+13%), креативное письмо (+4%), суммаризация (+6%), чаты (+9%), извлечение информации (+5%). Точность в задачах классификации остается на высоком уровне - 87%.

Перед релизом модель прошла трехмесячное тестирование в реальных условиях: в банковской сфере она использовалась для категоризации клиентских обращений в службу поддержки, а в сервисе продажи билетов MTS Live — для генерации описаний мероприятий.

"Cotype Pro 2 можно считать первым шагом MTS AI к корпоративному агентскому ИИ. Эта модель станет основой для линейки ИИ-помощников и ИИ-агентов для госсектора, банков, промышленности, ритейла, телекома, медицины и IT", – сообщают разработчики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4211🗿11😁10🔥6🤔1
Еще одна приятная новость от OpenAI: обновленная нативная генерация изображений наконец-то доступна всем бесплатным пользователям

Несмотря на то, что несколько дней к ряду сервера стартапа буквально умирали, фичу все-таки докатили на фри юзеров, как и обещали.

Возможно, так в компании "отпраздновали" закрытие нового раунда инвестиций. Они привлекли рекордные 40 миллиардов долларов при оценке в $300 миллиардов. Теперь OpenAI официально делит второе место в списке единорогов мира с ByteDance (300 млрд). Дороже них остался только SpaceX (350 млрд).

А еще, на секундочку, это крупнейший раунд финансирования за всю историю частных тех.компаний. Однако пока OpenAI получит только 10 миллиардов. Остальное должно поступить к концу года, но только при условии, что к тому моменту стартап все-таки станет коммерческой организацией.
👍67🦄23😎114🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Amazon показали собственного веб-агента Nova Act

На внутренних бенчмарках компании (?) по показателям управления текстом и визуальными элементами сайтов он обходит Sonnet 3.7 и Computer Use OpenAI. Особенно они подчеркивают свой фокус на надежности использования.

Самим агентом воспользоваться пока нельзя, но Amazon открывают ричерч-превью в виде библиотеки Nova Act SDK, и вот это интересно. Либа дает возможность бить процессы на атомарные команды и именно таким образом выстраивать работу агента.

При этом к каждому этапу можно дописать "заметки" (типа "при входе на сайт не принимай куки"), прикрутить дополнительные APIшки, вставить тесты, распараллеливание и др.

Примеры | Документация | Блогпост
34👍15👀9🔥5
Media is too big
VIEW IN TELEGRAM
Figure AI снова показали, как их роботы трудятся на заводе BMW

Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.

Работяги 🧑‍🏭
🔥122😁22👍158🤯52
Как LLM выучивают факты: новое исследование от Google DeepMind

LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?

В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.

Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:

Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.

Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.

Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.

И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.

arxiv.org/pdf/2503.21676
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍113🔥3625🤔42