Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Где учиться учить ИИ?

Если вы хотите стать действительно крутым специалистом по искусственному интеллекту, то лучше не перебиваться короткими курсами, а пойти и основательно поучиться в такие топовые места, как ШАД, AI Masters или Центральный Унверситетет. Но как выбрать?

Об этом пройдет очень крутой вебинар у наших друзей из ShadHelper. Они пригласили именитых гостей и обсудят, чем отличаются все эти школы, как выбрать подходящую, кем становятся выпускники, какие задачи решают, и, конечно, как поступить. Звездный каст спикеров:

Юрий Дорн, кандидат технических наук, старший преподаватель МФТИ
Александр Дьяконов, д.ф.-м.н., профессор РАН и автор того самого сайта
Александр Лыков, к.ф.-м.н. и основатель ShadHelper

Фишка в том, что все эксперты из разных школ. Юрий – руководитель AI Masters и лектор ШАД, Александр Дьяконов заведует Data Science в Центральном Университете, а Александр Лыков – руководитель Школы Высшей Математики (ШВМ). Так что информацию вы получите из первых рук.

Такое не пропускаем и записываемся здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3914🤯11🌭3🦄3🔥2
Сэм Альтман: GPT 4.5 ощущается как AGI

В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное

Альтман спросил у аудитории, какой опенсорсный проект от OpenAI мы хотели бы видеть. Варианты: локальная модель, которую можно запустить даже на айфоне, или модель уровня o3-mini, которая запускается на GPU.

Напоминаем, что в этом году это уже не первые упоминания опенсурса от Сэма. После выхода o3-mini он писал, что OpenAI «оказались на неправильной стороне истории и им необходимо разработать другую стратегию опенсорса, но не все в компании разделяют это мнение».
12🔥122👍39😁3310🤯5👻5🍌2👀2
Data Secrets
Вот так коллаб: NVIDIA совместно с xAI построили Colossus – самый большой в мире суперкомпьютер Colossus был создан всего за 122 дня и работает на базе сетевой платформы NVIDIA Spectrum-X Ethernet, которая была разработана специально для обучения ИИ. Ее…
На утреннем стриме, где релизили Grok-3, xAI также поделились новой информацией о своих датацентрах

Наверное, многие помнят, как по интернету в октябре разлетелась новость о том, что всего за 122 дня Nvidia совместно с xAI отстроили самый большой в мире суперкомпьютер Colossus с 100 тысячами GPU. Тогда сроки всех просто шокировали: обычно на строительство таких кластеров уходило 2-3 года.

Так вот, оказывается, сразу после этого количество GPU в Colossus удвоили и на это ушло еще меньше времени: всего 92 дня. Получается, готов он был примерно в конце января, а претрейн Grok-3, по словам самого Маска, завершили в первых числах года.

Так что базовый Grok-3 вряд ли обучался на этих мощностях. Но обучение с ризонингом еще продолжается (на демо показывали недообученный чекпоинт), поэтому ждем еще большего прироста к метрикам.

Но и это не все: Маск обещает, что Colossus вырастет еще в 5 раз и в итоге будет насчитывать 1 миллион видеокарт. Такой рост будет стоить примерно $25-$30 миллиардов, и работа уже началась.

Для справки, каждая NVIDIA H100 потребляет до 700 Вт, так что кушать Colossus будет в целом примерно как Монако 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯156👍3923😁7🔥3🍌3
DeepSeek только что выложили статью, в которой предложили новую вариацию механизма внимания

Традиционное внимание очень прожорливо: вычисления масштабируются квадратично по мере увеличения длины последовательности. Это приводит к тому, что скейлинг трансформеров на реально длинное контекстное окно становится почти невыполнимой задачей.

В DeepSeek придумали разреженное внимание, NSA (Native Sparse Attention), которое как бы разбивает весь процесс на три параллельные ветви:

Token Compression. Здесь все токены разбиваются на группы по L штук, и для каждой такой подпоследовательности вычисляются эмбеддинги. Так вместо обычных ключей и значений для внимания мы получаем сжатые, которые несут информацию о глобальных паттернах в последовательности (а не об отдельных токенах) при более низкой вычислительной нагрузке.

Token Selection. Тут тоже происходит агрегация, но иначе. Последовательность также делится на группы токенов, из которых с помощью промежуточного внимания извлекаются n самых значимых. А уже затем, когда мы отобрали эти самые важные группы, из них берутся оригинальные токены и для них вычисляются признаки без компрессии.

Sliding Window. Тут ничего нового, локальное внимание, которое отвечает за обработку самых недавних токенов в пределах фиксированного окна.


Получается, за счет Token Compression мы экономно сохраняем общие представления о последовательности, за счет Token Selection детально храним самую важную информацию из нее, а благодаря Sliding Window помним о локальных зависимостях и формулируем текст без языковых косяков.

Самое крутое: по результатам экспериментов NSA не только не уступает обычному вниманию, но и в ряде случаев превосходит его, особенно конечно в задачах с длинным контекстом (до 64 тыс. токенов).

При этом DeepSeek еще и предложили оптимизированные ядра и на них алгоритмом достигается прямо очень значительное ускорение: до 11,6х на декодировании и до 9х на прямом проходе.

arxiv.org/pdf/2502.11089 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥201👀26👍2523🤔3👌21
Тем временем люди в Твиттере поделились на две группы: те, кто голосуют в опросе Альтмана про опенсорс за phone-sized model, и те, кто знает, что такое дистилляция
😁277🔥21👍155
Hugging Face выпустили бесплатный курс по файнтюнингу языковых моделей

Кто не знал, у HF есть большой замечательный курс по NLP со всеми основами от токенизации до трансформеров и других архитектур. И сегодня они добавили в него главу под названием Fine-Tune LLM. Внутри:

🟦 Технические основы файнтюнинга: как должны выглядеть данные, как они должны быть размечены, специальные токены и тд
🟦 Теория по LoRA и другим основным методом файнтюна
🟦 Практика на торче + рецепты оценки модели здорового человека

Емко, практично и максимально полезно. Кстати, если уверены в своих знаниях уже сейчас, в конце главы есть большой квиз – проверьте себя 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
116👍45🔥202🤯1
Андрей Карпаты написал исчерпывающий отзыв на Grok-3. Смотрим:

Решил задачи про r в strawberry, 9.11 и 9.9 и логические детские примеры, но что-то из этого только в режиме Thinking
Справился со сложной задачей на написание игры (среди остальных такой же тест прошла только o1 pro, R1, Gemini и Claude не смогли). В целом Thinking mode довольно мощный
Справился с задачей на расшифровку последовательности
Справился с классической игрой в крестики-нолики, но на усложненной посыпался (o1-pro сыпится тоже)
Хорошо справился со сложными подсчетами по статье GPT-2, на которых фейлится даже o1-pro

Плохое чувство юмора
С задачами на визуальное мышление типа генерация SVG картинок справляется не очень
Иногда слишком пуглива в вопросах этики и не может философствовать на эту тему

Итог: модель лучше R1 и Gemini, и находится где-то на уровне o1-pro (200$). Учитывая, что команда xAI существует чуть больше года, это отличный результат.


x.com/karpathy/status/1891720635363254772?s=46&t=pKf_FxsPGBd_YMIWTA8xgg
137🔥62👍57🤔4❤‍🔥2
Data Secrets
Нас ждут ИИ-видеоигры от Илона Маска В Твиттере он прокомментировал пост о том, что индустрия игр загибается и объяснил это тем, что слишком много студий геймдева принадлежит корпорациям. «В xAI мы собираемся открыть студию разработки игр с ИИ, чтобы снова…
Кстати, помните, Маск говорил, что планирует открыть ИИ-студию видеоигр?

Так вот теперь она действительно официально открылась внутри xAI, и туда набирают инженеров. Желающие?
🔥131👍23🗿1610🤔3🎅1🎄1
Perplexity AI релизнули DeepSeek R1 без китайской цензуры

В блоге они написали:
R1 1776 – это DeepSeek-R1, которую мы дообучили, чтобы убрать из нее цензуру китайской коммунистической партии. Модель сохраняет свои мощные способности ризонинга, но при этом теперь предоставляет беспристрастную и фактически точную информацию.


Дообучали на фреймворке NeMo 2.0 от Nvidia. Про сбор данных деталей немного: говорят, что сначала вручную отобрали 300 цензурированных тем, а затем с помощью классификатора насэмплили из реальных диалогов пользователей промпты на эти темы. Обработали, собрали фактически точные ответы и дофайнтюнили.

Как показывают тесты, в R1 1776 теперь даже меньше китайской цензуры, чем в o3-mini и Claude 3.5. При этом по общим бенчам проседания почти нет (только кое-где на малые доли процентов). А на AIME 2024 метрика даже волшебным образом подросла на 1 процентный пункт.

Это, кстати, первая опенсорсная модель Perplexity

Веса
🔥167👍48😁369😐71🕊1🗿1👾1
OpenAI релизнули новый бенчмарк SWE-Lancer, который привязывает способности LLM к реальному экономическому эффекту

А сделали они это очень просто и изящно: взяли 1 488 заданий с фриланс-платформы Upwork общей стоимостью $1 миллион USD и проверили, сколько из них сможет решить модель. При этом не все задачи одинаковые. Они варьируются от мелких исправлений багов за $50 до сложных тасок по реализации новых фич за $32 000.

В этом как раз и фишка: задания оцениваются по реальным рыночным ставкам, а не гипотетическим оценкам сложности. В среднем, если что, такие задачи требуют изменения 2 файлов и 69 строк кода и решаются людьми за 26 дней.

Лучше всего себя показала Claude 3.5 Sonnet (да, не o1). Модель заработала $403 000. o1 high compute при этом заслужила $380 000, а GPT-4o всего $304 000.

Интересно было посмотреть на сравнение с затратами на API, но такого анализа пока не провели

arxiv.org/abs/2502.12115
🔥103👍3514🤯9😁6😐5
Стали известны название и состав нового стартапа Миры Мурати – бывшей CTO OpenAI

Напоминаем, что Мира ушла из OpenAI в сентябре. Она почти сразу объявила о том, что собирается открывать собственную компанию и даже уже искала инвестиции и переманивала сотрудников из OpenAI.

И вот наконец-то у стартапа появился лендинг и официальный начальный состав. Оказалось, что компания будет называться Thinking Machines. Сама Мира станет CEO, на место главного научного сотрудника назначен сооснователь OpenAI Джон Шульман. Он ушел из OpenAI почти одновременно с Мирой, и после этого недолго работал лидом команды элаймента в Anthropic.

Также известно, что тех.диром станет Баррет Зоф. Он тоже работал в OpenAI и был там CRO (chief research officer). Также к Мире присоединились Лилиан Венг, Александр Кириллов из Meta, Кристиан Гибсон и еще с десяток очень именитых ученых. На сайте можно посмотреть полный список и краткое описание заслуг каждого.

Ждем от них чего-то интересного
271👍40🔥21🤔10👌1💋1
Тем временем в обновленном приложении Claude от Anthropic появились намеки на thinking режим, поиск в интернете и аналитические инструменты

Релиз в любой момент 🥁
🔥119👍29😁158
Срочный общий сбор: Grok-3 открыли для всех бесплатно!

Написали, что это будет продолжаться «пока серверы не упадут», так что лучше поторопиться с экспериментами 👇

x.com/i/grok
🔥116👍30😁1512❤‍🔥32🗿1
Microsoft открыли новый революционный материал и сделали из него квантовый чип, который может открыть следующую эру вычислений

Причиной того, что сегодня мы пользуемся телефонами, ноутбуками и другой электроникой стали полупроводники, которые в 1833 открыл Фарадей. А сейчас, в 2025, Microsoft открыли топопроводники – материалы, которые могут наконец-то вывести квантовые вычисления на новый уровень масштабирования.

На основе этих топопроводников Microsoft сделали Majorana 1. По словам компании тут решается сразу две главных проблемы квантовых вычислений: скейлинг и ошибки вычислений. Это стоило ученым 20 лет трудов.

Дело в том, что обычно, чем больше кубитов в чипе, тем больше ошибок этот чип допускает. Но с топопроводниками это может измениться, и Majorana может без потерь масштабироваться до миллиардов кубитов. Для сравнения, сейчас в самых мощных квантовых чипах не более 150 кубитов.

При этом топопроводники очень «компактные», так что такой чип поместится на ладошке.

CEO Microsoft говорит, что все это открывает абсолютно новую эру, и что теперь, возможно, мы получим настоящие квантовые компьютеры не через десятилетия, а через считанные годы.

news.microsoft.com/source/features/innovation/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
1🔥228👍43🤔2018🦄7😁6🍌4❤‍🔥3🗿1
Google выпустили агента-ученого AI co-scientist

В отличие от многих подобных проектов, агент не пишет статьи и не делает исследования end-to-end. Его цель – быть генератором идей и подкидывать настоящим ученым свежие целесообразные гипотезы.

AI co-scientist реализует весь цикл научного метода: генерация идей, отбор лучших, уточнение, ревью и так по кругу. Это похоже на то, как устроена структура ризонинга во многих моделях, но здесь за каждый этап отвечает отдельный супер-проработанный агент со своими инструментами:

Generation agent: генерирует начальные гипотезы и направления исследования с помощью веб-поиска
Reflection agent: критически оценивает гипотезы через детальные проверки и симуляции. Может запускать код.
Ranking agent: организует турнир дебатов и таким образом сравнивает гипотезы попарно и ранжирует по Эло (как на LMSYS)
Proximity agent: строит граф близости гипотез, объединяет их и выкидывает дубликаты.
Evolution agent: совершенствует и уточняет оставшиеся гипотезы.
Meta-review agent: сводит все в общий обзор и ревьюит.


Самое интересное, что сюда прикрутили асинхронную систему управления задачами, так что test-time компьют распределяется динамически, и за счет этого система легко скейлится.

Кстати, агента тестили на мед.исследованиях, и оказалось, что он действительно способен генерировать идеи, которые потом подтверждаются экспериментально.

Интересно, что из этого выйдет, но выглядит масштабно: storage.googleapis.com/coscientist_paper/ai_coscientist.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥15922👍13🤔8❤‍🔥3