Data Secrets
77.4K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Группа «Т-Технологии», в которую входит Т-Банк, начинает строить свои дата-центры

В совете по развитию цифровой экономики подчеркивают, что в условиях текущих ограничений этот шаг позволит больше контролировать безопасность данных клиентов, ведь в любой момент внешние сервисы могут попасть под санкции.

"Растущий спрос на создание ЦОД в том числе продиктован ускорившейся гонкой за создание суперинтеллекта, в которой невозможно участвовать без развитой технологичной инфраструктуры", – сообщила заведующая кафедрой мировых финансовых рынков и финтеха РЭУ им. Г. В. Плеханова Светлана Фрумина.


К 2027 в Т-Банке намерены запустить уже два центра обработки данных. В каждом из построенных ЦОД будут установлены свыше 100 тыс. серверов, а также Т-Банк станет первым банком в мире, использующим в дата-центрах технологию Direct Free Air Cooling. Проектный показатель эффективности использования электроэнергии (Power Usage Effectiveness, PUE) составит 1.15, это значительно ниже среднемирового уровня — 1.6.
🔥50👍16🌭8😁32🤩1
Сейчас, когда ходит все больше и больше слухов о том, что модели ИИ якобы перестали масштабироваться, многие вспоминают и возвращаются к легендарной статье Scaling Laws for Neural Language Models от OpenAI. Она была написана в 2020 году. Многие уверены, что в этой работе впервые исследуются законы скейлинга моделей, и потому она считается основополагающей. Но знали ли вы, что на самом деле scaling laws изобрели намного раньше?

Еще в 2017 году, в год выхода гугловской статьи про трансформер, вышла папира исследователей из Baidu Research, в которой они описали точно такие же зависимости и влияние количества параметров в модели и токенов в трейне на лосс. Правда, вместо трансформера ученые использовали LSTM, и не называли свои выводы "законами". Но зато они уже тогда проверили заключения и на обработке изображений, и на задаче распознавания речи, так что получился вполне себе мультимодальный подход.

Вот главный вывод из статьи OpenAI (цитата):
Лосс масштабируется как степенной закон с ростом размера модели, размером набора данных и объемом вычислений, используемых для обучения. Другие архитектурные детали, такие как ширина или глубина сети, оказывают минимальное влияние. Эти соотношения позволяют нам определить оптимальное распределение фиксированного бюджета вычислений.


А вот – из статьи Baidu Research (тоже цитата):
Наши эмпирические результаты показывают масштабирование лосса по степенному закону с ростом таких факторов как размер датасета и объем вычислений. При этом тюнинг самой модели только смещает лосс, но, по-видимому, не влияет на показатель степенного закона. Мы также показываем, что размер модели масштабируется сублинейно с ростом объема данных. Эти соотношения масштабирования имеют существенное значение, так как могут служить руководством при проектировании вычислительных систем.


Все новое – хорошо забытое старое?
👍55💯156
Миниатюра: заказчик и ML-команда
😁19815👍3
Нас ждут ИИ-видеоигры от Илона Маска

В Твиттере он прокомментировал пост о том, что индустрия игр загибается и объяснил это тем, что слишком много студий геймдева принадлежит корпорациям.

«В xAI мы собираемся открыть студию разработки игр с ИИ, чтобы снова сделать игры великолепными!»
68👍25🔥17😁14🤪5👀1
⚡️ Вышел новый Qwen с ризонингом!

QwQ 32b превосходит o1 в некоторых тестах и ​​имеет открытый исходный код под лицензией Apache 2. Рассуждения в диалоге не скрываются, но могут существенно затягиваться.

"QwQ воплощает в себе древний философский дух: он знает, что ничего не знает, и это именно то, что движет его рассуждениями", – пишут разработчики в блоге.


Можно только порадоваться, что разрыв между крупными игроками и китайскими опенсорс решениями все сокращается. Это значит, что в будущем мы сможем получать опенсорс модели практически одновременно с моделями OpenAI и Anthropic (ну или те просто затаились и ждут момента выпустить свои супер-инновационные разработки, что тоже неплохо).

Код | Демо | Веса | Блогпост
Please open Telegram to view this post
VIEW IN TELEGRAM
56👍18🔥9❤‍🔥2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
LM Arena опять радует прогрессом: разработчики добавили RepoChat Arena, в котором можно проверить модели на умение работать с кодовой базой

Видимо, решение вдохновлено высокой популярностью Cursor, Copilot и других разработчиков из коробки. На арене теперь можно отправить моделям ссылку на репозиторий и попросить их исправить баги / добавить фичи / задать вопросы по коду и тд, а затем проголосовать за ту модель, которая справилась лучше.

Теперь ждем лидерборд с первыми результатами
🔥3811👍10🤯21
Новогоднее настроение в студию: на Kaggle стартовал рождественский челлендж Santa 2024

Легенда такая: кто-то перепутал слова в рождественских сказках. Цель – расставить слова по порядку, минимизируя перплексию отрывков. Другими словами, чем осмысленнее у вас получится сказка – тем выше вы в лидерборде.

В награду самым успешным командам Санта подарит $50,000 🎅

Участвовать здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
6124👍13🔥10
Имба: в честь матча за звание чемпиона мира по шахматам Google запустили в Google Labs возможность поиграть в шахматы с Gemini, да при этом еще и стилизованными по вашему запросу шахматными фигурами. Смотрите:

1. Заходим на сайт labs.google/genchess
2. Выбираем вид набора и пишем короткое описание темы для фигур. Например, Harry Potter
3. Генерируем сет (под капотом тут связка Gemini Flash + Imagen)
4. Генерируем сет противника. Тему для сета противника Gemini выбирает так, чтобы она "конфликтовала" с вашей
5. Играем

На первой картинке – набор, который получился у нас: вдохновленный, конечно, машинным обучением (отдельное внимание на ладью в виде кластера GPU), а в оппоненты Gemini подобрал.... квантовую физику. В пост добавляем еще несколько шахматных досок, которые получились у пользователей в Твиттере. А вы прикрепляйте в комментарии то, что получилось у вас!

Кстати, ранее в честь того же матча Google совместно с FIDE запустили чемпионат на Kaggle. В нем еще можно поучаствовать.
👍40🔥2011😁2👾1
В твиттере изобразили четырех китайских всадников апокалипсиса OpenAI 🥲

P.S. Подробнее о всадниках: DeepSeek-r1, macro-o1, LlaVa-o1, QwQ
Please open Telegram to view this post
VIEW IN TELEGRAM
😁77🔥176👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Фотоны вместо электронов – is all we need?

Некоторое время назад в сети завирусилось видео, которое показывает "световую" нейронную сеть. Бред, конечно: кусочки стекла, линза, – при чем тут реальные системы? Но, как на днях объяснил один из бывших ведущих инеженеров Google, разумное зерно в этом все же есть.

Смотрите: современные процессоры оперируют электронами, "проталкивая" их по проводам. Но что, если заменить электроны на фотоны? Проводимость такого сигнала в меди была бы в 3 раза выше, при этом с минимальным выделением тепла. Фотонные чипы могли бы достигать частоты >100Ггц/с (современные работают на 3-5 Ггц). При этом чип2чип соединения тоже будут работать лучше: по сравнению с сегодняшними датацентрами потребление энергии на аналогичных мощностях снизилось бы в 200 раз!

Соответсвенно, падает и сложность операций. Матричное умножение, на котором стоит все глубокое обучение, традиционно имеет сложность O(n^2), а в оптическом инференсе занимало бы O(1), то есть константу.

Такими разработками люди, кстати, уже занимаются (например, Ayar Labs и Lightmatter). Даже Intel смотрит в эту сторону: в трансиверах 400G уже используется кремниевая фотоника. Пока что индустрия не развита, подходящего сырья мало, и стоимость одного устройства слишком высока: это и отделяет фотонные системы от распространения.

Возможно, пройдет 5-10 лет, и мы увидим прогресс в этой области. А пока продолжаем умножать матрицы квадратично...
🔥123👍21🤯20😁6
На Habr вышла статья о том, какие способы используют, чтобы максимально точно измерить “ум” языковой модели

Представьте, что вы пытаетесь оценить знания человека с помощью тестов. Вроде все просто: правильно ответил — молодец, ошибся — учись дальше. Но с LLM все оказалось сложнее: хотя академические тесты полезны, они не показывают, насколько модель эффективна в реальных задачах — ведении диалогов, переводах, суммаризации и генерации идей.

Нужно учитывать и то, что у моделей нет внутренней картины мира, в отличие от людей, и на первый взгляд очевидные вопросы оказываются сложными для них. К примеру, вопрос о том, как почувствовать вкус чего-то, кажется нам абсурдным, а для LLM ответ совсем не очевиден.

В Яндексе для решения этой проблемы создали особый пайплайн. Помимо стандартных бенчмарков (которые, кстати, подвержены протечкам данных), используют команду AI-тренеров — экспертов для глубокой проверки ответов. Это сложнее и дороже, но позволяет понять реальную ценность LLM.

Оригинальная статья здесь
👍40🔥95🤯31
OpenAI рассчитывает в новом году на b2b

Об этом пишет The Information. Журналисты взяли интервью у директора по продажам стартапа и тот ясно дал понять, что в 2025 OpenAI целится в пятую ступень развития ИИ (вот тут пост про все ступени, которые описывал Альтман) – то есть в ИИ, который может управлять предприятием.

Для достижения цели они настроены подписывать крупные контракты с бизнесом и серьезно расширяют отдел продаж. «Мы думаем, что индустрия к этому готова: фокус применения ИИ смешается со стартапов на традиционный сферы, такие как здравоохранение и строительство».

Получается, что за год OpenAI планируют перепрыгнуть ступень ризонеров и новаторов, и достичь AGI (при этом на первых двух ступенях мы находились порядка пяти лет). Было упомянуто, кстати, что с точки зрения продукта стартап делает ставку именно на модель o1.
🤯35🤪14😁9👍51
Свежее исследование от Apple: всего один параметр в LLM может разрушить способность всей модели генерировать осмысленный текст

Во многих предыдущих работах уже было показано, что некоторые веса модели имеют больше значения, чем остальные. В частности, доказано, что существуют небольшие группы весов-выбросов (до 0.01%), которые составляют основную часть качества модели.

Apple же пошли дальше и выявили, что в моделях есть удивительный THE SUPER WEIGHT – параметр, зануление которого приводит к коллапсу модели, то есть вообще лишает ее способности генерировать что-то адекватное. Перплексия без него повышается в три раза, а на zero-shot качество ответов падает до случайного бормотания.

В статье также предлагается метод поиска такого супер-веса за один проход по сети. Дело в том, что, оказывается, супер-веса связаны с супер-активациями – исключительно большими актвациями, которые были обнаружены недавно в другой работе. При этом это не случайная корреляция, и как раз с помощью обнаружения скачков активаций (то есть на практике скачков в инпут и аутпут распределениях слоев) можно обнаружить супер-вес.

Кстати, супер-вес может быть не один: в некоторых сетях их обнаружили около шести, но обычно не более трех. При этом до и после файнтюнинга расположение супер-веса не меняется, а еще они обычно располагаются в ранних слоях.

Интересно то, что знания о расположении таких супер-весов можно эффективно применять для оптимизации квантования или дистилляции. Например, просто обрабатывая такие веса специальным образом, ученые добились того, что ванильные методы сжатия достигают перформанса продвинутых, выростая в качестве на 75-82%. Это очень достойный результат.

Статья полностью – здесь
102👍37🔥27🤔7