Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
Video message
Наш друг и коллега Саша Толмачев – CDO Ozon Fintech – приглашает подписчиков Data Secrets на стенд Озона на Матемаркетинг!

Подробности розыгрыша билетов на Data патибас здесь.
👍15🔥76🤯3
Facebook Research представили новую библиотеку optimizers

Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.

Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇

Вот пример использования обычного Adam:

import torch
from torch.optim import Adam

model = instantiate_model()

optimizer = Adam(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
eps=1e-08,
weight_decay=1e-05,
)


А вот с DS:

import torch
from distributed_shampoo.distributed_shampoo import DistributedShampoo
from distributed_shampoo.shampoo_types import AdamGraftingConfig

model = instantiate_model()

optimizer = DistributedShampoo(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
epsilon=1e-12,
weight_decay=1e-05,
max_preconditioner_dim=8192,
precondition_frequency=100,
use_decoupled_weight_decay=False,
grafting_config=AdamGraftingConfig(
beta2=0.999,
epsilon=1e-08,
),
)


Больше примеров и исходный код – здесь
👍72116❤‍🔥1
А вот и скандал вокруг Anthropic

Подобное не обходит ни одну большую компанию или стартап. Речь об оказании услуг заказчикам из сферы обороны. Говорят, что Anthropic объединяется с Palantir и AWS и планирует "поставлять" минобороне США ИИ.

Вообще, они такие не одни. Не так давно Meta* объявила о том, что они тоже делают свои модели доступными "партнерам из минобороны", а у OpenAI в совете по безопасности и вовсе сидит отставной генерал разведки (при этом слухи о том, что стартап на короткой ноге с военными ходят уже год).

Так что на Anthropic все обозлились скорее не из-за факта сотрудничества, а просто потому что обычно компания продвигает alignment и всевозможный safe AI, а такое поведение заставляет думать, что стартап отказывается от своих ценностей
🕊5810👍7😐7😁6🤯4👏1🌚1
Сегодня все обсуждают систему подтверждения IT-квалификации на Госуслугах. Говорят, в 2025 году сервис хотят интегрировать с HeadHunter.

А пока суть да дело, пора начинать готовиться, сами понимаете. Так что мы сложа руки не сидели, заслали шпионов, взломали систему и выяснили, какие вопросы будут задавать ML-щикам и Data Scientist'ам.

Предупреждаем: это сложнее, чем получить PhD. Тренируйтесь 🔼
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁158🔥17👍102🤯2🙈2
Подобрали небольшой список статей по синтезу данных

Почти все ведущие исследователи считают, что будущее моделей – за синтетическими данными. Сейчас это одна из самых горячих тем ресерча. Подобрали вам список важных и интересных статей, которые стоит почитать, чтобы оставаться в теме.

➡️ Self-Play Fine-Tuning: из слабой языковой модели в сильную. Авторы предлагают новый метод для файтюнинга - SPIN, в основе которого лежит механизм самовоспроизведения, идейно напоминающий GAN: разные экземпляры моделей борются друг с другом. При этом LLM учится генерировать не только ответы, но и собственные обучающие данные, которые в процессе сравнивает с аннотациями человека.

➡️ Статья, которая объясняет, как заставить LLM использовать весь контекст. Ученые предлагают метод обучения под названием IN2: в нем большие тексты (4к-32к токенов) разбиваются на чанки (128 токенов), среди которых модель должна найти ответ на некоторый поставленный вопрос. Получается что-то вроде распостраненной задачи поиска иголки в стоге сена, при этом модель привыкает принимать во внимание не только начало или конец текста, но и все детали, содержащиеся в середине.

➡️ WizardLM – модель, позволяющая генерировать датасеты для файнтюнинга лучше, чем ChatGPT. Датасеты с инструкциями, которые используются на этапе файнтюнинга, люди часто создают вручную, потому что качество таких данных особенно важно, и они должны отвечать многим критериям. Эта статья о том, как можно такой процесс автоматизировать. По словам авторов, WizardLM превосходит не только "человеческие" сценарии, но и с лихвой опережает ChatGPT, который чаще всего используют для таких задач.
Please open Telegram to view this post
VIEW IN TELEGRAM
13👍10🔥9
Вот вам забавный график с утра: тут желтой линией обозначена динамика роста акций Nvidia, а голубой – биткоин

Think about it 💸
Please open Telegram to view this post
VIEW IN TELEGRAM
80👍21🌭8🔥5👾1
This media is not supported in your browser
VIEW IN TELEGRAM
CEO Perplexity Аравинд Сринивас поделился свежей статистикой стартапа

За две недели количество поисковых запросов выросло вдвое. Так что для тех, кто еще не попробовал сервис, прикрепляем гайд, как настроить поисковик по умолчанию в Chrome.

Кстати, это не все интересные новости: Perplexity AI находится на заключительной стадии переговоров о привлечении $500 млн с оценкой в $9 млрд.
🔥40👍166
Amazon готовы инвестировать в Anthropic, но есть нюанс

Гигант настаивает, что если он станет инвестировать в стартап, тот обязан использовать строго видеокарты Amazon silicon и учить модели на Amazon Web Services.

Известно, что в Anthropic предпочитают nvidia (как и везде). Но деньги могут оказаться слишком хорошими, чтобы от них отказываться. В 2024 компания, по предварительным оценкам, потратит $2.7 млрд на обучение своих моделей, поэтому стартап активно ищет финансирование.
👍32😁136🔥5
LoRA vs Full Fine-tuning: действительно ли они дают один и тот же результат?

LoRA часто используется как эффективный аналог полного файнтюнинга. В то время как файнтюнинг – это дообучение полной матрицы весов предобученной модели на новом наборе данных, в LoRA мы раскладываем весовые матрицы (некоторые или все) исходной сети на матрицы более низкого ранга и дообучаем именно их.

Но действительно ли два этих метода эквивалентны? На архиве вышла новая громкая интересная статья, в которой исследователи пытаются ответить на этот вопрос, сравнивая матрицы весов и перформанс полученных обоими способами моделей.

В итоге ресерчеры обнаружили интересную вещь: после LoRA в матрицах весов появляются абсолютно новые сингулярные векторы, которые никогда не возникают во время ванильного файнтюнинга. Эти векторы почти ортогональны исходным. На практике это значит, что модель рискует потерять обобщающую способность и вообще стать неустойчивой к Continual Learning.

При этом чем выше ранг LoRA, тем меньше таких векторов (логично, потому что тем ближе метод к обычному файнтюнингу). Напротив, чем меньше ранг и чем дольше модель учится, тем таких векторов больше. С ReLoRA, кстати, за счет стабилизации, дела обстоят чуть лучше. Но есть и хорошие новости: ученые обнаружили, что от неприятного влияния сингулярных векторов можно избавиться, если увеличить размер датасета или подбирать scaling. Другими словами, пользоваться LoRA все-таки нестрашно, если внимательно следить за переобучением и гиперпараметрами.

Статья полностью – здесь
👍44🔥128🤨5
Тем временем на арене появилась новая модель gemini-test 🧐
🤯29👍15🍌8🤪4🤨2
Лилиан Вэн – еще одна из ведущих исследователей безопасности OpenAI – покинула стартап и ушла в компанию Ильи Суцкевера

Она была вице-президентом отделения research and safety. В стартапе она работала с 2018 года: сначала она два года занималась рукой робота для сборки кубика-робота, а затем ей поручили сформировать команду для создания систем безопасности.

Сейчас в команде Вэг осталось 80 ученых и разработчиков. Это все еще много, но не отменяет того, что многие лиды, ушедшие из OpenAI, утверждают, что безопасность там оставляет желать лучшего.

Например, Майлз Брандейдж, который покинул стартап в октябре, недавно написал, что компания распустила его команду "подготовки к AGI".

А еще была громкая статья в NYT, в которой бывший ресерчер OpenAI Сухире Баладжи рассказывал о нарушении авторских прав и говорил, что "технологии стартапа принесет обществу больше вреда, чем пользы".
👍30🤯1994
Media is too big
VIEW IN TELEGRAM
У Альтмана, тем временем, вышло новое интервью в Y Combinator. Что было интересного:

➡️ В 2025 появится AGI (сроки все сжимаются и сжимаются, это уже похоже на обещания Маска), а еще.... в следующем году Сэм хочет завести ребенка 🤱

➡️ Когда мы достигнем обилия интеллекта и обилия мощностей, все проблемы физики будут решены, и люди станут говорить уже не об использовании ядерного синтеза или солнечной энергии для питания ИИ, а о сфере Дайсона. Это теория предполагает, что мы можем научиться максимально возможно использовать энергию Солнца.

➡️ Открытие глубокого обучения было фундаментальным изобретением: таким же, как обнаружение нового квадранта химических элементов в периодической таблице. При этом успех ИИ обусловлен не столько этим, сколько какой-то религиозной верой исследователей в масштабирование систем.

➡️ "Путь к AGI мы видим ясно и действительно знаем, что делать. С этого момента до создания AGI много работы, и еще остаются некоторые вопросы, но в основном мы знаем, что к чему, и это очень волнующе. Достичь AI 4-го уровня будет легче, чем я думал, а AGI появится раньше, чем думают люди."

➡️ Ну и классика: 1 человек с 10000 GPU, по мнению Сэма, уже может построить многомиллиардную компанию ☝️

Интервью полностью – здесь (оно, кстати, недлинное, всего 46 минут)
Please open Telegram to view this post
VIEW IN TELEGRAM
63🤯14❤‍🔥9😁7👍62🌚2🙈1