Data Secrets
Большая статья: какие альтернативы трансформерам у нас есть? "Трансформер - не просто очередной метод, а подход, который полностью изменил наш взгляд на ИИ. Нам очень повезло, что мы наткнулись именно на него в огромном пространстве алгоритмов", — Андрей…
Наша новая статья про тематическое моделирование и библиотеку BigARTM
Да-да, вторая статья за сутки, продуктивность наших редакторов на максимуме
Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.
Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.
В статье вы найдете:
➡️ объяснение ключевых концепций тематического моделирования
➡️ математическую и интуитивную постановку задачи
➡️ понятный разбор классических моделей PLSA и LDA, а также их недостатков
➡️ подробное обсуждение метода ARTM
➡️ и, конечно, практический гайд по построению тематической модели в библиотеке BigARTM
Скорее переходите на сайт и читайте! Уверены, вам точно понравится🫡
Тематическое моделирование – это область современного NLP. Тематические модели используются в рекомендательных и поисковых системах, в компьютерном зрении, и даже в биологии.
Чтобы подробнее познакомить вас с этой областью, мы написали про нее большой разбор! И не одни... В соавторстве статьи Константин Воронцов – доктор физико-математических наук, преподаватель ШАД и МГУ, автор метода ARTM и создатель библиотеки BigARTM для тематического моделирования.
В статье вы найдете:
Скорее переходите на сайт и читайте! Уверены, вам точно понравится
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤23👍20🔥7🤯3😁2👀2 2🍓1
Data Secrets
Video message
Наш друг и коллега Саша Толмачев – CDO Ozon Fintech – приглашает подписчиков Data Secrets на стенд Озона на Матемаркетинг!
Подробности розыгрыша билетов на Data патибас здесь.
Подробности розыгрыша билетов на Data патибас здесь.
👍15🔥7❤6🤯3
Facebook Research представили новую библиотеку optimizers
Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.
Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇
Вот пример использования обычного Adam:
Этих ребят мы уважаем, – они подарили нам Faiss, Prophet и Pearl, а теперь подогнали еще и optimizers. Это новая библиотека с продвинутой реализацией оптимизаторов. Там есть привычные SGD, Adagrad, RMSProp и Adam, но реализованы они с помощью Distributed Shampoo.
Это означает, что все операции оптимизированы для тензорных пространств: за счет этого обучение в целом сходится быстрее. Наглядно 👇
Вот пример использования обычного Adam:
import torch
from torch.optim import Adam
model = instantiate_model()
optimizer = Adam(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
eps=1e-08,
weight_decay=1e-05,
)
А вот с DS: import torch
from distributed_shampoo.distributed_shampoo import DistributedShampoo
from distributed_shampoo.shampoo_types import AdamGraftingConfig
model = instantiate_model()
optimizer = DistributedShampoo(
model.parameters(),
lr=0.001,
betas=(0.9, 0.999),
epsilon=1e-12,
weight_decay=1e-05,
max_preconditioner_dim=8192,
precondition_frequency=100,
use_decoupled_weight_decay=False,
grafting_config=AdamGraftingConfig(
beta2=0.999,
epsilon=1e-08,
),
)
Больше примеров и исходный код – здесь👍72☃11❤6❤🔥1
А вот и скандал вокруг Anthropic
Подобное не обходит ни одну большую компанию или стартап. Речь об оказании услуг заказчикам из сферы обороны. Говорят, что Anthropic объединяется с Palantir и AWS и планирует "поставлять" минобороне США ИИ.
Вообще, они такие не одни. Не так давно Meta* объявила о том, что они тоже делают свои модели доступными "партнерам из минобороны", а у OpenAI в совете по безопасности и вовсе сидит отставной генерал разведки (при этом слухи о том, что стартап на короткой ноге с военными ходят уже год).
Так что на Anthropic все обозлились скорее не из-за факта сотрудничества, а просто потому что обычно компания продвигает alignment и всевозможный safe AI, а такое поведение заставляет думать, что стартап отказывается от своих ценностей
Подобное не обходит ни одну большую компанию или стартап. Речь об оказании услуг заказчикам из сферы обороны. Говорят, что Anthropic объединяется с Palantir и AWS и планирует "поставлять" минобороне США ИИ.
Вообще, они такие не одни. Не так давно Meta* объявила о том, что они тоже делают свои модели доступными "партнерам из минобороны", а у OpenAI в совете по безопасности и вовсе сидит отставной генерал разведки (при этом слухи о том, что стартап на короткой ноге с военными ходят уже год).
Так что на Anthropic все обозлились скорее не из-за факта сотрудничества, а просто потому что обычно компания продвигает alignment и всевозможный safe AI, а такое поведение заставляет думать, что стартап отказывается от своих ценностей
🕊58❤10👍7😐7😁6🤯4👏1🌚1
Сегодня все обсуждают систему подтверждения IT-квалификации на Госуслугах. Говорят, в 2025 году сервис хотят интегрировать с HeadHunter.
А пока суть да дело, пора начинать готовиться, сами понимаете. Так что мы сложа руки не сидели, заслали шпионов, взломали систему и выяснили, какие вопросы будут задавать ML-щикам и Data Scientist'ам.
Предупреждаем: это сложнее, чем получить PhD. Тренируйтесь🔼
А пока суть да дело, пора начинать готовиться, сами понимаете. Так что мы сложа руки не сидели, заслали шпионов, взломали систему и выяснили, какие вопросы будут задавать ML-щикам и Data Scientist'ам.
Предупреждаем: это сложнее, чем получить PhD. Тренируйтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁158🔥17👍10❤2🤯2🙈2
Forwarded from Data Secrets | Карьера
Подобрали небольшой список статей по синтезу данных
Почти все ведущие исследователи считают, что будущее моделей – за синтетическими данными. Сейчас это одна из самых горячих тем ресерча. Подобрали вам список важных и интересных статей, которые стоит почитать, чтобы оставаться в теме.
➡️ Self-Play Fine-Tuning: из слабой языковой модели в сильную. Авторы предлагают новый метод для файтюнинга - SPIN, в основе которого лежит механизм самовоспроизведения, идейно напоминающий GAN: разные экземпляры моделей борются друг с другом. При этом LLM учится генерировать не только ответы, но и собственные обучающие данные, которые в процессе сравнивает с аннотациями человека.
➡️ Статья, которая объясняет, как заставить LLM использовать весь контекст. Ученые предлагают метод обучения под названием IN2: в нем большие тексты (4к-32к токенов) разбиваются на чанки (128 токенов), среди которых модель должна найти ответ на некоторый поставленный вопрос. Получается что-то вроде распостраненной задачи поиска иголки в стоге сена, при этом модель привыкает принимать во внимание не только начало или конец текста, но и все детали, содержащиеся в середине.
➡️ WizardLM – модель, позволяющая генерировать датасеты для файнтюнинга лучше, чем ChatGPT. Датасеты с инструкциями, которые используются на этапе файнтюнинга, люди часто создают вручную, потому что качество таких данных особенно важно, и они должны отвечать многим критериям. Эта статья о том, как можно такой процесс автоматизировать. По словам авторов, WizardLM превосходит не только "человеческие" сценарии, но и с лихвой опережает ChatGPT, который чаще всего используют для таких задач.
Почти все ведущие исследователи считают, что будущее моделей – за синтетическими данными. Сейчас это одна из самых горячих тем ресерча. Подобрали вам список важных и интересных статей, которые стоит почитать, чтобы оставаться в теме.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍10🔥9
Вот вам забавный график с утра: тут желтой линией обозначена динамика роста акций Nvidia, а голубой – биткоин
Think about it💸
Think about it
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
CEO Perplexity Аравинд Сринивас поделился свежей статистикой стартапа
За две недели количество поисковых запросов выросло вдвое. Так что для тех, кто еще не попробовал сервис, прикрепляем гайд, как настроить поисковик по умолчанию в Chrome.
Кстати, это не все интересные новости: Perplexity AI находится на заключительной стадии переговоров о привлечении $500 млн с оценкой в $9 млрд.
За две недели количество поисковых запросов выросло вдвое. Так что для тех, кто еще не попробовал сервис, прикрепляем гайд, как настроить поисковик по умолчанию в Chrome.
Кстати, это не все интересные новости: Perplexity AI находится на заключительной стадии переговоров о привлечении $500 млн с оценкой в $9 млрд.
🔥40👍16❤6
Amazon готовы инвестировать в Anthropic, но есть нюанс
Гигант настаивает, что если он станет инвестировать в стартап, тот обязан использовать строго видеокарты Amazon silicon и учить модели на Amazon Web Services.
Известно, что в Anthropic предпочитают nvidia (как и везде). Но деньги могут оказаться слишком хорошими, чтобы от них отказываться. В 2024 компания, по предварительным оценкам, потратит $2.7 млрд на обучение своих моделей, поэтому стартап активно ищет финансирование.
Гигант настаивает, что если он станет инвестировать в стартап, тот обязан использовать строго видеокарты Amazon silicon и учить модели на Amazon Web Services.
Известно, что в Anthropic предпочитают nvidia (как и везде). Но деньги могут оказаться слишком хорошими, чтобы от них отказываться. В 2024 компания, по предварительным оценкам, потратит $2.7 млрд на обучение своих моделей, поэтому стартап активно ищет финансирование.
👍32😁13❤6🔥5
LoRA vs Full Fine-tuning: действительно ли они дают один и тот же результат?
LoRA часто используется как эффективный аналог полного файнтюнинга. В то время как файнтюнинг – это дообучение полной матрицы весов предобученной модели на новом наборе данных, в LoRA мы раскладываем весовые матрицы (некоторые или все) исходной сети на матрицы более низкого ранга и дообучаем именно их.
Но действительно ли два этих метода эквивалентны? На архиве вышла новая громкая интересная статья, в которой исследователи пытаются ответить на этот вопрос, сравнивая матрицы весов и перформанс полученных обоими способами моделей.
В итоге ресерчеры обнаружили интересную вещь: после LoRA в матрицах весов появляются абсолютно новые сингулярные векторы, которые никогда не возникают во время ванильного файнтюнинга. Эти векторы почти ортогональны исходным. На практике это значит, что модель рискует потерять обобщающую способность и вообще стать неустойчивой к Continual Learning.
При этом чем выше ранг LoRA, тем меньше таких векторов (логично, потому что тем ближе метод к обычному файнтюнингу). Напротив, чем меньше ранг и чем дольше модель учится, тем таких векторов больше. С ReLoRA, кстати, за счет стабилизации, дела обстоят чуть лучше. Но есть и хорошие новости: ученые обнаружили, что от неприятного влияния сингулярных векторов можно избавиться, если увеличить размер датасета или подбирать scaling. Другими словами, пользоваться LoRA все-таки нестрашно, если внимательно следить за переобучением и гиперпараметрами.
Статья полностью – здесь
LoRA часто используется как эффективный аналог полного файнтюнинга. В то время как файнтюнинг – это дообучение полной матрицы весов предобученной модели на новом наборе данных, в LoRA мы раскладываем весовые матрицы (некоторые или все) исходной сети на матрицы более низкого ранга и дообучаем именно их.
Но действительно ли два этих метода эквивалентны? На архиве вышла новая громкая интересная статья, в которой исследователи пытаются ответить на этот вопрос, сравнивая матрицы весов и перформанс полученных обоими способами моделей.
В итоге ресерчеры обнаружили интересную вещь: после LoRA в матрицах весов появляются абсолютно новые сингулярные векторы, которые никогда не возникают во время ванильного файнтюнинга. Эти векторы почти ортогональны исходным. На практике это значит, что модель рискует потерять обобщающую способность и вообще стать неустойчивой к Continual Learning.
При этом чем выше ранг LoRA, тем меньше таких векторов (логично, потому что тем ближе метод к обычному файнтюнингу). Напротив, чем меньше ранг и чем дольше модель учится, тем таких векторов больше. С ReLoRA, кстати, за счет стабилизации, дела обстоят чуть лучше. Но есть и хорошие новости: ученые обнаружили, что от неприятного влияния сингулярных векторов можно избавиться, если увеличить размер датасета или подбирать scaling. Другими словами, пользоваться LoRA все-таки нестрашно, если внимательно следить за переобучением и гиперпараметрами.
Статья полностью – здесь
👍44🔥12❤8🤨5