что-то на DL-ском

Forwarded from Градиентное погружение (cene655)

💃Уже скоро будет релиз модели Kandinsky 2.1!
Мы в Sber AI скоро представим новую диффузионную модель, которая генерирует картинки.
Что она может:
1) Генерировать картинки по тексту🤔
2) Смешивать картинки⌛️
3) Смешивать картинки и тексты🃏
Ждите релиз на следующей неделе, будет полный опенсурс всех весов и кода обучения)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍2

687 views20:36

что-то на DL-ском

Пик умных мыслей сегодняшнего дня:

Хорошего проггера определяет не список его знаний, а умение гуглить, читать ошибки и смотреть внимательно, тыкая все, ауф🐺

🙏8❤3

1.05K views12:09

что-то на DL-ском

Как вообще люди ведут каналы в тг/на YouTube только для вкатывальщиков в ML. Получается ты развиваясь, как специалист, все равно должен рассказывать про супер-изевые вещи. Какой-то самый сложный жанр контента🤔

Please open Telegram to view this post

VIEW IN TELEGRAM

1K views10:45

что-то на DL-ском

Forwarded from еба́ные идеи для резерча

Обучать модели, которые со временем забывают, чему их научили

972 views11:12

что-то на DL-ском

Сбой ChatGPT ощущается опасным для психического состояния человечества.

Сбой инсты или вк на ее фоне шутка какая-то...

😁9😱2

5.05K views19:55

что-то на DL-ском

Кажется из-за хайпа ИИ сейчас, ты можешь навешать на уши людям любую лапшу, добавив, что-то про ИИ. И они тебе радостные поверят🙂

Please open Telegram to view this post

VIEW IN TELEGRAM

🥰7😁2🤡1

1K views21:30

что-то на DL-ском

Короче, я наконец добралась до этой статьи, дабы понять за счет чего child-tuning дает прирост скора на реальных экспериментах 🤔

Рассказываю: чем больше модель, тем очевидно дает лучшие результаты ее промтинг. Она тупо много знает и выигрывает за счет этого. Авторы статьи задаются вопросом, почему именно за счет vanilla fine-tuning живет NLP, и можно ли дообучать ее «умнее», то есть тратя меньше ресурсов, но добиваясь результатов не хуже 🤔

Начало их экспериментов положили следующее наблюдение прошлых лет: если на обучении использовалась некая умная регуляризация (L2, mixout), которая штрафует за удаление градиентов ft модели относительно pretrained версии, то такой подход оказывается эффективнее

Получается следующее: можно выделить некую дочернюю модель, в которой backprop будет проходить лишь по части параметров. Но за счет того, что мы оставим только «важные» градиенты, мы добьемся результатов не хуже, чем обучая жирную модельку

Звучит многообещающе, но возникает логичный вопрос: каким способом выделять градиенты. И тут на помощь приходят 2 подхода child- tuning f и child-tuning d

Child-tuning f: с помощью распределения Бернулли определяется маска градиентов, где 0 – градиент меньше вероятности, заданной гиперпараметром, а 1 – больше.

Child-tuning d: с помощью критерия Фишера определяется ковариация градиента log likelihood относительно параметров

По традиции апгрейд скора метода во вложениях ☺️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2

5.39K views16:57

что-то на DL-ском

Да нет, я не душная

Также я, которая довела чатгпт до базовой реплики, консультируясь изначально по коду:

🤡7🖕3👍2❤1

1.17K views08:19

что-то на DL-ском

Forwarded from Love. Death. Transformers.

Я завел свой телеграм канал про datascience starter pack 2023

🔥1

846 views17:59

что-то на DL-ском

Хотела эпично вернуться спустя месяц депрессии в 0 лет со статьей на Хабр расширенной от этого обзора, который писала в btc , но она не прошла модерацию. Плак🥲. В связи с этим есть ли у кого-нибудь приглашение на Хабр или идеи почему обзор мог не пройти модерацию?))

А еще ставьте реакции, и ждите обзор на LoRa в ближайшее время!!

Please open Telegram to view this post

VIEW IN TELEGRAM

better data community

Сообщество фанатов градиентов

@maxalekv

Хочешь задать вопрос? Зайди на nometa.xyz и задавай сразу.

❤6👍1

867 viewsedited 10:41

что-то на DL-ском

Forwarded from что-то на DL-ском

Обзор на ту самую LLaMA и на ее fine-tune-ы: Alpaca, Vicuna, gpt4all

🤩

После того, как как все поныли, что OpenAI так и не раскрыли подробности апгрейда GPT-4, выпущенной в марте, внимание многих обратилось на LLaMA, выпущенную на несколько недель раньше, и которую Meta AI реально сделали Open and Efficient Foundation Language Model.

Хотелось бы отдельно выделить очень крутой вывод от прошлых работ сообщества, которым руководствовались авторы: если раньше все гнались за количеством параметров модели, в работах Scaling Laws for Neural Language Models опять же от OpenAI были найдены неожиданные свойства. При увеличении количества данных, возникает прирост качества. Именно этот фактор позволил LLaMA-13B аутперформить GPT-3, несмотря на размер в 10!! Раз меньше

В статье ребята дают подробный рецепт сотворения модельки. Вот он:

👨‍🍳 Подготавливаем данные в размере 1.4T токенов:
1. English CommonCrawl – составляющее 67% данных. с использованием CCNet pipeline для удаления дубликатов, фильтрации неанглоязычного и низкокачественного контента, а также отбрасыванием страниц, не относящиеся к ссылкам в Википедии.
2. 15 % C4.
3. 4.5 % Git c вычещением низкокачетсвенных реп и удалением шаблонов с помощью регулярных выражений
4. 4.5% Wikipedia с удалением гиперссылок, комментариев и других элементов форматирования
5. 4.5% датасетов книг с удалением дубликатов
6. 2.5% ArXiv
7. 2% Stack Exchange – сайт вопросов и ответов высокого качества, охватывающий различные области знаний, от компьютерных наук до химии. С удалением HTML тегов и фильтрацией по рейтингу
👨‍🍳Потом обучаем BPE токенайзер с использованием реализации из библиотеки SentencePiece. Для токенизации числа разбиваются на отдельные цифры, а не обрабатываются как единое целое, а для декомпозиции неизвестных символов UTF-8 используются байты.
(при чем все данные прогоняются одну эпоху за исключением книг и википедии, там две)

Итак, за основу берется архитектура трансформера, но вот те самые уникальные ингридиенты успешной модели:
🎹Авторы нормализовали с RMSNorm входные данные для каждого подуровня трансформера. Подход заключается в делении каждого элемента входного вектора на квадратный корень из суммы квадратов всех элементов входного вектора.
🎹Заменили ReLU на SwiGLU
🎹Использовали Rotary positional embeddings. Этот метод заключается в добавлении дополнительных векторов с фиксированными значениями в векторное представление каждого элемента последовательности. Эти векторы имеют свойство поворота, что позволяет модели учитывать не только абсолютную позицию элементов, но и относительное положение друг к другу.
🎹В качесвте оптимайзера взяле AdamW с бетами 0.9 и 0.95.
🎹Добавляли штраф в функцию потерь сети, который пропорционален квадрату весовых коэффициентов каждого слоя сети с Weight decay в размере 0.1
🎹Добавляли gradient clipping – 1.0
🎹Использовали подход для эффективного multi-head attention, в котором мы разбиваем входную последовательность на блоки фиксированной длины и применяем механизм внимания только внутри каждого блока
🎹Для улучшения эффективности обучения уменьшается количество активаций, которые пересчитываются во время backward pass-а, для этого авторы реализуют обратную функцию для слоев трансформера вручную

Ну а теперь немного о ft этой прекрасной модели
Alpaca – подход от ребят из Стенфорда. Находчивые люди нагенерировали дополнительного датасета для обучения с помощью ChatGPT, что позволило обучить ее на запросы в стиле instruct. Круто? круто

gpt4all – невероятный подход!!! если в Alpaca было всего 54k затравок, то тут уже целых 437k

Ну и на закуску StableVicuna – все пытаются улучшить данные для обучения, и сделать их объем все больше. В связи с этим Stability AI предоставляют ft на их датасете, созданном на основе The Pile ,который содержит 1.5T токенов и является обширным датасетом под множество задач NLP

Ну и в за табличками апгрейда скора можно сходить поглазеть в саму статью, потому что в одно сообщение уже не помещается👏

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - tatsu-lab/stanford_alpaca: Code and documentation to train Stanford's Alpaca models, and generate the data.

Code and documentation to train Stanford's Alpaca models, and generate the data. - tatsu-lab/stanford_alpaca

🔥6👍4❤1

6.36K views10:41

что-то на DL-ском

Гугл представили PaLM 2. И более того встроили ее во все свои сервисы, включая поисковик, таблицы и тд. PaLM 2 будет доступен в четырех размерах с именами, вдохновленными животными опять (Gecko, Otter, Bison и Unicorn).

В частности, Gecko может обрабатывать 20 токенов в секунду и был протестирован на последних телефонах, хотя Google не уточнил, какие именно устройства.

Выглядит впечатляюще. ~~Но никакой папирки пока нет~~ upd – PaLM 2 Technical Report

😢2❤1👍1

817 viewsedited 17:52

что-то на DL-ском

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Transformers Agent

В только вышедшей версии transformers (4.29.0) добавили новый способ вызова моделей — через запрос на естественном языке.

🔸 Для выполнения задачи нужно создать агента, который сам решит какую из моделей нужно вызвать в данный момент. Например,

agent.run("Caption the following image", image=image)

или

agent.run("Read the following text out loud", text=text)

🔸 Работать можно в режиме одного независимого вызова (метод run()), или в режиме чата (chat()), чтобы иметь контекст.

🔸 Можно создать агента OpenAiAgent или HfAgent, первый пойдет в API OpenAI с вашим токеном, последний — на API Huggingface, которое пока что бесплатное. Модель нужна для того, чтобы выбрать один из инструментов (tool) для выполнения самой задачи.

🔸 Инструментов (это просто упрощенный вызов какой-то модели), встроенных в transformers, пока что 10 (ответы на вопросы, озвучка, рисование картинок, перевод и т.д.), список будет расширяться.

По-моему, классная вещь получается. Можно попробовать в Colab'е.

👉 Colab | Документация

👍13🔥3❤2

855 views18:33

что-то на DL-ском

#ПолезныеСсылочки

На просторах интернетика, а конкретнее всеми любимого HuggingFace🤗 появился Leaderboard моделей с открытым исходным кодом.

Измеряли на 4 бенчмарках. Так что, если у кого-то будут сомнения, что брать на ft. Вот вам полезная ссылочка🤪:

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤‍🔥1🥴1

1.21K viewsedited 19:32

About

Blog

Apps

Platform