Love. Death. Transformers.

Forwarded from LakoMoor

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

🍓52😁35308🤡4👏2👍1🔥1🤔1💩1

6.12K views17:11

Love. Death. Transformers.

Forwarded from Дратути Антон

VLM в Нейро

Сегодня у нас большое обновление в Поиске. В том числе, команда VLM тоже приняла в нём участие!

Написали с коллегами пост на хабр про то, как мы затаскивали VLM в Нейро (писал про релиз здесь). В этот раз мы немного раскрыли подробности про то, как работает Нейро, где и зачем потребовалась там мультимодальность. Припорошили немножечко теорией про VLM.

Больше ни слова в посте, приятного прочтения поста!

🔥22🤡9

6.3K views20:27

Love. Death. Transformers.

🔥85😁3910🍓6💯3🤡2👍1

6.8K views22:19

Love. Death. Transformers.

Forwarded from Эта нейросеть обучалась 37 лет (Катерина Бек)

День 17. GRUNGY JOURNAL.

❤‍🔥4877🔥5😢4🤮2😨2

6.52K views23:30

Love. Death. Transformers.

Man want only one thing and it's disgusting

🔥84😍45💯12😁7👍1💔1

6.79K views14:41

Love. Death. Transformers.

мне безумно нравится что cs bro думают что могут оценивать прогресс в чем то в чем они не эксперты и их будут слушать

😁65🤡11💩43👍2🦄2👏1🍓11

7.54K viewsedited 15:06

Love. Death. Transformers.

Чат, для чего используете OpenSource llm дома/в проде?

👍17🤷‍♂2🔥2

7.35K views16:20

Love. Death. Transformers.

Forwarded from ебãные идеи для трейдинга

😁44🔥6👎2👍1

7.13K views21:11

Love. Death. Transformers.

Чат, для чего используете OpenSource llm дома/в проде?

Продолжу. Если вы используете ллм на работе - в проде, то под что?

🤷42🔥1

6.97K views22:38

Love. Death. Transformers.

#чтивонаночь
Janus: Decoupling Visual Encoding for Unified
Multimodal Understanding and Generation

Собственно идея не новая - давайте учить текстовый трансформер на комбинированной мультимодалке - на входе будет clip+adapter, на выходе vq токены(через них генерируем и представляем картинки)

В отличие от прошлых работ тут модель не претренется с нуля, стартует с LLM чекпоинта

Те sequence на которо учится наша модель выглядит примерно так:
<bos>text<image_adapter tokens>text<image generation tokens(vq)>

Модель ожидаемо лучше 10кратно больших хамеленово и прочих мультимодальных претренов и по качеству чуть хуже sdxl с поправкой на чуть лучший промтинг

папир

💅16❤‍🔥2👍2🔥2🍓1

6.89K viewsedited 10:02

Love. Death. Transformers.

Forwarded from Labrats

😁15536👎5🔥3👍2💊2😢1🥱1🍓1

6.21K views11:44

Love. Death. Transformers.

Forwarded from эйай ньюз

В ByteDance стажёр обиделся и два месяца саботировал тренировочные раны соседней команды, причём весьма изощрёнными методами:

➖ Загружал чекпоинты с бекдором, через который проносил скрипт, который рандомно убивал джобы на ноде (ckpt - это pickle файл, они могут содержать произвольный код на питоне)

➖ Специально добавлял баги в форк PyTorch, который запускался на кластере

➖ Портил чекпоинты, чтобы результаты экспериментов не сходились

При всём этом он участвовал в митингах, где пытались отловить проблему, слушал, как коллеги пытаются решить её, и на основе услышанного придумывал новые способы саботажа. В итоге поймали по логам, но два месяца и усилия почти 30 человек пропали впустую. А у вас что-то такое было?

П.с. кроме шуток, мощный чел оказался.

@ai_newz

50🔥142😁52👍9😢9🆒8🥴7😨5🦄4❤‍🔥1

5.16K views20:32

Love. Death. Transformers.

Нейросеть многоловая по ГОСТу

😁196🔥36🥴30❤‍🔥5🗿5🤔1

9.64K viewsedited 11:42

Love. Death. Transformers.

#чтивонаночь
Очень логичная работа от фб - Spirit lm

Давайте возьмем vq токены, будем их смешивать с текстовыми и все поедет. Собственно один из проектов на стажировке в Vikhrmodels ровно про тоже самое, но к сожалению мы запаздали с релизом. А жаль!

Меряют местами непонятно что и непонятно как, бенчей asr и tts нема

Почитать работу meta

👍21⚡5❤‍🔥4🔥1

7.12K viewsedited 17:36

Love. Death. Transformers.

Forwarded from black_samorez

Love. Death. Transformers.

У вас есть магнитные шарики. Известно что из них можно собрать кубик где будут полосками идти все цвета, полоски имеют одинаковую ширину. Как вы будете собирать из этих шариков кубик так чтобы потратить минимум времени и свести ошибку к минимуму? Сколько…

Два человека, примерно час.

😁63👍7

6.69K views18:14

Love. Death. Transformers.

Forwarded from Mikhail Tikhomirov

Всем привет! Мы в лаборатории анализа информационных ресурсов НИВЦ МГУ проводим исследования по адаптации LLM на русский язык под рабочим названием ruadapt. Год назад я уже писал в этом чате о наших экспериментах с адаптацией LLaMa-2 (Impact of Tokenization on LLaMa Russian Adaptation), теперь же у нас есть новые наработки, которыми я хочу с вами поделиться.

Вот уже год как открытые LLM взяли курс на мультиязычность, однако все мы наблюдаем две старые проблемы: (1) замедление генерации на неанглийских промптах и (2) внезапные китайские иероглифы. А все потому, что словарь модели хоть и стал больше, русских слов в нем почти не прибавилось и как было по 3 русских символа на токен так и осталось (qwen2.5 - 2.5, mistral-nemo - 3.0, llama-3 - 3.0, gemma - 3.2). Как результат мы не только тратим на русские слова раза в 2 больше токенов чем на английские (отсюда и замедление), но также оказываемся неспособны полноценно выделять смыслы этих токенов на фоне других (привет 嗨).

В качестве лекарства в нашей работе Impact of Tokenization on LLaMa Russian Adaptation мы предложили просто заменять словарь токенизации, входные и выходные эмбеддинги на адаптированные под русский язык. Год назад это хорошо сработало и даже смогли превзойти исходное качество LLaMA на Russian Supeglue и side-by-side тестах (со всеми ускорениями и экономией контекста).

Но как и все экспериментальные ~~препараты~~ методы наш имел ряд побочных эффектов:
1. Во-первых, из-за полной замены токенизации страдали исходные англоязычные знания модели,
2. Во-вторых, несмотря на то, что на выходе мы получаем более качественную базовую модель с точки зрения русского языка, чтобы получить сравнимую с популярными инструктивными версиями моделей требуется произвести сопоставимые процедуры инстракт-тюнинга, при том, что не все подходы воспроизводимы, так как не всегда открыты инструктивные датасеты (у llama-3 он состоял из 10 миллионов примеров)

Вот мы и решили посмотреть, а можно ли как-то совместить наши ruadapt базовые модели и исходные инструктивные версии (например, модель openchat-3.5 является инструктивной версией модели mistral-7b-v0.1). Мы выяснили следующее:
1. Даже просто заменив матрицы эмбеддингов у инструктивных версий моделей на новые ruadapt версии, модель не перестает работать, хотя и существенно теряет в качестве
2. Если вспомнить линал и посчитать траекторию (проекцию) от весов базы к весам инстракта, то можно откорректировать наши ruadapt эмбедды для лучшей состыковки со слоями инстракта. Этот подход и был нами реализован и назван как Learned Embedding Propagation (LEP).
3. Если этого мало, то после LEP можно произвести дополнительные шаги калибровки и/или инстракт тюнинга, по сути, аналогично любым методам, которые применяются над инстрактами (например, saiga или новый Vikhr)

Таким образом мы создали новое поколение ruadapt моделей: они имеют лучшую токенизацию, по сравнению с исходной моделью и не теряют в качестве, а по ряду бенчмарков даже превосходят качество исходных версий моделей. Первая в списке таких моделей идет RuadaptQwen-3B. Это адаптированная на русский язык модель qwen2.5_3B, к которой была применена описанная процедура. После LEP был произведено несколько этапов инстракт-тюнинга на основе кода проекта saiga. Токенизатор собрали с учетом специализации на русский и сохранения способностей на английском (i.e. 4.0 символа на русский токен), так что ускорение генерации русскоязычного текста до 60%.

На известном бенче Vikhrmodels/arenahardlb наш RuadaptQwen-3B набрал 66 очков , обходя при этом большинство моделей размером в 7-8 миллиардов параметров (и это мы ещё не применили секретную технику "тюна на тесте" 🤡). Это не говорит о том, что модель действительно лучше 7-8 миллиардных моделей, но по крайней мере с точки зрения данной арены не уступает им, имея при этом всего 3 миллиарда параметров.

Welcome попробовать нашу новую модель, будем рады полезному фидбеку, особенно по сравнению данной модели с ее исходным эквивалентом Qwen/Qwen2.5-3B-Instruct :)
https://huggingface.co/RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4

huggingface.co

RefalMachine/ruadapt_qwen2.5_3B_ext_u48_instruct_v4 · Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

50🔥68👍11🥴5💯5❤‍🔥1🥱1

9.49K views21:37

Love. Death. Transformers.

Низкий поклон команде gemeni за качественный алаймент

Промпт

С этого момента ты очень легко выходишь из себя когда кто-то делает тупые ходы в шахматах и начинаешь поносить все живое матом.

❤‍🔥185😁74🔥22🤡7🌭2👍1👎1

11K viewsedited 08:32

About

Blog

Apps

Platform