Dealer.AI
14.8K subscribers
688 photos
46 videos
17 files
724 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Схема простой RAG-Log detection системы.
👍4
Forwarded from Knowledge Accumulator
LlamaRec: Two-Stage Recommendation using Large Language Models for Ranking [2023] - о том, как рекомендации превратили в ЕГЭ

Итак, какой пайплайн применения LLM для ранжирования придумали товарищи из NVIDIA:

1) Кандидатогенерация без LLM - сначала рекуррентная модель под названием LRURec кушает историю пользователя и в конце выдаёт распределение на следующий документ, из которого берётся топ-20. Обучается такая модель просто с помощью next item prediction.

2) На последней стадии работает уже языковая модель в формате теста.
В качестве промпта в модель подают список названий документов, с которыми взаимодействовал пользователь. Далее модель просят предсказать наилучший следующий документ.

Мы бы хотели получать от модели распределение на следующий документ, чтобы по нему можно было отсортировать выдачу, а также иметь возможность файнтюнить LLM, максимизируя вероятность верного айтема. Чтобы этого добиться, авторы кодируют каждый возможный айтем одной буквой. Таким образом, от модели требуется написать только 1 токен в качестве ответа, на вероятности которого мы и будем смотреть.

Имеет ли смысл применять такой подход в реальной рекомендательной системе? Давайте посмотрим, чем отличается данная нейросеть от того, что мы используем у нас. Если в нашем рекомендательном трансформере вместо мешка токенов будем брать их последовательность, и склеим все эти последовательности из истории в одну, мы получим такой же формат входа, как у LlamaRec. При этом сам трансформер от LLM на порядок больше, чем тот, что мы используем у нас.

Таким образом, подобная модель стала бы неподъёмной для использования на том же размере пользовательской истории, и её пришлось бы применять на очень короткой истории. Дало ли бы это значимый ортогональный сигнал засчёт претрейна на данных из интернета? Не знаю, на мой взгляд проект выглядит слишком дорого и есть много более низковисящих фруктов.

@knowledge_accumulator
👍5
CoolGraph - для тех кто хочет лайтово отработать гипотезы по GraphNN.

Далее от разработчиков:

"Друзья, мы решили тоже попробовать в опенсорс по графам.
Библиотек сейчас много, обычно они поверх PyG или Torch Spatiotemporal.
Часто они заточены под конкретные задачи и требуют хорошей теоретической базы.
Мы же заметили что DS обычно (вряд ли в правда именно в этой группе) неохотно пробуют графовые сетки, не зная с чего начать.
Поэтому, чтобы снизить порог входа и, например, быстро проверить — дадут ли графовые данные прибавку именно в вашей задаче (например, если нужно принять решение о закупке) мы собрали из наших наработок небольшую библиотеку.

Что там есть?

Пара слоев с парой типов графовых сверток (с фичами ребер и без), optuna для подбора архитектуры, функций активации и параметров, mlflow опционально для трекинга экспериментов + небольшие плюшки типа автоподбор размера батча.

Реально не замахиваемся на великое и вечное, просто инструмент для быстрого старта. Если найдете время попробовать — будем очень признательны за фидбек и обязательно отработаем. Если поправите ошибок — будем долго вспоминать добрыми словами, поставите звезду — выпьем за ваше здоровье.

Если просто возникнет желание потроллить / набросить — тоже велкам в лс."

from @NikitaZelinskiy

Ссылка:

https://github.com/MobileTeleSystems/CoolGraph
👍143
Forwarded from Гусь
Твитерский попросил нейросеть сгенерировать айтишника.

На каждом этапе он просил ее сделать айтишника ЕЩЕ БОГАЧЕ.
16😁8🔥5😱1
Одним Оленем больше: Poro new Finland vodka LLM.

Говорят, Финно-Угры и Норды завезли LLMку в купе с English.

Самое интересное, что без NVIDIA и СМС. Чисто на AMD GPU 🤙

Прикинь, шкет! Оно работает! 😜

https://xn--r1a.website/gonzo_ML/2084
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5👍4🤔2
Жиза👇
Rlhf на котах- издать настолько противный звук чтобы хозяин точно пошел смотреть что происходит
🔥11👍1
Forwarded from AI[ex]Time (Александр Голубев)
Вышел мой обзор про LLM агентов на хабре🕺

Скорость появления новых работ и подходов в этом направлении сейчас настолько большая, что тяжело оставаться в курсе, даже работая в сфере DL/NLP. Поэтому постарался описать прогресс относительно небольшой статьей и проиллюстрировать работами, вышедшими за последний год. Также хотелось сделать это не сильно техническим языком, чтобы было понятно максимальному числу людей не из машинного обучения. Так что если вы не связаны напрямую с ML, то не бойтесь, возможно будут непонятны какие-то части, но их можно пропустить (или спросить в комментариях)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍122🔥2😁1
This media is not supported in your browser
VIEW IN TELEGRAM
Когда очередная corporation заононсила свою супер-мега-гига-лонг LLM.

В ролях:

- Глава маркетинга в белом, радостный за годовые бюджеты на рекламу.
- Не менее радостные челы , что делали research и pretrain, у которых неожиданно получилось.
- Коммитивший за их успех тех-лид в красном предвкушает грейдап.
- Грустный СЕО, который осознаёт, что их фин.модель из-за потраченного компьюта при его жизни не выйдет в 0.
(в конце крупным планом)
🤩22💯9👍2
Forwarded from Жёлтый AI
This media is not supported in your browser
VIEW IN TELEGRAM
Мы все осуждаем RL, но хочется спросить, кто сделал 1 ТРИЛЛИОН ДЕЙСТВИЙ ЗА ДВА ДНЯ?

Их сделали мы и зарелизили XLand-MiniGrid – наша новая среда для Meta-RL на Jax.

Здесь вы найдете:
🚀 2^13 параллельных сред на одной GPU, миллионы фреймов в секунду
🔞️️️️️️ Поддержка multi-GPU из коробки
🌿️️️️️️ Реализация рекурентного PPO

А самое главное – XLand-MiniGrid создан с прицелом на Meta Learning. В среде можно легко менять динамику и цели между эпизодами. Теперь каждый может вкатиться в мир роскоши и large scale RL даже в Colab.

Подробнее можно почитать в Twitter треде. А в остальном, как всегда, с вас звездочки на гитхабе, а с нас хорошее настроение 🎩
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯15🔥73😁1
Lost in the middle или найди меня через промт, если сможешь.

Крч шкет, помнишь уже было раньше, когда идешь ты такой по sequence в LSTM/GRU и инфа затухает в middle hidden states? Нет? Ну ты ещё молодой, садись расскажу.

Вот я помню. И решалось это так: делали чисто bidirectional проходом и навалом сверху attention. Но в отличии от LSTM, которое училось так e2e, с LLM такое дело позволить себе больно, да и casual masking для next token prediction влезает.

Поэтому дяди придумали снова давать чаевые писать в промт специально акцентуализированные вставки. Мол чел обрати внимание тут над бы не забыть эту инфу.

Вобщем, всё как с тобой шкет, когда препод по матану на лекции говорит: "а вот за это я буду карать на сессии". Правда у тебя кожанного мешка это мимо пролетает и на сессии ты наказан, а LLM это нихило так докидывает, с 27% аж до 98% метрики качества.

Учись, крч.

Мне же интересно:

1. Есть ли механизмы на уровне архитектуры, а не промт тюна? Ну там префикс-токены хитрым натыкать образом и их тюн и тп.

2. Можно ли делать за счёт внешней модели squad выбор отрезка акцентуации в тексте?
👍14🤔2🔥1
Как выглядит Жоский ИИ Дядя в отпуске.

P. S. Кто узнал схему на мониторе, пишем в комментариях.

Украл тут👇
https://xn--r1a.website/nlp_daily
😁201