Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Увеличение производительности чат-бота с 27% до 98% с помощью одной фразы

Таких результатов добились Anthropic со своим Claude 2.1. Они заметили, что в условиях, когда пользователь подает на вход большой контекст (~200К токенов) чат-бот начинает отвечать неохотно, хотя способен на качественный выхлоп.

Решилась проблема добавлением всего одного предложения в начало ответа бота: "Here is the most relevant sentence in the context:". Так модель сначала фокусируется на поиске релевантных предложений в контексте, что затем помогает ей ответить точнее.

Ох уж этот промпт-инжинеринг

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🔥10🤓752
Почему не надо бояться восстания машин?

Авито помог провести мастер-класс по этике искусственного интеллекта для студентов «НЕЙМАРК.Школы цифровой этики» в нижегородском IT-кампусе. Вместе с руководителем департамента правового сопровождения продуктов, технологий и данных Авито Татьяной Войтас ребята не только изучили основы этики, но и проработали проблемные области, которые могут возникнуть у людей при использовании интеллектуальных голосовых помощников. Студенты отметили важность конфиденциальности данных, которые сообщает человек, необходимости разрабатывать речевые ML-модели с учетом разных акцентов или дефектов речи.

Вопросы этики – одни из важнейших в отрасли искусственного интеллекта. Они не статичны – вместе со стремительным развитием технологий постоянного обновления требуют и этические нормы. Крупные компании понимают проблематику этики ИИ и делятся своим опытом с будущими айтишниками. Как раз это и позволяет не бояться, что какой-нибудь киношный фантастический сценарий вдруг воплотится в реальности, и ИИ поработит мир.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100🤓13🔥11🤔4🌭1
Media is too big
VIEW IN TELEGRAM
Демо-видео с возможностями Gemini оказалось смонтированным

Это значит, что оно ускорено и обрезано, и не показывает реальных возможностей модели. Компания признала это, но оправдалась тем, что сделано это было для краткости, и чтобы вдохновить разработчиков.

Наши инсайдеры нашли бэкстейдж того, как Гугл снимал свое демо 👆

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
😁46👍14🔥82🤯2🌚2
Больше не словно птица в небесах – ЕС согласовал новый радикальный законопроект про регулирование ИИ

Он будет действовать в 27 странах и коснется даже гигантов вроде Google, Microsoft и OpenAI. Все компании, занимающиеся ИИ, должны будут раскрывать, как работают модели под капотом, маркировать генерации и прочее. Кара за нарушение предусмотрена: до 7% от глобального оборота. Правда, многие аспекты закона заработают лишь через 12-24 мес – это огромный срок для развития ИИ.

А это точно спасет нас от восстания машин?

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓25👍10🔥9😁6🤔42🗿2
Windows 12 будет построена на базе искусственного интеллекта

Так, гендир Microsoft Сатья Наделла заявил, что Windows Copilot AI, по сути, станет заменой кнопки «Пуск». Microsoft Copilot, который на днях стал общедоступным, будет «рулить» всеми взаимодействиями с операционкой.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41🫡17🤯7🕊6😐5😨3
Историческая новость – вышла новая опенсурсная LLM Mistral

 Вышла в трех вариантах: mistral-tiny, mistral-small, mistral-medium
– Качество >= LLama2, GPT 3.5. При этом на инференсе в 6 раз быстрее Ламы.
– Бесплатная и открытая
– Умеет на английском, французском, итальянском, немецком и испанском
– Контекст - 32К токенов
– Уже добавили в HuggingFace:
model = AutoModelForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1")
Юзер-гайды | Блогпост | Регистрация для раннего доступа

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥148🤔1
Новая LLM Mixtral-8x-7B произвела фурор и ввела в моду Mixture of Expert

Эта архитектура отличается тем, что использует нескольких "экспертов" (каждый из которых представляет из себя нейросеть) для решения разных задач. От ансамблей она отличается тем, что эксперты не объединяются, то есть в решении участвует только один.

Какой токен какому эксперту отправить решает так называемый роутер – это тоже обучаемая сеть. В общем, вот вам список литературы, который поможет быстро разобраться (и не отстать от тренда):

❤️Отличный разбор на HuggingFace
❤️Ёмкий видео-разбор архитектуры от Trelis Research
❤️Первая статья по применению MoE в NLP (в авторах Джефф Дин и Джеффри Хинтон)
❤️Про MoE для LLM

Кстати, по слухам, GPT-4 тоже представляет из себя MoE.

😻 #advice #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35😁1
Ох уж этот конец года: даже у GPT-4 падает продуктивность

Выяснилось, что если модель думает, что сейчас май, то отвечает в среднем подробнее, чем «в декабре». Статистическая значимость на месте: t-test p < 2.28e-07. Среди экспертов уже родилось предположение, что в ходе обучения модель учла тот факт, что люди перед празниками ленятся и пишут тексты меньшего объема 🎄

Эксперимент проводился с помощью изменения параметра current date. Опыт, кстати, можно воспроизвести: вот код.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40😁207🤯4🔥2
Это что, 5 пальцев на руках?

У Google DeepMind вышла новая text-to-image модель: диффузионка Imagen2. Доступно пока только через API на Vertex AI. Пообещали фотореалистичность, лучшую чувствительность к промптам и высокое качество изображений.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
20👍14🔥5🫡1
Сейчас идет одна из крупнейших конференций по ML – NeurlIPS 2023

Каждый год на ней награждают победителей в разных номинациях. В этом году самые интересные – "Две самые выдающиеся статьи" и "Test of Time Award" (за актуальность сквозь время).

Награда "выдающаяся статья" досталась "Privacy Auditing with One (1) Training Run" by Thomas Steinke et al. и "Are Emergent Abilities of Large Language Models a Mirage?" by Rylan Schaeffer et al. Это статья про обобщающую способность LLM, своеобразное разоблачение того, что мы называем emergent abilities (отвечает тренду alignment'а).

А вот с Test of Time все еще интереснее: она досталась старому доброму word2vec, то есть статье “Distributed Representations of Words and Phrases and their Compositionality” by Tomas Mikolov. Действительно, она была опубликована 10 (!!!) лет назад, процитирована 40к раз, и все еще не потеряла актуальности и применяется во многих кейсах.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍4🥰31
ИИ в массы: в Барселоне открылась выставка, посвященная ИИ

Там можно познакомиться с историей ИИ, интерактивно пообщаться с первыми языковымии моделями, поиграть с машиной в шахматы и Go, ну и просто позалипать на возможности AI.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38👍741
Яндекс назвал победителей Yandex ML Prize 2023

Это международная премия в области ML. В этом году она вручается уже пятый раз. Лауреатами стали 11 человек – представители МФТИ, СПбГУ, ВШЭ и Сколтех. Они получили премии от 500к до 1млн рублей, гранты на облачные ресурсы и другие призы.

Поздравляем!

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
51👍18🎉8
Новая библиотека для RL от Facebook Research

Этих ребят мы уважаем – они подарили нам Faiss и Prophet, а теперь подогнали еще и Pearl. Это их новая опенсурс разработка для работы с Reinforcement Learning AI Agents. Она модульная, то есть позволяет сшивать нужные фичи (см.картинку) чтобы создать заточенного под уникальную задачу агента.

GitHub | Папира | Сайт с документацией

😻 #advice #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44🔥10😍3🤯1
Посплетничаем об Илоне Маске?

Тут недавно OpenAI занималсь созданием умных плюшевых игрушек с ИИ внутри. Кстати, они забавные: могут бесконечно поддерживать диалог с ребенком и узнавать его в лицо.

Так вот, моделей игрушек всего три: Габбо, Грэм и… Грок. Ничего не напоминает название? Правильно, это та самая нейросеть от компании Илона Маска. Все бы ничего, но над созданием игрушек работал с OpenAI никто иной, как певица Grimes – бывшая жена миллиардера.

И это не все. Grimes давала игрушкам описание, и описала Грока, как «дружелюбная ракета, которая любит танцевать и не умеет летать». Чувствуете эту забавную череду совпадений?

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👏36🤯97😁4👍2❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Google Colab раскатил AI-фишки на пользователей без подписки

С сегодняшнего дня Colab AI на базе AlphaCode2 доступен всем. Его можно попросить дописать или объяснить код, и даже исправить его. Оговорка: время использования в месяц ограничено.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72👍125❤‍🔥3🤔1
Советы по промптингу от OpenAI

Обрушилась, не успев расцвести (но успев заработать миллионы), империя курсов по нейросетям промптингу: OpenAI выкатили собственный гайд с советами по тому, как составлять запросы к LLM. Вот, что пишут:

*️⃣Включайте детали в запросы. Просите модель "представить, что она <профессия>". Указывайте шаги выполнения задачи, делите текст на абзацы. Приводите примеры.

*️⃣Добавляйте рефенсы: пример текста, минимальные необходимые знания, ваши заметки по теме. Особенно, когда просите модель дать ответ, основанный на фактах.

*️⃣Делите задания на мелкие таски. Задавайте вопросы по очереди. Если диалог получается долгим, суммируйте вышесказанное в промптах.

*️⃣Дайте модели время на подумать. Не все ответы сразу могут быть подходящими. Можно спросить, не пропустила ли модель что-нибудь, попросить "перепроверить".

*️⃣Используйте дополнительные инструменты (если речь идет о ChatGPT, это может быть, например, встроенный интерпретатор кода или RAG).

😻 #advice #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4313🔥11
Билл Гейтс поделился своими итогами 2023 и прогнозами на 2024

Основная мысль номер один: он стал дедушкой и невероятно этому рад.

Основная мысль номер два: наступает новая эра. Этому поспособствует в первую очередь ИИ. Гейтс считает, что в скором времени технология радикально изменит образование и медицину, а также поможет миру справиться с социальным неравенством. Миллиардер посоветовал всем приобщаться к ИИ и учиться им правильно пользоваться.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥459😁8👍6😐1
Новинка от Apple: как запускать LLM на устройствах с ограниченной памятью

Ресерчеры оттуда придумали, как запускать LLM даже на тех устройствах, у которых изначально недостаточный для инференса объем DRAM. Идея: сохранять параметры модели во флэш-памяти и тянуть их в DRAM только по запросу. На практике в статье представлены два подхода:

1) Windowing – сокращает использование памяти за счет переиспользования ранее активированных нейронов сети.

2) Row-column bundling – технология, которая внутри увеличивает размер батчей (а вернее сказать, чанков) данных, которые поступают из флэш-памяти.

Объединение этих методов дает прирост скорости инференса в 4-5 раз на CPU и в 20-25 раз на GPU. Плюс, позволяет запускать модели, размер которых в два раза превышает размер доступной DRAM.

Хороша работа, советуем прочитать полностью.

😻 #advice #news
Please open Telegram to view this post
VIEW IN TELEGRAM
46🔥16👍8🤓3❤‍🔥1
Завезли статью про Gemini от Google

Ну как статью, тех.репорт. В технические и архитектурные детали исследователи не вдавались, но упомянули, что вдохновлялись Flamingo, CoCa и PaLI, а для восприятия аудиосигналов используют технологию Universal Speech Model. Также хвастаются, что Gemini Nano стала best-in-class small language models за счет умной дестилляции и алгоритмов трейна.

Есть также некоторые детали по поводу обучения, датасетов и токенизатора, и конечно, огромная глава с тестами.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
23🔥6👍4🎉4🤯2
Forwarded from Machinelearning
Дайджест первого дня ICLR 2025 от делегации Яндекса

✔️ Computer Vision: прорывы в генерации и анализе изображений.

Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.

✔️ NLP: оптимизация предпочтений и эффективный инференс.

Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.

✔️ Speech: расширенные бенчмарки и новые токенизации.

Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.

✔️ RecSys: инновационные архитектуры для рекомендаций.

Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.

@ai_machinelearning_big_data

#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍227🔥7