Заточены модельки под математику и программирование.
Говорят, результаты можно еще улучшить за счет более долгого инференса. То есть если в качестве метода выбора ответа среди экспертов модели (это MoE) взять не обычный majority voting, а сильную reward модель, то результаты на MATH сразу скачут на 6 п.п.
Ну и самое приятное: веса больше не на торентах, а на HF. Ссылки: Mathstral, Codestral.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍28🔥8❤5🎉4
Как сделать SOTA RAG?
Самые продвинутые RAG сегодня уже умеют:
▪️ Обрабатывать мультимодальные документы и выдавать мультимодальные ответы;
▪️ Распределять нагрузку по разным моделям в зависимости от сложности инпута. Это называется LLM routing;
▪️ Работать мультиязычно. Это значит, что запрос может быть на одном языке, документы на втором, а выходы на третьем;
▪️ Повышать качество ответов с помощью пост-проверок;
▪️ Ну и конечно дообучаться на фидбеке с продакшена.
Из недавнего можно обратить внимание на хорошую работу от Google под названием Speculative RAG. Вышла буквально несколько дней назад. Там у них подход такой:
Берем несколько маленьких дистиллированных моделей, которые параллельно генерят нам драфты (каждая из отдельного подмножества документов). Затем за один проход по этим черновикам более крупная модель собирает саммари.
Получается своеобразный Mixture of Experts или мультиагентный подход. Преимуществ получается несколько. Во-первых, так как контекст на каждую маленькую модельку уменьшается, то и информации теряется меньше. Во-вторых, никакой документ не будет проигнорирован из-за его положения в контексте + мы как бы генерируем разные точки зрения. Ну и в-третьих, это просто быстрее.
Точность относительно других систем выше на 13%, а задержка меньше в половину. Короче, Google как всегда молодцы, а статья мастрид.
Самые продвинутые RAG сегодня уже умеют:
Из недавнего можно обратить внимание на хорошую работу от Google под названием Speculative RAG. Вышла буквально несколько дней назад. Там у них подход такой:
Берем несколько маленьких дистиллированных моделей, которые параллельно генерят нам драфты (каждая из отдельного подмножества документов). Затем за один проход по этим черновикам более крупная модель собирает саммари.
Получается своеобразный Mixture of Experts или мультиагентный подход. Преимуществ получается несколько. Во-первых, так как контекст на каждую маленькую модельку уменьшается, то и информации теряется меньше. Во-вторых, никакой документ не будет проигнорирован из-за его положения в контексте + мы как бы генерируем разные точки зрения. Ну и в-третьих, это просто быстрее.
Точность относительно других систем выше на 13%, а задержка меньше в половину. Короче, Google как всегда молодцы, а статья мастрид.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥47👍16❤6🤔1
Проблема: по мере оптимизации моделей те начинают отвечать правильнее, но вылезает другая неприятность. Понимать их рассуждения становится сложнее. Другими словами, выходы становятся менее "разборчивыми". Особенно это нехорошо для всякой математики или других точных областей знаний.
Исследователи из OpenAI заметили это и предложили интересное решение в виде своеобразной ролевой игры. У нас есть два игрока: «prover», который генерирует решение, и «verifier», проверяющий его.
Суть вот в чем: prover – это сильная рабочая модель, а verifier – слабая маленькая моделька (видимо олицетворяющая человека
Вообще, статья достаточно приятная и легко читается. Вот здесь краткий блогпост, а вот тут папира полностью.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍44❤10🔥10😁4
Хм, кажется, у новой Mamba Codestral что-то не так с контекстом
В своем твиттере ресерчер показал результаты домашнего теста модельки. Задача была прочитать код и ответить по нему на простой вопрос (source).
Начиная с 1к контекста модель начала сдуваться (на графике сравнение с прошлой версией, не mamba).
А Mistral в блоге писали, что протестили до 256к токенов…
В своем твиттере ресерчер показал результаты домашнего теста модельки. Задача была прочитать код и ответить по нему на простой вопрос (source).
Начиная с 1к контекста модель начала сдуваться (на графике сравнение с прошлой версией, не mamba).
А Mistral в блоге писали, что протестили до 256к токенов…
🤔32🔥6👍5
Вот это новости, которые мы заслужили
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥121👍11❤5👌2
Каким-то образом пресса умудрилась выпустить новости о релизе новой модели от OpenAI без каких-либо официальных подтверждений от самой компании. По всеобщим догадкам получилось это случайно, из-за обычной невнимательности с часовыми поясами.
Говорят, что выйдет легкая и быстрая младшая сестра gpt-4o, которая заменит gpt-3.5-turbo. gpt-4o-mini поначалу будет только текстовой, но мультимодальность однажды тоже завезут.
Не верить таким крупным издательствам повода нет, да и на арене на днях была замечена некая upcoming-gpt-mini. В стиле OpenAI это скорее всего и был тест gpt-4o-mini. Так что с нетерпением ждем новостей.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤27👍6🔥6😁5👏4
Иии... вышла gpt-4o-mini !
Вот официальный анонс. Основное:
▪️ Модель дешевая: цена составляет 15 центов за миллион входных токенов и 60 центов за миллион выходных токенов. Это на 60% дешевле GPT-3.5 Turbo. Все благодаря токенизатору и легковесности.
▪️ Обучена на данных до октября 2023, имеет контекст 128к токенов и поддерживает выходы до 16к токенов.
▪️ Прирост относительно GPT-3.5 Turbo особенно хорошо виден на MGSM, MATH и HumanEval, то есть на математике и программировании.
▪️ Среди других моделей уступает только старшему братику GPT-4o.
▪️ Пользователи Free, Plus и Team уже могут пользоваться GPT-4o mini вместо GPT-3.5. API уже поддерживает текст и vision. В чат мультимодальность тоже завезут, но когда – непонятно.
Ну, погнали пробовать?
Вот официальный анонс. Основное:
Ну, погнали пробовать?
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉57🔥14👍10❤2😁1🤨1🆒1
Модели должны стать больше, чтобы стать меньше
Андрей Карпаты занес интересный тейк касательно новой gpt-4o-mini.
Андрей Карпаты занес интересный тейк касательно новой gpt-4o-mini.
«Причина, по которой текущие модели настолько велики – это наше расточительное отношение к их обучению. Мы просим их запоминать данные из Интернета, и в итоге они могут, например, воспроизводить длинные SHA-хеши или максимально редкие факты.
Но нужно ли нам это на самом деле? Ведь на самом деле умение мыслить не настолько сильно связано с запоминанием редких фактов.
Вывод: модели должны стать больше, прежде чем они смогут стать меньше, потому что нам нужна их помощь в рефакторинге и преобразовании обучающих данных в идеальные емкие синтетические форматы.
Это лестница. Одна модель помогает генерировать обучающие данные для следующей, пока мы не получим «идеальный обучающий датасет».
И когда мы обучим на нем даже ванильную маленькую GPT-2, это будет действительно умная модель. »
🔥106👍26❤7🤔5👏3
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем Трамп:
«Америка находится на пороге золотого века. Чтобы в него вступить, придется вложить огромные инвестиции в энергию для питания ИИ. Потребуется вдвое больше электричества, чем доступно сейчас во всем США.»
В чем только не придется разобраться, чтобы победить на выборах
«Америка находится на пороге золотого века. Чтобы в него вступить, придется вложить огромные инвестиции в энергию для питания ИИ. Потребуется вдвое больше электричества, чем доступно сейчас во всем США.»
В чем только не придется разобраться, чтобы победить на выборах
😁141👍21🔥11🫡3🤯1👀1🤪1
Какова красота: визуализация ландшафта лосса
Некий любитель взял и реализовал код на PyTorch для построения вот таких приятных картинок. По сути это современная имплементация подхода из статьи Visualizing the Loss Landscape of Neural Nets (старая, 2018 год). Кратко метод:
– Берем два случайных вектора из пространства весов. Так как размерность большая, они в любом случае будут квази-ортогональны
– Интерполируем их, чтобы найти двумерную плоскость в пространстве весов
– Проецируем фукнцию потерь по этим векторам и рисуем карту
Любим такое
Некий любитель взял и реализовал код на PyTorch для построения вот таких приятных картинок. По сути это современная имплементация подхода из статьи Visualizing the Loss Landscape of Neural Nets (старая, 2018 год). Кратко метод:
– Берем два случайных вектора из пространства весов. Так как размерность большая, они в любом случае будут квази-ортогональны
– Интерполируем их, чтобы найти двумерную плоскость в пространстве весов
– Проецируем фукнцию потерь по этим векторам и рисуем карту
Любим такое
😍61👏12👍10🔥6🤯3❤2🌚1🗿1
MMLU 0.6372. Это больше, чем Mistral, но меньше, чем Llama3. Обучена только на открытых данных: DCLM-BASELINE, StarCoder, ProofPile2. Всего видела 2.5Т токенов. Контекст – 2048.
Метриками не блещет, да, зато открытый датасет – это хорошая новость. Код на PyTorch. Уже доступно на HF и в Transformers.
Модель | Код | Датасет | Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥10❤5
Слышали о Мише Ласкине из DeepMind? У него там классное интервью вышло
Ласкин родился в России, эмигрировал в США, работал над Gemini и AlphaGo в DeepMind, а сейчас является CEO и ко-фаундером ReflectionAI.
Так вот. На днях вышло его интервью про развитие ИИ, его опыт, компанию и пр. Интересное:
➡️ Миша верит, что до AGI примерно три года, сейчас технология развивается пугающе быстро
➡️ Текущие языковые модели достаточно широкие и общие с точки зрения знаний, но глубины рассуждений им не хватает. Глубина агентов – основная цель ReflectionAI
➡️ Оптимальный путь создания AGI — сочетание обучения на большом количестве данных с обучением с подкреплением, как это было сделано с AlphaGo. Сейчас, по мнению Ласкина, RL уделяют недостаточно внимания
➡️ В частности нерешенной фундаментальной проблемой RLHF в текущих моделях является получение робастных универсальных reward моделей
➡️ Еще одна недостаточно изученная область – интерпретируемость моделей. «Понимание теоретических принципов, лежащих в основе их возможностей, похоже на физику конца 1800-х годов» - сказал ученый.
Ссылка на полное интервью
Ласкин родился в России, эмигрировал в США, работал над Gemini и AlphaGo в DeepMind, а сейчас является CEO и ко-фаундером ReflectionAI.
Так вот. На днях вышло его интервью про развитие ИИ, его опыт, компанию и пр. Интересное:
Ссылка на полное интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37⚡12😁11🤔5🔥3❤1
Очередной скандал с данными для обучения
Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.
А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.
Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.
Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.
Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).
А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло😂
Что объединяет Mr.Beast, The Wall Street Journal и Гарвард? У них всех «украли» видео для обучения моделек. К такому выводу пришли журналисты из Wired и Proof News.
А дело вот в чем: есть такой открытый датасет под названием The Pile. К нему и раньше были вопросы из-за большого количества мата, религиозных и расовых оскорблений и пр. А сейчас выяснилось, что он еще и содержит субтитры более 170к роликов с 48 тысяч YouTube каналов. Это, естественно, полное нарушение правил платформы.
Однако обвиняют во всем все равно корпорации: Apple, Nvidia, Anthropic и др. Те даже не пытались скрыть, что используют Pile, и явно ссылались на него в статьях, ведь это (еще раз) открытый датасет.
Anthropic, кстати, журналистам так и сказали, мол: «Ну и предъявляйте создателям Pile, мы то что нарушили?». Остальные компании и вовсе воздержались от комментариев.
Ну и вообще, использование субтитров с YouTube для обучения уже ни для кого не новость. Еще давно выяснилось, что OpenAI и Google транскрибируют видео и даже разрабатывают для этого специальные инструменты (почитайте этот наш пост).
А Proof News, кстати, даже инструмент выкатили для проверки того, не используют ли ваш канал для ИИ. Проверьте, вдруг повезло
Please open Telegram to view this post
VIEW IN TELEGRAM
❤33👍19😁12
Буквально все человечество с 2014 года: «Скоро у нас будет AGI!!!»
Тем временем 19 июля 2024:
Тем временем 19 июля 2024:
🎉55😁41❤7🤯5🫡4👍3