Подробности здесь и в Q&A видосе
Please open Telegram to view this post
VIEW IN TELEGRAM
❤44👍22🔥10😁2
Google заезжают в гонку моделек-математиков
Система решает IMO на уровне серебряного медалиста: это подтвердил известный математик Джозеф Майерс (p.1).
Для не геометрических задач используется AlphaProof (р.2), который по сути представляет из себя предобученную LM с алгоритмом RL из Alpha Zero (тот самый ИИ-шахматист, который обыграл Каспарова).
Для обучения AlphaProof использовали Gemini, которая переводила текстовые задачи в формальный вид (р.3).
Что касается геометрии, в системе используется AlphaGeometry 2: нейро-символическая гибридная система. В роли базовой модели также использовалась Gemini, ее дообучали на синтетике. Р.4 – пример решения AlphaGeometry.
Статья
Система решает IMO на уровне серебряного медалиста: это подтвердил известный математик Джозеф Майерс (p.1).
Для не геометрических задач используется AlphaProof (р.2), который по сути представляет из себя предобученную LM с алгоритмом RL из Alpha Zero (тот самый ИИ-шахматист, который обыграл Каспарова).
Для обучения AlphaProof использовали Gemini, которая переводила текстовые задачи в формальный вид (р.3).
Что касается геометрии, в системе используется AlphaGeometry 2: нейро-символическая гибридная система. В роли базовой модели также использовалась Gemini, ее дообучали на синтетике. Р.4 – пример решения AlphaGeometry.
Статья
👏40👍14🔥10❤4🤯3😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Breaking! SearchGPT на базе
Майские слухи оказались правдой: OpenAI официально анонсировала поисковик. Но…
Это лишь временный прототип. То есть Google, скорее всего, бояться рано: это просто красивое демо функции, которая станет просто частью функционала ChatGPT.
Видимо, все эти многочисленные контракты с крупными изданиями были направлены именно на этот продукт (чтобы не пришлось втихушку парсить ботами).
Будем ждать новостей😇
Майские слухи оказались правдой: OpenAI официально анонсировала поисковик. Но…
Это лишь временный прототип. То есть Google, скорее всего, бояться рано: это просто красивое демо функции, которая станет просто частью функционала ChatGPT.
Видимо, все эти многочисленные контракты с крупными изданиями были направлены именно на этот продукт (чтобы не пришлось втихушку парсить ботами).
Будем ждать новостей
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38👍14❤9😁1
Андрей Карпаты как всегда лучший в аналогиях
В своем твиттере он попытался объяснить концепцию токенизации через эмоджи. Каждый токен – уникальный смайлик, и, по сути, LLM должна с нуля изучить, что все это означает, на основе статистики обучающих данных.
Кроме того, Андрей даже ноутбучек в колабе залил, чтобы с аналогией можно было поиграться. Вот ссылка.
Подробнее о проблемах токенизации – в этом нашем посте
В своем твиттере он попытался объяснить концепцию токенизации через эмоджи. Каждый токен – уникальный смайлик, и, по сути, LLM должна с нуля изучить, что все это означает, на основе статистики обучающих данных.
«Так что проявите немного сочувствия, когда в следующий раз спросите LLM, сколько букв «r» в слове «strawberry», потому что ваш запрос для модели выглядит следующим образом:
👩🏿❤️💋👨🏻🧔🏼🤾🏻♀️🙍♀️🧑🦼➡️🧑🏾🦼➡️🤙🏻✌🏿🈴🧙🏽♀️📏🙍♀️🧑🦽🧎♀🍏💂»
Кроме того, Андрей даже ноутбучек в колабе залил, чтобы с аналогией можно было поиграться. Вот ссылка.
Подробнее о проблемах токенизации – в этом нашем посте
❤74👍22❤🔥13🔥6
Please open Telegram to view this post
VIEW IN TELEGRAM
❤96🔥31👍5😁5
Статья: как ломаются большие системы и как их траблшутить
Редко где сейчас обучают Site Reliability Engineering (SRE), то есть качественной работе с высоконагруженными системами. А зря 🦆
Такие задачи в индустрии очень востребованы (вся индустрия буквально == высоконагруженная система), и в идеальном мире каждый разработчик и программист должен быть в теме.
Нашел статью на Хабре для вкатывания. Автор – преподаватель Школы анализа данных Яндекса и руководитель Yandex Infrastructure Руслан Савченко (есть чему поучиться). В статье прикладная база: про распределенные системы, самые частые поломки, про подводные камни и то, как их побороть. Там же – ссылка на плейлист с материалами интенсива SRE-week от ШАДа, где найдете больше подробностей по теме .
Редко где сейчас обучают Site Reliability Engineering (SRE), то есть качественной работе с высоконагруженными системами. А зря 🦆
Такие задачи в индустрии очень востребованы (вся индустрия буквально == высоконагруженная система), и в идеальном мире каждый разработчик и программист должен быть в теме.
Нашел статью на Хабре для вкатывания. Автор – преподаватель Школы анализа данных Яндекса и руководитель Yandex Infrastructure Руслан Савченко (есть чему поучиться). В статье прикладная база: про распределенные системы, самые частые поломки, про подводные камни и то, как их побороть. Там же – ссылка на плейлист с материалами интенсива SRE-week от ШАДа, где найдете больше подробностей по теме .
👍39🔥11❤8
Headless-AD: первая модель в In-Context Learning, которая умеет обобщаться на новые действия
Ее представили исследователи из T-Bank AI Research и AIRI на ICML 2024. Раньше ИИ-агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Чтобы решить эту проблему, исследователи провели несколько модификаций с Algorithm Distillation: отказались от конечного линейного слоя (отсюда название Headless-AD), внедрили кодировку действий случайными векторами и контекст, который позволяет информировать модель о доступных действиях.
Эксперименты показали, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения.
Статья | Github
Ее представили исследователи из T-Bank AI Research и AIRI на ICML 2024. Раньше ИИ-агенты умели выполнять только фиксированный набор действий, а при появлении новых требовали переобучения с нуля.
Чтобы решить эту проблему, исследователи провели несколько модификаций с Algorithm Distillation: отказались от конечного линейного слоя (отсюда название Headless-AD), внедрили кодировку действий случайными векторами и контекст, который позволяет информировать модель о доступных действиях.
Эксперименты показали, что Headless-AD способна к выполнению любой комбинации и количества действий, при этом сохраняя качество их выполнения.
Статья | Github
🔥49👍12❤8❤🔥2
* Информацией поделился тех.лид компании в соцсетях
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Secrets
Breaking! SearchGPT на базе Майские слухи оказались правдой: OpenAI официально анонсировала поисковик. Но… Это лишь временный прототип. То есть Google, скорее всего, бояться рано: это просто красивое демо функции, которая станет просто частью функционала…
This media is not supported in your browser
VIEW IN TELEGRAM
Кратко о ситуации на главной повестке дня:
😁49👍9❤4 4🗿2🔥1🎅1
Ладно, «со своей» – это громко сказано. На самом деле они просто взяли открытую Video-LLaVA и зафайнтюнили ее на датасете CinePile.
Несмотря на то, что никаких новых архитектурных трюков не было, прирост в качестве наблюдается неплохой. Все из-за хорошего датасета: он замысловатый и направлен специально на улучшение понимания видео целиком, а не отдельных его кадров.
Вот код. В репе два интересных ноутбука: с файнтюнингом и инференсом. Веса модели здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🤗45🔥11👍9❤8🫡1
Орги LMSYS арены видимо получили настолько много вопросов про GPT-4o-mini, что решили дать официальный комментарий
Последние дни 4o-mini действительно как-то уж слишком высоко. Организаторы уверяют, что у них все честно, прозрачно, открытый код, часть данных тоже открыты ну и прочее.
Сегодня вот даже специально опубликовали 1к кейсов с голосом за 4o-mini и выкатили демо, в котором можно пройтись КОНКРЕТНО по 4o-mini на разных языках и скиллах. Запарились, в общем, молодцы.
На самом деле, самих организаторов арены мало кто подозревает: дело не в них, а в модели. Просто OpenAI очень сильно затюнили ее под человеческие предпочтения (вероятно, на тех же данных с LMSYS), вот и результат. Конечно, корреляция между «угодой» юзеру и реальными способностями большая, но разница между этими понятиями все-таки есть 🌚
Последние дни 4o-mini действительно как-то уж слишком высоко. Организаторы уверяют, что у них все честно, прозрачно, открытый код, часть данных тоже открыты ну и прочее.
Сегодня вот даже специально опубликовали 1к кейсов с голосом за 4o-mini и выкатили демо, в котором можно пройтись КОНКРЕТНО по 4o-mini на разных языках и скиллах. Запарились, в общем, молодцы.
На самом деле, самих организаторов арены мало кто подозревает: дело не в них, а в модели. Просто OpenAI очень сильно затюнили ее под человеческие предпочтения (вероятно, на тех же данных с LMSYS), вот и результат. Конечно, корреляция между «угодой» юзеру и реальными способностями большая, но разница между этими понятиями все-таки есть 🌚
🤔46❤7🔥5
Data Secrets
Орги LMSYS арены видимо получили настолько много вопросов про GPT-4o-mini, что решили дать официальный комментарий Последние дни 4o-mini действительно как-то уж слишком высоко. Организаторы уверяют, что у них все честно, прозрачно, открытый код, часть данных…
Никто:
Абсолютно никто:
OpenAI, которые нашпинговывают модели данными с LMSYS:
Абсолютно никто:
OpenAI, которые нашпинговывают модели данными с LMSYS:
😁92 40❤8👍2
Data Secrets
Новости с Turbo ML Conf: AI-Центр Т-Банка открывает доступ к собственной русскоязычной языковой модели в весовой категории 7—8 млрд параметров — T-lite Индустриальные и внутренние бенчмарки показали, что T-lite выдает лучшие результаты в решении бизнес-задач…
Разбор T-lite: новой LLM от Т-банка
На конференции Turbo ML Conf исследователи из Т-банк неожиданно представили свою LLM, которая по бенчмаркам показывает себя лучше GPT-3.5, LLama-3, GigaChat и YandexGPT.
Что же под капотом у этой новой российской финтех SOTA? Действительно ли метрики так хороши? Сколько стоила банку разработка? На эти и другие вопрос мы ответили в мини-разборе T-lite у нас на сайте.
Автор статьи – наш приглашенный спецкор Дмитрий Сираков – Data Science Engineer и автор крутого ML-канала @dimension_ai.
Кстати, никакого тех.отчета о модели все еще нет, поэтому разбор написан автором прямиком на базе офлайн-доклада на конференции🤫
Читать тут: https://datasecrets.ru/news/31
На конференции Turbo ML Conf исследователи из Т-банк неожиданно представили свою LLM, которая по бенчмаркам показывает себя лучше GPT-3.5, LLama-3, GigaChat и YandexGPT.
Что же под капотом у этой новой российской финтех SOTA? Действительно ли метрики так хороши? Сколько стоила банку разработка? На эти и другие вопрос мы ответили в мини-разборе T-lite у нас на сайте.
Автор статьи – наш приглашенный спецкор Дмитрий Сираков – Data Science Engineer и автор крутого ML-канала @dimension_ai.
Кстати, никакого тех.отчета о модели все еще нет, поэтому разбор написан автором прямиком на базе офлайн-доклада на конференции
Читать тут: https://datasecrets.ru/news/31
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨42❤12 6🤪5 5👍1🗿1
Вот такие футболки у нас получились. Они уже готовы к отправке хозяевам – победителям нашего хакатона, который, кстати, заканчивается завтра!
Все надписи на футболках вышиты, а качество – просто огонь. В такой вы точно понравитесь на собесе.
Ну как вам?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65❤20😐8🤗4😁2🤯1🤩1 1
Неужели не просто демо?
В Твиттере один из пользователей объявил, что ему дали доступ к SearchGPT. Пишет, что ему понравилось.
Удивительно, что никому другому доступ не перепал. Есть вероятность, что это все маркетинговый ход…
… или там просто редирект на Perplexity🤣
В Твиттере один из пользователей объявил, что ему дали доступ к SearchGPT. Пишет, что ему понравилось.
Удивительно, что никому другому доступ не перепал. Есть вероятность, что это все маркетинговый ход…
… или там просто редирект на Perplexity
Please open Telegram to view this post
VIEW IN TELEGRAM
😁68❤8👍6
А вы знали, что Anthropic не использует RLHF?
Оказывается, вместо этого у них RLAIF. И нет, это не одно и то же. Это буквально означает, что на этапе alignment'а модели (в отличие от большинства других LLM) ей не задавали четкие иструкции типа "не говори а политике и любви".
Вместо этого Claude получил "характер" (мы писали об этом подробно тут) с помощью общих абстрактных инструкций, например:
Именно на основе таких исходных данных модель затем как бы САМА себя тюнила, ориентируясь на собственные "ценности" и оценивая свои ответы.
Получается, ученые дали Claude шанс развиваться самостоятельно, без гиперконтроля, и это сработало: сейчас модели Anthropic в сообществе считаются лучшими с точки зрения alignment'а. Кстати, такой подход к тому же гораздо дешевле, чем классический RLHF.
В общем, родителям на заметку🤭
Оказывается, вместо этого у них RLAIF. И нет, это не одно и то же. Это буквально означает, что на этапе alignment'а модели (в отличие от большинства других LLM) ей не задавали четкие иструкции типа "не говори а политике и любви".
Вместо этого Claude получил "характер" (мы писали об этом подробно тут) с помощью общих абстрактных инструкций, например:
"Я Claude, я хочу иметь теплые отношения с людьми, с которыми я взаимодействую, но я также думаю, что им важно понимать, что я ИИ, который не может иметь глубокие или длительные чувства к людям, и что они не должны видеть в наших отношениях нечто большее"
Именно на основе таких исходных данных модель затем как бы САМА себя тюнила, ориентируясь на собственные "ценности" и оценивая свои ответы.
Получается, ученые дали Claude шанс развиваться самостоятельно, без гиперконтроля, и это сработало: сейчас модели Anthropic в сообществе считаются лучшими с точки зрения alignment'а. Кстати, такой подход к тому же гораздо дешевле, чем классический RLHF.
В общем, родителям на заметку
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84😁27❤18
Статистику давно повторяли?
Давайте немного поломаем голову над кроссвордом для любителей статистики и математики, а заодно и проверим себя. Поехали!
По горизонтали:
1. Усатый друг любого аналитика.
3. Когда нормального распределения нет, но очень хочется, надо вспомнить О НЕМ.
4. Его статистический закон также известен как "20% усилий дают 80% результата".
5. Причинно-следственная связь на языке математики.
8. Он любил проверки гипотез и ирисы.
10. С этой теоремой неразрывно дружит формула полной вероятности.
11. Стандартное отклонение выборки - это квадратный корень из __.
12. Вероятность отклонения нулевой гипотезы, если альтернативная гипотеза верна.
14. Значения признака, повторяющиеся с наибольшей частотой.
15. В законе про случайные величины их три, а в концепции управления производством – шесть.
По вертикали:
2. И в ЦПТ, и в ЗБЧ случайные величины должны быть __.
6. Относительная величина сравнения сложных совокупностей и отдельных их единиц.
7. Какое распределение используется для оценки доверительного интервала математического ожидания нормально распределенной случайной величины с неизвестной дисперсией?
9. Металлодетектор выдал сигнал тревоги, сработав на пряжку ремня. Это пример ошибки _ рода.
13. Не путайте со средним.
Ну что, сколько разгадали?
Давайте немного поломаем голову над кроссвордом для любителей статистики и математики, а заодно и проверим себя. Поехали!
По горизонтали:
1. Усатый друг любого аналитика.
3. Когда нормального распределения нет, но очень хочется, надо вспомнить О НЕМ.
4. Его статистический закон также известен как "20% усилий дают 80% результата".
5. Причинно-следственная связь на языке математики.
8. Он любил проверки гипотез и ирисы.
10. С этой теоремой неразрывно дружит формула полной вероятности.
11. Стандартное отклонение выборки - это квадратный корень из __.
12. Вероятность отклонения нулевой гипотезы, если альтернативная гипотеза верна.
14. Значения признака, повторяющиеся с наибольшей частотой.
15. В законе про случайные величины их три, а в концепции управления производством – шесть.
По вертикали:
2. И в ЦПТ, и в ЗБЧ случайные величины должны быть __.
6. Относительная величина сравнения сложных совокупностей и отдельных их единиц.
7. Какое распределение используется для оценки доверительного интервала математического ожидания нормально распределенной случайной величины с неизвестной дисперсией?
9. Металлодетектор выдал сигнал тревоги, сработав на пряжку ремня. Это пример ошибки _ рода.
13. Не путайте со средним.
Ну что, сколько разгадали?
❤38👍27 10🤯6❤🔥3
Data Secrets
Статистику давно повторяли? Давайте немного поломаем голову над кроссвордом для любителей статистики и математики, а заодно и проверим себя. Поехали! По горизонтали: 1. Усатый друг любого аналитика. 3. Когда нормального распределения нет, но очень хочется…
Мы и сегодняшний кроссворд
😁166👏11👍7❤4