Почему image2image модели исторически называются фильтрами?
Что вообще такое «фильтр»? Как мы фильтруем картинки и какой лосс при этом оптимизируем? Объясняем логику, которая стояла у истоков диффузионных моделей, на пальцах и формулах.
Что вообще такое «фильтр»? Как мы фильтруем картинки и какой лосс при этом оптимизируем? Объясняем логику, которая стояла у истоков диффузионных моделей, на пальцах и формулах.
❤54👍16🔥9🤯3🤔2🦄2 2😎1
Data Secrets
Strawberry выйдет завтра? Там опять тот самый аккаунт (бот OpenAI?) в твиттере вкидывает анонсы анонсов. В этот раз он написал: «attention isn't all you need new architecture announcement august 13th @ 10am pt the singularity begins» … и приложил к этому…
Новинка от OpenAI случилась, но не та, которую все ждали
Вместо хайповой 🍓 они выпустили… бенчмарк. Тоже хорошее дело, конечно, но все-таки не моделька.
Бенчмарк представляет из себя обновленную версию SWE-bench – самого популярного теста для оценки способностей к программированию. Выяснилось, что он содержит много нерешаемых или неоднозначных задач и, как следствие, недооценивает модели. Это исправили с помощью простой краудсорсинговой кампании.
Случилось все, кстати, как и обещал тот загадочный аккаунт, в 20:00 по мск. Теперь он обещает, что Strawberry выйдет в четверг, а новый банчмарк призван продемонстрировать, насколько она мощная🙄
Вместо хайповой 🍓 они выпустили… бенчмарк. Тоже хорошее дело, конечно, но все-таки не моделька.
Бенчмарк представляет из себя обновленную версию SWE-bench – самого популярного теста для оценки способностей к программированию. Выяснилось, что он содержит много нерешаемых или неоднозначных задач и, как следствие, недооценивает модели. Это исправили с помощью простой краудсорсинговой кампании.
Случилось все, кстати, как и обещал тот загадочный аккаунт, в 20:00 по мск. Теперь он обещает, что Strawberry выйдет в четверг, а новый банчмарк призван продемонстрировать, насколько она мощная
Please open Telegram to view this post
VIEW IN TELEGRAM
❤30 25😁13👍6
Без лишнего шума (в отличие от некоторых) на горизонте появилась новая LLM от Маска. Оказывается, модель тестировалась на Арене под названием sus-column-r, а теперь делит 3 место с ранней версией GPT-4o. Вместе с большой моделью вышел Grok 2 mini.
Со слов Илона, это только цветочки, а ягодки будут, когда на том самом гигантском кластере доучится Grok 3.
P. S. Модель уже доступна премиум юзерам в X, в API обещают завезти в конце месяца.
Please open Telegram to view this post
VIEW IN TELEGRAM
Об отключении платформы для обработки данных сообщила российская компания Softline. Плюс, пользователям уже начали поступать уведомления об отключении.
При этом Google Workspace и Google Cloud продолжат работать.
Please open Telegram to view this post
VIEW IN TELEGRAM
6 65🔥19👍8❤4
А теперь к хорошим новостям: Anthropic добавляют Prompt caching в API
Это штука, которая позволяет кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Другими словами, райская фича для разработчиков🕺
Теперь для длинных контекстов цену можно снизить до 90% и на 85% ускорить инференс. Причем кешировать можно целую книгу или огромную кодовую базу, например (см. кейсы в картинке).
Пока фича будет в бете, подробности о ценах и документация тут.
Это штука, которая позволяет кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Другими словами, райская фича для разработчиков
Теперь для длинных контекстов цену можно снизить до 90% и на 85% ускорить инференс. Причем кешировать можно целую книгу или огромную кодовую базу, например (см. кейсы в картинке).
Пока фича будет в бете, подробности о ценах и документация тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤11🔥11
Анекдот дня: ученые не могут забронировать жилье на NeurlPS 2024 из-за Тейлор Свифт
Дело в том, что конференция проходит в Ванкувере с 9 по 15 декабря. И примерно в эти же даты в городе выступает Тейлор Свифт.
Итог – самый дешевый отель стоит 650$ за ночь😰
Дело в том, что конференция проходит в Ванкувере с 9 по 15 декабря. И примерно в эти же даты в городе выступает Тейлор Свифт.
Итог – самый дешевый отель стоит 650$ за ночь
Please open Telegram to view this post
VIEW IN TELEGRAM
😁134🙈39💅10🫡6🎉3🤓3❤2👀2👍1
Даже самые передовые LLM могут отвечать без галлюцинаций только в 35% случаев 😯
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
⚪️ Оказалось, что от количества параметров доля галлюцинаций в ответах не зависит. Например, Claude 3 Haiku валял дурака так же часто, как Claude 3 Opus.
⚪️ Меньше всех галлюцинировали модели от OpenAI. На втором месте Google, а на третьем Anthropic.
⚪️ При этом Claude попал в лидеры, возможно, незаслуженно. Дело в том, что он просто отказывался отвечать на кучу вопросов (ответил всего на 72%).
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍70🔥16😁4🤯3
Data Secrets
А тем временем бывшие сотрудники Stability (судя по всему вовремя ушедшие из компании) основали собственный стартап/лабораторию и сделали модель, которая порвала рейтинг text2image
Кстати, вместе с новым Grok 2 премиум юзерам в X доступна та самая новая громкая FLUX.1. Black Forest Lab (неясно, на каких условиях) предоставил свою модель для пользования бывшему твиттеру и, говорят, там она без цензуры.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
🤯34😁20❤12☃3
В тему сегодняшнего поста про галлюцинации и фактологию: новая модель Sonar Huge от Perplexity оснащена возможностью искать информацию в Твиттере
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?🤔
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍12😁10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁53🍓14🤔6
Google DeepMind на одном из своих выступлений показали график, на котором отражается внимание, уделяемое обучению с подкреплением в моделях ИИ с течением времени.
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL🤷♂️
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🤔23😁12🌭3🤯1
Forwarded from XOR
В Wall Street Journal назвали самый короткий и привлекательный путь в IT — стать специалистом по обслуживанию датацентров. Смотрите сами:
🟢 Для большинства должностей не нужна вышка.
🟢 При этом средняя зп в год составляет $75к, но доходит и до шестизначной суммы.
🟢 Еще и зарплаты растут. За 3 года на 43%.
🟢 Количество рабочих мест только увеличивается. За последние 4 года на 18%.
🟢 Нужно много ходить. Героиня статьи «легко делает 10000 шагов за ночь, устраняя различные неполадки». + к здоровью
@xor_journal
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁52❤16🔥13👍3
На ACL показали новую архитектуру быстрых языковых моделей
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
39👍59🔥23❤11🤯5👀2🤝2