This media is not supported in your browser
VIEW IN TELEGRAM
POV: лосс твоей модели, когда переборщил с learning rate
Да, мы тоже не смогли пройти мимо олимпиадных мемов
🔥75😁42❤8 8👍2❤🔥1
Один из многочисленных групповых исков художников, поданных на Stability, Runway и DeviantArt, будет рассмотрен в суде
Раньше ни один такой иск так и не доходил до судебного процесса: все отклонилось на этапе рассмотрения. Но теперь…
Теперь у компаний будут неприятности. Даже если они выиграют, суд – это дорого, долго и крайне вредно для репутации. А у того же Stability, кажется, и так проблем хватает
Раньше ни один такой иск так и не доходил до судебного процесса: все отклонилось на этапе рассмотрения. Но теперь…
Теперь у компаний будут неприятности. Даже если они выиграют, суд – это дорого, долго и крайне вредно для репутации. А у того же Stability, кажется, и так проблем хватает
🤯32👍10🙈7❤2😁2🤨2
Data Secrets
Один из многочисленных групповых исков художников, поданных на Stability, Runway и DeviantArt, будет рассмотрен в суде Раньше ни один такой иск так и не доходил до судебного процесса: все отклонилось на этапе рассмотрения. Но теперь… Теперь у компаний…
А тем временем бывшие сотрудники Stability (судя по всему вовремя ушедшие из компании) основали собственный стартап/лабораторию и сделали модель, которая порвала рейтинг text2image
🔥60👍11❤7👏4😁2🤯2
Японская лаборатория Sakana AI выкатила AI-ресерчера из коробки
Это агент, который обучен проходить весь "человеческий" цикл написания научной работы: генерация и скоринг идей, эксперименты (включая код, графики, проверку гипотез) и написание статьи, причем при этом есть отдельная моделька, которая высутупает в роли "ревьюера №2" и критикует текст папиры.
На картинке – пример такой работы про гроккинг. Кроме этого кейса, агент тестировался на разработке статьи про диффузионки и NLP. Некоторые из статей эксперты признали подходящими для уровня ведущих конференций.
Авторы утверждают, что цена реализации идеи – 15 долларов. Они верят, что такой агент может ускорить прогресс и умножить научные знания человечества. Кажется, так же начинался какой-то роман-утопия, но все равно интересно взглянуть, что из этого выйдет.
Тех.репорт | Открытый код проекта
Это агент, который обучен проходить весь "человеческий" цикл написания научной работы: генерация и скоринг идей, эксперименты (включая код, графики, проверку гипотез) и написание статьи, причем при этом есть отдельная моделька, которая высутупает в роли "ревьюера №2" и критикует текст папиры.
На картинке – пример такой работы про гроккинг. Кроме этого кейса, агент тестировался на разработке статьи про диффузионки и NLP. Некоторые из статей эксперты признали подходящими для уровня ведущих конференций.
Авторы утверждают, что цена реализации идеи – 15 долларов. Они верят, что такой агент может ускорить прогресс и умножить научные знания человечества. Кажется, так же начинался какой-то роман-утопия, но все равно интересно взглянуть, что из этого выйдет.
Тех.репорт | Открытый код проекта
🔥78👍16🤔10❤5🤯4🗿3😎3😁2
Тем временем от глаз сообщества не ускользнула гениальность подписей нового AI Scientist'а в одной из его статей 😬
Please open Telegram to view this post
VIEW IN TELEGRAM
😁83🤯10👍5🆒3🤔1
Media is too big
VIEW IN TELEGRAM
Занимательный отрывок из стэнфордской лекции известного экономиста Эрика Бриньолфсона
Злободневно.
"За всю историю машины нисколько не уменьшили ценность человеческого труда. Наоборот, за последние пару сотен лет они увеличили его значимость в 50 раз, усилив и дополнив производительность человека. Человек с машиной способен выполнять больше работы, которая и оплачивается выше."
Злободневно.
👍106❤16☃7🔥6🤪2🤔1
Почему image2image модели исторически называются фильтрами?
Что вообще такое «фильтр»? Как мы фильтруем картинки и какой лосс при этом оптимизируем? Объясняем логику, которая стояла у истоков диффузионных моделей, на пальцах и формулах.
Что вообще такое «фильтр»? Как мы фильтруем картинки и какой лосс при этом оптимизируем? Объясняем логику, которая стояла у истоков диффузионных моделей, на пальцах и формулах.
❤54👍16🔥9🤯3🤔2🦄2 2😎1
Data Secrets
Strawberry выйдет завтра? Там опять тот самый аккаунт (бот OpenAI?) в твиттере вкидывает анонсы анонсов. В этот раз он написал: «attention isn't all you need new architecture announcement august 13th @ 10am pt the singularity begins» … и приложил к этому…
Новинка от OpenAI случилась, но не та, которую все ждали
Вместо хайповой 🍓 они выпустили… бенчмарк. Тоже хорошее дело, конечно, но все-таки не моделька.
Бенчмарк представляет из себя обновленную версию SWE-bench – самого популярного теста для оценки способностей к программированию. Выяснилось, что он содержит много нерешаемых или неоднозначных задач и, как следствие, недооценивает модели. Это исправили с помощью простой краудсорсинговой кампании.
Случилось все, кстати, как и обещал тот загадочный аккаунт, в 20:00 по мск. Теперь он обещает, что Strawberry выйдет в четверг, а новый банчмарк призван продемонстрировать, насколько она мощная🙄
Вместо хайповой 🍓 они выпустили… бенчмарк. Тоже хорошее дело, конечно, но все-таки не моделька.
Бенчмарк представляет из себя обновленную версию SWE-bench – самого популярного теста для оценки способностей к программированию. Выяснилось, что он содержит много нерешаемых или неоднозначных задач и, как следствие, недооценивает модели. Это исправили с помощью простой краудсорсинговой кампании.
Случилось все, кстати, как и обещал тот загадочный аккаунт, в 20:00 по мск. Теперь он обещает, что Strawberry выйдет в четверг, а новый банчмарк призван продемонстрировать, насколько она мощная
Please open Telegram to view this post
VIEW IN TELEGRAM
❤30 25😁13👍6
Без лишнего шума (в отличие от некоторых) на горизонте появилась новая LLM от Маска. Оказывается, модель тестировалась на Арене под названием sus-column-r, а теперь делит 3 место с ранней версией GPT-4o. Вместе с большой моделью вышел Grok 2 mini.
Со слов Илона, это только цветочки, а ягодки будут, когда на том самом гигантском кластере доучится Grok 3.
P. S. Модель уже доступна премиум юзерам в X, в API обещают завезти в конце месяца.
Please open Telegram to view this post
VIEW IN TELEGRAM
Об отключении платформы для обработки данных сообщила российская компания Softline. Плюс, пользователям уже начали поступать уведомления об отключении.
При этом Google Workspace и Google Cloud продолжат работать.
Please open Telegram to view this post
VIEW IN TELEGRAM
6 65🔥19👍8❤4
А теперь к хорошим новостям: Anthropic добавляют Prompt caching в API
Это штука, которая позволяет кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Другими словами, райская фича для разработчиков🕺
Теперь для длинных контекстов цену можно снизить до 90% и на 85% ускорить инференс. Причем кешировать можно целую книгу или огромную кодовую базу, например (см. кейсы в картинке).
Пока фича будет в бете, подробности о ценах и документация тут.
Это штука, которая позволяет кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Другими словами, райская фича для разработчиков
Теперь для длинных контекстов цену можно снизить до 90% и на 85% ускорить инференс. Причем кешировать можно целую книгу или огромную кодовую базу, например (см. кейсы в картинке).
Пока фича будет в бете, подробности о ценах и документация тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤11🔥11
Анекдот дня: ученые не могут забронировать жилье на NeurlPS 2024 из-за Тейлор Свифт
Дело в том, что конференция проходит в Ванкувере с 9 по 15 декабря. И примерно в эти же даты в городе выступает Тейлор Свифт.
Итог – самый дешевый отель стоит 650$ за ночь😰
Дело в том, что конференция проходит в Ванкувере с 9 по 15 декабря. И примерно в эти же даты в городе выступает Тейлор Свифт.
Итог – самый дешевый отель стоит 650$ за ночь
Please open Telegram to view this post
VIEW IN TELEGRAM
😁134🙈39💅10🫡6🎉3🤓3❤2👀2👍1
Даже самые передовые LLM могут отвечать без галлюцинаций только в 35% случаев 😯
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
⚪️ Оказалось, что от количества параметров доля галлюцинаций в ответах не зависит. Например, Claude 3 Haiku валял дурака так же часто, как Claude 3 Opus.
⚪️ Меньше всех галлюцинировали модели от OpenAI. На втором месте Google, а на третьем Anthropic.
⚪️ При этом Claude попал в лидеры, возможно, незаслуженно. Дело в том, что он просто отказывался отвечать на кучу вопросов (ответил всего на 72%).
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍70🔥16😁4🤯3