Даже самые передовые LLM могут отвечать без галлюцинаций только в 35% случаев 😯
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
⚪️ Оказалось, что от количества параметров доля галлюцинаций в ответах не зависит. Например, Claude 3 Haiku валял дурака так же часто, как Claude 3 Opus.
⚪️ Меньше всех галлюцинировали модели от OpenAI. На втором месте Google, а на третьем Anthropic.
⚪️ При этом Claude попал в лидеры, возможно, незаслуженно. Дело в том, что он просто отказывался отвечать на кучу вопросов (ответил всего на 72%).
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍70🔥16😁4🤯3
Data Secrets
А тем временем бывшие сотрудники Stability (судя по всему вовремя ушедшие из компании) основали собственный стартап/лабораторию и сделали модель, которая порвала рейтинг text2image
Кстати, вместе с новым Grok 2 премиум юзерам в X доступна та самая новая громкая FLUX.1. Black Forest Lab (неясно, на каких условиях) предоставил свою модель для пользования бывшему твиттеру и, говорят, там она без цензуры.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
🤯34😁20❤12☃3
В тему сегодняшнего поста про галлюцинации и фактологию: новая модель Sonar Huge от Perplexity оснащена возможностью искать информацию в Твиттере
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?🤔
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍12😁10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁53🍓14🤔6
Google DeepMind на одном из своих выступлений показали график, на котором отражается внимание, уделяемое обучению с подкреплением в моделях ИИ с течением времени.
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL🤷♂️
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🤔23😁12🌭3🤯1
Forwarded from XOR
В Wall Street Journal назвали самый короткий и привлекательный путь в IT — стать специалистом по обслуживанию датацентров. Смотрите сами:
🟢 Для большинства должностей не нужна вышка.
🟢 При этом средняя зп в год составляет $75к, но доходит и до шестизначной суммы.
🟢 Еще и зарплаты растут. За 3 года на 43%.
🟢 Количество рабочих мест только увеличивается. За последние 4 года на 18%.
🟢 Нужно много ходить. Героиня статьи «легко делает 10000 шагов за ночь, устраняя различные неполадки». + к здоровью
@xor_journal
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁52❤16🔥13👍3
На ACL показали новую архитектуру быстрых языковых моделей
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
39👍59🔥23❤11🤯5👀2🤝2
Новая линейка продуктов Apple возможно будет… руками робота
Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad.
Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad.
Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Выходные – самое время почитать и посмотреть что-нибудь полезное. На этот раз составили вам ресурс-лист на тему GPU и CUDA. Ловите:
⚙️ Легендарная книжка Programming Massively Parallel Processors (PMPP). Классика классик. Скачать можно тут.
⚙️ Фундаментально про GPU: видео, чтобы разобраться в базе.
⚙️ Любое видео с YouTube канала CUDA MODE (свежее).
⚙️ Документация Nvidia, куда же без нее.
⚙️ Для продвинутых: CUDA C++ Programming Guide.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥33❤8 5👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁125❤11🔥6🙈1
А вы знаете, как разрабатывалась PyTorch?
Нет? А документалку от основателей видели? Она длится всего пол часа: создатели сами рассказывают про то, как росла легендарная библиотека.
Идеально на вечер воскресенья😇
Нет? А документалку от основателей видели? Она длится всего пол часа: создатели сами рассказывают про то, как росла легендарная библиотека.
Идеально на вечер воскресенья
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤45🔥24👍13
Forwarded from Data Secrets | Карьера
Рабочие созвоны близко...
Команда специалистов из "Игры престолов" переместилась в мир data science, чтобы завоевать Железный Трон Данных, используя вместо мечей и драконов - ноутбуки и алгоритмы.
Команда специалистов из "Игры престолов" переместилась в мир data science, чтобы завоевать Железный Трон Данных, используя вместо мечей и драконов - ноутбуки и алгоритмы.
1👍42🔥18🦄13🗿6🤯1👌1💘1