Без лишнего шума (в отличие от некоторых) на горизонте появилась новая LLM от Маска. Оказывается, модель тестировалась на Арене под названием sus-column-r, а теперь делит 3 место с ранней версией GPT-4o. Вместе с большой моделью вышел Grok 2 mini.
Со слов Илона, это только цветочки, а ягодки будут, когда на том самом гигантском кластере доучится Grok 3.
P. S. Модель уже доступна премиум юзерам в X, в API обещают завезти в конце месяца.
Please open Telegram to view this post
VIEW IN TELEGRAM
Об отключении платформы для обработки данных сообщила российская компания Softline. Плюс, пользователям уже начали поступать уведомления об отключении.
При этом Google Workspace и Google Cloud продолжат работать.
Please open Telegram to view this post
VIEW IN TELEGRAM
6 65🔥19👍8❤4
А теперь к хорошим новостям: Anthropic добавляют Prompt caching в API
Это штука, которая позволяет кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Другими словами, райская фича для разработчиков🕺
Теперь для длинных контекстов цену можно снизить до 90% и на 85% ускорить инференс. Причем кешировать можно целую книгу или огромную кодовую базу, например (см. кейсы в картинке).
Пока фича будет в бете, подробности о ценах и документация тут.
Это штука, которая позволяет кешировать промпты, которые используются часто, а не кормить их модели заново при каждом запросе. Другими словами, райская фича для разработчиков
Теперь для длинных контекстов цену можно снизить до 90% и на 85% ускорить инференс. Причем кешировать можно целую книгу или огромную кодовую базу, например (см. кейсы в картинке).
Пока фича будет в бете, подробности о ценах и документация тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤11🔥11
Анекдот дня: ученые не могут забронировать жилье на NeurlPS 2024 из-за Тейлор Свифт
Дело в том, что конференция проходит в Ванкувере с 9 по 15 декабря. И примерно в эти же даты в городе выступает Тейлор Свифт.
Итог – самый дешевый отель стоит 650$ за ночь😰
Дело в том, что конференция проходит в Ванкувере с 9 по 15 декабря. И примерно в эти же даты в городе выступает Тейлор Свифт.
Итог – самый дешевый отель стоит 650$ за ночь
Please open Telegram to view this post
VIEW IN TELEGRAM
😁134🙈39💅10🫡6🎉3🤓3❤2👀2👍1
Даже самые передовые LLM могут отвечать без галлюцинаций только в 35% случаев 😯
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
⚪️ Оказалось, что от количества параметров доля галлюцинаций в ответах не зависит. Например, Claude 3 Haiku валял дурака так же часто, как Claude 3 Opus.
⚪️ Меньше всех галлюцинировали модели от OpenAI. На втором месте Google, а на третьем Anthropic.
⚪️ При этом Claude попал в лидеры, возможно, незаслуженно. Дело в том, что он просто отказывался отвечать на кучу вопросов (ответил всего на 72%).
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Это выяснили исследователи из университетов Корнелла и Вашингтона. Они показали, что большинство прошлых тестов на галлюцинации были нерелевантными, потому что содержали в основном вопросы, на которые можно найти ответ в Википедии. Учитывая, что все модели так или иначе обучались на Вики, задача сводилась к «testing on the train set».
Чтобы избежать такого лика данных, ученые создали свой бенчмарк с «невикепидийными» вопросами, и вот тут-то модельки посыпались. Тестили и опенсорс, и закрытые LLM. Из интересного:
В чем же дело? Авторы говорят, что пайплайны обучения просто устроены так, что модели обречены стать жертвами закона Гудхарта (когда метрика становится таргетом, она перестает быть хорошей метрикой).
Как такое бороть – пока неясно, но без свежих идей и подходов точно не обойтись.
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍70🔥16😁4🤯3
Data Secrets
А тем временем бывшие сотрудники Stability (судя по всему вовремя ушедшие из компании) основали собственный стартап/лабораторию и сделали модель, которая порвала рейтинг text2image
Кстати, вместе с новым Grok 2 премиум юзерам в X доступна та самая новая громкая FLUX.1. Black Forest Lab (неясно, на каких условиях) предоставил свою модель для пользования бывшему твиттеру и, говорят, там она без цензуры.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
UPD: вряд ли совсем без цензуры, на что-то все-таки ругается. Тем не менее, пользователям уже удалось нагенерировать кучу всего сомнительного с политиками и прочим.
🤯34😁20❤12☃3
В тему сегодняшнего поста про галлюцинации и фактологию: новая модель Sonar Huge от Perplexity оснащена возможностью искать информацию в Твиттере
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?🤔
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Модель вышла буквально на днях, она основана на Llama 3.1 405B и оптимизирована под поисковые запросы. А сегодня вот выяснилось, что Sonar Huge оснащена возможностью серчить по Х.
Интересно, не станет ли от этого у нее еще больше ошибок в ответах?
У предыдущих моделей Sonar, что интересно, процент галлюцинаций (см. таблицу здесь) не сильно ниже обычных LLM без доступа к Интернету. Загадочно.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍12😁10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁53🍓14🤔6
Google DeepMind на одном из своих выступлений показали график, на котором отражается внимание, уделяемое обучению с подкреплением в моделях ИИ с течением времени.
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL🤷♂️
Судя по графику, сейчас мы в локальном минимуме, а ключ к AGI – это RL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58🤔23😁12🌭3🤯1
Forwarded from XOR
В Wall Street Journal назвали самый короткий и привлекательный путь в IT — стать специалистом по обслуживанию датацентров. Смотрите сами:
🟢 Для большинства должностей не нужна вышка.
🟢 При этом средняя зп в год составляет $75к, но доходит и до шестизначной суммы.
🟢 Еще и зарплаты растут. За 3 года на 43%.
🟢 Количество рабочих мест только увеличивается. За последние 4 года на 18%.
🟢 Нужно много ходить. Героиня статьи «легко делает 10000 шагов за ночь, устраняя различные неполадки». + к здоровью
@xor_journal
@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
3😁52❤16🔥13👍3
На ACL показали новую архитектуру быстрых языковых моделей
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
Статью про новую архитектуру уже успели процитировать Принстонский университет и университет Карнеги-Меллона, а с 11 по 16 августа ребята из лаборатории T-Bank AI Research выступали с ней на ACL – главной NLP’шной конфе мира.
Идея исследования: трансформеры крутые, но медленные, а линейные модели быстрые, но не очень крутые. Как найти между ними баланс? В T-Bank AI Research предложили взять модель Based, которая сочетает в себе обучаемое ядро для линейных трансформеров и короткие свертки, и немного подправить это самое ядро.
Они добавили новые обучаемые параметры и упростили аттеншен. В итоге метрики подскочили, модель стала лучше работать с длинным контекстом и в среднем понимание взаимосвязей в тексте улучшилось на 10%.
Получается, ребятам удалось взять линейную модель и приблизить ее по качеству к трансформеру: скорость, экономия ресурсов и перформанс в одном флаконе. Подробнее об экспериментах и результатах можно прочитать в статье, а вот тут лежит исходный код и доп.материалы.
39👍59🔥23❤11🤯5👀2🤝2
Новая линейка продуктов Apple возможно будет… руками робота
Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad.
Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Компания решила зайти на рынок домашних роботов. Говорят, проект разрабатывается уже два года, но в последнее время команда активизировалась. Теперь «несколько сотен» человек по слухам работают над рукой робота, к которой будет прикреплено нечто вроде iPad.
Как это будет работать, пока неясно. Зато ясно, что, учитывая историю Apple с self-driving cars, с робототехникой у них тоже могут возникнуть трудности…
Выходные – самое время почитать и посмотреть что-нибудь полезное. На этот раз составили вам ресурс-лист на тему GPU и CUDA. Ловите:
⚙️ Легендарная книжка Programming Massively Parallel Processors (PMPP). Классика классик. Скачать можно тут.
⚙️ Фундаментально про GPU: видео, чтобы разобраться в базе.
⚙️ Любое видео с YouTube канала CUDA MODE (свежее).
⚙️ Документация Nvidia, куда же без нее.
⚙️ Для продвинутых: CUDA C++ Programming Guide.
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥33❤8 5👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁125❤11🔥6🙈1
А вы знаете, как разрабатывалась PyTorch?
Нет? А документалку от основателей видели? Она длится всего пол часа: создатели сами рассказывают про то, как росла легендарная библиотека.
Идеально на вечер воскресенья😇
Нет? А документалку от основателей видели? Она длится всего пол часа: создатели сами рассказывают про то, как росла легендарная библиотека.
Идеально на вечер воскресенья
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤45🔥24👍13
Forwarded from Data Secrets | Карьера
Рабочие созвоны близко...
Команда специалистов из "Игры престолов" переместилась в мир data science, чтобы завоевать Железный Трон Данных, используя вместо мечей и драконов - ноутбуки и алгоритмы.
Команда специалистов из "Игры престолов" переместилась в мир data science, чтобы завоевать Железный Трон Данных, используя вместо мечей и драконов - ноутбуки и алгоритмы.
1👍42🔥18🦄13🗿6🤯1👌1💘1