Media is too big
VIEW IN TELEGRAM
Claude теперь умеет генерировать и редактировать pdf-ки, табличные файлы и презентации
Не слишком часто пишем про новые фичи ботов, но это приятная и интересная. Даете промпт – а вам на выход файл. Или вы файл – вам на выход отредактированный вариант.
Работает это так: у Claude есть доступ к частному окружению, в котором он пишет и запускает код для создания файлов, которые затем отправляет пользователю в чат.
Теоретически такая система открывает много возможностей: продвинутый анализ данных, обработка всяких фото/видо/аудио, да и вообще работа со всеми видами файлов. Так что ждем и других агентских фичей от Anthropic, а пока наслаждаемся генерацией таблиц и документов.
www.anthropic.com/news/create-files
Не слишком часто пишем про новые фичи ботов, но это приятная и интересная. Даете промпт – а вам на выход файл. Или вы файл – вам на выход отредактированный вариант.
Работает это так: у Claude есть доступ к частному окружению, в котором он пишет и запускает код для создания файлов, которые затем отправляет пользователю в чат.
Теоретически такая система открывает много возможностей: продвинутый анализ данных, обработка всяких фото/видо/аудио, да и вообще работа со всеми видами файлов. Так что ждем и других агентских фичей от Anthropic, а пока наслаждаемся генерацией таблиц и документов.
www.anthropic.com/news/create-files
👍112❤41🔥17🦄3😁1🫡1 1
Media is too big
VIEW IN TELEGRAM
Посмотрели интересное интервью Фей-Фей Ли для a16z. Захотелось пересказать здесь то, что она говорит про AGI и развитие LLM:
Ее идеи, кстати, удивительно похожи на идеи Лекуна. Им бы объединиться и в одну лабу…
Язык – это на самом деле искусственный сигнал. В природе языка не существует. Если вы подаете на вход модели язык, то она действительно может его генерализировать и на выходе давать данные с достаточной силой обобщения, но это тоже будет только язык. То есть это language to language модели.
Но мир на самом деле трехмерный и подчиняется законам физики, а не языка. Он имеет собственные структуры благодаря материалам и другим вещам. Извлечь из этого мира информацию, уметь её представлять и генерировать – это по существу совершенно другая задача.
Конечно, можно использовать идеи LLM для ее решения, но просто масштабированием языковых моделей не добиться AGI. Будущее – в появлении моделей пространственного интеллекта (Genie – хороший пример).
Ее идеи, кстати, удивительно похожи на идеи Лекуна. Им бы объединиться и в одну лабу…
🔥220👍76❤32🗿13🤔8💯8 4 3😁1
Ни одна презентация Apple не обходится без последующих мемов
В этот раз соцсети заполонили шутки про синхронный перевод в новых AirPods.
Ну в общем, мы поддержали тренд и тоже мемов придумали. Переводим с ML-ного на человеческий🤫
В этот раз соцсети заполонили шутки про синхронный перевод в новых AirPods.
Ну в общем, мы поддержали тренд и тоже мемов придумали. Переводим с ML-ного на человеческий
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁470❤50👍17🔥9 6 3❤🔥2💯1😎1
Ларри Эллисон (CEO Oracle) обогнал Илона Маска и стал самым богатым человеком на Земле. Все благодаря OpenAI.
Они заключили с Oracle контракт (внимание!) на 300 миллиардов долларов.
Он вступает в силу в 2027 году, и OpenAI придется платить в среднем 60 миллиардов долларов в год в течение пяти лет, чтобы выплатить всю сумму (интересно, где они столько возьмут).
Это крупнейшая сделка в истории облачных вычислений. На ее фоне акции Oracle подскочили уже на 37%.
Понятно, что со всеми текущими новостями про инвестиции, расходы стартапов и тд эти огромные числа уже немного притерлись. Так что давайте просто вспомним, что на самом деле такое 300 миллиардов долларов:
– Это примерно 1.5 миллиона квартир в Москве
– 6 годовых бюджетов Казахстана
– 2.6 миллиона биткоинов
Сам OpenAI сейчас стоит 500 миллиардов, то есть это 60% цены стартапа.
Ларри, конечно, поздравляем. Маску сочувствуем😐
Они заключили с Oracle контракт (внимание!) на 300 миллиардов долларов.
Он вступает в силу в 2027 году, и OpenAI придется платить в среднем 60 миллиардов долларов в год в течение пяти лет, чтобы выплатить всю сумму (интересно, где они столько возьмут).
Это крупнейшая сделка в истории облачных вычислений. На ее фоне акции Oracle подскочили уже на 37%.
Понятно, что со всеми текущими новостями про инвестиции, расходы стартапов и тд эти огромные числа уже немного притерлись. Так что давайте просто вспомним, что на самом деле такое 300 миллиардов долларов:
– Это примерно 1.5 миллиона квартир в Москве
– 6 годовых бюджетов Казахстана
– 2.6 миллиона биткоинов
Сам OpenAI сейчас стоит 500 миллиардов, то есть это 60% цены стартапа.
Ларри, конечно, поздравляем. Маску сочувствуем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥124 39❤20🤯13👍7😁7 6 1
Стартап Миры Мурати Thinking Machines внезапно анонсировал свой рисерч блог Connectionism, и в нем уже есть первая статья
Статья, кстати, на очень интересную и редкую тему. Но сначала два слова про название Connectionism. Оно выбрано не случайно: в 80-х так называлась отрасль искусственного интеллекта, которая изучала сходство нейронных сетей с биологическим мозгом. Вот такая занятная деталь.
В блоге Thinking Machines обещают постить на довольно разнообразные темы, от промпт-инжинеринга до проектирования ядер. И первая статья как раз посвящена вот такой глубоко технической теме: воспроизводимость (детерминированность) ответов LLM.
Ясно, что ответы LLM – вещь случайная, то есть на один и тот же промпт она может раз из раза отвечать по-разному. Объясняется это тем, что во всех моделях на инференсе на самом деле выбирается не просто самый вероятный токен. Здесь замешана доля случайности, за которую отвечает гиперпараметр "температура".
Если температура ближе к 1, то из распределения вероятностей модель чаще будет выбирать токены с меньшими значениями, и ответы будут разнообразнее и креативнее. Если ближе к 0, то чаще будут выбираться просто самые вероятные токены, и ответы будут стабильнее.
По всей логике, если температура = 0, то ответы на одни и те же запросы не должны отличаться совсем. Но, оказывается, что это не так.
Почему? Принято было считать, что просто из-за параллельных вычислений: порядок сложения чисел на GPU может меняться, давая слегка разные результаты. Но TM разобрались глубже и показали, что это не совсем так, и причина еще менее очевидная:
– Когда модель работает на проде, на сервер одновременно приходят запросы от многих пользователей. В зависимости от нагрузки, фреймворк объединяет их в батчи разного размера: сейчас это может быть 8 последовательностей, через секунду — 32, потом 4. Это нужно, чтобы эффективно загружать GPU.
– Сам по себе матмуль, даже при распараллеливании, дает детерменированные результаты для одинаковых входов. Это называется run-to-run deterministic. Но если меняется размер батча, все тут же ломается. Математически это странно, тк элементы в батче должны обрабатываться независимо, но на практике оптимизации под GPU (другой порядок операций, разбиение на блоки и т.д.) приносят вот такие результаты.
– В итоге из-за постоянных изменений размера батча числа внутри модели чуть-чуть плавают. И даже если температура 0, на каком-то шаге эти крошечные различия могут привести к тому, что модель выберет другой токен, и ответ пойдёт по иному пути.
В статье показали, как такое исправить (по сути, как реализовать batch-invariant ядра). Мы оставим ссылку, там в тексте много выкладок, схем и кода: посмотрите, кому интересно.
Для пользователей такое, конечно, реализовывать никому не нужно, но вот для всяких отладок, элаймент тестов и прочей безопасности – имба.
В общем, Thinking Machines сегодня прямо порадовали. Надеемся, в новом блоге они будут почаще что-нибудь выкладывать.
thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
Статья, кстати, на очень интересную и редкую тему. Но сначала два слова про название Connectionism. Оно выбрано не случайно: в 80-х так называлась отрасль искусственного интеллекта, которая изучала сходство нейронных сетей с биологическим мозгом. Вот такая занятная деталь.
В блоге Thinking Machines обещают постить на довольно разнообразные темы, от промпт-инжинеринга до проектирования ядер. И первая статья как раз посвящена вот такой глубоко технической теме: воспроизводимость (детерминированность) ответов LLM.
Ясно, что ответы LLM – вещь случайная, то есть на один и тот же промпт она может раз из раза отвечать по-разному. Объясняется это тем, что во всех моделях на инференсе на самом деле выбирается не просто самый вероятный токен. Здесь замешана доля случайности, за которую отвечает гиперпараметр "температура".
Если температура ближе к 1, то из распределения вероятностей модель чаще будет выбирать токены с меньшими значениями, и ответы будут разнообразнее и креативнее. Если ближе к 0, то чаще будут выбираться просто самые вероятные токены, и ответы будут стабильнее.
По всей логике, если температура = 0, то ответы на одни и те же запросы не должны отличаться совсем. Но, оказывается, что это не так.
Почему? Принято было считать, что просто из-за параллельных вычислений: порядок сложения чисел на GPU может меняться, давая слегка разные результаты. Но TM разобрались глубже и показали, что это не совсем так, и причина еще менее очевидная:
– Когда модель работает на проде, на сервер одновременно приходят запросы от многих пользователей. В зависимости от нагрузки, фреймворк объединяет их в батчи разного размера: сейчас это может быть 8 последовательностей, через секунду — 32, потом 4. Это нужно, чтобы эффективно загружать GPU.
– Сам по себе матмуль, даже при распараллеливании, дает детерменированные результаты для одинаковых входов. Это называется run-to-run deterministic. Но если меняется размер батча, все тут же ломается. Математически это странно, тк элементы в батче должны обрабатываться независимо, но на практике оптимизации под GPU (другой порядок операций, разбиение на блоки и т.д.) приносят вот такие результаты.
– В итоге из-за постоянных изменений размера батча числа внутри модели чуть-чуть плавают. И даже если температура 0, на каком-то шаге эти крошечные различия могут привести к тому, что модель выберет другой токен, и ответ пойдёт по иному пути.
В статье показали, как такое исправить (по сути, как реализовать batch-invariant ядра). Мы оставим ссылку, там в тексте много выкладок, схем и кода: посмотрите, кому интересно.
Для пользователей такое, конечно, реализовывать никому не нужно, но вот для всяких отладок, элаймент тестов и прочей безопасности – имба.
В общем, Thinking Machines сегодня прямо порадовали. Надеемся, в новом блоге они будут почаще что-нибудь выкладывать.
thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/
2❤217👍66🏆16😁4🕊4🤨2 2
Забавно: В компании Safe Superintelligence, которую основал Илья Суцкевер, сотрудникам запретили указывать её название в профилях на LinkedIn
Так компания хочет снизить риск того, что конкуренты будут переманивать ключевых специалистов. В целом, после всех новостей от Meta их можно понять.
Тянет на ещё одну революцию от Ильи — теперь в жанре кадровой безопасности😎
Так компания хочет снизить риск того, что конкуренты будут переманивать ключевых специалистов. В целом, после всех новостей от Meta их можно понять.
Тянет на ещё одну революцию от Ильи — теперь в жанре кадровой безопасности
Please open Telegram to view this post
VIEW IN TELEGRAM
1 140😁64 29❤12👍10 7 5 4
Большая новость: OpenAI раскрывают детали новой структуры компании
Как вы помните, они уже несколько месяцев назад отказались от полного перехода в статус коммерческой организации и объявили, что будут Public Benefit Corporation, как, например, Anthropic и xAI. Но детали перехода до сегодняшнего дня были неизвестны. Итак, кратко пересказываем главное:
➖ Некоммерческий статус OpenAI остается: некомм. совет директоров сохраняет руководящую роль, при этом теперь владеет долей в новом PBC. Сейчас доля оценивается примерно в 100 миллиардов долларов.
➖ При этом эта доля будет увеличиваться по мере роста PBC, так что некоммерческая «составляющая» теперь напрямую заинтересована в успехе коммерческого подразделения. Вот такая абракадабра.
➖ Еще из интересного – капсирование прибыли. Доход инвесторов и сотрудников PBC имеет верхний предел, всё сверх лимита возвращается в некоммерческую часть и вкладывается в общественные нужды. Для инвесторов, конечно, кап потенциально хотят отменить, но пока он все еще существует.
И по поводу Microsoft: OpenAI находятся на этапе подписания с ними нового соглашения. Правда «детали пока обсуждаются», и на данный момент подписан только MOU – меморандум о намерениях. А он юридически не является обязательным. Но это уже другая история.
openai.com/index/statement-on-openai-nonprofit-and-pbc/
Как вы помните, они уже несколько месяцев назад отказались от полного перехода в статус коммерческой организации и объявили, что будут Public Benefit Corporation, как, например, Anthropic и xAI. Но детали перехода до сегодняшнего дня были неизвестны. Итак, кратко пересказываем главное:
И по поводу Microsoft: OpenAI находятся на этапе подписания с ними нового соглашения. Правда «детали пока обсуждаются», и на данный момент подписан только MOU – меморандум о намерениях. А он юридически не является обязательным. Но это уже другая история.
openai.com/index/statement-on-openai-nonprofit-and-pbc/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39👍19🔥7 6😁4👏1
В Албании впервые в мире ИИ занял пост министра
Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.
Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.
Ждем, пока Diella невзначай закупит из госбюджета миллион GPU
Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.
Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.
Ждем, пока Diella невзначай закупит из госбюджета миллион GPU
1🤯194😁130 44👍25 16🗿14❤12🤔8🔥7❤🔥3👌2
Cursor на 28% улучшили фичу Tab с помощью RL
Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода).
Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать.
В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд.
Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими:
1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др.
2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Реализовать такое, конечно, мега запара.
Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия.
Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды.
Good job
cursor.com/blog/tab-rl
Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода).
Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать.
В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд.
Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими:
1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др.
2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Реализовать такое, конечно, мега запара.
Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия.
Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды.
Good job
cursor.com/blog/tab-rl
❤🔥129👍48❤21😁4🔥2
Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сбера, Т-Банка, X5 и Lamoda на один вечер откроют свои двери и превратятся в большие фестивальные площадки.
Мы большинство времени проведем в офисе Яндекса (именно они, кстати, придумали такой формат и привлекли к участию другие компании). Вот на какие доклады и активности пойдем:
– «Программирование смыслов» от CTO бизнес-группы Поиска Яндекса. Про продуктовую ИИ-разработку и инфру, реальные возможности LLM и обучение с подкреплением.
– «MALVINA: редактирование изображений от research к production» от Head of R&D ML в Сбере. Должно быть хардово и очень актуально.
– Иммерсивная экскурсия по офису Яндекса. Что-то новенькое.
– «Ре(Э)волюция инструментов разработки в эпоху AI: в мире и Яндексе» от руководителя SourceCraft Яндекса. Про смысл опенсорса и тренды. Подобные доклады любим больше всего.
После Яндекса поедем в Сбер, слушать про агентов и играть в шахматы в зоне Rep Chess. Приходите, зарубимся
Всю программу мероприятия смотрите на сайте. Ну и если не получилось прийти – обязательно подключаетесь онлайн, не пропускайте
Please open Telegram to view this post
VIEW IN TELEGRAM
❤48👍22🔥16🗿12😁4 2🤔1🤯1🍾1
Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей
В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое.
Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска.
Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели.
Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу.
Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте.
Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься.
В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения.
Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.
В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое.
Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска.
Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели.
Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу.
Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте.
Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься.
В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения.
Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.
❤42🗿17👍12🔥6😁5✍2👌2🤯1 1