Data Secrets

Claude теперь умеет генерировать и редактировать pdf-ки, табличные файлы и презентации

Не слишком часто пишем про новые фичи ботов, но это приятная и интересная. Даете промпт – а вам на выход файл. Или вы файл – вам на выход отредактированный вариант.

Работает это так: у Claude есть доступ к частному окружению, в котором он пишет и запускает код для создания файлов, которые затем отправляет пользователю в чат.

Теоретически такая система открывает много возможностей: продвинутый анализ данных, обработка всяких фото/видо/аудио, да и вообще работа со всеми видами файлов. Так что ждем и других агентских фичей от Anthropic, а пока наслаждаемся генерацией таблиц и документов.

www.anthropic.com/news/create-files

👍112❤41🔥17🦄3😁1🫡11

21.5K views09:11

Посмотрели интересное интервью Фей-Фей Ли для a16z. Захотелось пересказать здесь то, что она говорит про AGI и развитие LLM:

Язык – это на самом деле искусственный сигнал. В природе языка не существует. Если вы подаете на вход модели язык, то она действительно может его генерализировать и на выходе давать данные с достаточной силой обобщения, но это тоже будет только язык. То есть это language to language модели.

Но мир на самом деле трехмерный и подчиняется законам физики, а не языка. Он имеет собственные структуры благодаря материалам и другим вещам. Извлечь из этого мира информацию, уметь её представлять и генерировать – это по существу совершенно другая задача.

Конечно, можно использовать идеи LLM для ее решения, но просто масштабированием языковых моделей не добиться AGI. Будущее – в появлении моделей пространственного интеллекта (Genie – хороший пример).

Ее идеи, кстати, удивительно похожи на идеи Лекуна. Им бы объединиться и в одну лабу…

🔥220👍76❤32🗿13🤔8💯843😁1

22.3K views12:33

Data Secrets

Ни одна презентация Apple не обходится без последующих мемов

В этот раз соцсети заполонили шутки про синхронный перевод в новых AirPods.

Ну в общем, мы поддержали тренд и тоже мемов придумали. Переводим с ML-ного на человеческий 🤫

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁470❤50👍17🔥963❤‍🔥2💯1😎1

23.3K views15:40

Data Secrets

Ларри Эллисон (CEO Oracle) обогнал Илона Маска и стал самым богатым человеком на Земле. Все благодаря OpenAI.

Они заключили с Oracle контракт (внимание!) на 300 миллиардов долларов.

Он вступает в силу в 2027 году, и OpenAI придется платить в среднем 60 миллиардов долларов в год в течение пяти лет, чтобы выплатить всю сумму (интересно, где они столько возьмут).

Это крупнейшая сделка в истории облачных вычислений. На ее фоне акции Oracle подскочили уже на 37%.

Понятно, что со всеми текущими новостями про инвестиции, расходы стартапов и тд эти огромные числа уже немного притерлись. Так что давайте просто вспомним, что на самом деле такое 300 миллиардов долларов:

– Это примерно 1.5 миллиона квартир в Москве
– 6 годовых бюджетов Казахстана
– 2.6 миллиона биткоинов

Сам OpenAI сейчас стоит 500 миллиардов, то есть это 60% цены стартапа.

Ларри, конечно, поздравляем. Маску сочувствуем 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12439❤20🤯13👍7😁761

19.8K views06:31

Data Secrets

Стартап Миры Мурати Thinking Machines внезапно анонсировал свой рисерч блог Connectionism, и в нем уже есть первая статья

Статья, кстати, на очень интересную и редкую тему. Но сначала два слова про название Connectionism. Оно выбрано не случайно: в 80-х так называлась отрасль искусственного интеллекта, которая изучала сходство нейронных сетей с биологическим мозгом. Вот такая занятная деталь.

В блоге Thinking Machines обещают постить на довольно разнообразные темы, от промпт-инжинеринга до проектирования ядер. И первая статья как раз посвящена вот такой глубоко технической теме: воспроизводимость (детерминированность) ответов LLM.

Ясно, что ответы LLM – вещь случайная, то есть на один и тот же промпт она может раз из раза отвечать по-разному. Объясняется это тем, что во всех моделях на инференсе на самом деле выбирается не просто самый вероятный токен. Здесь замешана доля случайности, за которую отвечает гиперпараметр "температура".

Если температура ближе к 1, то из распределения вероятностей модель чаще будет выбирать токены с меньшими значениями, и ответы будут разнообразнее и креативнее. Если ближе к 0, то чаще будут выбираться просто самые вероятные токены, и ответы будут стабильнее.

По всей логике, если температура = 0, то ответы на одни и те же запросы не должны отличаться совсем. Но, оказывается, что это не так.

Почему? Принято было считать, что просто из-за параллельных вычислений: порядок сложения чисел на GPU может меняться, давая слегка разные результаты. Но TM разобрались глубже и показали, что это не совсем так, и причина еще менее очевидная:

– Когда модель работает на проде, на сервер одновременно приходят запросы от многих пользователей. В зависимости от нагрузки, фреймворк объединяет их в батчи разного размера: сейчас это может быть 8 последовательностей, через секунду — 32, потом 4. Это нужно, чтобы эффективно загружать GPU.

– Сам по себе матмуль, даже при распараллеливании, дает детерменированные результаты для одинаковых входов. Это называется run-to-run deterministic. Но если меняется размер батча, все тут же ломается. Математически это странно, тк элементы в батче должны обрабатываться независимо, но на практике оптимизации под GPU (другой порядок операций, разбиение на блоки и т.д.) приносят вот такие результаты.

– В итоге из-за постоянных изменений размера батча числа внутри модели чуть-чуть плавают. И даже если температура 0, на каком-то шаге эти крошечные различия могут привести к тому, что модель выберет другой токен, и ответ пойдёт по иному пути.

В статье показали, как такое исправить (по сути, как реализовать batch-invariant ядра). Мы оставим ссылку, там в тексте много выкладок, схем и кода: посмотрите, кому интересно.

Для пользователей такое, конечно, реализовывать никому не нужно, но вот для всяких отладок, элаймент тестов и прочей безопасности – имба.

В общем, Thinking Machines сегодня прямо порадовали. Надеемся, в новом блоге они будут почаще что-нибудь выкладывать.

thinkingmachines.ai/blog/defeating-nondeterminism-in-llm-inference/

2❤217👍66🏆16😁4🕊4🤨22

20.3K viewsedited 10:09

Data Secrets

Забавно: В компании Safe Superintelligence, которую основал Илья Суцкевер, сотрудникам запретили указывать её название в профилях на LinkedIn

Так компания хочет снизить риск того, что конкуренты будут переманивать ключевых специалистов. В целом, после всех новостей от Meta их можно понять.

Тянет на ещё одну революцию от Ильи — теперь в жанре кадровой безопасности 😎

Please open Telegram to view this post

VIEW IN TELEGRAM

1140😁6429❤12👍10754

21.8K views15:21

Data Secrets

Большая новость: OpenAI раскрывают детали новой структуры компании

Как вы помните, они уже несколько месяцев назад отказались от полного перехода в статус коммерческой организации и объявили, что будут Public Benefit Corporation, как, например, Anthropic и xAI. Но детали перехода до сегодняшнего дня были неизвестны. Итак, кратко пересказываем главное:

➖ Некоммерческий статус OpenAI остается: некомм. совет директоров сохраняет руководящую роль, при этом теперь владеет долей в новом PBC. Сейчас доля оценивается примерно в 100 миллиардов долларов.

➖ При этом эта доля будет увеличиваться по мере роста PBC, так что некоммерческая «составляющая» теперь напрямую заинтересована в успехе коммерческого подразделения. Вот такая абракадабра.

➖ Еще из интересного – капсирование прибыли. Доход инвесторов и сотрудников PBC имеет верхний предел, всё сверх лимита возвращается в некоммерческую часть и вкладывается в общественные нужды. Для инвесторов, конечно, кап потенциально хотят отменить, но пока он все еще существует.

И по поводу Microsoft: OpenAI находятся на этапе подписания с ними нового соглашения. Правда «детали пока обсуждаются», и на данный момент подписан только MOU – меморандум о намерениях. А он юридически не является обязательным. Но это уже другая история.

openai.com/index/statement-on-openai-nonprofit-and-pbc/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤39👍19🔥76😁4👏1

20.3K viewsedited 09:13

Data Secrets

В Албании впервые в мире ИИ занял пост министра

Цифровую систему по имени Diella (с албанского переводится как «солнце») официально назначили министром в сфере финансов.

Она будет отвечать за госзакупки и проведение тендеров. Цель – вообще исключить человеческий фактор. То есть в Албании таким образом надеятся бороться с коррупцией и повышать прозрачность расходов.

Ждем, пока Diella невзначай закупит из госбюджета миллион GPU

1🤯194😁13044👍2516🗿14❤12🤔8🔥7❤‍🔥3👌2

23.7K viewsedited 11:03

Data Secrets

Cursor на 28% улучшили фичу Tab с помощью RL

Для тех, кто не пользуется: Tab предсказывает, какое действие пользователь собирается сделать далее. Когда вы перемещаете курсор или начинаете писать какой-то код, Tab пытается понять, что вам нужно и, если она достаточно уверена в своем предсказании, то предлагает вам продолжение (чаще всего завершение кода).

Отличная фича, но часто предлагала шум. В общем, Cursor решили что-то с этим делать.

В других редакторах (например, в Copilot) подобную проблему пытались бороть обычными фильтрами: язык, были бы предыдущие предложения приняты или нет и тд.

Звучит в целом норм, но Cursor выбрали путь сложнее и интереснее, потому что они использовали RL с двумя сильными составляющими:

1. Сложная reward модель. Политика на каждом шаге предсказывает вероятности разных исходов + вероятность того, что предложение будет принято. Reward, исходя из этих вероятностей, поощряет принятые предложения и штрафует отклонённые. Например, если вероятность принятия ≥ 25%, accepted даёт +0.75, rejected — −0.25, если ничего не показывается – 0. Вот модель и решает, как ей лучше себя вести. Также в награде учитывается длина оффера, общее количество офферов и др.

2. On-policy data. То есть данные, на которых училась политика, собраны в реальной работе модели уже после её обновления. Получили новый чекпоинт -> задеплоили -> собрали данные (это занимает пару часов) -> учим дальше. Это чтобы не было distribution shift и градиент обновлялся правильно. Реализовать такое, конечно, мега запара.

Итог: в новой версии на 21% меньше предложений, но на 28% выше доля принятия.

Мало того, что это огромный скачок метрики, это еще и качественно другой результат: тут accept rate растет не за счет костыльной фильтрации шумных предсказаний, а за счет того, что сама модель стала более прагматичной и предлагает меньше ерунды.

Good job

cursor.com/blog/tab-rl

❤‍🔥129👍48❤21😁4🔥2

20.5K viewsedited 13:46

Data Secrets

⚫

А мы тем временем с командой приехали на big tech night

Тут намечается настоящая ночь в музее в стиле IT: офисы Яндекса, Сбера, Т-Банка, X5 и Lamoda на один вечер откроют свои двери и превратятся в большие фестивальные площадки.

Мы большинство времени проведем в офисе Яндекса (именно они, кстати, придумали такой формат и привлекли к участию другие компании). Вот на какие доклады и активности пойдем:

– «Программирование смыслов» от CTO бизнес-группы Поиска Яндекса. Про продуктовую ИИ-разработку и инфру, реальные возможности LLM и обучение с подкреплением.

– «MALVINA: редактирование изображений от research к production» от Head of R&D ML в Сбере. Должно быть хардово и очень актуально.

– Иммерсивная экскурсия по офису Яндекса. Что-то новенькое.

– «Ре(Э)волюция инструментов разработки в эпоху AI: в мире и Яндексе» от руководителя SourceCraft Яндекса. Про смысл опенсорса и тренды. Подобные доклады любим больше всего.

После Яндекса поедем в Сбер, слушать про агентов и играть в шахматы в зоне Rep Chess. Приходите, зарубимся 👉

Всю программу мероприятия смотрите на сайте. Ну и если не получилось прийти – обязательно подключаетесь онлайн, не пропускайте

Please open Telegram to view this post

VIEW IN TELEGRAM

❤48👍22🔥16🗿12😁42🤔1🤯1🍾1

18.8K viewsedited 16:13

Data Secrets

А сегодня, между прочим, День Программиста!

Жаль, дня ML-инженера еще не придумали, так что пока празднуем сегодня, друзья.

Пусть хирш растет и лосс падает. Работаем.

❤224👍44🔥2115😁4🍾3

19.4K views09:41

Data Secrets

Итоги big tech night и интересная история про то, как в Яндексе борются с дефектами reward моделей

В двух словах: очень насыщенный выдался вечер. За несколько часов успели послушать 3 крутых доклада и IT-стендап, поиграть на турнире по шахматам, пописать код в опенсорс-проект, пообщаться с лидами ML-команд и многое другое.

Интересного на докладах было много, но подсветить хотим занятную инженерную практику от Алексея Гусакова — CTO бизнес-группы Поиска.

Поиск с Алисой = алгоритмы обычного поиска + LLM. И основная работа ML-щиков тут — затюнить базовую модель так, чтобы она писала хороший текст по мотивам релевантных источников. Где тюнинг — там RL, а где RL — там reward-модели.

Но reward-модели не идеальны. Они могут не совсем правильно оценивать некоторые ответы. Например, больше награждать длинные тексты, даже если куча текста там вообще не к месту. И обучаемой модели, которую оценивает reward-модель, выгодно находить такие баги и пользоваться ими в свою пользу.

Это называется reward hacking. В презентации много смешных примеров того, как это может отражаться на итоговом чекпоинте.

Для продукта, как вы понимаете, подобное поведение — совсем плохо. И если некоторые такие баги можно отловить очень быстро и вставить регуляризацию, то со временем их число растет, они становятся спорными, и на каждый из них регуляризаций не напасешься.

В Яндексе придумали такую практику: каждую неделю несколько лидов команд по специальному сценарию оценивают случайные ответы от Нейропоиска, выписывают плюсы и минусы и обсуждают их. Затем ответы кластеризуются и обобщаются в проблемы, которые затем уже решаются на уровне дообучения.

Получается, что reward-hacking таким образом трекается постоянно, но костыли не множатся бесконтрольно. Элегантно и просто.

❤42🗿17👍12🔥6😁5✍2👌2🤯11

19.4K views11:11

About

Blog

Apps

Platform