Вот это внезапно: OpenAI дропнули целый экономический план для укрепления лидерства США в сфере ИИ – OpenAI’s Economic Blueprint
В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).
Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий
Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?
В документе они топят за то, что Америка уже давно должна разработать какую-то национальную стратегию для развития ИИ и максимизировать экономическую выгоду от этого процесса, иначе Китай заберет себе лидерство (так и написано).
Поэтому «действовать надо быстро и думать масштабно, поддерживая разработчиков ИИ как основу экономики будущего». А еще в документе они предлагают собственную «истинную» политику регулирования и систему субсидий
Хорош, Сэм. Интересно, когда уже увидим его в конгрессе?
🔥67🤔24😁16👍13😐10🤪4❤3💅2🤯1
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
➖ Memory as Context: долгосрочная память используется как контекст для текущего внимания.
➖ Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
➖ Memory as Layer: самый простой вариант, вся память соединена как слой в сетке
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.
В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.
При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:
MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.
Полный текст статьи здесь
P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍32❤16😐3⚡1😁1
Data Secrets
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит…
Кстати, эпилог к новой статье Google заслуживает отдельного внимания. Звучит как «The true art of memory is the art of attention!», то есть «Искусство запоминания это искусство внимания».
Это цитата Сэмюэля Джонсона (да, того самого, чей портрет стал мемом). Он был английским критиком и лексикографом, и сказал это (точнее, написал) в 1787.
Сегодня это высказывание можно делать лозунгом всего ML
Это цитата Сэмюэля Джонсона (да, того самого, чей портрет стал мемом). Он был английским критиком и лексикографом, и сказал это (точнее, написал) в 1787.
Сегодня это высказывание можно делать лозунгом всего ML
❤81👍25🦄12🕊6😁3☃2❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT появились Tasks
Теперь можно запланировать задачу на определенное время, например «пришли мне напоминание вытащить мясо из морозилки в 6 вечера» или «присылай мне колыбельную каждый день в 11 вечера». Бот выполнит ее в установленное время, при этом неважно, онлайн пользователь или нет. Поддерживается до 10 таких отложенных тасок одновременно.
Также теперь бот сам может предлагать какие-то задачи. Например, если видит, что вы не дописали код, может спросить, не хотите ли закончить задачу.
Почему это крутой и заметный релиз? Во-первых, потому что это первый чат-бот, который так умеет. Во-вторых, потому что это еще на шажок приближает нас к агентам, которые могут поддерживать действия в системе, а не просто диалог.
Вспоминается недавняя история о том, как ChatGPT написал юзеру первый и это произвело настоящий фурор в интернете (пост). Снова то, что удивляло нас еще недавно, сегодня становится реальным.
Пробовать можно уже сейчас (раскатили на всех платников), но у многих пока продолжаются сбои из-за наплыва трафика
Теперь можно запланировать задачу на определенное время, например «пришли мне напоминание вытащить мясо из морозилки в 6 вечера» или «присылай мне колыбельную каждый день в 11 вечера». Бот выполнит ее в установленное время, при этом неважно, онлайн пользователь или нет. Поддерживается до 10 таких отложенных тасок одновременно.
Также теперь бот сам может предлагать какие-то задачи. Например, если видит, что вы не дописали код, может спросить, не хотите ли закончить задачу.
Почему это крутой и заметный релиз? Во-первых, потому что это первый чат-бот, который так умеет. Во-вторых, потому что это еще на шажок приближает нас к агентам, которые могут поддерживать действия в системе, а не просто диалог.
Вспоминается недавняя история о том, как ChatGPT написал юзеру первый и это произвело настоящий фурор в интернете (пост). Снова то, что удивляло нас еще недавно, сегодня становится реальным.
Пробовать можно уже сейчас (раскатили на всех платников), но у многих пока продолжаются сбои из-за наплыва трафика
❤🔥53👍36🔥12❤6😁4👏3
Лаборатория Hailuo AI только что дропнула MiniMax-01: первую LLM с Lightning Attention и контекстным окном 4 миллиона токенов!
Lightning Attention – это модификация атеншена, которая разработана специально для длинных контекстов. Работает на основе key-value lookup (недавно Meta делали про этот подход статью, посмотрите наш разбор).
Ключевое отличие от ванильного внимания: ключи и значения являются обучаемыми параметрами, а не временными активациями. За счет этого архитектура, основанная на таких memory layers, лучше скейлится на длинные последовательности.
Плюсом прикрутили silu, гейтинг и CUDA оптимизации. В итоге получилось что-то довольно красивое: в таблицах видно хорошие приросты метрик в задачах, где надо анализировать много текста, а Memory+ с 64 миллионами ключей достигает точности близкой к Llama 7B, при этом используя в 10 раз меньше FLOPs.
Снова Китай на высоте. Попробовать можно здесь: www.hailuo.ai/
Lightning Attention – это модификация атеншена, которая разработана специально для длинных контекстов. Работает на основе key-value lookup (недавно Meta делали про этот подход статью, посмотрите наш разбор).
Ключевое отличие от ванильного внимания: ключи и значения являются обучаемыми параметрами, а не временными активациями. За счет этого архитектура, основанная на таких memory layers, лучше скейлится на длинные последовательности.
Плюсом прикрутили silu, гейтинг и CUDA оптимизации. В итоге получилось что-то довольно красивое: в таблицах видно хорошие приросты метрик в задачах, где надо анализировать много текста, а Memory+ с 64 миллионами ключей достигает точности близкой к Llama 7B, при этом используя в 10 раз меньше FLOPs.
Снова Китай на высоте. Попробовать можно здесь: www.hailuo.ai/
🔥61👍14❤11👏6🤯4⚡1🎉1
НИУ ВШЭ выкатили рейтинг лучших вузов по качеству приема абитуриентов. Оценивали средний балл ЕГЭ у бакалавров и специалистов, поступивших в 2024 году.
В топ-10 по качеству общего набора оказались не только всем знакомые МФТИ и МГИМО, но и неожиданно – Центральный университет (вуз, созданный при поддержке 50 крупнейших компаний страны для подготовки профессиональных кадров для бизнеса). Он обогнал МГУ имени М.В. Ломоносова и получил восьмое место со средним баллом ЕГЭ 84,7. Результат платного набора составил 84,4, что позволило Центральному университету замкнуть тройку лидеров. Его опередили только МФТИ и Университет Иннополис.
В Центральном университете отметили, что у абитуриентов есть много возможностей получения грантов, покрывающих до 100% стоимости обучения. Студентам вуз предоставляет оплачиваемые стажировки в топовых российский компаниях.
P.S. Неплохие условия для старта карьеры, в наше время такого не было.
В топ-10 по качеству общего набора оказались не только всем знакомые МФТИ и МГИМО, но и неожиданно – Центральный университет (вуз, созданный при поддержке 50 крупнейших компаний страны для подготовки профессиональных кадров для бизнеса). Он обогнал МГУ имени М.В. Ломоносова и получил восьмое место со средним баллом ЕГЭ 84,7. Результат платного набора составил 84,4, что позволило Центральному университету замкнуть тройку лидеров. Его опередили только МФТИ и Университет Иннополис.
В Центральном университете отметили, что у абитуриентов есть много возможностей получения грантов, покрывающих до 100% стоимости обучения. Студентам вуз предоставляет оплачиваемые стажировки в топовых российский компаниях.
P.S. Неплохие условия для старта карьеры, в наше время такого не было.
😁64👍31❤17❤🔥6😎4🤨2🕊1🙈1
Почему o1 иногда думает на китайском?
После выхода o1 некоторые пользователи стали замечать любопытное явление: во время размышлений модель может рандомно переключиться на... китайский язык (пример). Ответ она затем дает на языке пользователя, но ситуацию это не проясняет.
o1, кстати, не одинственный ризонер, который так делает. QwQ вот тоже переключается во время рассуждений на китайский(пост). Но с QwQ все понятно, моделька родом из Китая и основной язык данных китайский. А o1 то чего?
OpenAI такое поведение никак не комментировали, но у других экспертов и ресерчеров есть идеи. Например, CEO Hugging Face пишет (и это, конечно, первое, о чем можно подумать), что в трейне просто было очень-очень много китайской даты, потому что многие компании, и возможно OpenAI в том числе, используют китайские сервисы разметки. Так что это вполне правдоподобный вариант.
Но это не объясняет, почему только китайский. Ведь в данных точно много разметки на хинди, или на тайском, или на испанском. Но модель никогда, вообще никогда на эти языки не переключается. Почему?
Некоторые считают, что это мог быть намеренный эксперимент OpenAI, ведь токены в китайском языке гораздо информативнее, чем в других, а значит, рассуждения на китайском могут быть короче и дешевле. А если думать о том, что модель действительно выполняет поиск в пространстве решений, то объяснить происходящее можно так: рассуждения на определенном языке в определенных доменах могут чаще приводить к правильным ответам (например, из-за того же дисбаланса в данных), чем рассуждения на других языках, потому модель такие ветки и выбирает.
В любом случае, пока такое поведение – загадка. Надеемся, OpenAI все-таки даст свои комментарии
После выхода o1 некоторые пользователи стали замечать любопытное явление: во время размышлений модель может рандомно переключиться на... китайский язык (пример). Ответ она затем дает на языке пользователя, но ситуацию это не проясняет.
o1, кстати, не одинственный ризонер, который так делает. QwQ вот тоже переключается во время рассуждений на китайский(пост). Но с QwQ все понятно, моделька родом из Китая и основной язык данных китайский. А o1 то чего?
OpenAI такое поведение никак не комментировали, но у других экспертов и ресерчеров есть идеи. Например, CEO Hugging Face пишет (и это, конечно, первое, о чем можно подумать), что в трейне просто было очень-очень много китайской даты, потому что многие компании, и возможно OpenAI в том числе, используют китайские сервисы разметки. Так что это вполне правдоподобный вариант.
Но это не объясняет, почему только китайский. Ведь в данных точно много разметки на хинди, или на тайском, или на испанском. Но модель никогда, вообще никогда на эти языки не переключается. Почему?
Некоторые считают, что это мог быть намеренный эксперимент OpenAI, ведь токены в китайском языке гораздо информативнее, чем в других, а значит, рассуждения на китайском могут быть короче и дешевле. А если думать о том, что модель действительно выполняет поиск в пространстве решений, то объяснить происходящее можно так: рассуждения на определенном языке в определенных доменах могут чаще приводить к правильным ответам (например, из-за того же дисбаланса в данных), чем рассуждения на других языках, потому модель такие ветки и выбирает.
В любом случае, пока такое поведение – загадка. Надеемся, OpenAI все-таки даст свои комментарии
⚡94😁34❤20🤔13👍11🤪3🔥2👾2
Огонь: Hugging Face запускает собственный бесплатный сертифицированный курс по практическому изучению агентов
Они объявили об этом несколько часов назад в своем блоге. Пишут, что на курсе обучат:
🔵 Теоретическим основам: что такое агенты, какие агенты бывают, как научить агента с помощью LLM воспринимать окружение, в которое его поместили, и действовать там
🔵 Непосредственно созданию агентов. Будет много практики на основных фреймворках и реальных приложениях: «от автоматизации SQL запросов до генерации кода и суммаризации документов». Помните, что это агенты, и, например, та же суммаризация документов – это не про привычный pdf2summary, а про то, как научить модель ориентироваться в сложной структуре файлов на компьютере + самой находить и обрабатывать нужные доки.
Hugging Face, в общем, снова сделали что-то крутое. Запись на курс свободная, записаться можно здесь
Они объявили об этом несколько часов назад в своем блоге. Пишут, что на курсе обучат:
Hugging Face, в общем, снова сделали что-то крутое. Запись на курс свободная, записаться можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥117👍35❤13👏5⚡1🤩1
Пост для тех, кому хочется отвлечься от разговоров про LLM-гонку: вышло крутое интервью про старую добрую продуктовую аналитику
Гость – продакт оунер AppMetrica (это инструмент для аналитики приложений от Яндекса, пожалуй самый популярный в России). Вот несколько интересных тезисов про тренды в области:
🟦 Самое важное для бизнеса сегодня – лучше понимать поведение пользователей и вовремя реагировать на изменение метрик. Поэтому увеличивается роль проактивной аналитики. Это значит, что формат, когда люди сами анализируют данные в поисках проблем, устарел: теперь сигналы о значимых изменениях должна подавать сама аналитическая система. Например, в AppMetrica это предусмотрено в новом инструменте "Инсайты".
🟦 Еще одним трендом игровой аналитики станет поиск баланса между доходом от рекламы и внутренними покупками. Если раньше сложные игры зарабатывали на "внутриигровых" покупках, а более простые – на их комбинации с рекламой, то сейчас эти паттерны размываются.
🟦 Ну и, конечно, все стремятся к единому окну для анализа данных из разных систем аналитики, и это – одно ключевых направлений развития AppMetrica. Например, сегодня там уже можно увидеть интеграции со сторонними трекингами и рекламными сервисами.
Полностью почитать можно здесь
Гость – продакт оунер AppMetrica (это инструмент для аналитики приложений от Яндекса, пожалуй самый популярный в России). Вот несколько интересных тезисов про тренды в области:
Полностью почитать можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🗿8🤯4❤1😁1