Valuable AI / Валентин Малых
1.85K subscribers
434 photos
54 videos
2 files
434 links
личный канал про ИИ
Download Telegram
вышла новая работа от Meta* в соавторстве с самим Яном ЛеКуном; концептуально работа очень простая - авторы заменяют сложную в вычислении нормализацию обычным гиперболическим тангенсом (первая картинка), и это не приводит к ухудшению качества; зато приводит к сокращению времени на вычисление этого слоя вдвое, а всей модели Llama на 8% (вторая картинка)

ждем, когда это добавят в NanoGPT, сейчас люди уже тренируют GPT2 меньше, чем за 3 минуты, можно было бы ожидать экономии еще 10 секунд

но интересно другое, в упомянутой работе авторы показывают сохранение качества для большого набора моделей, включая даже диффузии, но преимущество по скорости - только для Llama

так что остается открытым вопрос прироста скорости для других архитектур (не исключая GPT2)

* Meta запрещена на территории РФ
👍8
вышла интересная работа, которая посвящена анализу того, как модели строят рассуждения; конкретно авторы выделяют 4 составляющих - само-проверка, постановка промежуточных целей, поиск обходных путей и поиск решения, начиная с конца рассуждения (посередине на первой картинке); они отмечают, что люди используют ровно те же приемы, когда решают сложные задачи

эта работа поднимает вопрос того, что модели через тексты заимствуют человеческое поведение; это уже пытаются использовать для создания ботов-двойников мировых лидеров; и здесь к месту вспомнить, что моральные установки моделей ломаются от плохого кода

также примерно год назад вышла работа, которая адаптировала подход из психологии к PPO; конкретно, они адаптировали функцию полезности, которую открыл Канеман, анализируя, как люди делают выбор (вторая картинка); к слову, эта функция, а также много другого полезного про то, как работает механизм принятия решений у людей, описана в книге "Думай медленно, решай быстро" (отрывок)
🆒4🔥3
на днях я узнал, что исследовательский центр Huawei в Москве переименовали в честь Николая Николаевича Лузина; к своему стыду, я узнал, кто это такой только после этого, но от чего становится еще стыднее - это от того, что он мой прямой предок по математической генеалогии

кто не знает, что это - пример на картинке к посту, вашим предком считается ваш научник; например, моим научным отцом является Владимир Львович Арлазаров

моя генеалогия уверенно отслеживается до Николая Васильевича Бугаева; кстати, не только моя, но и многих современных российских математиков; Николай Васильевич в этом смысле оказался плодовит

глубже него не отслеживается, т.к. докторскую диссертацию он писал самостоятельно, прослушав несколько курсов лекций в европейских университетах, а магистерскую* - непонятно под чьим, я даже предпринял целое расследование, оцифровал его диссертацию, но в ней нет указания на научного руководителя, такие дела
👍11😁6🔥2
я что-то упустил год назад момент, когда NAACL переименовались из North American в Nations of Americas (Chapter of ACL); у них там даже своя конституция есть, на минуточку!
🤯31
мне сказали, что можно приглашать всех на мое выступление для ИТМО по поводу нашей статьи Iterative Self-Training for Code Generation via Reinforced Re-Ranking, которую приняли на ECIR 2025

всем, кому интересно про генерацию кода при помощи обучения с подкреплением - добро пожаловать 26 марта в 18:30 (МСК)

нужна регистрация
🔥186
новая модель от Tencent - Hunyuan-T1; из интересного можно отметить то, что это - первая на моей памяти большая модель, сравнимая по качеству с топовыми (на картинке), на гибридной архитектуре трансформер-мамба; если я правильно понимаю, то Tranfromer-Mamba MoE уже была предложена год назад коллегами из AI21 Labs под названием Jamba; интересно, какие отличия у Т1? придется дождаться техрепорта

из интересных фактов, модель обучена на данных до июля 2024 года, похоже, что у них действительно свой претрейн
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
недавно вышло исследование от Google на тему сходства обработки речи в человеческом мозге и внутри LLM (на видео как раз демонстрация найденного сходства)

в ходе исследования коллеги пришли неожиданному (нет) выводу:
Unlike the Transformer architecture, which processes hundreds to thousands of words simultaneously, the language areas appear to analyze language serially, word by word, recurrently, and temporally.
🔥6🤯3😁2
сегодня будет 8 лекция моего курса, посвященная LLM; я принципиально делаю курс открытым для всех желающих, так что присоединяйтесь; зарегистрироваться можно здесь
17🔥13🥰1
оказалось, что почти 3 года назад коллеги из JetBrains выпустили статью, в которой поставили под сомнение применимость стандартных метрик для оценки качества генерации кода, в частности CodeBLEU

оказалось, что из всех опробованных метрик лучше всего себя ведет (показывает наименьшее расхождение с человеческим суждением) всенародно любимый ChrF (если вы эту аббревиатуру все еще не читаете, как "чешир", то я вас только что заразил), который изначально придуман, как и половина всего в NLP, для машинного перевода; на второй картинке как раз таблица расхождения на датасете Hearthstone

для тех, кто не знает, пример из датасета - на первой картинке; уже по нему можно увидеть основное ограничение - фактически выводы в статье сделаны на очень коротких кусочках кода; я предполагаю, что на более длинных синтаксис будет иметь существенное влияние на оценку
👍31
This media is not supported in your browser
VIEW IN TELEGRAM
какой-то гений додумался для сокращения количества токенов заменять в коде на python 4 пробела на 1 таб

как справедливо заметил мой коллега, профит этого предприятия неочевиден, т.к. скорее всего любой токенизатор, обученный на питоновском коде, имеет отдельный токен для 4 пробелов, но тем не менее
😁16💯1
второе видео, которым хотел поделиться - выступление для ИТМО про то, что NLP было до LLM
🔥16👍4🥰4🤗3
новая работа про токенизацию - SuperBPE - наводит на меня мысли о том, что история развивается по спирали; своим студентам я на первой лекции рассказываю про словосочетания (Multi-Word Expression), которые можно выделять из текста статистически; а потом использовать, например, для лучшего представления в TF-IDF (придуман в 1970-е)

прошло 50 лет, наши представления о токенизации сильно изменились, особенно в 2015 году, с адаптацией алгоритма сжатия ZIP к токенизации (это, собственно, и есть BPE), и теперь мы вышли на новый круг, чтобы снова учитывать словосочетания в токенизации...

@valuableai
👍17😁31
кажется, мы стали забывать, как выглядят по-настоящему большие языковые модели; 1.8 Терабайта на минуточку!

отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях

я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ

@valuableai
😁12👍3
запустили новый ARC2 - соревнование, которое призвано протестировать способность моделей к пониманию задачи

интересно, что этот челлендж специально делается нетекстовым, т.к. кажется тексты уже содержат в себе инструкцию в самой своей формулировке; а вот аналог на картинках еще так не работает

к слову первый довольно быстро хакнули, но в этот раз авторы требуют опенсорсить свои решения, так что простые хаки не получат приз

@valuableai
🔥41
коллеги из Huawei выпустили диффузионную языковую модель Dream 7B; утверждается, что это лучшая модель в своем классе, соответствующая по качеству современным LLM на трансформерах; что, наверное, не совсем удивительно, учитывая, что она была инициализирована весами Qwen; можно посмотреть на пример ее работы на первой картинке

меня больше заинтересовал график (вторая картинка), на котором можно увидеть соотношение между скорость и качеством генерации, теперь получило объяснение пятикратное превосходство в скорости у моделей Mercury Labs (кстати, тут коллеги тоже их упоминают); тут стоит отметить, что точность (accuracy) является очень примерным показателем качества языковой модели, но так хотя бы понятно, откуда ноги растут

по этому графику можно также сделать вывод, что если мы тратим больше времени, то получаем большее качество, что может быть своеобразным диалектическим развитием идеи рассуждений, которая сейчас стала популярна после выхода на сцену DeepSeek-R1

@valuableai
👍16
сегодня вместо лекции от меня будет презентация проектов от студентов, которые сделали свои проекты во время других запусков курса, присоединяйтесь послушать
🔥13
Яндекс недавно запустил Нейроэксперта, который должен помочь школьникам и студентам подготовиться к экзаменам; но пока это бета-версия

@valuableai
😁25🤣13👍2😐2