новая модель от Tencent - Hunyuan-T1; из интересного можно отметить то, что это - первая на моей памяти большая модель, сравнимая по качеству с топовыми (на картинке), на гибридной архитектуре трансформер-мамба; если я правильно понимаю, то Tranfromer-Mamba MoE уже была предложена год назад коллегами из AI21 Labs под названием Jamba; интересно, какие отличия у Т1? придется дождаться техрепорта
из интересных фактов, модель обучена на данных до июля 2024 года, похоже, что у них действительно свой претрейн
из интересных фактов, модель обучена на данных до июля 2024 года, похоже, что у них действительно свой претрейн
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
недавно вышло исследование от Google на тему сходства обработки речи в человеческом мозге и внутри LLM (на видео как раз демонстрация найденного сходства)
в ходе исследования коллеги пришли неожиданному (нет ) выводу:
в ходе исследования коллеги пришли неожиданному (
Unlike the Transformer architecture, which processes hundreds to thousands of words simultaneously, the language areas appear to analyze language serially, word by word, recurrently, and temporally.
🔥6🤯3😁2
сегодня будет 8 лекция моего курса, посвященная LLM; я принципиально делаю курс открытым для всех желающих, так что присоединяйтесь; зарегистрироваться можно здесь
❤17🔥13🥰1
оказалось, что почти 3 года назад коллеги из JetBrains выпустили статью, в которой поставили под сомнение применимость стандартных метрик для оценки качества генерации кода, в частности CodeBLEU
оказалось, что из всех опробованных метрик лучше всего себя ведет (показывает наименьшее расхождение с человеческим суждением) всенародно любимый ChrF (если вы эту аббревиатуру все еще не читаете, как "чешир", то я вас только что заразил), который изначально придуман, как и половина всего в NLP, для машинного перевода; на второй картинке как раз таблица расхождения на датасете Hearthstone
для тех, кто не знает, пример из датасета - на первой картинке; уже по нему можно увидеть основное ограничение - фактически выводы в статье сделаны на очень коротких кусочках кода; я предполагаю, что на более длинных синтаксис будет иметь существенное влияние на оценку
оказалось, что из всех опробованных метрик лучше всего себя ведет (показывает наименьшее расхождение с человеческим суждением) всенародно любимый ChrF (если вы эту аббревиатуру все еще не читаете, как "чешир", то я вас только что заразил), который изначально придуман, как и половина всего в NLP, для машинного перевода; на второй картинке как раз таблица расхождения на датасете Hearthstone
для тех, кто не знает, пример из датасета - на первой картинке; уже по нему можно увидеть основное ограничение - фактически выводы в статье сделаны на очень коротких кусочках кода; я предполагаю, что на более длинных синтаксис будет иметь существенное влияние на оценку
👍3❤1
This media is not supported in your browser
VIEW IN TELEGRAM
какой-то гений додумался для сокращения количества токенов заменять в коде на python 4 пробела на 1 таб
как справедливо заметил мой коллега, профит этого предприятия неочевиден, т.к. скорее всего любой токенизатор, обученный на питоновском коде, имеет отдельный токен для 4 пробелов, но тем не менее
как справедливо заметил мой коллега, профит этого предприятия неочевиден, т.к. скорее всего любой токенизатор, обученный на питоновском коде, имеет отдельный токен для 4 пробелов, но тем не менее
😁16💯1
второе видео, которым хотел поделиться - выступление для ИТМО про то, что NLP было до LLM
Дзен | Видео
Краткая история NLP – Валентин Малых | Valuable AI | Дзен
Видео автора «Valuable AI» в Дзене 🎦: МегаШкола ИТМО 2024
🔥16👍4🥰4🤗3
новая работа про токенизацию - SuperBPE - наводит на меня мысли о том, что история развивается по спирали; своим студентам я на первой лекции рассказываю про словосочетания (Multi-Word Expression), которые можно выделять из текста статистически; а потом использовать, например, для лучшего представления в TF-IDF (придуман в 1970-е)
прошло 50 лет, наши представления о токенизации сильно изменились, особенно в 2015 году, с адаптацией алгоритма сжатия ZIP к токенизации (это, собственно, и есть BPE), и теперь мы вышли на новый круг, чтобы снова учитывать словосочетания в токенизации...
@valuableai
прошло 50 лет, наши представления о токенизации сильно изменились, особенно в 2015 году, с адаптацией алгоритма сжатия ZIP к токенизации (это, собственно, и есть BPE), и теперь мы вышли на новый круг, чтобы снова учитывать словосочетания в токенизации...
@valuableai
👍17😁3❤1
кажется, мы стали забывать, как выглядят по-настоящему большие языковые модели; 1.8 Терабайта на минуточку!
отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях
я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ
@valuableai
отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях
я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ
@valuableai
😁12👍3
запустили новый ARC2 - соревнование, которое призвано протестировать способность моделей к пониманию задачи
интересно, что этот челлендж специально делается нетекстовым, т.к. кажется тексты уже содержат в себе инструкцию в самой своей формулировке; а вот аналог на картинках еще так не работает
к слову первый довольно быстро хакнули, но в этот раз авторы требуют опенсорсить свои решения, так что простые хаки не получат приз
@valuableai
интересно, что этот челлендж специально делается нетекстовым, т.к. кажется тексты уже содержат в себе инструкцию в самой своей формулировке; а вот аналог на картинках еще так не работает
к слову первый довольно быстро хакнули, но в этот раз авторы требуют опенсорсить свои решения, так что простые хаки не получат приз
@valuableai
🔥4❤1
коллеги из Huawei выпустили диффузионную языковую модель Dream 7B; утверждается, что это лучшая модель в своем классе, соответствующая по качеству современным LLM на трансформерах; что, наверное, не совсем удивительно, учитывая, что она была инициализирована весами Qwen; можно посмотреть на пример ее работы на первой картинке
меня больше заинтересовал график (вторая картинка), на котором можно увидеть соотношение между скорость и качеством генерации, теперь получило объяснение пятикратное превосходство в скорости у моделей Mercury Labs (кстати, тут коллеги тоже их упоминают); тут стоит отметить, что точность (accuracy) является очень примерным показателем качества языковой модели, но так хотя бы понятно, откуда ноги растут
по этому графику можно также сделать вывод, что если мы тратим больше времени, то получаем большее качество, что может быть своеобразным диалектическим развитием идеи рассуждений, которая сейчас стала популярна после выхода на сцену DeepSeek-R1
@valuableai
меня больше заинтересовал график (вторая картинка), на котором можно увидеть соотношение между скорость и качеством генерации, теперь получило объяснение пятикратное превосходство в скорости у моделей Mercury Labs (кстати, тут коллеги тоже их упоминают); тут стоит отметить, что точность (accuracy) является очень примерным показателем качества языковой модели, но так хотя бы понятно, откуда ноги растут
по этому графику можно также сделать вывод, что если мы тратим больше времени, то получаем большее качество, что может быть своеобразным диалектическим развитием идеи рассуждений, которая сейчас стала популярна после выхода на сцену DeepSeek-R1
@valuableai
👍16
сегодня вместо лекции от меня будет презентация проектов от студентов, которые сделали свои проекты во время других запусков курса, присоединяйтесь послушать
🔥13
Яндекс недавно запустил Нейроэксперта, который должен помочь школьникам и студентам подготовиться к экзаменам; но пока это бета-версия
@valuableai
@valuableai
😁25🤣13👍2😐2
новое видео - это мое выступление на панельной дискуссии, организованной ТеДо и посвященной ИИ-агентам
я выступил в моей любимой роли "Баба Яга против", в данном случае против хайпа, окружающего ИИ-агентов, в частности потому, что даже нормального определения агентов пока нет
коллеги на дискуссии описывали другие аспекты проблемы агентов, тут можно посмотреть запись митапа целиком
я выступил в моей любимой роли "Баба Яга против", в данном случае против хайпа, окружающего ИИ-агентов, в частности потому, что даже нормального определения агентов пока нет
коллеги на дискуссии описывали другие аспекты проблемы агентов, тут можно посмотреть запись митапа целиком
Дзен | Видео
выступление про ИИ-агентов на митапе ТеДо | Valuable AI | Дзен
Видео автора «Valuable AI» в Дзене 🎦: постарались с коллегами определить, что такое ИИ-агент / AI-агент / LLM-агент, даже название пока не устоялось
🔥11👍5💯1
тут вышла Llama 4, пока все (заслуженно) восторгаются ее качеством, предлагаю посмотреть на энергопотребление:
нехитрые подсчеты нам дают следующее: 7.38*10^6 часов * 0.7 кВт = 5.166 * 10^6 кВт-ч = 5.17 ГВт-ч
для сравнения самый свежий ядерный реактор в США на АЭС Уоттс-Бар (введен в промышленную эксплуатацию в 2016 году) столько выработал за весь 2017 год; сейчас его смогли разогнать до примерно 9.6 ГВт-ч, но тем не менее получается одна тренировка модели "съела" половину годовой выработки целого ядерного реактора
поэтому когда мне говорят, что ИИ захватит мир - я спрашиваю, где вы возьмете столько электричества?
UPD: в комментариях меня поправили, что я на три порядка ошибся, энергоблок вырабатывает ТВт-ч, а не ГВт-ч; так что проблема с электричеством сильно менее острая, хотя и существенная
Training Energy Use: Model pre-training utilized a cumulative of 7.38M GPU hours of computation on H100-80GB (TDP of 700W)
нехитрые подсчеты нам дают следующее: 7.38*10^6 часов * 0.7 кВт = 5.166 * 10^6 кВт-ч = 5.17 ГВт-ч
для сравнения самый свежий ядерный реактор в США на АЭС Уоттс-Бар (введен в промышленную эксплуатацию в 2016 году) столько выработал за весь 2017 год; сейчас его смогли разогнать до примерно 9.6 ГВт-ч, но тем не менее получается одна тренировка модели "съела" половину годовой выработки целого ядерного реактора
поэтому когда мне говорят, что ИИ захватит мир - я спрашиваю, где вы возьмете столько электричества?
UPD: в комментариях меня поправили, что я на три порядка ошибся, энергоблок вырабатывает ТВт-ч, а не ГВт-ч; так что проблема с электричеством сильно менее острая, хотя и существенная
👍13😁8🤔4👏1
Valuable AI / Валентин Малых
тут вышла Llama 4, пока все (заслуженно) восторгаются ее качеством, предлагаю посмотреть на энергопотребление: Training Energy Use: Model pre-training utilized a cumulative of 7.38M GPU hours of computation on H100-80GB (TDP of 700W) нехитрые подсчеты нам…
даже у меня в комментариях под постом про Llama 4 люди выражали сомнения в заявленном качестве моделей; тут завирусился пост на каком-то китайском форуме, где неизвестный китайский инженер пишет, что уволился, т.к. тестовые данные были подмешаны в трейн, чтобы добиться высоких результатов в тестах; достоверность данного поста для меня сомнительна, но в обсуждении приводятся ссылки на независимые замеры
вот тут замеряли качество написания кода на Aider polyglot (на первой картинке), Llama 4 себя показала хуже Qwen 32B
в другом месте человек обратил внимание, что Llama 4 специально доучивали для поддержания диалога, хотя обычно такое LLMArena не разрешает (вторая картинка)
подозрительно совпало, что Джоэль Пино объявила об увольнении неделю назад
в общем, пока все базируется на каких-то слухах и совпадениях, я бы подождал официальных замеров на разных бенчмарках, но с точки зрения продвижения технологии выглядит, как провал
@valuableai
вот тут замеряли качество написания кода на Aider polyglot (на первой картинке), Llama 4 себя показала хуже Qwen 32B
в другом месте человек обратил внимание, что Llama 4 специально доучивали для поддержания диалога, хотя обычно такое LLMArena не разрешает (вторая картинка)
подозрительно совпало, что Джоэль Пино объявила об увольнении неделю назад
в общем, пока все базируется на каких-то слухах и совпадениях, я бы подождал официальных замеров на разных бенчмарках, но с точки зрения продвижения технологии выглядит, как провал
@valuableai
🤯11
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга
я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал
второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела
P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5;ссылка на Хабр
@valuableai
я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал
второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела
P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5;
@valuableai
👍13
Valuable AI / Валентин Малых
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга я конечно…
в честь такой новости я решил сегодня на курсе рассказать про диалоговые системы, так что приходите послушать про ELIZA сегодня вечером; регистрироваться здесь
🔥9👍1
This media is not supported in your browser
VIEW IN TELEGRAM
в кои-то веки пишу не про тексты, по ЦКАД (кольцевая дорога вокруг Москвы на расстоянии примерно 100 км) запустили движение полностью беспилотных грузовиков (на видео); будущее уже здесь, его признаков становится все больше, только вчера писал про еще один
язык, конечно, несколько суконный, но принцип на мой взгляд указан правильный: ИИ помогает решить проблему нехватки людей, что программистов, что - как в этой новости - водителей
P.S. стоит отметить, что такие грузовики уже ездят по трассе М11 с сентября прошлого года, но теперь переходят уже к масштабированию их использования
@valuableai
"Беспилотные технологии также позволят сократить простои автопарка из-за нехватки водителей и перераспределить около 30% водителей на другие направления, оптимизируя использование человеческих ресурсов", - добавляют в министерстве.
язык, конечно, несколько суконный, но принцип на мой взгляд указан правильный: ИИ помогает решить проблему нехватки людей, что программистов, что - как в этой новости - водителей
P.S. стоит отметить, что такие грузовики уже ездят по трассе М11 с сентября прошлого года, но теперь переходят уже к масштабированию их использования
@valuableai
🔥17