Valuable AI / Валентин Малых
1.85K subscribers
434 photos
54 videos
2 files
434 links
личный канал про ИИ
Download Telegram
кажется, мы стали забывать, как выглядят по-настоящему большие языковые модели; 1.8 Терабайта на минуточку!

отдельно хочу отметить аббревиатуру SB - это Stupid Backoff, я про такое до сих пор рассказываю на лекциях

я думаю, уже многие догадались, что речь идет про n-граммные языковые модели, но эта статья - вроде бы первое задокументированное употребление выражения Large Language Model, исторический документ

@valuableai
😁12👍3
запустили новый ARC2 - соревнование, которое призвано протестировать способность моделей к пониманию задачи

интересно, что этот челлендж специально делается нетекстовым, т.к. кажется тексты уже содержат в себе инструкцию в самой своей формулировке; а вот аналог на картинках еще так не работает

к слову первый довольно быстро хакнули, но в этот раз авторы требуют опенсорсить свои решения, так что простые хаки не получат приз

@valuableai
🔥41
коллеги из Huawei выпустили диффузионную языковую модель Dream 7B; утверждается, что это лучшая модель в своем классе, соответствующая по качеству современным LLM на трансформерах; что, наверное, не совсем удивительно, учитывая, что она была инициализирована весами Qwen; можно посмотреть на пример ее работы на первой картинке

меня больше заинтересовал график (вторая картинка), на котором можно увидеть соотношение между скорость и качеством генерации, теперь получило объяснение пятикратное превосходство в скорости у моделей Mercury Labs (кстати, тут коллеги тоже их упоминают); тут стоит отметить, что точность (accuracy) является очень примерным показателем качества языковой модели, но так хотя бы понятно, откуда ноги растут

по этому графику можно также сделать вывод, что если мы тратим больше времени, то получаем большее качество, что может быть своеобразным диалектическим развитием идеи рассуждений, которая сейчас стала популярна после выхода на сцену DeepSeek-R1

@valuableai
👍16
сегодня вместо лекции от меня будет презентация проектов от студентов, которые сделали свои проекты во время других запусков курса, присоединяйтесь послушать
🔥13
Яндекс недавно запустил Нейроэксперта, который должен помочь школьникам и студентам подготовиться к экзаменам; но пока это бета-версия

@valuableai
😁25🤣13👍2😐2
новое видео - это мое выступление на панельной дискуссии, организованной ТеДо и посвященной ИИ-агентам

я выступил в моей любимой роли "Баба Яга против", в данном случае против хайпа, окружающего ИИ-агентов, в частности потому, что даже нормального определения агентов пока нет

коллеги на дискуссии описывали другие аспекты проблемы агентов, тут можно посмотреть запись митапа целиком
🔥11👍5💯1
тут вышла Llama 4, пока все (заслуженно) восторгаются ее качеством, предлагаю посмотреть на энергопотребление:

Training Energy Use: Model pre-training utilized a cumulative of 7.38M GPU hours of computation on H100-80GB (TDP of 700W)


нехитрые подсчеты нам дают следующее: 7.38*10^6 часов * 0.7 кВт = 5.166 * 10^6 кВт-ч = 5.17 ГВт-ч

для сравнения самый свежий ядерный реактор в США на АЭС Уоттс-Бар (введен в промышленную эксплуатацию в 2016 году) столько выработал за весь 2017 год; сейчас его смогли разогнать до примерно 9.6 ГВт-ч, но тем не менее получается одна тренировка модели "съела" половину годовой выработки целого ядерного реактора

поэтому когда мне говорят, что ИИ захватит мир - я спрашиваю, где вы возьмете столько электричества?

UPD: в комментариях меня поправили, что я на три порядка ошибся, энергоблок вырабатывает ТВт-ч, а не ГВт-ч; так что проблема с электричеством сильно менее острая, хотя и существенная
👍13😁8🤔4👏1
Valuable AI / Валентин Малых
тут вышла Llama 4, пока все (заслуженно) восторгаются ее качеством, предлагаю посмотреть на энергопотребление: Training Energy Use: Model pre-training utilized a cumulative of 7.38M GPU hours of computation on H100-80GB (TDP of 700W) нехитрые подсчеты нам…
даже у меня в комментариях под постом про Llama 4 люди выражали сомнения в заявленном качестве моделей; тут завирусился пост на каком-то китайском форуме, где неизвестный китайский инженер пишет, что уволился, т.к. тестовые данные были подмешаны в трейн, чтобы добиться высоких результатов в тестах; достоверность данного поста для меня сомнительна, но в обсуждении приводятся ссылки на независимые замеры

вот тут замеряли качество написания кода на Aider polyglot (на первой картинке), Llama 4 себя показала хуже Qwen 32B

в другом месте человек обратил внимание, что Llama 4 специально доучивали для поддержания диалога, хотя обычно такое LLMArena не разрешает (вторая картинка)

подозрительно совпало, что Джоэль Пино объявила об увольнении неделю назад

в общем, пока все базируется на каких-то слухах и совпадениях, я бы подождал официальных замеров на разных бенчмарках, но с точки зрения продвижения технологии выглядит, как провал

@valuableai
🤯11
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга

я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал

второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела


P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр

@valuableai
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
в кои-то веки пишу не про тексты, по ЦКАД (кольцевая дорога вокруг Москвы на расстоянии примерно 100 км) запустили движение полностью беспилотных грузовиков (на видео); будущее уже здесь, его признаков становится все больше, только вчера писал про еще один

"Беспилотные технологии также позволят сократить простои автопарка из-за нехватки водителей и перераспределить около 30% водителей на другие направления, оптимизируя использование человеческих ресурсов", - добавляют в министерстве.


язык, конечно, несколько суконный, но принцип на мой взгляд указан правильный: ИИ помогает решить проблему нехватки людей, что программистов, что - как в этой новости - водителей

P.S. стоит отметить, что такие грузовики уже ездят по трассе М11 с сентября прошлого года, но теперь переходят уже к масштабированию их использования

@valuableai
🔥17
Valuable AI / Валентин Малых pinned «всем привет, меня зовут Валентин Малых, я работаю в компании МТС ИИ; я долго не хотел заводить канал про ИИ, но, похоже, в наше время у каждого NLP’шника он должен быть; я сюда буду закидывать ссылки на свои выступления, которые периодически получаются новые»
новое видео - мое выступление про MOROCCO на DAMDID 2023; работа достаточно интересная, суть ее сводится к тому, чтобы найти самую эффективную модель по сочетанию ресурсы/качество, сейчас, конечно, морально устарела (делалась для BERT-ов), но если есть энтузиасты, можно совместно адаптировать для современных LLM

особенно актуальной проблема оценки ресурсоемкости становится в свете недавней новости про то, что обучение LLaMa 4 потребило электроэнергии, как целый микрорайон
🔥12
мой товарищ прислал совершенно прекрасное (спасибо, Женя!): в конце 1970-х Дейсктра (автор того самого алгоритма его имени) написал просто чудесный текст, который я бы назвал одой вайб-кодингу и который я взял на себя смелость литературно перевести; цитата для затравки:

Только одно утешает меня: я подозреваю, что машины, программируемые на наших родных языках — будь то голландский, английский, американский, французский, немецкий или суахили — так же чертовски сложно создавать, как и использовать.


ссылка на мой перевод, ссылка на оригинал

P.S. если вы вдруг не знаете, кто такой Дейкстра, неплохая биографическая статья

@valuableai
🔥156👍2🤔2
коллеги из Huawei выпустили свежую PanGu Ultra; я стоял рядом, когда делали предыдущую версию этой модели, поэтому с интересом слежу за работой коллег

отчет на удивление короткий, про архитектуру сказали просто, что "почти как в Llama 3"; они представили нормированный на глубину LayerNorm (первая картинка); представили оптимизацию под названием NPU Fusion Attention (вторая картинка); и сделали оптимизацию для параллельного исполнения MC2 (merged compute and communication, третья картинка)

последняя картинка - это результаты, где PanGu c 135 миллиардами параметров бьет DeepSeek R1 с 671 миллиардом; что еще важно отметить заявляется, что все от начала до конца сделано на Ascend (для сравнения - DeepSeek заявляли только инференс); т.е. гегемония Nvidia уже точно ушла в прошлое

в общем, поздравления коллегам, релиз получился отличный, единственная ложка дёгтя - веса не выложили, но по Китаю еще не вечер, если вы понимаете, о чем я

@valuableai
👍14🔥6
AINL начинается уже послезавтра! У нас в этом году очень интересные приглашенные спикеры: Наталья Валетниновна Лукашевич и Сергей Марков; полная программа тут

мы сделали программу, которая начинается в 11 до Новосибирскому времени, то есть в 7 утра по Москве, чтобы максимальное количество людей могло поучаствовать онлайн; для участия нужна регистрация
🔥7