Valuable AI / Валентин Малых
1.85K subscribers
434 photos
54 videos
2 files
434 links
личный канал про ИИ
Download Telegram
Valuable AI / Валентин Малых
тут вышла Llama 4, пока все (заслуженно) восторгаются ее качеством, предлагаю посмотреть на энергопотребление: Training Energy Use: Model pre-training utilized a cumulative of 7.38M GPU hours of computation on H100-80GB (TDP of 700W) нехитрые подсчеты нам…
даже у меня в комментариях под постом про Llama 4 люди выражали сомнения в заявленном качестве моделей; тут завирусился пост на каком-то китайском форуме, где неизвестный китайский инженер пишет, что уволился, т.к. тестовые данные были подмешаны в трейн, чтобы добиться высоких результатов в тестах; достоверность данного поста для меня сомнительна, но в обсуждении приводятся ссылки на независимые замеры

вот тут замеряли качество написания кода на Aider polyglot (на первой картинке), Llama 4 себя показала хуже Qwen 32B

в другом месте человек обратил внимание, что Llama 4 специально доучивали для поддержания диалога, хотя обычно такое LLMArena не разрешает (вторая картинка)

подозрительно совпало, что Джоэль Пино объявила об увольнении неделю назад

в общем, пока все базируется на каких-то слухах и совпадениях, я бы подождал официальных замеров на разных бенчмарках, но с точки зрения продвижения технологии выглядит, как провал

@valuableai
🤯11
до меня долетела статья с Хабра про то, как человек тестирует LLM на общении в Тиндере на предмет того, как быстро собеседник поймет, что с ним разговаривает бот; при этом, по всей видимости этот гражданин не знает о существовании теста Тьюринга

я конечно несколько опешил от такого невежества, но с другой стороны это дало мне повод написать про свежую статью, в которой были протестированы GPT-4.5 и LLaMa 3.1 как раз в контексте теста Тьюринга; результаты представлены на картинке к посту; из интересного, ELIZA оказалась по этому тесту лучше GPT-4o; кому интересно, я про нее недавно писал

второй факт, который на мой взгляд резко переносит нас из точки "настоящее" в точку "будущее" - это 73% побед для GPT-4.5; это означает, что уже сейчас есть ИИ, который в разговоре в 3 из 4 случаев не отличить от человека; эра беспрецедентного телефонного мошенничества не за горами, а буквально уже наступила; такие дела


P.S. забавный факт, в той хабростатье тоже неожиданно лучше всех оказалась GPT-4.5; ссылка на Хабр

@valuableai
👍13
This media is not supported in your browser
VIEW IN TELEGRAM
в кои-то веки пишу не про тексты, по ЦКАД (кольцевая дорога вокруг Москвы на расстоянии примерно 100 км) запустили движение полностью беспилотных грузовиков (на видео); будущее уже здесь, его признаков становится все больше, только вчера писал про еще один

"Беспилотные технологии также позволят сократить простои автопарка из-за нехватки водителей и перераспределить около 30% водителей на другие направления, оптимизируя использование человеческих ресурсов", - добавляют в министерстве.


язык, конечно, несколько суконный, но принцип на мой взгляд указан правильный: ИИ помогает решить проблему нехватки людей, что программистов, что - как в этой новости - водителей

P.S. стоит отметить, что такие грузовики уже ездят по трассе М11 с сентября прошлого года, но теперь переходят уже к масштабированию их использования

@valuableai
🔥17
Valuable AI / Валентин Малых pinned «всем привет, меня зовут Валентин Малых, я работаю в компании МТС ИИ; я долго не хотел заводить канал про ИИ, но, похоже, в наше время у каждого NLP’шника он должен быть; я сюда буду закидывать ссылки на свои выступления, которые периодически получаются новые»
новое видео - мое выступление про MOROCCO на DAMDID 2023; работа достаточно интересная, суть ее сводится к тому, чтобы найти самую эффективную модель по сочетанию ресурсы/качество, сейчас, конечно, морально устарела (делалась для BERT-ов), но если есть энтузиасты, можно совместно адаптировать для современных LLM

особенно актуальной проблема оценки ресурсоемкости становится в свете недавней новости про то, что обучение LLaMa 4 потребило электроэнергии, как целый микрорайон
🔥12
мой товарищ прислал совершенно прекрасное (спасибо, Женя!): в конце 1970-х Дейсктра (автор того самого алгоритма его имени) написал просто чудесный текст, который я бы назвал одой вайб-кодингу и который я взял на себя смелость литературно перевести; цитата для затравки:

Только одно утешает меня: я подозреваю, что машины, программируемые на наших родных языках — будь то голландский, английский, американский, французский, немецкий или суахили — так же чертовски сложно создавать, как и использовать.


ссылка на мой перевод, ссылка на оригинал

P.S. если вы вдруг не знаете, кто такой Дейкстра, неплохая биографическая статья

@valuableai
🔥156👍2🤔2
коллеги из Huawei выпустили свежую PanGu Ultra; я стоял рядом, когда делали предыдущую версию этой модели, поэтому с интересом слежу за работой коллег

отчет на удивление короткий, про архитектуру сказали просто, что "почти как в Llama 3"; они представили нормированный на глубину LayerNorm (первая картинка); представили оптимизацию под названием NPU Fusion Attention (вторая картинка); и сделали оптимизацию для параллельного исполнения MC2 (merged compute and communication, третья картинка)

последняя картинка - это результаты, где PanGu c 135 миллиардами параметров бьет DeepSeek R1 с 671 миллиардом; что еще важно отметить заявляется, что все от начала до конца сделано на Ascend (для сравнения - DeepSeek заявляли только инференс); т.е. гегемония Nvidia уже точно ушла в прошлое

в общем, поздравления коллегам, релиз получился отличный, единственная ложка дёгтя - веса не выложили, но по Китаю еще не вечер, если вы понимаете, о чем я

@valuableai
👍14🔥6
AINL начинается уже послезавтра! У нас в этом году очень интересные приглашенные спикеры: Наталья Валетниновна Лукашевич и Сергей Марков; полная программа тут

мы сделали программу, которая начинается в 11 до Новосибирскому времени, то есть в 7 утра по Москве, чтобы максимальное количество людей могло поучаствовать онлайн; для участия нужна регистрация
🔥7
опубликовали в корпоративном блоге обзор на нашу статью (в конце прошлого года я писал, что ее приняли на ECIR, а сейчас коллеги уже представили ее, так что пришло время рассказать); для удобства цитирования:

@inproceedings{sorokin2025iterative,
title={Iterative Self-training for Code Generation via Reinforced Re-ranking},
author={Sorokin, Nikita and Sedykh, Ivan and Malykh, Valentin},
booktitle={European Conference on Information Retrieval},
pages={229--236},
year={2025},
organization={Springer}
}
🔥18👍3
газета Коммерсант нагнетает по поводу обезличивания данных, а на мой взгляд новость весьма позитивная, т.к. в том числе в моей практике передача данных, содержащих персональные - это такая головная боль (так сказать, нижней части головы), что проще вообще не связываться; сейчас же предложен какой-то регламент, т.е. если кто-то будет требовать более жесткие меры по обезличиванию, можно отбиться

что, собственно, предлагают:
регулятор утвердил следующие методы обезличивания персональных данных: метод введения идентификаторов — замена части сведений идентификаторами с созданием «таблицы соответствия исходным данным», изменение состава или семантики данных, в том числе путем удаления части сведений; метод декомпозиции — разбиение массива персональных данных на несколько частей и раздельное их хранение; также метод перестановки отдельных записей, групп записей в массиве персональных данных и метод преобразования — агрегация данных через их обобщение, например по качественным значениям.


там есть еще пункт про то, что это делает ПО от Минцифры - это вообще отлично, значит ответственность за обезличивание несет Минцифры
👍2💯1
лет 6 назад большой фурор произвела новость, что в Эстонии хотят внедрить ИИ-судью для рассмотрения простых дел; настолько большой, что всего через 3 года министерство юстиции Эстонии выпустило официальное опровержение; может быть, у нас дело пойдет дальше, т.к. суды первой инстанции объективно перегружены
😁12💯3👍1😭1
🎥 на днях выложили текстовый обзор нашей статьи "Iterative Self-training for Code Generation via Reinforced Re-ranking", а тут и видео подъехало
🔥8👍4
до меня долетела ссылка на эссе, где вайб-кодинг сравнивается с васянским гаражным тюнингом, типа народная энергия приведет к невиданному расцвету креатива; на мой взгляд основная аудитория вайб-кодинга - это не условные люди из народа, но и не программисты, т.к. на них (на меня, например) сильно работает эффект зловещей долины - ты знаешь, что ты имел в виду, а эта штука пишет что-то вроде на тему, но все-таки сильно не туда, и тебя бесит за ней потом править

основная аудитория вайб-кодинга - это менеджеры и аналитики, то есть те люди, которые не должны писать код, а должны его заказывать

в пятницу мне товарищ рассказал грустную историю, что его ПМ с помощью какого-то ИИ-ассистента (кажется, ChatGPT) "накодил" фичу и передал ему со словами "надо вывести в прод"; мой товарищ потратил приличное время, чтобы разобраться в этом поделии и в итоге все его переписал; так что когда мне говорят, что ИИ-ассистенты лишат людей работы, я говорю, что наоборот, работы у программистов станет только больше
👍24😁12💯71
This media is not supported in your browser
VIEW IN TELEGRAM
пришла новость, что OpenAI стали добавлять водяные знаки в вывод своих моделей; удивительно, что только сейчас, но в целом в текущем виде - это защита от дурака

что я имею в виду: это защита от совсем ленивых студентов, которые не обрабатывают текст, выданный ChatGPT, и выдают его за свой; а также защита от тех, кто собирает генерации ChatGPT и учит свои модели без предобработки

вообще, хорошим водяным знаком является вопрос "кто тебя сделал?"; например, DeepSeek для обучения русскому языку явно использовал YandexGPT; хотя кажется, что этот водяной знак удалить не сложнее, чем спецсимволы из новости выше, но тут нужно понимать смысл текста, что для большого объема может быть дорого, да и в целом не надежно
😁101👍1🤯1🏆1
CVPR отзывает решение о принятии статей от коллег из России (как университетов, так и компаний):
Hello,
I am writing in regards to your article "XXX" IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Your article was issued a conditional acceptance, subject to a confidential review process. We must inform you that during review, we learned that publication of your article is not legally authorized. As such, the prior acceptance issued is hereby withdrawn, effective immediately.
Thank you for your understanding in this matter.

Regards,
Patrick


я сам попадал в такую ситуацию, но надеялся, что истерия осталась в прошлом

дополнительно могу сказать, что на COLING этого года из 13 известных мне поданных от российских коллег статей была принята ровно одна, в которой кроме коллег из России было с десяток иностранных соавторов; но COLING официально ничего не заявлял, так что это можно списать на статистический выброс
😢14🫡5🤬4💩4
пришла новость, что в ОАЭ будут предлагать изменения в законодательство с помощью ИИ; как раз на прошлой неделе обсуждали новость, что в России будут использовать ИИ в судопроизводстве

вообще, если задуматься, любой юридический документ - это (позитивный или негативный) промт, т.е. пошаговая инструкция, что можно и нельзя делать; с этой точки зрения использовать для написания законов ИИ вполне логичный шаг; другой вопрос, что законодательство должно быть логически непротиворечивым, а современные модели не могут эффективно работать большими массивами документов; но в реальной жизни люди при работе с документами тоже допускают ошибки, причем их настолько много, что про это пишут книги и научные статьи
🔥72