Valuable AI / Валентин Малых
1.85K subscribers
435 photos
54 videos
2 files
435 links
личный канал про ИИ
Download Telegram
говорят, что это рекомендации Стэнфорда для студентов при обучении программированию; мне лично совершенно неочевидно, почему спросить LLM на естественном языке лучше, чем использовать автодополнение от той же LLM; а что вы думаете?
Microsoft применила генерацию видео для создания рекламы, о чем объявила постфактум; (в отличие от Instagram*, от которого люди знатно кринжанули) вот это - реально новый шаг в применении генеративных моделей, когда мы уже просто не замечаем этого; будущее - уже сегодня

* соцсеть запрещена на территории РФ
👍41
в Science вышла статья посвященная исследованию развития мозга у птиц и млекопитающих; там авторы приходят к выводу, что в мозге птиц независимо развились структуры, аналогичные по функционалу с нашей новой корой; это интересно потому, что мозг, к примеру, вороны всего 10 грамм, а мозг шимпанзе - 300 грамм (взял отсюда), а в интеллектуальных задачах, например, в использовании инструментов вороны не уступают шимпанзе; это в свою очередь означает, что мозг вороны устроен гораздо более эффективно

прошу прощения на набившее оскомину сравнение мозга и LLM, тут, как мне кажется, можно провести аналогию, что текущие большие языковые модели - очень большие, но мы все больше и больше убеждаемся, что они в них можно заложить еще очень много без увеличения из размера, т.к. за последние три года рост фактически остановился: PaLM - 540B - апрель 2022 года, DeepSeek-R1 - 671B - январь 2025 года
👍9💯1
поздравляю всех с Днем Победы в Великой Отечественной войне!

цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический

к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие

на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых

еще раз с Днем Победы!
48🔥15❤‍🔥6👎2🤡2🤮1
Дмитрий Колодезев нашел прекрасное в классической работе про варианты GLU
10😁8👍2🔥2🤯1🕊1🏆1😇1
новость не совсем про AI, хотя и про него тоже: Samsung и LG в Южной Корее с прошлого года стали продавать бытовую технику по подписке; причем тут AI, вы спросите? а притом, что так продают топовые устройства, которые в случае холодильника могут распознавать продукты внутри и, например, подсказывать, что у йогурта истекает срок годности

к слову, пару лет назад была новость, что в автомобилях появился платный подогрев сидений

текущая реальность все больше начинает напоминать приключения Незнайки на луне, особенно, эпизод в гостинице "Экономическая"; знаю, что у многих предубеждения против детских книг, рекомендую для этой сделать исключение - это полноценная фантастика, изложенная простым языком
💯20😱3
как многие знают, я - физтех, так что новости касающиеся альма-матер привлекают мое внимание; вчера вышло постановление правительства о создании инновационного научно-технологического центра «Долина Физтеха»; само постановление - довольно скучный бюрократический документ, самое интересное - на картинках:

на второй картинке - основные направления работы центра, там все, что мы любим - ИИ и беспилотники

а на третьей картинке - вырезка из того, что передается центру во владение, судя по этому, будем строить кибер стимпанк; осталось только узнать, что такое "строганый погонаж"

ну а за заглавную картинку спасибо Кандинскому; она сгенерирована по запросу "Стимпанк на Физтехе"; что? да!
😁18👍21🫡1
в новой работе рекуррентная мамба добралась и до рассуждений

результаты, которые сейчас принято сравнивать на математических задачах, получаются сравнимыми с трансформерными моделями аналогичного размера (первая картинка), зато скорость генерации превосходит вдвое меньшую модель, причем, чем больше батч, тем сильнее (вторая картинка)

интересно, как модель М1 создавалась: сначала была сделана дистилляция из предобученного трансформера, потом стандартное дообучение, и в конце дообучение с подкреплением; на первой стадии сначала делается инициализация весов мамбы из трансформера, а потом минимизация KL-дивергенции для генерируемых токенов; не очень понятно, используются для этого другие датасеты, чем на стадии дообучения с учителем (там ожидаемо математические датасеты с рассуждениями); для третьей стадии авторы используют GRPO, но выкидывают из него KL-дивергенцию, т.к. у них это дестабилизирует обучение

некоторое сомнение вызывает то, что дистиллируют они Llama 3.2 3B, но по качеству с ней не сравниваются

@valuableai
👍8🤔2🔥1
всем привет, наши тематические доклады на ДатаФесте (NLP + AI4SE) будут сосредоточены в двух городах, это Москва и Новосибирск; в Москве - 24 мая, в Новосибирске - 25 мая; так что при большом желании можно успеть на обе! для того, чтобы поучаствовать офлайн, нужна регистрация, не откладывайте на последний день, места ограничены
14
идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый раз было про искусственного ученого), они представили архитектуру под сбивающим с названия названием Continuous Thought Machines; по названию я бы предположил, что это одна из современных рассуждающих моделей; но нет, суть подхода показана на картинке (хотя все равно там не особо понятно), больше все мне этот подход напомнил Structured State Space models, наиболее известна из них mamba; еще один референс - это капсулы от Хинтона

интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно

@valuableai
👍5
Valuable AI / Валентин Малых pinned «решил проэкспериментировать, снял короткое видео с разбором вот этой статьи»
я вам говорил, что LSTM себя еще покажет? собственно, вот: применили к предсказанию ширины годовых колец на деревьях (вторая картинка), а через это и к предсказанию температуры

по предсказанию LSTM со 128 нейронами (нижняя треть первой картинки) нас ждет повторение малого ледникового периода (больше всего известен по второй половине 17 века, когда в Нидерландах замерзали каналы, на что можно посмотреть на картинах того периода), пик похолодания придется на 2063-2073 годы; причем, глобальное потепление нас не спасет, такие дела

P.S. эта статья также пример нормального международного сотрудничества российских и финских ученых, не в пример недавней истории

@valuableai
🔥15
мой коллега нашел уникальные задачи для рассуждений, которые не идут ни в какое сравнение с MATH500 или AIME; комментарий нашедшего:
Редкий язык, нетипичный домен и возможно не утёк в трейн

ждем бенчмарк!
👍18😁16🔥4🤯3🆒1
сегодня будет видео не про меня, а про Ивана Бондаренко (я про него упоминал в своем обзорном посте про NLP группы), в свое время они с коллегами сделали "Писца" - ASR для русского языка, а тут Иван рассказывает о маленьких модельках и их применениях (я недавно писал про работу, где модель размером 1B показывает себя лучше модели на 405B)

к слову, коллеги сделали расшифровку выступления именно с помощью своего Писца, на мой взгляд это отличный пример догфудинга
🔥12👍31