поздравляю всех с Днем Победы в Великой Отечественной войне!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
❤48🔥15❤🔥6👎2🤡2🤮1
вот дошли руки выложить видео выступления на митапе Контура "Как писать код без программистов, но с трасформерами?"; и нет, вайб-кодинг тогда еще не придумали
Дзен | Видео
Как писать код без программистов, но с трансформерами? | Valuable AI | Дзен
Видео автора «Valuable AI» в Дзене 🎦: выступление на митапе DS4SE от Контура 08.11.2023
🔥9👍4
новость не совсем про AI, хотя и про него тоже: Samsung и LG в Южной Корее с прошлого года стали продавать бытовую технику по подписке; причем тут AI, вы спросите? а притом, что так продают топовые устройства, которые в случае холодильника могут распознавать продукты внутри и, например, подсказывать, что у йогурта истекает срок годности
к слову, пару лет назад была новость, что в автомобилях появился платный подогрев сидений
текущая реальность все больше начинает напоминать приключения Незнайки на луне, особенно, эпизод в гостинице "Экономическая"; знаю, что у многих предубеждения против детских книг, рекомендую для этой сделать исключение - это полноценная фантастика, изложенная простым языком
к слову, пару лет назад была новость, что в автомобилях появился платный подогрев сидений
текущая реальность все больше начинает напоминать приключения Незнайки на луне, особенно, эпизод в гостинице "Экономическая"; знаю, что у многих предубеждения против детских книг, рекомендую для этой сделать исключение - это полноценная фантастика, изложенная простым языком
💯20😱3
как многие знают, я - физтех, так что новости касающиеся альма-матер привлекают мое внимание; вчера вышло постановление правительства о создании инновационного научно-технологического центра «Долина Физтеха»; само постановление - довольно скучный бюрократический документ, самое интересное - на картинках:
на второй картинке - основные направления работы центра, там все, что мы любим - ИИ и беспилотники
а на третьей картинке - вырезка из того, что передается центру во владение, судя по этому, будем строитькибер стимпанк; осталось только узнать, что такое "строганый погонаж"
ну а за заглавную картинку спасибо Кандинскому;она сгенерирована по запросу "Стимпанк на Физтехе" ; что? да!
на второй картинке - основные направления работы центра, там все, что мы любим - ИИ и беспилотники
а на третьей картинке - вырезка из того, что передается центру во владение, судя по этому, будем строить
ну а за заглавную картинку спасибо Кандинскому;
😁18👍2❤1🫡1
в новой работе рекуррентная мамба добралась и до рассуждений
результаты, которые сейчас принято сравнивать на математических задачах, получаются сравнимыми с трансформерными моделями аналогичного размера (первая картинка), зато скорость генерации превосходит вдвое меньшую модель, причем, чем больше батч, тем сильнее (вторая картинка)
интересно, как модель М1 создавалась: сначала была сделана дистилляция из предобученного трансформера, потом стандартное дообучение, и в конце дообучение с подкреплением; на первой стадии сначала делается инициализация весов мамбы из трансформера, а потом минимизация KL-дивергенции для генерируемых токенов; не очень понятно, используются для этого другие датасеты, чем на стадии дообучения с учителем (там ожидаемо математические датасеты с рассуждениями); для третьей стадии авторы используют GRPO, но выкидывают из него KL-дивергенцию, т.к. у них это дестабилизирует обучение
некоторое сомнение вызывает то, что дистиллируют они Llama 3.2 3B, но по качеству с ней не сравниваются
@valuableai
результаты, которые сейчас принято сравнивать на математических задачах, получаются сравнимыми с трансформерными моделями аналогичного размера (первая картинка), зато скорость генерации превосходит вдвое меньшую модель, причем, чем больше батч, тем сильнее (вторая картинка)
интересно, как модель М1 создавалась: сначала была сделана дистилляция из предобученного трансформера, потом стандартное дообучение, и в конце дообучение с подкреплением; на первой стадии сначала делается инициализация весов мамбы из трансформера, а потом минимизация KL-дивергенции для генерируемых токенов; не очень понятно, используются для этого другие датасеты, чем на стадии дообучения с учителем (там ожидаемо математические датасеты с рассуждениями); для третьей стадии авторы используют GRPO, но выкидывают из него KL-дивергенцию, т.к. у них это дестабилизирует обучение
некоторое сомнение вызывает то, что дистиллируют они Llama 3.2 3B, но по качеству с ней не сравниваются
@valuableai
👍8🤔2🔥1
всем привет, наши тематические доклады на ДатаФесте (NLP + AI4SE) будут сосредоточены в двух городах, это Москва и Новосибирск; в Москве - 24 мая, в Новосибирске - 25 мая; так что при большом желании можно успеть на обе! для того, чтобы поучаствовать офлайн, нужна регистрация, не откладывайте на последний день, места ограничены
❤14
идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый раз было про искусственного ученого), они представили архитектуру под сбивающим с названия названием Continuous Thought Machines; по названию я бы предположил, что это одна из современных рассуждающих моделей; но нет, суть подхода показана на картинке (хотя все равно там не особо понятно), больше все мне этот подход напомнил Structured State Space models, наиболее известна из них mamba; еще один референс - это капсулы от Хинтона
интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно
@valuableai
интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно
@valuableai
👍5
Valuable AI / Валентин Малых pinned «решил проэкспериментировать, снял короткое видео с разбором вот этой статьи»
я вам говорил, что LSTM себя еще покажет? собственно, вот: применили к предсказанию ширины годовых колец на деревьях (вторая картинка), а через это и к предсказанию температуры
по предсказанию LSTM со 128 нейронами (нижняя треть первой картинки) нас ждет повторение малого ледникового периода (больше всего известен по второй половине 17 века, когда в Нидерландах замерзали каналы, на что можно посмотреть на картинах того периода), пик похолодания придется на 2063-2073 годы; причем, глобальное потепление нас не спасет, такие дела
P.S. эта статья также пример нормального международного сотрудничества российских и финских ученых, не в пример недавней истории
@valuableai
по предсказанию LSTM со 128 нейронами (нижняя треть первой картинки) нас ждет повторение малого ледникового периода (больше всего известен по второй половине 17 века, когда в Нидерландах замерзали каналы, на что можно посмотреть на картинах того периода), пик похолодания придется на 2063-2073 годы; причем, глобальное потепление нас не спасет, такие дела
P.S. эта статья также пример нормального международного сотрудничества российских и финских ученых, не в пример недавней истории
@valuableai
🔥15
мой коллега нашел уникальные задачи для рассуждений, которые не идут ни в какое сравнение с MATH500 или AIME; комментарий нашедшего:
ждем бенчмарк!
Редкий язык, нетипичный домен и возможно не утёк в трейн
ждем бенчмарк!
👍18😁16🔥4🤯3🆒1
сегодня будет видео не про меня, а про Ивана Бондаренко (я про него упоминал в своем обзорном посте про NLP группы), в свое время они с коллегами сделали "Писца" - ASR для русского языка, а тут Иван рассказывает о маленьких модельках и их применениях (я недавно писал про работу, где модель размером 1B показывает себя лучше модели на 405B)
к слову, коллеги сделали расшифровку выступления именно с помощью своего Писца, на мой взгляд это отличный пример догфудинга
к слову, коллеги сделали расшифровку выступления именно с помощью своего Писца, на мой взгляд это отличный пример догфудинга
Telegram
Сибирские Нейросети: Речевая аналитика и большие языковые модели для бизнеса
❤️🔥Выступление Ивана Бондаренко на DataFusion 2025:
https://broadcast.comdi.com/watch/rc34lydi
Приятного просмотра ❤️
✍️Наш ИИ сделал расшифровку и саммари доклада:
Основные темы доклада:
1. Прогресс и проблемы больших языковых моделей:
- Потрясающий…
https://broadcast.comdi.com/watch/rc34lydi
Приятного просмотра ❤️
✍️Наш ИИ сделал расшифровку и саммари доклада:
Основные темы доклада:
1. Прогресс и проблемы больших языковых моделей:
- Потрясающий…
🔥12👍3❤1
недавно вышла статья, которая для этого нашего AI несет очень много пользы, а именно 5% экономии на вычислениях
я думаю, что все в курсе, что весь ИИ - это по факту перемножение матриц, например, в архитектуре трансформер механизм внимания требует 5 матричных умножений на одну голову, плюс еще одно для полносвязного слоя; другие операции - это суммирование и нормализация, которые асимптотически пренебрежимы
ну так вот, авторы статьи с помощью RL перебрали возможные вариации представления умножения матриц и нашли ускоренный; графически он представлен на первой картинке, а на второй картинке сравнение количества вычислений с оптимальным алгоритмом - рекурсивным алгоритмом Штрассена (аШ); до размера 256 используется т.н. наивное умножение (как и в современных реализациях аШ), т.к. оно эффективнее на малых размерах, а дальше уже новонайденный алгоритм, дающий 5% преимущества перед аШ
P.S. на моей памяти это первая статья, где - судя по имени - наш соотечественник имеет аффилиацию китайского университета
я думаю, что все в курсе, что весь ИИ - это по факту перемножение матриц, например, в архитектуре трансформер механизм внимания требует 5 матричных умножений на одну голову, плюс еще одно для полносвязного слоя; другие операции - это суммирование и нормализация, которые асимптотически пренебрежимы
ну так вот, авторы статьи с помощью RL перебрали возможные вариации представления умножения матриц и нашли ускоренный; графически он представлен на первой картинке, а на второй картинке сравнение количества вычислений с оптимальным алгоритмом - рекурсивным алгоритмом Штрассена (аШ); до размера 256 используется т.н. наивное умножение (как и в современных реализациях аШ), т.к. оно эффективнее на малых размерах, а дальше уже новонайденный алгоритм, дающий 5% преимущества перед аШ
P.S. на моей памяти это первая статья, где - судя по имени - наш соотечественник имеет аффилиацию китайского университета
🔥11
я уже высказывался про ARR, а тут пришло письмо с обновлениями политики ARR:
обращаю внимание на предпоследний пункт (выделен курсивом), теперь решили переходить к репрессиям, т.к. система выстроена настолько неэффективно, то рецензирование - это совершенно невознаграждаемый труд, от которого все пытаются отвертеться; на этом фоне очень выпукло смотрится последний пункт с виртуальным пряником после реального кнута
на мой взгляд, есть очевидное решение проблемы вознаграждения труда рецензента: нужно просто указывать имена рецензентов в дополнение к именам авторов статей прямо в финальном тексте статьи (отдельно от последних, само собой), тогда возникает а) вознаграждение в виде известности - всем приятно быть рецензентом хорошей статьи, но и б) нежелание ассоциировать свое имя с плохими статьями, так что можно ожидать и более объективных рецензий
* All authors must complete a form confirming that their OpenReview profile is complete and that they are willing to serve as a reviewer if asked.
* Any qualified author may be assigned to review. “Qualified” means at least two papers in main ACL events or Findings, and at least one additional paper in the ACL Anthology or a major ML/AI venue. (See detailed list in the policy).
* Review duty exemptions are possible on a case-by-case basis. Authors serving in other roles (e.g., ACs) are not required to review.
* Reviewers or chairs deemed highly irresponsible such as missing deadlines without warning, violating guidelines on LLM use and professional tone, extremely terse reviews, may be barred from committing their work to EMNLP 2025 and (re-)submitting to the next ARR cycle
* Great reviewers and chairs will receive increased recognition at conferences and may win free virtual registration to an *ACL event.
We encourage everyone to read the full policy here: https://aclrollingreview.org/incentives2025
обращаю внимание на предпоследний пункт (выделен курсивом), теперь решили переходить к репрессиям, т.к. система выстроена настолько неэффективно, то рецензирование - это совершенно невознаграждаемый труд, от которого все пытаются отвертеться; на этом фоне очень выпукло смотрится последний пункт с виртуальным пряником после реального кнута
на мой взгляд, есть очевидное решение проблемы вознаграждения труда рецензента: нужно просто указывать имена рецензентов в дополнение к именам авторов статей прямо в финальном тексте статьи (отдельно от последних, само собой), тогда возникает а) вознаграждение в виде известности - всем приятно быть рецензентом хорошей статьи, но и б) нежелание ассоциировать свое имя с плохими статьями, так что можно ожидать и более объективных рецензий
ACL Rolling Review
Changes to reviewer volunteering requirement and incentives in May 2025 cycle (EMNLP 2025)
TLDR:
👍16💯3❤1