Microsoft применила генерацию видео для создания рекламы, о чем объявила постфактум; (в отличие от Instagram*, от которого люди знатно кринжанули) вот это - реально новый шаг в применении генеративных моделей, когда мы уже просто не замечаем этого; будущее - уже сегодня
* соцсеть запрещена на территории РФ
* соцсеть запрещена на территории РФ
👍4❤1
в Science вышла статья посвященная исследованию развития мозга у птиц и млекопитающих; там авторы приходят к выводу, что в мозге птиц независимо развились структуры, аналогичные по функционалу с нашей новой корой; это интересно потому, что мозг, к примеру, вороны всего 10 грамм, а мозг шимпанзе - 300 грамм (взял отсюда), а в интеллектуальных задачах, например, в использовании инструментов вороны не уступают шимпанзе; это в свою очередь означает, что мозг вороны устроен гораздо более эффективно
прошу прощения на набившее оскомину сравнение мозга и LLM, тут, как мне кажется, можно провести аналогию, что текущие большие языковые модели - очень большие, но мы все больше и больше убеждаемся, что они в них можно заложить еще очень много без увеличения из размера, т.к. за последние три года рост фактически остановился: PaLM - 540B - апрель 2022 года, DeepSeek-R1 - 671B - январь 2025 года
прошу прощения на набившее оскомину сравнение мозга и LLM, тут, как мне кажется, можно провести аналогию, что текущие большие языковые модели - очень большие, но мы все больше и больше убеждаемся, что они в них можно заложить еще очень много без увеличения из размера, т.к. за последние три года рост фактически остановился: PaLM - 540B - апрель 2022 года, DeepSeek-R1 - 671B - январь 2025 года
👍9💯1
поздравляю всех с Днем Победы в Великой Отечественной войне!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
цифровая вычислительная техника не успела внести вклад в исход войны, а вот аналоговая вполне успела; на картинке прибор управления артиллерийским зенитным огнем ПУАЗО-3; между прочим, уже электрический
к созданию таких приборов приложило руку немало ученых, которые потом стали отцами искусственного интеллекта в СССР: академик Лебедев, член-корр. Преснухин, гораздо менее известный профессор Гутенмахер, и многие другие
на мой взгляд важно помнить и подвиг солдат на фронте, и подвиг тружеников в тылу, в том числе ученых
еще раз с Днем Победы!
❤48🔥15❤🔥6👎2🤡2🤮1
вот дошли руки выложить видео выступления на митапе Контура "Как писать код без программистов, но с трасформерами?"; и нет, вайб-кодинг тогда еще не придумали
Дзен | Видео
Как писать код без программистов, но с трансформерами? | Valuable AI | Дзен
Видео автора «Valuable AI» в Дзене 🎦: выступление на митапе DS4SE от Контура 08.11.2023
🔥9👍4
новость не совсем про AI, хотя и про него тоже: Samsung и LG в Южной Корее с прошлого года стали продавать бытовую технику по подписке; причем тут AI, вы спросите? а притом, что так продают топовые устройства, которые в случае холодильника могут распознавать продукты внутри и, например, подсказывать, что у йогурта истекает срок годности
к слову, пару лет назад была новость, что в автомобилях появился платный подогрев сидений
текущая реальность все больше начинает напоминать приключения Незнайки на луне, особенно, эпизод в гостинице "Экономическая"; знаю, что у многих предубеждения против детских книг, рекомендую для этой сделать исключение - это полноценная фантастика, изложенная простым языком
к слову, пару лет назад была новость, что в автомобилях появился платный подогрев сидений
текущая реальность все больше начинает напоминать приключения Незнайки на луне, особенно, эпизод в гостинице "Экономическая"; знаю, что у многих предубеждения против детских книг, рекомендую для этой сделать исключение - это полноценная фантастика, изложенная простым языком
💯20😱3
как многие знают, я - физтех, так что новости касающиеся альма-матер привлекают мое внимание; вчера вышло постановление правительства о создании инновационного научно-технологического центра «Долина Физтеха»; само постановление - довольно скучный бюрократический документ, самое интересное - на картинках:
на второй картинке - основные направления работы центра, там все, что мы любим - ИИ и беспилотники
а на третьей картинке - вырезка из того, что передается центру во владение, судя по этому, будем строитькибер стимпанк; осталось только узнать, что такое "строганый погонаж"
ну а за заглавную картинку спасибо Кандинскому;она сгенерирована по запросу "Стимпанк на Физтехе" ; что? да!
на второй картинке - основные направления работы центра, там все, что мы любим - ИИ и беспилотники
а на третьей картинке - вырезка из того, что передается центру во владение, судя по этому, будем строить
ну а за заглавную картинку спасибо Кандинскому;
😁18👍2❤1🫡1
в новой работе рекуррентная мамба добралась и до рассуждений
результаты, которые сейчас принято сравнивать на математических задачах, получаются сравнимыми с трансформерными моделями аналогичного размера (первая картинка), зато скорость генерации превосходит вдвое меньшую модель, причем, чем больше батч, тем сильнее (вторая картинка)
интересно, как модель М1 создавалась: сначала была сделана дистилляция из предобученного трансформера, потом стандартное дообучение, и в конце дообучение с подкреплением; на первой стадии сначала делается инициализация весов мамбы из трансформера, а потом минимизация KL-дивергенции для генерируемых токенов; не очень понятно, используются для этого другие датасеты, чем на стадии дообучения с учителем (там ожидаемо математические датасеты с рассуждениями); для третьей стадии авторы используют GRPO, но выкидывают из него KL-дивергенцию, т.к. у них это дестабилизирует обучение
некоторое сомнение вызывает то, что дистиллируют они Llama 3.2 3B, но по качеству с ней не сравниваются
@valuableai
результаты, которые сейчас принято сравнивать на математических задачах, получаются сравнимыми с трансформерными моделями аналогичного размера (первая картинка), зато скорость генерации превосходит вдвое меньшую модель, причем, чем больше батч, тем сильнее (вторая картинка)
интересно, как модель М1 создавалась: сначала была сделана дистилляция из предобученного трансформера, потом стандартное дообучение, и в конце дообучение с подкреплением; на первой стадии сначала делается инициализация весов мамбы из трансформера, а потом минимизация KL-дивергенции для генерируемых токенов; не очень понятно, используются для этого другие датасеты, чем на стадии дообучения с учителем (там ожидаемо математические датасеты с рассуждениями); для третьей стадии авторы используют GRPO, но выкидывают из него KL-дивергенцию, т.к. у них это дестабилизирует обучение
некоторое сомнение вызывает то, что дистиллируют они Llama 3.2 3B, но по качеству с ней не сравниваются
@valuableai
👍8🤔2🔥1
всем привет, наши тематические доклады на ДатаФесте (NLP + AI4SE) будут сосредоточены в двух городах, это Москва и Новосибирск; в Москве - 24 мая, в Новосибирске - 25 мая; так что при большом желании можно успеть на обе! для того, чтобы поучаствовать офлайн, нужна регистрация, не откладывайте на последний день, места ограничены
❤14
идет подъем интереса к рекуррентным моделям, вот и коллеги из Sakana AI подключились (они периодически выдают что-то интересное, в прошлый раз было про искусственного ученого), они представили архитектуру под сбивающим с названия названием Continuous Thought Machines; по названию я бы предположил, что это одна из современных рассуждающих моделей; но нет, суть подхода показана на картинке (хотя все равно там не особо понятно), больше все мне этот подход напомнил Structured State Space models, наиболее известна из них mamba; еще один референс - это капсулы от Хинтона
интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно
@valuableai
интересно, что SSM создавались изначально текстов, а вот CTM и капсулы - для картинок (видео); почему CTM, которые рекуррентны по своей природе, не стали тестировать на текстах - загадка; могу порекомендовать также сайт статьи, очень красивые демки, может быть поэтому на текстах и не показывают, что демки не такие залипательные, но и в статье результатов на текстах нет, что странно
@valuableai
👍5
Valuable AI / Валентин Малых pinned «решил проэкспериментировать, снял короткое видео с разбором вот этой статьи»
я вам говорил, что LSTM себя еще покажет? собственно, вот: применили к предсказанию ширины годовых колец на деревьях (вторая картинка), а через это и к предсказанию температуры
по предсказанию LSTM со 128 нейронами (нижняя треть первой картинки) нас ждет повторение малого ледникового периода (больше всего известен по второй половине 17 века, когда в Нидерландах замерзали каналы, на что можно посмотреть на картинах того периода), пик похолодания придется на 2063-2073 годы; причем, глобальное потепление нас не спасет, такие дела
P.S. эта статья также пример нормального международного сотрудничества российских и финских ученых, не в пример недавней истории
@valuableai
по предсказанию LSTM со 128 нейронами (нижняя треть первой картинки) нас ждет повторение малого ледникового периода (больше всего известен по второй половине 17 века, когда в Нидерландах замерзали каналы, на что можно посмотреть на картинах того периода), пик похолодания придется на 2063-2073 годы; причем, глобальное потепление нас не спасет, такие дела
P.S. эта статья также пример нормального международного сотрудничества российских и финских ученых, не в пример недавней истории
@valuableai
🔥15
мой коллега нашел уникальные задачи для рассуждений, которые не идут ни в какое сравнение с MATH500 или AIME; комментарий нашедшего:
ждем бенчмарк!
Редкий язык, нетипичный домен и возможно не утёк в трейн
ждем бенчмарк!
👍18😁16🔥4🤯3🆒1
сегодня будет видео не про меня, а про Ивана Бондаренко (я про него упоминал в своем обзорном посте про NLP группы), в свое время они с коллегами сделали "Писца" - ASR для русского языка, а тут Иван рассказывает о маленьких модельках и их применениях (я недавно писал про работу, где модель размером 1B показывает себя лучше модели на 405B)
к слову, коллеги сделали расшифровку выступления именно с помощью своего Писца, на мой взгляд это отличный пример догфудинга
к слову, коллеги сделали расшифровку выступления именно с помощью своего Писца, на мой взгляд это отличный пример догфудинга
Telegram
Сибирские Нейросети: Речевая аналитика и большие языковые модели для бизнеса
❤️🔥Выступление Ивана Бондаренко на DataFusion 2025:
https://broadcast.comdi.com/watch/rc34lydi
Приятного просмотра ❤️
✍️Наш ИИ сделал расшифровку и саммари доклада:
Основные темы доклада:
1. Прогресс и проблемы больших языковых моделей:
- Потрясающий…
https://broadcast.comdi.com/watch/rc34lydi
Приятного просмотра ❤️
✍️Наш ИИ сделал расшифровку и саммари доклада:
Основные темы доклада:
1. Прогресс и проблемы больших языковых моделей:
- Потрясающий…
🔥12👍3❤1