вышла очень интересная статья от коллег из Циньхуа; основная ее идея изложена на первой картинке - можно взять обученную модель, сделать несколько генераций, выбрать наиболее частый ответ на вопрос и считать его правильным; это такой self-supervised learning от мира RL; на бенчмарках получается очень хороший прирост (вторая картинка); но меня смущает, что это только сжимает петлю самопожирания, не будет ли здесь того явления, которое известно как mode collapse в GAN?
💯6👍3
DeepMind выпустил AlphaEvolve: на картинке общая схема работы, а на видео - демонстрация работы, а именно итеративное улучшение кода; общая идея в том, что выбирается задача, делается функция потерь и итеративно обновляется, улучшается код, который ее решает; в частности они смогли найти лучшее решение для перемножения матриц размером (2,4,4), как раз недавно было еще одно улучшение для алгоритма Штрассена; решение от DeepMind чем-то напоминает AI Scientist от Sakana, но статей само (пока?) не пишет; да и в целом идея с улучшение моделей самих себя стала весьма популярной
👍7
сегодня внезапно приглашаю всех, кто не сможет приехать лично в ВК, посмотреть трансляцию оттуда; расписание здесь; в зале Б1 будет сначала NLP (плюс один доклад из AI4SE), потом Reliable ML и Advanced LLM (почти все доклады несмотря на название секции будут про LLM); начало в 12 часов МСК
VK Видео
Data Fest 2025, день 1: офлайн в Москве 24 мая в гостях у VK
Открываем официальную программу ежегодной конференции Data Fest 2025! Первый день стартует в Москве в гостях у VK. На этом стриме вас ждёт онлайн трансляция из главного зала "Кинозал": 1. 12:00 — 14:05, RecSys секция часть 1 ...обеденный перерыв... 2. 15:10…
🔥13
угадайте, сколько из этих книг, рекомендованных бумажной газетой Chicago Sun-Times своим читателям, реально существуют? ответ тут
😁12👍4
вышла интересная работа от коллег из Allen AI с провокационным названием "могут ли рассуждающие модели не думать и оставаться эффективными?" (пример показан на первой картинке)
авторы показывают на экспериментах, что да, могут (вторая и третья картинки); это означает, что а) можно сэкономить на рассуждениях время и вычисления и б) старый-добрый chain-of-thought все еще хорош
авторы показывают на экспериментах, что да, могут (вторая и третья картинки); это означает, что а) можно сэкономить на рассуждениях время и вычисления и б) старый-добрый chain-of-thought все еще хорош
🔥12
в среду у нас внезапно образовалась вторая сессия NLP в Москве, но к сожалению это все в районе обеда, регистрация тут
👍2
сразу две новости последнего времени из Китая: первая - компания Huawei (недавно выпускали свою большую языковую модель PanGu-Ultra, но что даже более важно - они делают ИИ-ускорители) объединяет усилия c UBTech для создания гуманоидных роботов; и вторая новость, что DeepSeek-R1 уже помогает человекоподобным роботам на заводе Zeekr выполнять сложные задачи
🔥18
Джон Кармак (создатель оригинального Doom и хардкорный программист) высказался на тему того, что если бы люди уделяли время оптимизации, нам бы не понадобились новые мощные компьютеры, хватило бы и текущих; я думаю, в его словах есть своя правда, но сейчас все идет к более быстрому созданию кода, следуя максиме Марка Цукерберга "Move Fast and Break Things"; в эту сторону смотрит и нашумевший вайб-кодинг, и даже автоматическое создание ПО через обучение нейросети решать конкретные задачи (недавно выкладывал видео); а оптимизацию пытаются тоже свалить на машинное обучение
👍19
передают слова Хинтона, что школы и университеты будут не нужны; тут всегда надо делать скидку на то, что ученый изнасиловал журналиста (как это недавно случилось со мной), но аргумент такой, что ИИ будет учить лучше, чем преподаватели-люди; на мой взгляд даже если это и так (у меня по этому поводу большие сомнения), то вторую, более важную миссию школы и университета ИИ заменить не сможет - эта миссия по социализации человека, обучение его существованию в коллективе; нравится это кому-то или нет, но мы животные социальные, именно коллективная работа позволила построить нашу цивилизацию, где во многих странах нет голода, как массового явления, например; так что может быть стоит переосмыслить роль школы и университета, но отказываться от этих социальных институтов на мой взгляд преждевременно, т.к. нет замены для второй важнейшей функции
@valuableai
@valuableai
👍19💯4💊3❤1
только недавно обсуждали достижение Sakana AI cо статьями на воркшопе; а тут подъехала новость, что статью от ИИ-агента приняли на ACL; будущее уже здесь, с добрым утром
🔥8😁2👏1🤯1
китайские коллеги научились с помощью диффузионок восстанавливать лицо по ДНК; на мой взгляд это серьезный прорыв (хотя, надо признать, я не слежу внимательно за этой областью); в работе провели верификацию на людях: взяли десять добровольцев, давали им сгенерированное изображение лица, а потом ряд реальных фотографий, в 75% случаев добровольцы смогли выбрать правильное фото из 5 вариантов
🔥17🤯11
Дэвид Сильвер (один из основателей DeepMind) и Ричард Саттон (автор классического учебника по обучению с подкреплением) выпустили статью, только это не привычная нам статья с результатами, а то, что в англоязычной литературе называется position paper; в этой работе они постулируют начало "эры опыта", когда модели начнут получать информацию непосредственно взаимодействуя с миром; это аналог того, как обучаются дети
с одной стороны я согласен, т.к. к 13 годам человек в среднем видел 100 миллионов слов, но способен выполнять задачи, на которые современные LLM, которые видели по нескольку триллионов слов; из этого с очевидностью следует, что опыт взаимодействия с миром важен; с другой стороны, не очень понятно, как это все будет интегрировано - мультимодальность еще далека от идеала
с одной стороны я согласен, т.к. к 13 годам человек в среднем видел 100 миллионов слов, но способен выполнять задачи, на которые современные LLM, которые видели по нескольку триллионов слов; из этого с очевидностью следует, что опыт взаимодействия с миром важен; с другой стороны, не очень понятно, как это все будет интегрировано - мультимодальность еще далека от идеала
✍7💯4👍2
с моим коллегой произошла типичная история кражи идеи из головы: вышла работа, где предлагается концепция soft thinking (первая картинка); простыми словами это про то, что рассуждения в виде слов ограничивают выразительную способность модели (думаю, что и человека тоже), если это ограничение снять (вторая картинка), то результата можно достичь быстрее (третья картинка)
P.S. сейчас пошла мода делать одностраничные сайты для статей, где выкладывать основные результаты с красивыми картинками,я такие сайты называю комиксами, и только приветствую их появление, т.к. доходчивость у них действительно больше
P.S. сейчас пошла мода делать одностраничные сайты для статей, где выкладывать основные результаты с красивыми картинками,
❤12👍7