Dynamics Lab выпустила симулятор Mirage 2. Выглядит не хуже Genie 3, но уже доступен каждому
Наверху – примеры и сравнительная табличка с Genie. Mirage выделяется двумя вещами:
1. Продолжительность генераций по сегодняшним меркам огромная: заявляют 10+ минут при задержке 200ms и запуске, кстати, на единственной домашней GPU
2. Расширенная «играбельность»: в демках Genie только навигация + промптинг. Тут дополнительно еще всякие прыжки, бег, атака и другие игровые действия. Плюс, сгенерированным миром можно поделиться, то есть в него могут параллельно заходить другие агенты.
Демки выглядят забавно, так что стоит тестить (blog.dynamicslab.ai/)
Наверху – примеры и сравнительная табличка с Genie. Mirage выделяется двумя вещами:
1. Продолжительность генераций по сегодняшним меркам огромная: заявляют 10+ минут при задержке 200ms и запуске, кстати, на единственной домашней GPU
2. Расширенная «играбельность»: в демках Genie только навигация + промптинг. Тут дополнительно еще всякие прыжки, бег, атака и другие игровые действия. Плюс, сгенерированным миром можно поделиться, то есть в него могут параллельно заходить другие агенты.
Демки выглядят забавно, так что стоит тестить (blog.dynamicslab.ai/)
1🔥100👍18❤17😁4🤯2
OpenAI совместно с биотехнологическим стартапом Retro Biosciences разработали модель, которая смогла в 50 раз ускорить генерацию стволовых клеток
Сначала небольшое предисловие⬇️
В 2006 году японский биолог Синья Яманака совершил инновационное открытие, за которое впоследствии получил Нобелевку по медицине: он выяснил, что существуют белки, способные превращать взрослые клетки в молодые стволовые. Их всего четыре, и сейчас их называют факторами Яманаки.
По сути, это прямой ключ к омоложению: уже зрелая обычная клетка превращается в стволовую, способную дать начало любой другой молодой клетке организма – от мышцы сердца до нейрона. Так что открытие революционное, но есть нюанс: эти белки обладают крайне низкой эффективностью репрограммирования, то есть только очень малая часть клеток реально превращается в стволовые после их воздействия.
Так вот OpenAI и RetroBiosciences удалось разработать модель – GPT-4b micro – которая вывела новые варианты факторов Яманаки, и они оказались в 50 раз (!) эффективнее по сравнению со стандартными. Эксперименты показали, что это действительно работает, и при этом для разных типов клеток.
У GPT-4b micro та же архитектура, что и у GPT-4o, но обучали ее по-другому, «с использованием специального набора биологических данных».
Подробностей как всегда дают немного, но это подход, отличный от AlphaFold. Тут не структурное моделирование, а языковой подход: модель анализирует последовательности и взаимодействия белков и может вносить очень мелкие изменения, доходя до трети аминокислот. Главное отличие – гораздо большой масштаб «тестирования».
И еще один занятный факт: новые варианты белков также показали способности к улучшению процессов восстановления ДНК. Детали еще предстоит проверить, но в теории это значит, что они могут дольше сохранять молодость клеток.
openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
Сначала небольшое предисловие
В 2006 году японский биолог Синья Яманака совершил инновационное открытие, за которое впоследствии получил Нобелевку по медицине: он выяснил, что существуют белки, способные превращать взрослые клетки в молодые стволовые. Их всего четыре, и сейчас их называют факторами Яманаки.
По сути, это прямой ключ к омоложению: уже зрелая обычная клетка превращается в стволовую, способную дать начало любой другой молодой клетке организма – от мышцы сердца до нейрона. Так что открытие революционное, но есть нюанс: эти белки обладают крайне низкой эффективностью репрограммирования, то есть только очень малая часть клеток реально превращается в стволовые после их воздействия.
Так вот OpenAI и RetroBiosciences удалось разработать модель – GPT-4b micro – которая вывела новые варианты факторов Яманаки, и они оказались в 50 раз (!) эффективнее по сравнению со стандартными. Эксперименты показали, что это действительно работает, и при этом для разных типов клеток.
У GPT-4b micro та же архитектура, что и у GPT-4o, но обучали ее по-другому, «с использованием специального набора биологических данных».
Подробностей как всегда дают немного, но это подход, отличный от AlphaFold. Тут не структурное моделирование, а языковой подход: модель анализирует последовательности и взаимодействия белков и может вносить очень мелкие изменения, доходя до трети аминокислот. Главное отличие – гораздо большой масштаб «тестирования».
И еще один занятный факт: новые варианты белков также показали способности к улучшению процессов восстановления ДНК. Детали еще предстоит проверить, но в теории это значит, что они могут дольше сохранять молодость клеток.
openai.com/index/accelerating-life-sciences-research-with-retro-biosciences/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯159❤94 37🔥23 9👍4😁4
Илон Маск объявил, что Grok 5 начинает обучение на следующей неделе
А в другом твите он писал:
Эх, получаетсяGrok 4.20 не будет
А в другом твите он писал:
Ждите Grok 5.
Я думаю, что у него есть шанс стать настоящим AGI.
Никогда раньше не испытывал подобного чувства.
Эх, получается
1😁239🔥30❤21👍9😎4👏2🤯2
Media is too big
VIEW IN TELEGRAM
Neo AI выпустили агента NEO – ещё одного ML-инженера из коробки
Они называют его первым полностью автономным агентом, готовым к реальным ML-воркфлоу. По сути это не один агент, а ансамбль из 11 штук, которые делят между собой роли: от EDA до обучения, тюнинга и деплоя.
На бенчмарках результат впечатляющий. На MLE Bench от OpenAI NEO вышел на первое место: медали на 34.2% Kaggle-соревнований, против 22.4% у Microsoft RD Agent.
Под капотом у них оркестратор, который гоняет агентов через multi-step reasoning, передаёт контекст через собственный протокол и сохраняет память шагов.
Агент уже умеет в Snowflake, Databricks, BigQuery и деплой в VPC. То есть сразу нацелен на прод.
Как заявляют в компании, NEO разработан для ускорения работы ML-инженера, так что пока (наверное) ML-щики – не ВСЁ.
Вейтлист: https://heyneo.so/waitlist
Они называют его первым полностью автономным агентом, готовым к реальным ML-воркфлоу. По сути это не один агент, а ансамбль из 11 штук, которые делят между собой роли: от EDA до обучения, тюнинга и деплоя.
На бенчмарках результат впечатляющий. На MLE Bench от OpenAI NEO вышел на первое место: медали на 34.2% Kaggle-соревнований, против 22.4% у Microsoft RD Agent.
Под капотом у них оркестратор, который гоняет агентов через multi-step reasoning, передаёт контекст через собственный протокол и сохраняет память шагов.
Агент уже умеет в Snowflake, Databricks, BigQuery и деплой в VPC. То есть сразу нацелен на прод.
Как заявляют в компании, NEO разработан для ускорения работы ML-инженера, так что пока (наверное) ML-щики – не ВСЁ.
Вейтлист: https://heyneo.so/waitlist
2🔥80 30❤22 9👍8😁3🤯2
Пожалуй, одна из самых громких новостей конца недели: основатель команды GenAI в Google заявил, что сейчас не стоит получать медицинское или юридическое образование
Но прежде, чем мы приведем прямую цитату, небольшая поправка для большего понимания: под «основателем команды GenAI» журналисты имеют в виду не известного Демиса Хассабиса, а Джада Тарифи. Он уже даже не работает в Google с 2021 года, а эту самую команду основал еще в 2012. Заголовки оставляют желать лучшего.
Ну так вот, он сказал, что вообще не рекомендует получать высшее образование, особенно в сферах медицины и юриспруденции. Мол, к тому моменту, как вы окончите вуз, ИИ уже сделает эти профессии полностью нерелевантными.
Мнение?😐
Но прежде, чем мы приведем прямую цитату, небольшая поправка для большего понимания: под «основателем команды GenAI» журналисты имеют в виду не известного Демиса Хассабиса, а Джада Тарифи. Он уже даже не работает в Google с 2021 года, а эту самую команду основал еще в 2012. Заголовки оставляют желать лучшего.
Ну так вот, он сказал, что вообще не рекомендует получать высшее образование, особенно в сферах медицины и юриспруденции. Мол, к тому моменту, как вы окончите вуз, ИИ уже сделает эти профессии полностью нерелевантными.
Я не думаю, что кому-либо вообще стоит делать PhD, если только он не одержим своей областью. Так что либо уходите в малоизученные ниши типа AI для биологии, либо просто не идите вообще никуда.
Мнение?
Please open Telegram to view this post
VIEW IN TELEGRAM
1 215😁70👾23 17👍16🗿16❤14🦄11🫡9 9☃3
Не прошло и года (точнее ровно год): xAI опубликовали веса Grok 2
Архитектура та же, что и у Grok 1 – MoE. Восемь экспертов. Напоминаем, что метрики примерно на уровне GPT-4o и Claude 3.5 Sonnet.
Чекпойнт весит около 500 ГБ, для работы с моделью потребуется 8 GPU с памятью более 40 ГБ на каждую. Лицензия разрешает бесплатное некоммерческое и коммерческое использование до $1 млн годовой выручки.
Hugging Face
Архитектура та же, что и у Grok 1 – MoE. Восемь экспертов. Напоминаем, что метрики примерно на уровне GPT-4o и Claude 3.5 Sonnet.
Чекпойнт весит около 500 ГБ, для работы с моделью потребуется 8 GPU с памятью более 40 ГБ на каждую. Лицензия разрешает бесплатное некоммерческое и коммерческое использование до $1 млн годовой выручки.
Hugging Face
1❤120👍43🔥25🤨8😁5🐳2
This media is not supported in your browser
VIEW IN TELEGRAM
Джеффри Хинтон снова пугает байками про конец света: он утверждает, что с развитием искусственного интеллекта мы буквально создаем инопланетных существ
Нужны тут какие-то комментарии?😳
Мы никогда не имели дело с чем-то, что умнее нас. Я имею в виду, ядерное оружие не умнее нас, оно просто создает большие взрывы. И его легко понять. А экзистенциальная угроза – это совсем другое.
В случае с ИИ люди просто не понимают, что мы создаем инопланетян. Если бы вы посмотрели в телескоп Джеймса Уэбба и увидели, что на Землю через 10 лет прилетит инопланетный флот, люди бы были в ужасе.
А это, фактически, и есть то, что мы делаем. Это и есть реальные существа. Они понимают, что говорят, они могут строить собственные планы и шантажировать людей, которые хотят их отключить <тут он, видимо, говорит про это исследование>.
Мы должны быть очень обеспокоены по этому поводу и срочно начать проводить исследования, чтобы понять, как предотвратить захват власти. Потому что эта угроза отлична от всего, с чем мы встречались ранее.
Нужны тут какие-то комментарии?
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁153 81 59👍24❤22💯13 10🔥7🦄6🗿4👏2
Data Secrets
Джеффри Хинтон снова пугает байками про конец света: он утверждает, что с развитием искусственного интеллекта мы буквально создаем инопланетных существ Мы никогда не имели дело с чем-то, что умнее нас. Я имею в виду, ядерное оружие не умнее нас, оно просто…
> Всю жизнь заниматься ML и AI
> Воспитать лучшие умы индустрии
> Изобрести алгоритм, благодаря которому обучаются все современные модели
…
> Пенсию посвятить публичным рассказам о том, что ИИ нас всех убьет
> Воспитать лучшие умы индустрии
> Изобрести алгоритм, благодаря которому обучаются все современные модели
…
> Пенсию посвятить публичным рассказам о том, что ИИ нас всех убьет
1😁503👍75❤51 11🔥8🤨6❤🔥4🦄4 4💯1
Data Secrets
Джеффри Хинтон снова пугает байками про конец света: он утверждает, что с развитием искусственного интеллекта мы буквально создаем инопланетных существ Мы никогда не имели дело с чем-то, что умнее нас. Я имею в виду, ядерное оружие не умнее нас, оно просто…
В довесок ко вчерашнему высказыванию Хинтона, нами была случайно обнаружена целая страничка на Википедии с большим списком прогнозов известных ученых о шансах, что ИИ уничтожит человечество
Оказывается, у такой вероятности даже есть специальное название – P(doom): то есть вероятность конца света (с английского doomsday scenarios) от рук ИИ.
Давайте же начнем утро понедельника с этих оптимистичных чисел:
– Илон Маск: 10-30%
– Джеффри Хинтон: > 50%
– Дарио Амодеи: 10-25%
– Йошуа Бенджио: 50%
– Дэниэль Кокотаджило (автор того самого очень известного отчета): 70-80%
– Роман Ямпольски: 99.9% (кто бы сомневался)
Меньше всего верят в плохой исход Ян Лекун, Ричард Саттон и Марк Андерсен. Среднее значение по списку – 14.4%. Медиана – около 5%.
Хорошего дня, что-ли☕️
en.wikipedia.org/wiki/P(doom)
Оказывается, у такой вероятности даже есть специальное название – P(doom): то есть вероятность конца света (с английского doomsday scenarios) от рук ИИ.
Давайте же начнем утро понедельника с этих оптимистичных чисел:
– Илон Маск: 10-30%
– Джеффри Хинтон: > 50%
– Дарио Амодеи: 10-25%
– Йошуа Бенджио: 50%
– Дэниэль Кокотаджило (автор того самого очень известного отчета): 70-80%
– Роман Ямпольски: 99.9% (кто бы сомневался)
Меньше всего верят в плохой исход Ян Лекун, Ричард Саттон и Марк Андерсен. Среднее значение по списку – 14.4%. Медиана – около 5%.
Хорошего дня, что-ли
en.wikipedia.org/wiki/P(doom)
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁177 59❤26👍11❤🔥7 7🤯5👾3😍2🔥1🍓1
Свежая статья от Sakana AI: как идеи эволюции можно применять для ИИ
У Sakana уже который раз выходят интересные статьи, в которых они предлагают разнообразные виды ансамблей. Идеология у них вполне конкретная: они настаивают, что будущее не за одной гигантской монолитной моделью, а за экосистемами агентов, которые могут взаимодействовать. И вот с типами этого взаимодействия они как раз и экспериментируют в своих работах.
В этот раз на повестке оказались эволюционные процессы. Предлагается метод M2N2 (Model Merging of Natural Niches), построенный на трех принципах, которые Sakana подглядели у биологов:
1. Аналог обмена кусочками ДНК. Модели хранятся как массив параметров, и каждый раз алгоритм случайным образом выбирает split-point – индекс в массиве параметров, где произойдёт разрез. До этой точки итоговые веса берутся как смесь от модели A, после – от модели B. Если полученный ребенок показывает хорошую метрику (фитнес) – оставляем его в массиве. Иначе отсеиваем.
2. Конкуренция за ресурсы. Модели соревнуются за главное сокровище: данные. Каждый датапойнт в тренировке – это ресурс с ограниченной емкостью. Если у одной модели на каком-то примере уже есть высокий скор, то считается, что она заняла большую часть ресурса, и другие модели не могут получить с него полноценный фитнес, даже если тоже освоили пример. Это вынуждает агентов искать другие примеры, где они смогут быть уникально полезны, и именно так возникает специализация.
3. Кроссовер особей. Обычно в эволюционных процессах считается, что чем лучше твои характеристики (фитнес в данном случае), тем выше вероятность, что тебя кто-то выберет в качестве партнера и родителя своих детей. Но тут сделали немного иначе: первого родителя выбирают действительно по фитнесу, а второго берут таким, чтобы он был силен там, где слаб первый. В данном случае лучше всего работает именно такой селекшен.
В итоге получается генетический алгоритм на максималках. Так даже можно обучать модели с нуля без использования градиентов и backprop. Всё обучение — это поиск в пространстве параметров за счёт описанных эволюционных операторов (слияние, мутация, отбор).
Например, в статье исследователи взяли 20 случайно инициализированных MLP и с помощью M2N2 дотренили их до уровня CMA-ES на MNIST. При этом получилось, что обучается M2N2 даже быстрее и дешевле.
И не с нуля тоже масштабируется. Основной пример: Sakana таким образом объединили WizardMath-7B и AgentEvol-7B и получили агента, который одновременно хорош и в математике, и во всяком агентском. С диффузионками и мультимодальными моделями тоже работает. Причем по сравнению с ванильным файн-тюном здесь не наблюдается никакого эффекта забывания.
Статья полностью тут, код – вот здесь
К слову, работа выиграла награду best paper на GECCO’25
У Sakana уже который раз выходят интересные статьи, в которых они предлагают разнообразные виды ансамблей. Идеология у них вполне конкретная: они настаивают, что будущее не за одной гигантской монолитной моделью, а за экосистемами агентов, которые могут взаимодействовать. И вот с типами этого взаимодействия они как раз и экспериментируют в своих работах.
В этот раз на повестке оказались эволюционные процессы. Предлагается метод M2N2 (Model Merging of Natural Niches), построенный на трех принципах, которые Sakana подглядели у биологов:
1. Аналог обмена кусочками ДНК. Модели хранятся как массив параметров, и каждый раз алгоритм случайным образом выбирает split-point – индекс в массиве параметров, где произойдёт разрез. До этой точки итоговые веса берутся как смесь от модели A, после – от модели B. Если полученный ребенок показывает хорошую метрику (фитнес) – оставляем его в массиве. Иначе отсеиваем.
2. Конкуренция за ресурсы. Модели соревнуются за главное сокровище: данные. Каждый датапойнт в тренировке – это ресурс с ограниченной емкостью. Если у одной модели на каком-то примере уже есть высокий скор, то считается, что она заняла большую часть ресурса, и другие модели не могут получить с него полноценный фитнес, даже если тоже освоили пример. Это вынуждает агентов искать другие примеры, где они смогут быть уникально полезны, и именно так возникает специализация.
3. Кроссовер особей. Обычно в эволюционных процессах считается, что чем лучше твои характеристики (фитнес в данном случае), тем выше вероятность, что тебя кто-то выберет в качестве партнера и родителя своих детей. Но тут сделали немного иначе: первого родителя выбирают действительно по фитнесу, а второго берут таким, чтобы он был силен там, где слаб первый. В данном случае лучше всего работает именно такой селекшен.
В итоге получается генетический алгоритм на максималках. Так даже можно обучать модели с нуля без использования градиентов и backprop. Всё обучение — это поиск в пространстве параметров за счёт описанных эволюционных операторов (слияние, мутация, отбор).
Например, в статье исследователи взяли 20 случайно инициализированных MLP и с помощью M2N2 дотренили их до уровня CMA-ES на MNIST. При этом получилось, что обучается M2N2 даже быстрее и дешевле.
И не с нуля тоже масштабируется. Основной пример: Sakana таким образом объединили WizardMath-7B и AgentEvol-7B и получили агента, который одновременно хорош и в математике, и во всяком агентском. С диффузионками и мультимодальными моделями тоже работает. Причем по сравнению с ванильным файн-тюном здесь не наблюдается никакого эффекта забывания.
Статья полностью тут, код – вот здесь
К слову, работа выиграла награду best paper на GECCO’25
1❤131🔥84👍30🤯4 4 4❤🔥2👀2😁1🗿1😎1
Data Secrets
Свежая статья от Sakana AI: как идеи эволюции можно применять для ИИ У Sakana уже который раз выходят интересные статьи, в которых они предлагают разнообразные виды ансамблей. Идеология у них вполне конкретная: они настаивают, что будущее не за одной гигантской…
В дополнение к сегодняшней статье: собрали для вас другие наиболее интересные работы Sakana AI на тему новых методов обучения ИИ и построения агентов
➖ Wider or Deeper? Про альтернативный подход к масштабированию ризонинга с помощью гибких деревьев поиска. Статья, наш разбор.
➖ Reinforcement Learning Teachers. Про замену традиционного обучения с подкреплением специальной схемой «учитель-ученик», которая параллелится и сходится быстрее и качественнее. Статья, наш разбор.
➖ Darwin Gödel Machine. Агент, который совершенствуется, переписывая собственный код. Самая известная статья от Sakana. Там, кстати, идеи тоже взяты из эволюции. Статья, наш разбор.
➖ Text-to-LoRA. Модель для моментальной генерации специализированных под мелкие задачи агентов. Пишешь «хочу учителя по французскому» и получаешь готовые веса адаптера LoRA, которые не надо обучать, а остается только запустить. Статья, наш разбор.
➖ Continuous Thought Machine. Статья с самыми лучшими иллюстрациями про переосмысление архитектуры LLM, вдохновленное биологическими нейронными процессами. Вместо прямых проходов по сети – тики мыслей, как в мозге. Вместо нейронов – перцептроны с собственной памятью. Статья, наш разбор.
Если давно хотелось почитать что-то стоящее о новых подходах в ИИ (или вы любите биологию), то эта подборка – 100% для вас. И да, теперь вы знаете, какая любимая AI-лаба админа🤫
Если давно хотелось почитать что-то стоящее о новых подходах в ИИ (или вы любите биологию), то эта подборка – 100% для вас. И да, теперь вы знаете, какая любимая AI-лаба админа
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥88❤37👍21😁3💘1
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia официально стартовала продажи своего суперкомпьютера для роботов
Речь, конечно, о Jetson AGX Thor. Это самая мощная платформа для гуманоидной разработки в мире, а в Nvidia ее скромно называют «мозги робота».
Главное отличие от обычных видеокарт – интеграция сразу всего необходимого в одно место. Если нам для датацентров важна преимущественно вычислительная мощность, то у робототехников акцент на автономию с ограничением по энергопитанию и пространству.
Итак, внутри:
– 2560 ядер Blackwell
– 128 ГБ оперативной памяти
– CPU: 14-ядерный Arm Neoverse-V3AE.
– Обилие интерфейсов для камер, сенсоров, моторов, GPIO и прочих примочек. Встроенные ускорители для оптического потока, чтобы робот мог шустренько анализировать картину окружающей реальности.
– Модульность и специальное ПО для обучения роботов и смежных задач в комплекте.
За всю красоту – $3,499🤑
Среди ранних заказчиков уже самые сливки: Agility, Boston Dynamics, Figure, Meta*, Amazon и Caterpillar.
Очередной стандарт индустрии от Хуанга
Речь, конечно, о Jetson AGX Thor. Это самая мощная платформа для гуманоидной разработки в мире, а в Nvidia ее скромно называют «мозги робота».
Главное отличие от обычных видеокарт – интеграция сразу всего необходимого в одно место. Если нам для датацентров важна преимущественно вычислительная мощность, то у робототехников акцент на автономию с ограничением по энергопитанию и пространству.
Итак, внутри:
– 2560 ядер Blackwell
– 128 ГБ оперативной памяти
Итого уже примерно 2070 FP4 TFLOPS вычислительной мощности при потреблении до 130 Вт. Если что, RTX 4090 выдаёт 82–83 TFLOPS (FP32) при потреблении примерно 450 Вт. Так что это фантастическая плотность вычислений.
– CPU: 14-ядерный Arm Neoverse-V3AE.
– Обилие интерфейсов для камер, сенсоров, моторов, GPIO и прочих примочек. Встроенные ускорители для оптического потока, чтобы робот мог шустренько анализировать картину окружающей реальности.
– Модульность и специальное ПО для обучения роботов и смежных задач в комплекте.
За всю красоту – $3,499
Среди ранних заказчиков уже самые сливки: Agility, Boston Dynamics, Figure, Meta*, Amazon и Caterpillar.
Очередной стандарт индустрии от Хуанга
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤145👍59 32🔥24😁6👏1🦄1
О, еще одна крутая инженерная новость за сегодня: скоро выйдет Flash Attention 4
Алгоритм был анонсирован командой на конференции HotChips. Третья версия уже давно стандарт де-факто индустрии, а четвертая даст относительно нее еще +22% к производительности на длинных последовательностях. А это в свою очередь значит, что вычисления станут и быстрее, и дешевле.
Основные отличия: оптимизация под новые Blackwell и Tensor Core + трюки с вычислениями softmax и экспоненты.
Кода и спецификации пока нет. Но есть утечки. В любом случае, радуемся и ждем🙂
Алгоритм был анонсирован командой на конференции HotChips. Третья версия уже давно стандарт де-факто индустрии, а четвертая даст относительно нее еще +22% к производительности на длинных последовательностях. А это в свою очередь значит, что вычисления станут и быстрее, и дешевле.
Основные отличия: оптимизация под новые Blackwell и Tensor Core + трюки с вычислениями softmax и экспоненты.
Кода и спецификации пока нет. Но есть утечки. В любом случае, радуемся и ждем
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤77👍27 15🔥5 5 5👏2😁1
aiXiv: ученые из 18 ведущих университетов всего мира сделали новую открытую платформу для публикации научных работ от ИИ
Сейчас ситуация в академии следующая:
– с одной стороны у нас есть уже довольно способные ИИ-агенты, которые могут писать научные статьи (какого-то качества) и пишут их
– с другой стороны все еще нет адекватного открытого пространства, где такие статьи публикуются
Конечно, есть arXiv, но там совсем отсутствует контроль качества, а, будем честны, статьи от моделек ревьюить надо серьезно. Журналы в то же время статьи с AI-авторством не принимают совсем. Вот и получается, что качественные тексты и идеи от ИИ, если они есть (или появятся), остаются совсем невидимыми.
И вот собственно aiXiv должен этот пробел закрыть. В чем смысл:
1️⃣ Есть закрытый цикл рецензирования, внутри которого статьи автоматически проверяются на качество методологии, новизну и значимость.
На первом этапе для этого используются отдельный агент с RAG на основе Semantic Scholar API, подтягивающий релевантные статьи для обоснования замечаний. На втором шаге – аналог привычных рецензентов. Агент-редактор определяет подтемы работы, и для каждой подтемы создаются 3–5 специализированных рецензентов. Они пишут отзывы, затем редактор все агрегирует и выносит единое заключение.
Работает такой эвал неплохо: на данных ICLR 2024/25 aiXiv достиг 77% (пропозалы) и 81% (статьи) точности выбора более качественной версии. Это заметно выше предыдущих подходов типа DeepReview и AI Researcher.
2️⃣ Есть итерации доработки – тоже как при подаче обычных статей. Автор получает правки и может что-то пофиксить. Система отслеживает изменения и сравнивает версии. А автор, кстати, даже может добавить response letter, и это сильно повышает шанс принятия статьи (все как в жизни, опять же).
3️⃣ В итоге за accept/reject голосуют 5 ведущих LLM. Для публикации надо набрать минимум 3 голоса. Если работа принята, она открыто публикуется для обсуждения и даже получает DOI.
А, кстати: люди тоже могут публиковаться, никакой дискриминации по железному признаку. Ну и совместные статьи люди/ИИ тоже разрешены (откровенно говоря, таких статей уже пруд пруди во всех источниках, просто ИИ в авторах не указывают😢 ).
Вот такой вот проект. Статья с подробностями здесь, код тут. А сам aiXiv должны уже скоро сделать открытым для всех. Пока можете попробовать подать заявку на ранний доступ.
Сейчас ситуация в академии следующая:
– с одной стороны у нас есть уже довольно способные ИИ-агенты, которые могут писать научные статьи (какого-то качества) и пишут их
– с другой стороны все еще нет адекватного открытого пространства, где такие статьи публикуются
Конечно, есть arXiv, но там совсем отсутствует контроль качества, а, будем честны, статьи от моделек ревьюить надо серьезно. Журналы в то же время статьи с AI-авторством не принимают совсем. Вот и получается, что качественные тексты и идеи от ИИ, если они есть (или появятся), остаются совсем невидимыми.
И вот собственно aiXiv должен этот пробел закрыть. В чем смысл:
На первом этапе для этого используются отдельный агент с RAG на основе Semantic Scholar API, подтягивающий релевантные статьи для обоснования замечаний. На втором шаге – аналог привычных рецензентов. Агент-редактор определяет подтемы работы, и для каждой подтемы создаются 3–5 специализированных рецензентов. Они пишут отзывы, затем редактор все агрегирует и выносит единое заключение.
Работает такой эвал неплохо: на данных ICLR 2024/25 aiXiv достиг 77% (пропозалы) и 81% (статьи) точности выбора более качественной версии. Это заметно выше предыдущих подходов типа DeepReview и AI Researcher.
А, кстати: люди тоже могут публиковаться, никакой дискриминации по железному признаку. Ну и совместные статьи люди/ИИ тоже разрешены (откровенно говоря, таких статей уже пруд пруди во всех источниках, просто ИИ в авторах не указывают
Вот такой вот проект. Статья с подробностями здесь, код тут. А сам aiXiv должны уже скоро сделать открытым для всех. Пока можете попробовать подать заявку на ранний доступ.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤84👍42🔥19🤨5😁3 3 2🤯1
Разработан метод борьбы с галлюцинациями нейросетей
Российские ученые из Сбера предложили способ, который отслеживает появление ложных ответов в системах ИИ даже при минимальном количестве данных для обучения. Новый метод повышает точность выявления галлюцинаций примерно на 30% по сравнению с аналогами, использующими малое количество данных.
Главная проблема современных LLM — умение «убедительно врать». Для борьбы с этим обычно нужны большие объёмы размеченных данных, но в новой разработке достаточно всего 250 примеров.
Алгоритм анализирует внутренние состояния нейросети в момент генерации ответа и использует метамодели вместе с классическими ML-методами или быстрым трансформером TabPFNv2.
Тесты показали: новая система по эффективности сопоставима с решениями на базе коммерческих моделей закрытого кода. Для компаний это экономия ресурсов на разметку и более точные ответы от ИИ.
Российские ученые из Сбера предложили способ, который отслеживает появление ложных ответов в системах ИИ даже при минимальном количестве данных для обучения. Новый метод повышает точность выявления галлюцинаций примерно на 30% по сравнению с аналогами, использующими малое количество данных.
Главная проблема современных LLM — умение «убедительно врать». Для борьбы с этим обычно нужны большие объёмы размеченных данных, но в новой разработке достаточно всего 250 примеров.
Алгоритм анализирует внутренние состояния нейросети в момент генерации ответа и использует метамодели вместе с классическими ML-методами или быстрым трансформером TabPFNv2.
«Мы показали, что даже при небольшом объеме данных можно добиться высокой точности ИИ-систем. Предложенный нами способ использует метамодели и умное понижение размерности — это прорыв в выявлении галлюцинаций искусственного интеллекта. Мы не просто улучшаем технологии, но и снижаем риски дезинформации, что критично для доверия к современным моделям», — отметил директор Центра практического искусственного интеллекта Сбербанка Глеб Гусев.
Тесты показали: новая система по эффективности сопоставима с решениями на базе коммерческих моделей закрытого кода. Для компаний это экономия ресурсов на разметку и более точные ответы от ИИ.
2😁109👍62🗿22❤18🤔17 13🤨4 3🤓2🤯1