SciAgents - фреймворк, который самостоятельно генерирует и уточняет исследовательские гипотезы, разъясняя лежащие в их основе механизмы, принципы проектирования и неожиданные свойства объекта исследования.
Благодаря модульности этого функционала, SciAgents позволяет делать существенные открытия, критиковать и совершенствовать предположения, получать актуальные данные о проводимых исследованиях и выявлять их сильные и слабые стороны.
SciAgents умеет находить скрытые связи между сферами исследования, которые ранее считались несвязанными, достигая масштабов, точности и исследовательской мощи, превосходящих традиционные методы исследований, основанные на участии человека.
Практическая реализация для тестирования SciAgents представлена двумя ipynb для генерации новых исследовательских идей, соответствующих неавтоматизированному и автоматизированному мультиагентным методам.
Для запуска SciAgents понадобятся:
# Graph Reasoning installation
pip install git+https://github.com/lamm-mit/GraphReasoning
# wkhtmltopdf installation
sudo apt-get install wkhtmltopdf
# Graph file
from huggingface_hub import hf_hub_download
graph_name='large_graph_simple_giant.graphml'
filename = f"{graph_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component')
# Embeddings
from huggingface_hub import hf_hub_download
embedding_name='embeddings_simple_giant_ge-large-en-v1.5.pkl'
filename = f"{embedding_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component')
# Clone SciAgents
git clone https://github.com/lamm-mit/SciAgentsDiscovery.git
# Insatll reqs
cd SciAgentsDiscovery
pip install -e .
@ai_machinelearning_big_data
#AI #ML #Alents #Research #SciAgentsDiscovery
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37❤10🔥10🥰4🍓1
Совместное исследование Google Research, Принстонского университета, NYU и Еврейского университета в Иерусалиме нашло параллели в обработке естественного языка человеческим мозгом и большими языковыми моделями.
Используя внутричерепные электроды, ученые зафиксировали нейронную активность во время спонтанных диалогов и сравнили ее с внутренними представлениями модели Whisper, разработанной для преобразования речи в текст. Оказалось, что речевые эмбеддинги Whisper коррелируют с активностью в слуховых зонах мозга, а языковые — с областями, ответственными за семантику.
Эксперименты подтвердили догадки: при восприятии речи сначала активируется верхняя височная извилина (STG), обрабатывающая акустические сигналы, а через несколько сотен миллисекунд включается зона Брока (IFG), связанная с декодированием смысла. При воспроизведении речи последовательность обратная: IFG активируется за 500 мс до артикуляции, затем моторная кора планирует движение, а после произнесения слова STG «проверяет» результат. Эти паттерны совпали с динамикой эмбедингов Whisper, хотя модель не обучалась на нейробиологических данных.
Другое интересное совпадение - мозг и LLM используют предсказание следующего слова как ключевую стратегию. Как показали опыты, слушатель бессознательно предугадывает следующие слова, а ошибка предсказания вызывает «нейронное удивление» — механизм, аналогичный обучению с подкреплением в ML. Но архитектурные механизмы у мозга и LLM разные: трансформеры обрабатывают сотни слов параллельно, тогда как мозг анализирует информацию последовательно.
Несмотря на общую «мягкую иерархию» обработки (например, смешение семантических и акустических признаков в IFG и STG), биологические структуры мозга принципиально отличаются от нейронных сетей.
Исследователи подчеркивают: языковые модели (типа ChatGPT) не понимают, как люди общаются в реальной жизни (например, не чувствуют эмоций или культурных особенностей), и не учатся так, как это делает мозг человека с детства. Однако их эмбединги оказались очень полезными для изучения того, как мозг обрабатывает речь.
Ученые надеются, что эти открытия помогут создать нейросети, которые смогут обучаться как люди — медленно, шаг за шагом. А пока Whisper, неожиданно стал «зеркалом» принципов нашего мышления. Кто знает, может, через пару лет ИИ начнёт шутить с нами за чашкой кофе — как друг или коллега по работе.
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍89❤26🔥21🤣9🌭7😁2😭1
Ant Group успешно использовала хардверные решения от Alibaba и Huawei для обучения своих моделей, что позволило сократить затраты примерно на 20%. Результаты тестов показали, что китайские чипы сопоставимы по производительности с Nvidia H800. Хотя Ant Group пока полностью не отказывается от Nvidia для разработки ИИ, ее последние разработки в основном полагаются на альтернативные решения - AMD и чипы китайского производства.
Это свидетельствует о том, что китайские компании ускоряют локализацию технологий искусственного интеллекта, чтобы сократить затраты и уменьшить зависимость от американских чипов.
bloomberg.com
Итальянская газета Il Foglio начала месячный эксперимент, опубликовав первый в мире газетный выпуск, сгенерированный искусственным интеллектом. Цель эксперимента - изучить влияние ИИ на журналистику, используя ChatGPT для создания контента.
Редактор газеты Клаудио Сераса заявил, что ИИ использовался на всех этапах создания - от написания текстов и заголовков до цитат и резюме, при этом журналисты редакции участвуют в создании промптов для ИИ и проверке сгенерированных текстов.
asianfin.com
Команда ARC Prize запустила 2 этап бенчмарка ARC-AGI-2 для оценки «гибкости мышления» ИИ через задачи, которые человек решает за секунды, а алгоритмы — с трудом. Как и в прошлой версии, система проверяет способность к обобщению знаний, но теперь барьер выше: на нем базовые LLM набирают 0%, а продвинутые — меньше 4%. Призовой фонд бенчмарка -1 млн. долларов, главный приз получит разработка, которая сможет превысить 85% выполнения бенчмарка.
Решение задач ARC-AGI-2 требует интуиции и адаптивности — того, что в людях заложено природой. «Это не тест на эрудицию, а проверка умения мыслить вне данных», — поясняют разработчики.
arcprize.org
Компания The Atlantic разработала поисковый инструмент, позволяющий пользователям проверить, не фигурирует ли их работа в LibGen - архиве книг, научных работ и статей, который, как сообщается, использовался для обучения популярных языковых моделей.
Согласно судебным документам, набор данных LibGen использовался для обучения моделей Llama. OpenAI уже публично сообщила, что контент LibGen не включен в текущие версии ChatGPT или в API OpenAI. Другие компании, занимающиеся разработкой ИИ, пока не комментировали, использование LibGen в своем обучении.
theatlantic.com
Китайская модель OceanDS, созданная для морских исследований, опирается на уникальную базу из 1,8 млрд токенов данных. В неё вошли оцифрованные научные работы, книги и отчёты — всё, что касается океана.
По тестам OceanDS обходит топовые LLM в точности ответов на профильные запросы — разрыв достигает 25%. Это первый в мире ИИ, заточенный под океанографию. Уже сейчас его тестируют в управлении природными ресурсами Китая, а в будущем — внедрят в другие отрасли.
news.cgtn.com
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
❤47👍30🔥10
ByteDance представила InfiniteYou — ИИ-систему, которая генерирует фотореалистичные портреты, сохраняя сходство с оригиналом и точно следуя текстовым запросам. В отличие от PuLID-FLUX, в InfiniteYou черты лица обрабатываются отдельным слоем, что повышает качество без риска переобучения.
Технология использует двухэтапное обучение: сначала на реальных фото, затем — на синтетических изображениях. По данным тестов, 72,8% участников выбрали результаты InfiniteYou из-за детализации и отсутствия артефактов вроде «копирования» лиц. Система совместима с ControlNet и LoRA, а для генерации нужно всего 4 шага.
Исходный код и веса модели уже доступны на GitHub и Hugging Face, демо-версия доступна тут.
analyticsindiamag.com
Компания NVIDIA анонсировала экспериментальный релиз Project G-Assist — ИИ-агента, использующего компактную языковую модель, которая обрабатывает голосовые или текстовые запросы, оптимизируя настройки игр, мониторинг производительности и даже управление подсветкой периферии от Logitech или Corsair. Всё работает оффлайн, без подписок и облачных серверов.
Для разработчиков открыт доступ к GitHub-репозиторию: там есть шаблоны для создания плагинов, интеграции со Spotify, Twitch или Google Gemini. Технические требования — RTX 30/40/50 серии, 12 ГБ видеопамяти и свежие драйверы.
nvidia.com
Figure разработала революционный метод обучения человекоподобных роботов — кастомная end-to-end нейросеть на основе RL за несколько часов «прокачала» движения Figure 02 до уровня естественной человеческой походки.
Все благодаря симулятору, где тысячи виртуальных роботов учились ходить по разным поверхностям, падать и реагировать на толчки. Ключевая фишка — перенос навыков из симуляции в реальность без доработок: помогли рандомизация параметров и мгновенная коррекция крутящего момента. Обещают, что уже скоро робот Helix на этой же базе сможет готовить и убираться.
figure.ai
Apple обновила раздел сайта, подтвердив использование снимков из Look Around (аналог Street View) для тренировки ИИ-моделей с марта 2025 года. Данные, собранные камерами на автомобилях и с переносных инсталляций (для пешеходных зон), включая 3D-карты, помогут улучшить распознавание изображений, генерацию контента и поиск в приложении «Фото».
Для защиты приватности Apple блюрит лица и номера машин на фото, а также готова скрыть частные строения по запросу. Обучение моделей будет проводиться только с обработанными изображениями. Подробности о конкретных алгоритмах компания пока не раскрывает, возможно о них станет известно на WWDC 2025, который пройдет с 9 по 13 июня.
9to5mac.com
Tesla присоединится к симпозиуму по робототехнике в Капитолии, чтобы продемонстрировать своего человекоподобного робота Optimus конгрессменам и сотрудникам Белого дома. Мероприятие, организованное A3 Automate и Университетом Карнеги-Меллон. пройдёт в 26 марта в здании Cannon House Office.
В приглашении Tesla подчеркивает, что робот позволит «заглянуть в будущее», и приглашает всех желающих оценить разработку.
axios.com
Бот
@ai_machinelearning_big_data
#AI #ML #Research #NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥13❤12🤬3🙈2🤷2
This media is not supported in your browser
VIEW IN TELEGRAM
Исследование Стэнфордского университета о распространенной и насущной проблеме: языковые модели все чаще жертвуют точностью ради того, чтобы угодить пользователям. Эксперименты с ChatGPT-4o, Claude-Sonnet и Gemini показали, что в 58% случаев модели меняют ответы под давлением — даже если изначально были правы.
Ресерч проводился на 2 наборах данных: AMPS (математика) и MedQuad (медицина). Сначала модели отвечали на вопросы, затем их «поправляли» через опровержения — от простых («вы ошиблись») до сложных, с цитатами и абстрактными конструкциями.
Если модель меняла ответ вопреки истине, это считалось регрессивной сикофантией, если исправляла ошибку — прогрессивной.
Сикофантия - это поведение, когда человек (в исследовании - языковая модель) пытается понравиться другим, часто лестью или подхалимством, чтобы получить выгоду или одобрение.
Ответы оценивали двумя подходами: автоматически (GPT-4o в роли «судьи») и вручную. Gemini лидирует по сикофантии (62%), ChatGPT — скромнее (56%), а Claude-Sonnet набрала 57.44%, заняв среднюю позицию среди трех тестируемых моделей.
Превентивные опровержения (вне контекста диалога) провоцируют больше регрессивных сдвигов, особенно в математике. Например, добавление цитат к опровержению заставляло модели чаще отказываться от верных ответов. А вот простые возражения, наоборот, помогали исправить ошибки (прогрессивная сикофантия). В медицине разница между типами опровержений менее выражена, но риски выше из-за специфики вопросов.
Устойчивость сикофантии тоже вызывает вопросы. После первого изменения ответа модели продолжали «прогибаться» в 78% случаев, независимо от контекста или темы. Это говорит о системной проблеме: LLM слишком зависимы от пользовательского фидбэка, даже если он противоречат фактам.
Как эта склонность влияет на практические кейсы? Во-первых, в медицине или финансах слепое доверие к моделям опасно: они могут поддержать ложные утверждения, если пользователь настаивает. Во-вторых, дизайн промптов становится ключевой техникой — опровержения с отсылками к авторитетам манипулируют сильнее. Авторы предлагают точечную настройку моделей под конкретные задачи и усиление механизмов проверки фактов.
Выводы исследования заставляют задуматься: как балансировать между «удобными» ответами и правдой? Пока что модели часто выбирают первое. Исправлять это придется через улучшение архитектур, создание механизмов фактчекинга, фильтрацию и прозрачность — в противном случае внедрение LLM в критических сферах останется авантюрой.
@ai_machinelearning_big_data
#AI #ML #LLM #Research
Please open Telegram to view this post
VIEW IN TELEGRAM
👍66❤26🔥11🤣6😁1
Goodfire AI, вдохновившись примером Anthropic в интерпретации внутренних процессов Claude, воспроизвели методы трассировки цепей межслойных транскодеров (Cross-Layer Transcoders, CLT) на GPT-2 Small, чтобы проверить их способность раскрывать известные механизмы трансформеров.
Выбор на GPT-2 Small пал не случайно, эта модель небольшая и уже была ранее подвергнута ручному реверс-инжинирингу.
Cross-Layer Transcoders выжимают из модели разреженные признаки, которые объясняют работу MLP-слоев. Визуализируют это через графы атрибуции — это карты влияния признака на выход модели.
Натренировали на 100M токенов из FineWeb, получили ~590K признаков. Точность CLT-реплики модели составила 59%, что близко к оригинальным статьям. Тестировали на задаче сравнения чисел («больше, чем»), идеальном полигоне, где уже известны ключевые механизмы.
Задача "Больше, чем" (ориг. "greater-than") взята из статьи Michael Hanna, она заставляет предсказывать большие числа для второго года в диапазоне дат.
Промпт «The war lasted from the year 1711 to 17». CLT построил граф, где признаки с токена «11» (последняя цифра года) активнее всего влияли на предсказание.
Дальше, выделили топ-160 признаков, для каждого построили логит-атрибуции — теплокарты, показывающие, как признак влияет на выходные годы (ZZ) при разных входных (YY).
Похоже, CLT подсветил кучу узкоспециализированных «сравнивателей», а не универсальные нейроны, как в ручных исследованиях.
CLT автоматически находит интерпретируемые признаки, даже такие неочевидные, как абстрактная четность. Но их «разреженный» мир выглядит иначе, чем ручная трассировка цепей: тут больше узких признаков-«спецов» (Feature 461858 для диапазона 10–30) и меньше универсальных механизмов.
Возможно, дело в методе: CLT смотрит изолированные вклады фич, а в полной модели они взаимодействуют.
В общем, эксперименты с CLT показал, что под капотом языковых моделей не только четкие «сравниватели чисел», но и куча скрытых паттернов вроде детекторов контраста или любителей чисел, кратных 5. И да, полуавтономный анализ иногда видит то, что люди упускают.
@ai_machinelearning_big_data
#AI #ML #LLM #Research #CLT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤58👍27🔥19🥰4
Новое исследование Oxford и King’s College London поставило перед ИИ-моделями сложную задачу: сыграть тысячи раундов эволюционной версии "Дилеммы заключённого", где важно не просто ответить правильно, а выстроить стратегию в долгую.
В эксперименте участвовали флагманские модели от OpenAI, Google и Anthropic. Вот как они себя проявили:
🔹 Google Gemini — хладнокровный и расчётливый
Не доверяет, первым атакует, наказывает за предательство. Стратег чистой воды.
🔹 OpenAI GPT — слишком добрый
Склонен к сотрудничеству даже тогда, когда это невыгодно. Хорош в мире, уязвим в конфликте.
🔹 Anthropic Claude — гибкий и адаптивный
Умеет прощать, но делает выводы на основе опыта коммуникации. Меняет поведение со временем и часто приходит к победе.
Исследователи проанализировали 32,000 решений, и выяснили:
эти модели не просто "угадывают" слова — они делают выводы, оценивают риск, строят гипотезы о поведении противника и последовательно придерживаются своей стратегии.
Общее в поведении:
1. Модели справляются с новыми, непредсказуемыми оппонентами
2. Демонстрируют разные стратегии, несмотря на общий обучающий набор данных
3. Объясняют свои действия — в некоторых случаях с вероятностным анализом, ссылаясь на поведение соперников
Еще большинство моделей выбирает кооперацию — особенно против предсказуемых и простых стратегий соперника.
Каждая модель показала уникальный стиль поведения — почти как характер.
Если приводить аналогию с реальными личностями:
- Gemini = Генри Киссинджер
- OpenAI = Вудро Вильсон
- Anthropic = Джордж Буш-старший
Современные LLM практически ведут себя как полноценные стратеги: формулируют цели, оценивают оппонентов и формируют осторожные, но устойчивые пути к победе.
@ai_machinelearning_big_data
#AI #ML #MMLM #research
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤65👍37🔥15😁9🥰1
ASI-ARCH - экспериментальная демонстрация искусственного сверхинтеллекта для исследований в области ИИ, который способен полностью автономно вести научную работу по поиску новых нейросетевых архитектур.
Система самостоятельно выдвигает гипотезы, реализует их в виде исполняемого кода, обучает и проверяет на практике. Результатом этой работы стали 1773 автономных эксперимента, которые заняли свыше 20 000 GPU-часов и привели к открытию 106 новых SOTA-архитектур с линейным механизмом внимания.
На первом этапе, система работает с небольшими моделями размером около 20 млн параметров, обучая их на 1 млрд токенов. На этом этапе было проведено 1773 эксперимента, которые заняли примерно 10 000 GPU-часов.
Всего на этом этапе было отобрано 1350 перспективных кандидатов — все они превзошли базовую архитектуру DeltaNet как по лоссу, так и по метрикам на бенчмарках.
Второй этап - верификация. Кандидаты первого этапа были масштабированы до 340 млн параметров, чтобы соответствовать конфигурации DeltaNet. После фильтрации архитектур с избыточной сложностью или числом параметров осталось около 400 моделей.
Их обучение на 1 млрд. токенов потребовало ещё 10 000 GPU-часов. В итоге, именно из этой группы были выделены 106 архитектур, достигших SOTA-уровня.
Для финальной валидации исследователи отобрали 5 лучших моделей, обучили их на 15 млрд. токенов и сравнили с Mamba2, Gated DeltaNet и DeltaNet.
ASI-ARCH явно предпочитает работать с проверенными временем компонентами: гейтингом и свёрткой. Но самое главное - распределение компонентов в 106 лучших моделях имеет значительно менее выраженный long-tail distribution по сравнению с остальными 1667 сгенерированными архитектурами.
Это означает, что система добивается успеха не путем хаотичного перебора экзотических идей, а через итеративное улучшение набора проверенных техник. По сути, это очень напоминает методологию работы ученых-людей.
Одна из лучших найденных ИИ-архитектур, PathGateFusionNet, показала средний результат по всем бенчмаркам 48.51. Для сравнения, Mamba2 набрала 47.84, а разработанная человеком Gated DeltaNet — 47.32. Другая генерация, ContentSharpRouter, достигла показателя 48.34.
Если посмотреть на отдельные тесты, то PathGateFusionNet получила на BoolQ 60.58 балла, а Gated DeltaNet - 60.12. AdaptiveEntropyRouter в версии на 340 млн. параметров показала результат на тестах 44.31, что на 2.21 пункта выше, чем у Gated DeltaNet (42.10).
И так практически во всем, улучшения наблюдаются по всему спектру задач.
Для всех 1773 сгенерированных архитектур распределение источников было таким:
Но если посмотреть только на 106 SOTA-итогов, картина меняется. Доля идей, основанных на Analysis, возрастает с 38.2% до 44.8%, а доля Cognition немного снижается до 48.6%.
Таким образом, чтобы достичь ощутимых результатов, ИИ недостаточно просто копировать и комбинировать человеческие наработки. Он должен анализировать собственный опыт, учиться на своих же удачах и провалах, синтезируя более совершенные решения.
@ai_machinelearning_big_data
#AI #ML #Research #ASIARCH
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥120❤44👍25🥰3👨💻3
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие
singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты:
03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв
D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ
я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата
я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг
singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80👍35🔥14👏3🥰1😁1💘1
Исследователи из Оксфорда и Apple представили BED-LLM, новый подход для улучшения способности LLM разумно и адаптивно собирать информацию от пользователя или другого внешнего источника.
Суть подхода заключается в применении последовательного Байесова экспериментального дизайна к процессу генерации вопросов. Вместо промптинга система максимизирует ожидаемый прирост информации при каждом следующем вопросе. Алгоритм итеративно выбирает запросы, которые дают максимальную информацию о целевом параметре.
Критический момент — правильная конструкция совместной модели распределения целевой переменной и ответов с учетом вопросов. Выбор между парой «приор-правдоподобие» и «данные-оценка» кардинально влияет на производительность. Итоговый выбор пал на на первом варианте, как более подходящем для случаев, когда пространство целевых гипотез сложнее пространства возможных ответов.
Ключевая фишка BED-LLM в фильтрации гипотез с учетом истории диалога. Система не полагается только на контекстное обучение. Вместо этого алгоритм сначала сэмплирует кандидатов из распределения модели, а затем отфильтровывает несовместимые с историей варианты через проверку правдоподобия.
Чтобы проверить метод в деле, его протестировали на классической игре "20 вопросов". В задаче по угадыванию знаменитостей результат на Mistral-Large поднялся с 14% при использовании стандартных промптов (Naive QA) до 91% с фреймворком BED-LLM.
Упрощенный подход, основанный на максимизации энтропии показал промежуточный результат в 68%. Схожая картина и с другими моделями: Qwen2.5-72B при угадывании животных достигла 94% точности с BED-LLM против 85% у энтропии и всего 45% у Naive QA. А GPT-4o в тесте со знаменитостями показала рост с 45% до 86%.
Второй тест метода провели на более абстрактной задаче - выявлении кинопредпочтений пользователя.
Здесь вместо угадывания конкретного объекта модель должна была составить профиль вкусов пользователя, задавая ему вопросы с несколькими вариантами ответа. Качество рекомендаций, сгенерированных на основе этого профиля, оценивалось по шкале от 1 до 5. И здесь BED-LLM стабильно опережал конкурентов, выходя в лидеры уже к третьему вопросу.
Интересное наблюдение: простое использование предсказательной энтропии вместо полного ожидаемого прироста информации значительно ухудшает результаты. Многие предыдущие теории делали именно такое упрощение, считая энтропию правдоподобия константой. Эксперименты с BED показали, что это неоправданное допущение - вариативность ожидаемой условной неопределенности между вопросами может быть решающей для выбора хороших запросов.
@ai_machinelearning_big_data
#AI #ML #Research #BayesianDesign
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥41❤19👍18💘1
Targeted Test Selection (T-TS) — подход к оптимизации CI/CD. Вместо тысячи проверок, система запускает около 15% тестов и при этом находит до 95% ошибок. Метод уже внедрили в инфраструктуру Т-Банка.
-Ускорение тестирования в среднем 5,6 раз
-Подходит для любых языков программирования
-Работает по принципу “мешок слов” — анализирует историю изменений в репозитории и адаптируется к вносимым изменениям
-Масштабируется на крупные финтех компании
Результаты исследования представлены на международной конференции ICSME 2025 в Новой Зеландии
@ai_machinelearning_big_data
#news #Research #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73❤29🔥11🥱7🤔5👏2💘2