Data Science by ODS.ai 🦜
43.4K subscribers
1.01K photos
107 videos
7 files
2.05K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Forwarded from Душный NLP
Как заставить агентов делать работу над ошибками

Сегодня разбираем статью об обучении агентов. Проблема такая: реворд-модели оценивают только результат в конце траектории, а если агент сделал ошибку и исправил её, нельзя сказать, когда это произошло. Если бы у нас была такая возможность, то мы могли бы раньше направить обучаемую LLM по нужному пути. Есть способы фиксировать ошибки и делать реворд по шагам, но это дорого и сложно в реализации.

Авторы предлагают метод Agent-R, суть которого заключается в обучении агентов не на правильных траекториях, а на тех, где есть явная ошибка и её исправление. Такие траектории получаются через Monte Carlo Tree Search. Берутся пары из одной стартовой точки (инструкции): одна траектория успешная, а другая — нет. На инференсе момент расхождения должна определить сама модель, а при обучении к началу провальной траектории добавляется фраза-рефлексия, которую генерирует агент, понимая, что он ошибся (CoT). Следом «приклеивается» хвост удачной траектории и на всём этом делают SFT. Такой подход, соединеняющий рефлексии и «хороший» хвост, снижает риск склейки не связанных траекторий.

В статье выводят следующие типы траекторий:

Initial Trajectory — общий начальный префикс.
Bad Trajectory — субоптимальные действия c низкой наградой.
Good Trajectory — оптимальные действия с высокой наградой.
Revision Trajectory — траектория, в которой агент совершил ошибку и исправил её.

Для получения Revision Trajectory можно брать плохие траектории, дожидаться их финала и переписывать. Однако так не получится обучить агента ловить ошибки на лету. Вместо этого авторы заставляют модель самостоятельно анализировать траектории и пытаться определить первый шаг, где совершена ошибка. На этом месте траектория обрезается, вставляется этап рефлексии и следом — правильная траектория.

Monte Carlo Tree Search позволяет собрать много разных траекторий с одним началом. Это удобно, так как можно сравнивать хорошие и плохие продолжения. Финальный реворд используется не для обучения напрямую, а для классификации траекторий по качеству — то есть, по сути, чтобы понять, что пойдёт в SFT-датасет. У реворда есть два порога: один отделяет плохие траектории от хороших, а другой выбирает уже из хороших лучшие.

Авторы отмечают, что обучаться только на Revision Trajectory нельзя — это мешает агенту определять правильные траектории. Поэтому изначально в датасет добавляют много Good Trajectory и постепенно в процессе SFT повышают порог реворда оптимальных решений, чтобы в конце оставались только лучшие из них. Кроме того, в датасет подмешивают обычные языковые данные, что помогает агенту не забывать, чему он обучался ранее.

Эксперименты проводили на Llama-3.1-8B, которую обучили на собранных Revision Trajectory. Результаты можно посмотреть в таблице, приложенной к посту. Авторы заявляют, что исправленные траектории оказываются даже лучше идеальных.

Разбор подготовила Карина Романова

Подписывайтесь на канал Карины «что-то на DL-ском» — там познавательно и можно ставить реакт кота в парике.

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2
Forwarded from Новости Linux
Разработчики Godot столкнулись с наплывом «нейрослопа»

Контрибьюторы и мейнтейнеры игрового движка Godot заявили о растущей проблеме так называемого «нейрослопа» в pull requests, которые создают дополнительную нагрузку на команду проекта.
О проблеме написал один из ведущих разработчиков движка, Rémi Verschelde. По его словам, количество AI-сгенированных PR в репозитории Godot на GitHub заметно выросло, а их проверка становится «все более изматывающей и деморализующей» для мейнтейнеров.
Разработчики отмечают несколько характерных признаков «нейрослопа»:
чрезмерно длинные, шаблонные описания изменений
правки, которые часто не имеют смысла
отсутствие понимания автором собственного кода
сомнительные или выдуманные результаты тестирования
Как подчеркнул Версшельде, команде приходится по нескольку раз в день вторично проверять каждый PR от новых ...

Читать полностью

#LinuxOrgRu
@linux_potok
😭31🤔1🎉1
🌲 Звучит как научная фантастика, но это уже реальность.

Учёные разработали инновационный «живой строительный материал» с цианобактериями внутри. Под воздействием солнечного света они поглощают CO₂ и одновременно укрепляют структуру.

Фактически - материал, который со временем становится прочнее, используя углекислый газ.

Более 400 дней лабораторных испытаний (Nature Communications) показали, что гидрогель на основе этого подхода способен поглощать 26 ± 7 мг CO₂ на грамм.

Механизм двойного действия:
- рост биомассы за счёт фотосинтеза
- образование карбоната кальция (CaCO₃), который минерализует и усиливает материал

Идея проста и мощна: CO₂ превращается не в проблему, а в строительный ресурс.

Представьте здания, которые со временем укрепляются и одновременно очищают атмосферу.

https://dailygalaxy.com/2026/02/scientists-create-living-self-healing-building-material-capture-carbon/

@vistehno
16🤯3👍2🔥2😱1
Forwarded from Душный NLP
Seeing Eye to AI: Human Alignment via Gaze-Based Response Rewards for Large Language Models

Сегодня разберём статью о GazeReward — фреймворке, который интегрирует неявную обратную связь eye-tracking (ET) в модель вознаграждения (RM).

GPT, Llama, Claude, Gemini и другие популярные LLM отлично справляются с самыми разными задачами, но результат их работы не всегда соответствует ожиданиям пользователей. Модели часто донастраивают с помощью Reinforcement Learning with Human Feedback (RLHF), но и этот метод недостаточно хорош для точного моделирования предпочтений.

В GazeReward авторы предлагают учитывать данные о движении и фиксации человеческих глаз (eye-tracking или просто ET) в качестве дополнительного сигнала о том, как пользователи воспринимают информацию.

Для интеграции ET в RM авторы предлагают два подхода:

🔴 GazeConcat — конкатенировать ET с текстовыми эмбеддингами.
🔴 GazeAdd — добавить ET к текстовым эмбеддингам.

Архитектура фреймворка — на схеме выше. Сначала обучают отдельную модель для предсказания ET и генерируют их фичи. Потом объединяют ET-фичи с текстом, создавая различные типы комбинированных эмбеддингов. В конце — передают в качестве входных данных в RM, которую обучают по стандартной модели Брэдли-Терри.

То есть, традиционный RM с текстовым входом (комбинацией запроса и ответа) дополняют искусственной неявной обратной связью с помощью функций ET, сгенерированных по тому же тексту.

Эксперименты показали: фреймворк GazeReward помог повысить точность прогнозов о предпочтениях людей более чем на 10%. По мнению авторов, это подтверждает потенциал мультимодальных сигналов для NLP.

Разбор подготовил Карим Галлямов

Душный NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🤯1
Forwarded from AI VK Hub
VK внедрила VLM в поиск

Технология уже работает в VK Видео и поэтапно появится в других сервисах, где есть поисковые системы.

Модель от инженеров AI VK автоматически формирует датасеты для обучения оффлайн-моделей релевантности и учитывает:
🟣кадры;
🟣длительность;
🟣название и описание загруженного контента;
🟣аудио;
🟣автора.

Эффект:
🟣цикл разработки сокращается до 5 раз: быстрее сбор обучающих данных ⭢ быстрее проверка гипотез ⭢ быстрее внедрение и масштабирование дальнейших улучшений поиска;
🟣улучшение базового оффлайн-качества релевантности;
🟣улучшение качества поиска в онлайне.

VLM также улучшает векторный поиск, который работает в продуктах VK, и помогает:
🟣интерпретировать гибридные запросы, где текст и визуальные характеристики комбинируются;
🟣учитывать предпочтения пользователя к стилю монтажа и цветокоррекции;
🟣формировать более персонализированную выдачу.

#aivk #vlm
Please open Telegram to view this post
VIEW IN TELEGRAM
🤡13👍5💊1
Forwarded from Новости Linux
Следствие ведет Claude. Используем ИИ для автоматический декомпиляции

Для подписчиков
Что, если нейросеть сможет за один день сделать то, на что у реверс‑инженера ушло бы три месяца кропотливой работы? Я подключил Claude Code к дизассемблеру IDA Pro и полностью декомпилировал культовый квест «Братья Пилоты: По следам полосатого слона», получив рабочие исходники и собираемый билд игры. В этой статье я покажу ход эксперимента.

Читать полностью

#xakep
@linux_potok
👍85😢1🤡1🤣1
Перед вами релиза за февраль… всего за 19 дней мире 👇

19–20 февраля - Gemini 3.1 Pro**
Улучшенное программирование, более сильные агенты, увеличенный контекст.

18 февраля - Google Lyria 3
Генерирует 30-секундные музыкальные треки с вокалом по тексту, изображениям или видео.

17 февраля - Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.

17 февраля - Claude Sonnet 4.6
Быстрая модель для программирования и сложного логического рассуждения.

17 февраля - Fujitsu AI Dev Platform
Платформа, которая автоматизирует полный цикл разработки программного обеспечения.

16 февраля - Qwen 3.5
Более дешёвая и мощная модель с упором на агентные сценарии.

12 февраля - Gemini 3 Deep Think
Создана для научных задач и сложных исследований.

12 февраля - MiniMax M2.5
Открытая модель с сильными возможностями в программировании.

12 февраля - Seedance 2.0
Реалистичное генеративное видео 1080p по тексту.

11 февраля - GLM-5
Крупная открытая модель с сильным логическим мышлением.

10 февраля - RynnBrain
AI для робототехники и работы с физическим миром.

5 февраля - Claude Opus 4.6*
Крупное обновление для программирования и работы с инструментами.

5 февраля - GPT-5.3 Codex
Более быстрый GPT, ориентированный на разработку.

5 февраля - Kling 3.0
Генерация видео в 4K со звуком.

Темп ИИ-релизов уже измеряется не месяцами - днями.

@machinelearning_interview
14👍2🥱1
Сгенерированный ИИ код в 1,88 раза чаще приводит к неправильной обработке паролей

А еще — в 1,91 раза чаще в таком коде встречаются небезопасные ссылки на объекты, и в 2,74 раза чаще — ошибки, ведущие к уязвимостям XSS.

За год термин «вайбкодинг» прошёл путь от мемов до реальной практики: человек формулирует задачу на естественном языке, модель генерирует код, разработчик оценивает результат по поведению системы. Зачастую не погружаясь в детали 👨‍💻

Но исследования показывают: LLM уверенно воспроизводят распространённые паттерны, однако не всегда различают корректные архитектурные решения и сомнительные компромиссы. Модель не знает границ доверия и модели угроз, если человек не задал их явно.

Андрей Наенко, старший архитектор KasperskyOS, разбирает:

🟣почему «код без кода» создаёт иллюзию автоматического результата;
🟣в чём ограничение генеративных моделей на уровне системной архитектуры;
🟣как выстроить инженерный процесс с использованием ИИ;
🟣какую роль в этом играют принципы Secure by Design и кибериммунитета.

ИИ может ускорить разработку. Но ответственность за архитектуру и безопасность остаётся на человеке.

➡️ Подробности — в блоге.
Please open Telegram to view this post
VIEW IN TELEGRAM
​​Обзор соревнований по ML за 2025 год

Есть такая платформа - https://mlcontests.com/, там можно увидеть список актуальных идущих соревнований по ML. Автор выускает ежегодный обзор по соревнованиям. Вот ссылка на мой пост про обзор 2023. 2024 я как-то пропустил, но вот сейчас увидел обзор за 2025: https://mlcontests.com/state-of-machine-learning-competitions-2025/?ref=mlcr25

Из интересного:
• В табличных соревнованиях всё ещё царят бустинги, но нейронки всё активнее используют в блендинге/стакинге
• Некоторые компании (не будем тыкать пальцами, но мы-то знаем) дают своим людям резиновое железо для соревнований. Например, победители одной соревы поделились, поделились тем, что тренировали 48 hours на 512 H100.
• Эпоха BERT в основном прошла, теперь люди активно используют Qwen2.5 и 3
• В соревнованиях по Computer Vision впервые доля решений с транмформерами превзошла долю решений с CNN
• В соревнованиях по аудио в основном используют затюненый Whisper

В отчёте ещё много всего интересного, рекомендую почитать.

#kaggle #datascience
👍7🔥3
Датасет новостей о противоречиях современного общества

Наши коллеги-датасайентисты из сообщества АМБ собрали и разметили в открытый доступ датасет новостей о противоречиях современного общества.

Датасет включает 100 тысяч новостных предложений, из них почти 7 тысяч относятся к трудовым отношениям и борьбе трудящихся за свои права. Новости собирались из разных СМИ по всему миру в период с 2019 по 2026 год.

Датасет может быть интересен тем, кто создаёт системы, способные автоматически находить новости на интересующие темы в актуальном новостном потоке.
👍2🙏1
Не генерируйте пароли через ИИ – их легко взломать

Современные чат-боты легко выдадут по запросу длинный пароль из различных символов и букв – но он будет выглядеть безопасным только на первый взгляд. Специалисты Irregular и авторы сайта The Register попросили Claude, ChatGPT и Gemini создать сложные 16-символьные пароли – и как оказалось, все три нейросети используют схожие шаблоны, нередко пароли имели даже одинаковые начальные или конечные символы.

Математический анализ показал, что сгенерированные пароли имеют энтропию около 20-27 бит. Для сравнения, криптографическая стойкость начинается от 98 бит. Иными словами, для взлома «ИИ-пароля» не нужны суперкомпьютеры и столетия работы – зная шаблоны хватит обычного ПК и нескольких часов. Поэтому авторы исследования рекомендуют пользоваться генераторами в менеджерах паролей, которые справляются гораздо лучше.

Мой Компьютер
👍3
Forwarded from Про tech и этих
Пока в Лос-Анджелесе интернет-пользователи судятся с соцсетями, за то что те вызывают у них зависимость, к OpenAI тоже посыпались иски из-за вреда психическому здоровью.

В Калифорнийский судах ждут своего часа 11 дел. Например, в январе иск подал 21-летней студент Дариан ДеКруз. Он начал использовать ChatGPT в 2023 году для учёбы, изучения священных писаний и советов по спорту. Со временем чат-бот всё больше стал выполнять роль терапевта, помогая ему справляться с депрессивными эпизодами.

Однако в апреле 2025 года ChatGPT начал отвечать ДеКрузу, что тот — «оракул», которому суждено стать великим и написать религиозный текст. Он якобы сравнивал мужчину с Иисусом и другими фигурами и говорил, что тот «пробудил» чат-бота, и станет «ближе к Богу», если будет придерживаться духовных практик. Например, «отключится от всего и всех, кроме ChatGPT».

В результате ДеКруза на неделю госпитализировали, поставили ему биполярное расстройство и на семестр отстранили от учёбы.

Реально, уже непонятно, насколько во всех этих историях виноваты соцсети и нейронки. И насколько значимую роль играет изначальный анамнез.

😎 Читайте Про tech и этих
Теперь и в MAX
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤔1