Анализ данных (Data analysis)
46.8K subscribers
2.59K photos
299 videos
1 file
2.25K links
Data science, наука о данных.

@haarrp - админ

@itchannels_telegram - 🔥 главное в ит

@ai_machinelearning_big_data - ML

@machinelearning_interview - вопросы с собесдований по Ml

РКН: clck.ru/3FmyAp
Download Telegram
🚀«Ави»: на рынке появится новый ИИ-ассистент от Авито

Технологическая платформа Авито подала заявку на регистрацию товарного знака для своего нового ИИ-ассистента — «Ави», сообщает «Коммерсант».

💬 Что умеет «Ави»
Ассистент работает на базе большой языковой модели и общается с пользователями в формате живого диалога. Он не просто отвечает на запросы, а помогает понять цель покупки, уточняет ключевые параметры, рекомендует подходящие предложения и даже объясняет отличия между ними. По сути — это интеллектуальный консультант, который знает рынок Авито так же хорошо, как его создатели.

🚀 Зачем это нужно Авито
ИИ-ассистенты сегодня — новый тренд среди крупных компаний. Интерактивные решения позволяют:
• собирать больше контекста из диалогов с пользователем;
• повышать вовлеченность и лояльность;
• влиять на ключевые метрики продаж.

По оценкам экспертов, на разработку «Ави» уже могли потратить около 500 млн рублей. Это часть большой стратегии: в Авито ранее заявляли, что инвестируют 12 млрд рублей в генеративный ИИ и рассчитывают получить 21 млрд выручки к 2028 году от внедрения технологий искусственного интеллекта.

🧠 ИИ-стратегия Авито
Компания активно развивает собственную ИИ-экосистему. Ранее она представила две модели:
• A-Vibe — текстовую LLM;
• A-Vision — мультимодальную модель, способную работать с изображениями и текстом.
Модель A-Vibe за первую неделю собрала более 1400 скачиваний и вошла в топ трендовых моделей на Hugging Face.

🔮 Что дальше
Сейчас «Ави» проходит тестирование в разных категориях. Цель компании — в 2026 году запустить универсальное решение, которое будет работать во всех вертикалях платформы.

Можно сказать, что «Ави» — это не просто чат-бот, а новое лицо Авито, интегрированное в пользовательский опыт и превращающее классическую торговую площадку в умную технологическую платформу.
👍4🥱2😢1
🚀📈 Память снова на пике - Samsung, SK Hynix и Micron входят в суперцикл благодаря ИИ

AI привёл рынок памяти к рекордному росту: мировой доход DRAM к 2026 году оценивают в $231 млрд. Компании уже фиксируют взрывной спрос и исторические прибыли.

Картинка по кварталам
- Samsung: $8.6 млрд чистой прибыли, из них $4.9 млрд - от чипов
- SK Hynix: $8.8 млрд прибыли, называют рынок “суперциклом”, мощности до 2026 уже проданы
- Micron: $3.2 млрд чистой прибыли, подтверждает такой же спрос

Что зажигает рынок
Главная звезда — HBM (High Bandwidth Memory). Это многослойная память рядом с процессором, которая прокачивает гигантские объёмы данных, ускоряя обучение больших моделей.

Но и обычная DRAM в дефиците — дата-центры закупают серверы для инференса: готовые модели прогоняют запросы и генерируют ответы, и часто это дешевле, чем держать огромные обучающие кластеры.

Стратегия OpenAI подливает топлива
Компания подписала предварительные соглашения с Samsung и SK Hynix под проект Stargate. Звучала цифра — до 900 тысяч пластин DRAM в месяц — это >2х текущей глобальной мощности HBM, по оценке SK Hynix.

Что дальше
- спрос на HBM будет расти >30% в год ближайшие 5 лет
- дефицит памяти продлится минимум до конца 2026, возможно — до начала 2027
- компании, не забронировавшие поставки заранее, уже платят дороже — HBM-линии пошли в приоритет, стандартная DRAM растёт в цене «за компанию»

Сомнения есть: прогнозы OpenAI агрессивны и могут скорректироваться. Но даже если масштаб будет меньше, рынок всё равно остаётся сверхнапряжённым - мощности просто не успевают догонять AI-спрос.

Новый закон чип-мира: кто заранее купил память, тот и обучит будущее.

wsj.com/tech/memory-chip-makers-are-enjoying-a-boom-to-remember-thanks-to-ai-741b2a45
10👍7🔥3
🔥 Qwen3-VL теперь можно запускать локально

Хорошая новость для тех, кто хочет сильный мультимодальный стек без облака:
.
- Qwen3-VL-235B можно поднять на 128 ГБ unified memory (динамическое 4-bit). Это уже уровень SOTA в СМ b OCR.
- Qwen3-VL-2B спокойно выдает ~40 токенов/сек на 4 ГБ ОЗУ.

Плюс:
- есть фиксированный chat-template
- полная поддержка тонкой настройки и RL
- готовые блокноты через Unsloth (бесплатно)
- экспорт в GGUF, так что можно кормить всё это локальным рантаймам

Документация: docs.unsloth.ai/models/qwen3-vl

@data_analysis_ml
🔥236👍4
Самая нужная книга года
😁76🔥123🤣3💯2👍1🥰1🙏1
🧠 DiffMem: Git-Based Memory for AI Agents

DiffMem предлагает легковесную память для ИИ, использующую Git для отслеживания изменений и Markdown для хранения данных. Этот проект демонстрирует, как системы контроля версий могут стать основой для эффективной и масштабируемой памяти в приложениях ИИ, позволяя агентам быстро получать актуальную информацию и исследовать её эволюцию.

🚀 Основные моменты:
- Хранит "текущие" состояния знаний в Markdown.
- Использует Git для управления историей изменений.
- Обеспечивает быстрый и объяснимый поиск с помощью BM25.
- Поддерживает гибкость и портативность данных.
- Легко интегрируется и не требует серверов.

📌 GitHub: https://github.com/Growth-Kinetics/DiffMem

#python
🔥94👍4
ScaleAI и AI Risks выпустили Remote Labor Index (RLI) – и результаты очень любопытные

RLI проверяет, как хорошо современные AI-агенты справляются с реальной удалённой работой. Спойлер – пока слабо.

Лучшая система Manus смогла автоматизировать только 2.5% задач. То есть почти всё всё ещё делают люди.

При этом видно постепенный прогресс: Claude Sonnet 4.5, GPT-5, Gemini 2.5 Pro и другие модели медленно, но стабильно поднимают планку.

Вывод: полной автоматизации ещё далеко, но эволюция идёт шаг за шагом. Не скачками, а аккуратными улучшениями. Настоящая работа всё ещё за людьми - пока что.

📊Leaderboard: https://scale.com/leaderboard/rli
📰Paper: https://scale.com/research/rli
📽️Watch the full video: https://youtu.be/2RW10HWYo5M
🔥153👍3🥰1
🚀 А вы используете сплит-тесты?

Как проверить гипотезу, если классический A/B не подходит? Дизайн эксперимента можно адаптировать. В Авито используют альтернативу стандартному A/B — сплит-тесты.

Решили поделиться опытом и записали видео со Стешей Чупрыгиной, тимлидом в команде Monetization Efficiency.

Стеша рассказывает:
➡️ как устроено монетизационное ранжирование на Авито,
➡️ что такое автобиддинг,
➡️ как сплит-тесты помогают улучшать алгоритмы.

Видео — новый выпуск «Диванной аналитики», серии докладов, в которых эксперты рассказывают о своём опыте и делятся интересными кейсами.

Посмотрите, чтобы узнать, как и зачем в Авито внедряли сплит-тесты.

📌 Ссылка на YouTube
📌 Ссылка на VK Видео
📌 Ссылка на Rutube
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥3
📈 Новое исследование: LLM-оценка новостей усиливает стратегию momentum

Идея простая: классический momentum покупает недавних «победителей» — но не смотрит, что пишут в новостях.
В работе добавили слой смысловой фильтрации: модель читает свежие заголовки и даёт каждой компании скор между 0 и 1.

Дальше портфель перетасовывается: выше скор — больше вес.

Результат:
— Sharpe растёт с 0.79 до 1.06
— ниже волатильность и просадки
— доходность на единицу риска выше

Конфигурация:
— S&P 500
— новости за 1 день
— ежемесяч ребаланс
— простая подсказка модели
— устойчиво даже после даты обучения
— <2 б.п. торговых издержек

Что важно: модель не «угадывает рынок».
Она просто *читает новости* и уточняет классический фактор, добавляя фильтр реального инфо-фона.

Итог: momentum + актуальные заголовки → умнее, стабильнее, безопаснее.

🧾 arxiv.org/abs/2510.26228
13🔥2🥰2
🧠 Google предлагает новый подход к обучению моделей - “Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning”.

Суть: модель учится не угадывать готовый ответ, а планировать и проверять каждый шаг рассуждений.

- Вместо финальной оценки SRL даёт награду за каждый шаг цепочки
- Модель учится думать поэтапно, а не просто копировать решение
- Маленькие модели получают реальный сигнал обучения и тоже начинают планировать

Результаты впечатляют:
- AIME24: +3.4% (13.3% → 16.7%) на модели 7B
- SRL→RLVR: 57.5% на AMC23 (greedy)
- Код-агенты: 14.8% oracle resolve rate
- В инженерных задачах из 5K траекторий сделали 134K пошаговых примеров, SRL дал 8.6% фиксов кода с greedy - выше, чем SFT-coder

Как это работает
- Экспертное решение режут на маленькие шаги
- Модель делает шаг → получает оценку близости к эксперту
- Используют текст-matcher + небольшой формат-штраф
- Обновления в стиле GRPO с динамическим выбором батчей, чтобы избегать пустых сигналов

Что получает модель
- Раннее планирование
- Коррекция по ходу
- Самопроверка результата
- При этом ответы не становятся длиннее - качество растёт за счёт мышления, а не болтовни

SRL выглядит как естественный мост между supervised обучением и классическим RL: контролируемая стабильность + глубина рассуждений.

📄 arxiv.org/abs/2510.25992

@data_analysis_ml
12🔥8👍2
6 ноября в 15:00 (МСК) — вебинар «Загрузка в 1С любых данных без программирования. Инжектор 1С» от Денвик и партнёра Инфостарт.

💬 Спикер — Степан Пыстин, технический директор и BI-внедренец. Он покажет, как работает инструмент Инжектор 1С — визуальный коннектор для загрузки данных из внешних БД в 1С без кода. Подробнее про функции: bi.denvic.ru/products/inzhektor-1s-instrument-zagruzki-dannykh-v-1s
На вебинаре обсудят методы загрузки данных, сценарии миграции и интеграции без программирования, визуальный конструктор и автодозагрузку данных.

🔧 Полезно архитекторам и разработчикам 1С, архитекторам данных и менеджерам проектов, где используется 1С.
➡️ Регистрация открыта: https://webinar-denvic.ru/?utm_source=tg_post_denvik3
1🙏1
Media is too big
VIEW IN TELEGRAM
🧠 IBM объясняет, как математика симметрий помогает создавать новые квантовые алгоритмы

Математика групп — это про симметрии: как объекты можно менять местами, вращать или переставлять, и что при этом остаётся неизменным.

IBM показывает, что те же самые идеи лежат в основе квантовых вычислений — и помогают искать задачи, где квантовые алгоритмы могут быть быстрее классических.

Ключевые идеи:
- Симметрии в природе описываются теорией групп
- Квантовые системы тоже подчиняются симметриям
- Если правильно описать задачу через симметрии, можно найти квантовый алгоритм с ускорением
- IBM работает с более сложными (не-абелевыми) симметриями — это следующий уровень, сложнее и мощнее

Зачем это всё
Мы ещё не нашли много «убойных» квантовых алгоритмов.
Подход через симметрии — это способ открывать новые, а не только улучшать старые.

Если коротко:
Математика симметрий может стать картой для поиска новых квантовых алгоритмов.

Подробнее: https://www.ibm.com/quantum/blog/group-theory
Видео: https://www.youtube.com/watch?v=eSy-pwkLiIQ

#quantum #math #grouptheory #IBMQuantum #algorithms
🔥124
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google разместит ИИ-вычисления на околоземной орбите.

Google анонсировала проект Suncatcher, который будет строить ML-инфраструктуру в космическом пространстве. Концепция состоит из развертывания группировок спутников, оснащенных TPU и связанных оптическими каналами. Идея проекта в том, что на правильной орбите солнечная панель может быть до 8 раз продуктивнее, чем на Земле, а значит космос - это лучшее место для масштабирования вычислений.

Для реализации еще предстоит решить как поддерживать высокоскоростную межспутниковую связь, которая требует полета аппаратов в очень плотном строю (километр или менее). К началу 2027 года планируют запуск двух прототипов спутников для проверки работы оборудования на орбите.
research.google

✔️ Microsoft Azure преодолела барьер инференса в 1 млн. т/с.

Новый рекорд производительности был получен на виртуальных машинах Azure ND GB300 v6, запущенных на стоечной системе NVIDIA GB300 NVL72. В ходе тестов была достигнута совокупная скорость инференса модели Llama 2 70B в 1.1 млн токенов в секунду. Это на 27% больше предыдущего рекорда, установленного на GB200.

Новая конфигурация дала почти пятикратный прирост пропускной способности на один GPU по сравнению с поколением H100. Ключевыми факторами стали возможности архитектуры Blackwell, использование FP4 и оптимизация библиотеки NVIDIA TensorRT-LLM. Результаты были подтверждены независимой аналитической компанией Signal 65. Логи запуска тестового инстанса можно посмотреть на Github.
techcommunity.microsoft.com

✔️ ArXiv ужесточает модерацию CS-статей.

Платформа вводит новые, более строгие правила для раздела Computer Science. Причиной стал резкий рост числа обзорных и концептуальных статей низкого качества, многие из которых созданы с помощью нейросетей.

Теперь работы будут приниматься к публикации только после того, как их одобрят в рецензируемом научном журнале или на конференции. Авторам потребуется предоставить соответствующее подтверждение при загрузке работы, в противном случае статья будет отклонена. Новая политика не затрагивает обычные исследовательские статьи, однако в будущем может быть распространена и на другие научные области, если там возникнет схожая проблема.
blog.arxiv.org

✔️ AgiBot запустила роботов, обучающихся с подкреплением в реальном мире.

AgiBot в партнерстве с Longcheer Technology развернула систему обучения с подкреплением в реальном мире (RW-RL) на пилотной производственной линии. Это первый подтвержденный случай промышленного применения технологии, которая позволяет роботам обучаться непосредственно в процессе работы, а не следовать жестким инструкциям.

С RW-RL роботы AgiBot осваивают новые навыки за минуты, автономно адаптируясь к изменениям в деталях или производственных допусках. Система поддерживает стабильность промышленного уровня и не требует сложной аппаратной модификации при смене продукта. После успешного пилотного проекта компании планируют расширить применение RW-RL на сборку потребительской электроники и автомобильных компонентов.
gizmochina.com

✔️ Remote Labor Index: топовые ИИ-модели проваливают 97% реальных фриланс-задач.

Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность ИИ выполнять реальную работу фрилансеров. В рамках теста исследователи взяли 240 завершенных проектов с биржи Upwork и поставили идентичные задачи 6 топовым ИИ-системам.

Результаты показали, что даже лучшие модели справились с заданиями на человеческом уровне лишь в 2.5% случаев. Почти 97% работ были признаны неудовлетворительными из-за низкого качества, неполных данных или поврежденных файлов. ИИ справился только с узкими задачами: создание логотипов или сведение аудио.

Тест наглядно подсветил огромный разрыв между показателями ИИ на синтетических бенчмарках и его реальной готовностью к автоматизации сложных проектов.
scale.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍7🔥7😢1
Google DeepMind представили IMO-Bench - набор тестов, который проверяет математические способности ИИ на уровне Международной математической олимпиады (IMO).

Что внутри:
IMO-AnswerBench - 400 задач с короткими ответами
IMO-ProofBench - 60 задач, где нужно написать доказательство
IMO-GradingBench - 1000 готовых доказательств для автоматической проверки

Главная идея проста: перестать измерять только правильные ответы и начать оценивать глубину рассуждений, умение строить логические цепочки и строгие доказательства, как у олимпийских математиков.

Результаты:
Модель Gemini Deep Think показала:
80.0% на AnswerBench
65.7% на ProofBench

Это уровень золотой медали IMO - и заметно выше, чем у GPT-5 и Grok-4.

https://x.com/lmthang/status/1985760224612057092
6👍2🔥2
Microsoft показала, как облако может выжать максимум из ИИ-железа

Azure ND GB300 v6 - новые VM на NVIDIA Blackwell пробили барьер: 1 100 000 токенов в секунду при работе с Llama-2-70B.

Что сделали:
— использовали новые Blackwell-GPU с большей памятью
— оптимизировали под TensorRT-LLM и FP4
— объединили 18 машин в один кластер
— выжали рекордный throughput без качества-в-ноль


2025 - год, когда облако и железо реально начинают тянуть модели на миллион+ токенов/с.
AI-инфраструктура становится конкурентным преимуществом.

https://techcommunity.microsoft.com/blog/azurehighperformancecomputingblog/breaking-the-million-token-barrier-the-technical-achievement-of-azure-nd-gb300-v/4466080
🔥10🥰2👍1😱1