Big Data AI
16.8K subscribers
919 photos
118 videos
19 files
920 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Жиза
😁214👍3🥰1💯1
UNO-Bench — унифицированный бенчмарк для оценки omni-моделей.

Основное:
- 44 типа задач, 5 комбинаций модальностей
- 3.7K тщательно подобранных примеров
- оценка быстрее на 90 процентов при сохранении 98 процентов консистентности
- новый формат многошагового open-ended reasoning
- показывает композиционный закон между uni и omni производительностью

Ссылки:
huggingface.co/papers/2510.18915
huggingface.co/datasets/meituan-longcat/UNO-Bench
🚀 LongCat-Flash-Omni - новая открытыая560B omni-modal модель от Meituan

Новая SOTA-модель LongCat-Flash-Omni (560B параметров) - универсальная омнимодальная система, которая работает с видео, аудио, текстом и действиями в реальном времени.

Что в ней важно:

- Mixture-of-Experts архитектура - даёт высокую скорость и низкие задержки, несмотря на масштаб 560B.
- Полноценное мультимодальное понимание: видео + аудио + текст, обработка движений и сцен в потоке.
- Modality-decoupled parallelism — модель тренировали так, чтобы эффективно комбинировать разные типы данных, не тормозя обучение.
- Заявлен SOTA-уровень качества среди открытых омнимодальных моделей.

Технический отчёт: https://huggingface.co/papers/2511.00279
Модель: https://huggingface.co/meituan-longcat/LongCat-Flash-Omni
Проект: https://longcat.ai
4👍3
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Omnilingual ASR: опенсорсная система распознавания речи для 1600 языков от FAIR.

Подразделение FAIR компании Марка Цукерберга выпустило Omnilingual ASR для 1600 языков, 500 из которых ранее не были ни в одной ИИ-системе. Фишка проекта - «Bring Your Own Language», которая использует контекстное обучение. Она позволяет добавлять поддержку новых языков на основе всего несколько пар аудиозаписей и текстовых примеров, без необходимости полного переобучения.

Размеры моделей семейства - от 300 млн. до 7 млрд. параметров. Для 78% поддерживаемых языков уровень ошибки по символам (CER) не превышает 10. Дополнительно опубликован датасет Omnilingual ASR Corpus с данными для 350 языков.
github.com

✔️ Microsoft создаёт инструмент для запуска CUDA-кода на видеокартах AMD.

Microsoft разрабатывает набор инструментов, позволяющий адаптировать модели NVIDIA CUDA для работы на платформе AMD ROCm. Цель — снизить затраты на оборудование для инференса, переведя часть нагрузок на более доступные графические процессоры AMD.

Решение представляет собой слой совместимости, который транслирует вызовы API из CUDA в ROCm в реальном времени, что избавляет от необходимости полностью переписывать исходный код. Работу сильно тормозит незрелость экосистемы ROCm: не для всего кода CUDA удается найти эффективный аналог, что может влиять на производительность в крупных дата-центрах.

Готовый инструментарий используется преимущественно внутри компании и дорабатывается совместно с AMD для дальнейшей оптимизации.
wccftech.com

✔️ xAI проведет 24-часовой хакатон.

xAI анонсировала хакатон, который пройдет 6-7 декабря в Сан-Франциско. Его участники займутся разработкой нового поколения ИИ-приложений, получив для этого приоритетный доступ к новой модели Grok и API платформы X.

Мероприятие пройдет в нон-стоп формате. Организаторы обещают предоставить все необходимое: от мониторов и спальных мешков до питания и энергетиков. Пять лучших проектов опубликуют на официальной странице xAI, а тройку лидеров ждут специальные награды. Подать заявку можно до 22 ноября 2025 года, они рассматриваются по мере поступления.
x.ai

✔️ Выбор новостных источников ChatGPT зависит от способа доступа.

Исследование Гамбургского университета показало, что новостные рекомендации ChatGPT сильно различаются в зависимости от того, используется ли веб-интерфейс или API. Анализ более 24 000 ответов на немецком языке выявил четкую закономерность.

Веб-версия активно ссылается на лицензионных партнеров OpenAI (около 13% всех ссылок), а ответы через API почти не содержат этих источников (всего 2%), отдавая предпочтение энциклопедическим сайтам вроде Wikipedia и малоизвестным локальным изданиям.

Интересно, что запрос на «разнообразие источников» не всегда улучшает качество. Хотя число уникальных сайтов растет, модель начинает чаще ссылаться на политически ангажированные ресурсы, пропаганду и даже несуществующие домены или сайты с сгенерированными «новостями». Исследователи предполагают, что для ChatGPT «разнообразие» может означать лишь лингвистические отличия, а не содержательную вариативность.
osf.io

✔️ Wikipedia хочет справедливого лицензирования своего контента.

Фонд Wikimedia опубликовал обращение к разработчикам ИИ, указав на их зависимость от человеческого труда. В фонде считают, что генеративные модели не способны самостоятельно исследовать и проверять факты, поэтому курируемый людьми контент остается ключевым источником знаний.

В связи с этим фонд призывает ИИ-компании корректно маркировать заимствованный контент и использовать его на справедливых лицензионных условиях. Без финансовой поддержки и должного признания, по мнению Wikimedia, вся концепция открытых знаний находится под угрозой.

Заявление последовало после запуска сервиса "Grokipedia", активно использующего данные энциклопедии. При этом Wikipedia уже отмечает снижение посещаемости, так как пользователи получают информацию из её статей напрямую в ответах чат-ботов.
wikimediafoundation.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
AI дает ответ, но не по теме?

LLM отвечают на любой вопрос — даже когда не знают ответ, часто галлюцинируют и опираются на недостоверные источники.


С сервисом Evolution Managed RAG от Cloud.ru вы можете легко и быстро создать AI-помощника для семантического поиска по документам, сайту или базе знаний.

С помощью такого помощника можно:
😶‍🌫️сократить время на поиск

😶‍🌫️автоматизировать рутину

😶‍🌫️повысить точность ответов модели


В Evolution Managed RAG от Cloud.ru все уже готово к использованию, без подбора векторных баз данных и сложной настройки. Просто загрузите ваши документы в хранилище — сервис автоматически обработает их, создав базу знаний для AI-помощника.

Попробуйте
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1
🚀 Мощный движок для мультимодальных моделей

LMMs-Engine — это легкий и гибкий фреймворк для обучения мультимодальных моделей. Он поддерживает множество архитектур и оптимизирован для работы на больших масштабах, обеспечивая высокую эффективность и простоту использования.

🚀 Основные моменты:
- Поддержка 19+ архитектур, включая модели для обработки текста, изображений и видео.
- Оптимизации для распределенного обучения и снижения потребления памяти.
- Удобные примеры запуска для различных моделей.

📌 GitHub: https://github.com/EvolvingLMMs-Lab/lmms-engine🚀 Мощный движок для многомодальных моделей
2
Какие планы на 19 ноября?

ML-инженеры, дата-аналитики и все, кто работает с машинным обучением, бронируйте вечерний слот в календарях, потому что команда Купер.тех зовет вас на митап в Москве и онлайн.

В программе:

🟢 Первый шаг к векторному поиску

Игорь Самарин, Machine Learning Engineer в Купер.тех

🟢 Применение LLM в поиске для разметок

Александр Баранов, Data Analyst в Купер.тех

🟢 Как картинки находят себе пары

Николай Чугунников, Senior Machine Learning Engineer в Купер.тех

🟢 От интуиции к алгоритмам: data-driven подход к массовому найму

Вадим Грошев, Machine Learning Engineer в Купер.тех

Регистрируйся, чтобы попасть в офлайн или не пропустить ссылку на трансляцию.

Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: 2W5zFGdhm9a
1🔥1
📝🚀 Kimi Writing Agent: Автономный писатель для создания книг и рассказов

Kimi Writer использует модель kimi-k2-thinking для самостоятельного написания произведений. Он поддерживает различные форматы, включая романы и сборники рассказов, и предлагает функции реального времени, управления контекстом и восстановления работы.

🚀Основные моменты:
- 🤖 Автономное написание с планированием задач
- 📚 Поддержка создания книг и рассказов
- Реальное время отображения процесса написания
- 💾 Умное управление контекстом и восстановление
- 📊 Мониторинг токенов в реальном времени

📌 GitHub: https://github.com/Doriandarko/kimi-writer

#python
4🔥1
Смотришь вакансии AI/LLM Engineer. Часто видишь:
Опыт с LangChain
RAG-системы и векторный поиск
Агенты и tool-calling
Промпт-инжиниринг и работа с LLM API

В резюме этого нет? Дальше не смотрят.

Курс «LangChain: с нуля до продакшн» покрывает эти навыки:
LangChain на практике (цепочки, агенты, инструменты)
RAG с метриками качества (precision/recall, faithfulness)
Tool-calling и агенты (веб-поиск, Pandas-аналитика)
Продакшн-контур: FastAPI, observability, PromptOps
Проект в GitHub + сертификат = можешь писать в резюме "опыт с LangChain, RAG, агентами".

Скидка 25% — 72 часа.

Начать со скидкой
2
🚀 **VibeThinker-1.5B** - модель, которая ломает миф «больше параметров = умнее».

Основное:
- всего 1.5B параметров
- обучена по новому принципу Spectrum-to-Signal (SSP)
- обходит модели в 400 раз больше (например, 671B DeepSeek-R1) на сложных математических тестах AIME24/25 и HMMT25
- сравнима с 456B MiniMax-M1 и держится на уровне Mistral Magistral-Medium на LiveCodeBench v6
- стоимость пост-обучения — менее $8K (против $290K+ у других)

💡 SSP сначала заставляет модель исследовать разные пути решения, а затем с помощью RL сужает их до оптимальных стратегий. Умная схема обучения вместо слепой гонки за размером.

🌍 Модель полностью открыта, чтобы дать исследователям и небольшим командам доступ к продвинутым возможностям без огромных бюджетов.

🔗 Попробовать:
ModelScope: https://modelscope.cn/models/WeiboAI/VibeThinker-1.5B
arXiv: https://modelscope.cn/papers/2511.06221
👍1
# ⚠️ Расследователи сомневается в AI-сделках Oracle на $300 млрд — и это тревожный сигнал

Сейчас мы видим, как крупнейшие IT-компании (гиперскейлеры) заключают многолетние контракты на искусственный интеллект на сотни миллиардов долларов.

Но никто ещё не проверял, насколько всё это реально окупается. Это - эксперимент на деньгах, технологиях и времени.

💸 Если хотя бы часть этих сделок не сработает, задержится или не принесёт ожидаемой прибыли, удар почувствует вся AI-индустрия - от чипов до облаков.

🧱 Да, AI-бум реален. Но его финансовый фундамент пока как мокрый цемент — выглядит крепко, но легко может просесть.

🎯 Если у Oracle получится - они войдут в список самых влиятельных компаний мира.
Если нет — вся отрасль поймёт, насколько эта гонка на самом деле рискованна и нестабильна.

> 📊 Пузыри не лопаются, когда в них перестают верить.
> Они лопаются, когда кто-то наконец проверяет цифры.
4🔥4
🧐🎁😌👹😋😡🙊😍🤷‍♂️👹

🔍 Хотите сделать шаг от экспериментальных AI-прототипов к полноценным продакшен-агентам?

Мы подготовили среду, инструменты и пригласили экспертов — ждём только вас. 20 ноября стартует Yandex AI Studio Series — серия вебинаров для тех, кто уже работает с AI и хочет развивать агентные решения.

🚀 Что вас ждёт:
- 4 онлайн-трансляции с сессией вопросов и ответов.
- Разбор сценариев с применением LLM, VLM, Realtime API, MCP, RAG, Workflows и других технологий.
- Предзаписанный воркшоп для самостоятельной практики.
- Квиз и приятные сюрпризы.
- Нетворкинг в продуктовом комьюнити.
- Офлайн-встреча в офисе Яндекса в Москве.

Все решения будем деплоить на базе Yandex AI Studio — платформы от Яндекса для разработки AI-агентов.

В программе:
- Разберём, что такое агенты и мультиагентные системы.
- Покажем, как собрать голосового и поискового агента, а также агента для обработки документов.
- Как применить знания на практике в собственных AI-проектах.

Если вы уже применяете AI и хотите вывести свои решения на новый уровень — присоединяйтесь.

📌 Регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31🤡1