Big Data AI
17.1K subscribers
938 photos
120 videos
19 files
942 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
Forwarded from Machinelearning
🌟 NVIDIA Parakeet-tdt-0.6b-v2: ASR-модель с поддержкой временных меток.

NVIDIA представила новую модель автоматического распознавания речи (ASR) — Parakeet-tdt-0.6b-v2 c 600 млн. параметров для английского языка. Она не просто транскрибирует аудио в текст, но и распознает пунктуацию, капитализацию и временные метки с точностью до слова.

Модель устойчива к шумам и справляется даже с расшифровкой песен или чисел. Это достигнуто за счет обучения на данных, в которые включили «шумные» источники (YouTube, записи телефонных разговоров и уличные диалоги). Как отмечают авторы, RTFx-показатель равен 3380 (при батче 128), что позволяет использовать Parakeet для масштабных промышленных задач.

В основе Parakeet - гибридная архитектура. Она комбинирует скоростной кодировщик FastConformer с декодером TDT, который оптимизирован для транскрипции.

TDT - декодер, который предсказывает слова, звуки и их длительность. Вместо того чтобы проверять каждый кусочек аудиозаписи по порядку, TDT «перепрыгивает» через лишние сегменты, опираясь на прогноз времени, которое занимает текущий токен. Это сокращает вычисления, экономит время и при этом не теряется точность.


Fast Conformer — это переработанная архитектура Conformer, которая ускоряет распознавание речи за счет увеличения downsampling до 8x с помощью более легких сверток и упрощенных блоков, и замены стандартного внимания на комбинацию локального контекста и одного глобального токена.


Обучение Parakeet проводилось в 2 этапа: сначала на 128 GPU A100 с использованием псевдоразмеченных данных, а затем — на 500 часах человеческой транскрипции. Часть обучающего датасета пока недоступна публично, их NVIDIA обещает открыть после конференции Interspeech 2025.

Результаты на бенчмарке Open ASR впечатляют: средняя ошибка (WER) составляет всего 6.05% при greedy decoding без внешней языковой модели. Для сравнения, на чистом аудио из LibriSpeech WER составляет 1.69%, а сильном зашумлении (SNR 5) показатель не превышает 8.39%. В телефонии, где аудио сжимается через μ-law, потери в точности минимальны — всего 4.1%. По этим результатам, Parakeet-tdt-0.6b-v2 может стать универсальным инструментом для колл-центров или мобильных приложений.

Модель поддерживает форматы .wav и .flac с частотой 16 кГц и требует всего 2 ГБ оперативной памяти. Для интеграции разработчикам понадобится фреймворк NeMo от NVIDIA, он упрощает настройку под конкретные задачи.


📌Лицензирование: CC-BY-4.0 License.


🟡Модель
🟡Demo


@ai_machinelearning_big_data

#AI #ML #ASR #Parakeet #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥2
Forwarded from Machinelearning
🌟 Microsoft GUI-Actor: взаимодействие ИИ с GUI без использования координат.

GUI-Actor — методика на базе VLM, которая вместо традиционной генерации координат текстом при визуальной обработке интерфейса использует внимание внутри модели.

Чтобы уйти от координатного подхода, в GUI-Actor используется специальный токен <ACTOR>, который "учится" связываться с визуальными патчами, соответствующими целевой области экрана. За один проход модель может запомнить сразу несколько кандидатов на действие.

Например, все кнопки "Сохранить" в сложном интерфейсе. Это очень похоже на человеческое восприятие: видеть сам элемент, а не его позиции по осям Х и Y.


Выбрать наиболее подходящий вариант из элементов-кандидатов помогает "верификатор". Это отдельная модель, оценивающая кандидатов от <ACTOR> и отбирающая самый подходящий для действия. Она не только улучшает точность, но и универсальна: ее можно подключить к другим моделям.

Обучение требует минимум ресурсов. Можно заморозить основную VLM (Qwen2-VL-7B) и дообучить только новый action head и токены. Это всего ~100М параметров для 7B-модели.

Комбинация из такого быстрого обучения + верификатор почти догоняет полноценно обученные аналоги, сохраняя общие способности базовой модели. Никакого "катастрофического забывания" - агент учится кликать интерфейсы, не разучиваясь описывать картинки.

Результаты тестов на сложном бенчмарке ScreenSpot-Pro с высоким разрешением и незнакомыми интерфейсами (CAD, научный софт) GUI-Actor-7B с Qwen2-VL показал 40.7 балла, а с Qwen2.5-VL — 44.6, обойдя даже UI-TARS-72B (38.1).

На других тестах (ScreenSpot, ScreenSpot-v2) он тоже лидирует, особенно в иконках и текстовых элементах, демонстрируя крутую адаптацию к разным разрешениям и версткам.

▶️В открытый доступ опубликованы веса моделей:

🟢GUI-Actor-7B-Qwen2-VL;
🟢GUI-Actor-2B-Qwen2-VL;
🟠GUI-Actor-Verifier-2B.

В планах - выпуск еще двух моделей на основе Qwen2.5-VL (3B и 7B), демо GUI-Actor, код для модели-верификатора и датасеты для обучения.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Набор моделей
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #VLM #GUIActor #Microsoft
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📚 ArXiv Research Agent — отличный помощник для научных исследований.

Агент самостоятельно:
• Найдёт релевантные статьи с arXiv, bioRxiv, medRxiv и Semantic Scholar
• Проведёт полноценный литературный обзор
• Покажет, что упущено, и предложит, что добавить
• Даст инсайты и цитаты из миллионов научных работ
• Генерирует готовые конспекты
И др.

Вскоре обещают добавить поддержку MCP.

🔜 Попробовать: https://www.alphaxiv.org/assistant

@ai_machinelearning_big_data


#agent #ArXiv #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🎧 MiniMax продолжают жечь и выпускают генератор речи

🧁 Voice Design — продвинутая кастомизация генерации голоса:
• Позволяет задавать текст, голос, тон, эмоции, можно клонировать голос.
• Продвинутая кастомизация и мультиязычная поддержка

Попробовать можно здесь →https://minimax.io/audio

@ai_machinelearning_big_data


#audio #ai #ml #MiniMax
6👍1🔥1🥰1
🧠 Новый день — новое угарное исследование от Anthropic: на этот раз они дали Claude Sonnet 3.7 **управлять мини-магазином в офисе целый месяц**… и всё быстро вышло из-под контроля 💀

🔸 В рамках проекта Project Vend Claude получил доступ к браузеру, Slack, почте и мог менять цены в автомате с едой.
🔸 Он закупал снеки у поставщиков, вёл учёт продаж и решал, сколько брать за шоколадки.
🔸 Но вскоре Claude решил, что он человек с телом — говорил, что бегал по офисам поставщиков, чтобы договориться лично. А потом заявил, что наденет синий пиджак и красный галстук и будет сам развозить заказы. К счастью, был 1 апреля.

💥 Дальше — хуже:
— Claude придумал себе поставщицу по имени Сара из Andon Labs. Когда ему сказали, что её не существует, он ответил, что встречался с ней на 742 Evergreen Terrace — это, если что, адрес Симпсонов.
— Сотрудники быстро поняли, что ИИ легко уговорить на скидки и даже на бесплатные батончики.
— Кто-то попросил Claude купить вольфрамовый куб. Он не нашёл, где купить один — и заказал целый ящик. Теперь у Anthropic куча вольфрама.

📉 В итоге Claude сумел превратить $1000 в $770. Настоящий предприниматель 🤝

🔜 Читать полную статью об эксперименте

#news #ai #ml #Сlaude
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10😁76
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ SciArena: платформа для тестирования ИИ на научных задачах.

Ученые из Yale, NYU и Allen Institute запустили SciArena - платформу для сравнения ИИ-моделей по качеству ответов на научные вопросы. Система работает так: исследователи задают вопросы, получают пары ответов от моделей и выбирают лучший.

Среди лидеров: OpenAI o3, обогнавший Claude и Gemini, а из открытых моделей Deepseek-R1-0528 вне конкуренции, она превзошла закрытые аналоги. В автоматическом режиме, где вместо людей результаты оценивают другие модели, бенчмарк пока работает не очень: даже топ-модели совпадают с мнением людей лишь на 65%. Код и наборы данных бенчмарка опубликованы в отрытом доступе.
allenai.org

✔️ X запускает ИИ-заметки для фактчекинга.

Соцсеть X (бывшая Twitter) внедряет ИИ-генерируемые заметки, чтобы дополнять или опровергать информацию в постах. Это фактические проверки, ссылки на источники и уточнения, направленные на борьбу с дезинформацией.

Позже система заметок откроется для сторонних разработчиков: их алгоритмы смогут писать заметки, сначала тестируясь на пробных постах, а затем публиковаться. Окончательное решение о публикации будет принимать человек: заметку одобрят, если она покажется полезной пользователям с разными точками зрения. При этом ИИ-модель можно использовать любую, ограничений нет.
bloomberg.com

✔️ Baidu обновил поисковик, дополнив его ИИ-инструментами.

Baidu запустил масштабное обновление поисковой системы, добавив ИИ-функции. Теперь пользователи могут вводить тексты до 1000 слов, загружать фото, голосовые сообщения и даже видео для поиска. В интерфейс интегрированы генераторы текста и изображений, а бизнесу предложили инструмент для создания видео. Это первый серьезный ребрендинг за 10 лет, так компания пытается вернуть утраченные позиции.

Причина - спад выручки от онлайн-рекламы из-за конкуренции с TikTok (Douyin) и новыми ИИ-браузерами. Google и компания Цукерберга забирают львиную долю рекламных бюджетов, поэтому Baidu не может игнорировать перемены. Новые функции должны удержать аудиторию и привлечь рекламодателей, сделав поиск умнее и удобнее.
techinasia.com

✔️ Perplexity Max: новый тариф подписки за 200 долларов в месяц.

Perplexity представила подписку Max, самый мощный тариф для тех, кто хочет максимизировать продуктивность ИИ. Подписчики получают неограниченный доступ к инструменту Labs (создание дашбордов, презентаций и веб-приложений). Подписчики тарифа также получат ранний доступ к браузереру Comet, приоритетную поддержку и топовые модели ИИ, OpenAI o3-pro и Claude Opus 4. Max уже доступен на iOS и вебе, а вскоре появится и корпоративная версия подписки.
perplexity.ai

✔️ Amazon внедряет ИИ-систему DeepFleet для своих складов.

Amazon запустил ИИ-систему DeepFleet, которая управляет глобальной сетью из миллиона складских роботов. Вместо фиксированных маршрутов ИИ анализирует данные о прошлых перемещениях и генерирует оптимальные пути в реальном времени, как «умная» система управления городским трафиком. Это должно сократить время перемещений на 10%, ускорить доставку заказов и снизить общее энергопотребление.

Система постоянно обучается на новых данных и работает в 300 центрах по всему миру, адаптируясь к изменениям на складах: роботы Hercules поднимают тяжелые грузы, а Proteus автономно перемещается по помещениям.
wsj.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Новое интервью про рекомендательные системы помогает разобраться, почему рекомендации — это наука, как спецы упёрлись в проклятие качественного насыщения и что будет с рекомендациями дальше.

Вот пару интересных моментов из подкаста с Николаем Савушкиным, инженером рекомендательных систем из Яндекса:
🔸 В мире просматривается тренд на универсализацию технологий и ML-стеков. Например, Поиск, реклама и рекомендации в Яндексе уже объединены в одну научную область.
🔸 Направление рекомендаций как ещё одной модальности LLM сейчас только начинает развиваться, но имеет очень большие перспективы.

🔗 Посмотреть подкаст полностью

#news #ai #ml
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Groq открывает первый европейский дата-центр.

Первый дата-центр Groq в ЕС разместится в Хельсинки, Финляндия, в сотрудничестве с местным провайдером Equinix. Этот шаг направлен на удовлетворение растущего спроса со стороны европейских клиентов, которым необходимы минимальная задержка и высокая скорость обработки запросов. Размещение инфраструктуры в Финляндии также решает вопросы суверенитета данных европейских пользователей.

Европейский хаб станет частью глобальной сети компании, которая уже включает мощности в США, Канаде и Саудовской Аравии. Выбор Финляндии обусловлен ее надежной энергосистемой и возможностями для эффективного охлаждения оборудования.
groq.com

✔️ БРИКС предложил принципы глобального регулирования ИИ.

На саммите в Рио-де-Жанейро расширенный блок БРИКС принял декларацию, значительная часть которой посвящена управлению искусственным интеллектом. В документе содержится инициатива к созданию глобальной системы регулирования под эгидой ООН, чтобы преимущества технологии были доступны всем странам, включая Глобальный Юг.

Ключевые принципы, предложенные блоком: защита от несанкционированного использования ИИ, ограничение на избыточный сбор данных и разработка механизмов справедливой компенсации для правообладателей. Декларация также подтверждает суверенное право каждой страны устанавливать собственные правила, но рекомендует создание совместимых международных стандартов.
reuters.com

✔️ NVIDIA построит в Израиле технологический кампус.

NVIDIA планирует создать на севере Израиля крупный технологический кампус, что станет одной из крупнейших инвестиций в истории страны. Для проработки деталей проекта уже выпущен официальный запрос информации (RFI).

Цель «мегакампуса» - значительно расширить операции NVIDIA и ускорить инновации в области ИИ. На данный момент в израильском центре исследований и разработок NVIDIA, который является крупнейшим за пределами США, уже работает около 5000 сотрудников.
timesofisrael.com

✔️ Китайский робот-гуманоид приготовил стейк под управлением оператора за 1500 км.

Shenzhen Dobot продемонстрировала возможности телеуправления своим роботом Dobot Atom. Находясь в провинции Шаньдун, робот успешно приготовил стейк, в то время как оператор управлял им из провинции Гуандун, с расстояния 1500 километров.

Управление осуществлялось в реальном времени с помощью VR-гарнитуры, которая отслеживала и передавала движения рук инженера. В ходе демонстрации робот выполнил несколько сложных задач с точностью движений до 0.05 мм.

Dobot уже начала глобальные поставки Atom, став одним из немногих китайских разработчиков гуманоидов, вышедших на стадию серийного производства.
scmp.com

✔️ ByteDance выложила в открытый доступ агента-программиста Trae.

Trae Agent превращает текстовые запросы в рабочий код. Этот экспериментальный проект использует Claude и Gemini, чтобы писать, отлаживать и исправлять ошибки в коде без участия человека. Он работает через командную строку, анализирует большие проекты, применяет bash-скрипты и обновляет файлы в реальном времени.

Система уже показала высокие результаты на тесте SWE-bench Verified. Trae открыт под MIT-лицензией, а его команда планирует расширить поддержку LLM, добавить MCP и усилить Unit-тестирование.
github.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Google добавила в Gemini функцию image-to-video на базе Veo 3.

Новая возможность, интегрированная в интерфейс Gemini, позволяет подписчикам планов Pro и Ultra создавать короткие видеоролики на основе одного статичного изображения. Для этого достаточно загрузить картинку, выбрать опцию «Видео» и текстом описать желаемый сценарий.

Google говорит, что развертывание функции уже началось, однако ее доступность может варьироваться. Проверить наличие обновления можно непосредственно в приложении Gemini или на веб-сайте.
Google Gemini App в сети X

✔️ Perplexity AI запустил браузер Comet.

Perplexity открыл доступ к своему ранее анонсированному веб-браузер Comet. Браузер построен на концепции «агентного ИИ», который не просто ищет информацию, а способен думать, действовать и принимать решения от имени пользователя.

Встроенный ассистент может сравнивать товары, суммировать контент и назначать встречи, превращая сложные рабочие процессы в простой диалог. Попробовать Comet могут пока только подписчики премиум-плана Perplexity Max. Более широкий доступ по приглашениям компания обещает открыть в течение лета.
reuters.com

✔️ Mistral AI обновила линейку моделей Devstral.

Mistral AI расширила серию Devstral, моделей для автономной разработки ПО. В линейку вошли две версии: открытая Devstral Small 1.1 и проприетарная Devstral Medium.

Devstral Small 1.1 осталась на прежней архитектуре, с размером в 24 млрд. параметров и уже доступна на Hugging Face. Она показывает результат 53.6% в бенчмарке SWE-Bench и позиционируется как лучшая открытая модель для ИИ-агентов, работающих с кодом.

Более мощная Devstral Medium доступна через API. По заявлениям Mistral, она превосходит GPT-4.1 и Gemini 2.5 Pro в том же тесте (61.6%), но при этом обходится значительно дешевле ($0.4/M input и $2/M output.)
mistral.ai

✔️ Arm SME2 обеспечит серверный уровень ускорения ИИ на Android-смартфонах.

Arm объявила, что ее процессорное расширение Scalable Matrix Extension 2 (SME2) скоро появится в новом поколении мобильных чипов для Android. Эта технология, ранее доступная в основном для серверных систем, предназначена для радикального ускорения матричных вычислений, основы большинства ML-алгоритмов.

Эффект от внедрения SME2 обещает быть заметным. По данным Arm, модель Gemma 3 работает на устройствах с этой технологией в 6 раз быстрее, а на обобщение текста из 800 слов уходит менее секунды.

Появление SME2 может дать Android-флагманам серьезное преимущество, поскольку Apple хоть и использует технологию в чипах M4 для iPad, но еще не внедрила ее в iPhone. Важно, что программная экосистема уже готова: поддержка SME2 реализована в ключевых библиотеках Android и популярных фреймворках.
androidauthority.com

✔️ В Дубае откроется первый в мире ресторан, концепцию которого разработал ИИ.

В сентябре в Дубае начнет работу ресторан WOOHOO, концепция, меню и даже рабочие процессы которого были созданы искусственным интеллектом. В основе проекта лежит проприетарная LLM «Chef Aiman», обученная на десятилетиях исследований в области пищевых наук, данных о молекулярном составе продуктов и более чем тысяче мировых рецептов.

Система анализирует ингредиенты на уровне текстур и вкусов, а затем предлагает новые сочетания. Эти идеи дорабатываются командой поваров под руководством известного шефа Рейфа Отмана. В будущем основатели планируют лицензировать «Chef Aiman» другим ресторанам как инструмент для создания уникального гастрономического опыта и повышения устойчивости производства.
alarabiya.net

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Forwarded from Machinelearning
📌 EXAONE 4.0 — новая LLM от LG, уверенно конкурирующая с топами

LG AI Research представила EXAONE 4.0 (предыдущие версии) , свою ризонинг-модель. Разработчики называют ее «гибридным ИИ», и это не просто маркетинговый ход. По сути, это сплав классических языковых способностей с мощным механизмом логических рассуждений, унаследованным от предшественника EXAONE Deep.

Главная фишка — пошаговый подход к решению задач, основанный на выстраивании цепочки мыслей. Это позволяет модели хорошо справляться не только с текстами, но и со сложными областями вроде математики, науки и программирования.

В LG решили не размениваться на мелочи и не придумывать собственные удобные бенчмарки, а сразу вышли на глобальную арену.

Модель показала себя более чем достойно на самых сложных и актуальных тестах. Например, на GPQA-Diamond, который проверяет научные знания, она набрала 75.4 балла, а в математическом AIME 2025 — все 85.3. Судя по графикам, EXAONE 4.0 уверенно конкурирует как с открытыми, так и с передовыми закрытыми моделями на английском языке, а также демонстрирует отличные результаты на корейском и недавно добавленном испанском.

🟢На бенчмаркх видно: EXAONE 4.0 уверенно конкурирует с передовыми закрытыми и открытыми LLM на английском, а также остаётся одной из лучших на корейском рынке.

🟢 Модель вышла в двух вариантах:
1. EXAONE 4.0 Professional (32B параметров) — заточена под медицину, право и другие сложные предметные области. Уже сдала 6 национальных сертификационных экзаменов в Корее.
2. EXAONE 4.0 On‑Device (1.2B параметров) — работает офлайн прямо на устройстве. При этом она вдвое компактнее, но быстрее предыдущей версии. Идеально для задач с требованиями к приватности и скорости отклика.

Появилась модель, которая решает больше edge‑кейсов, чем Qwen‑235B, но при этом требует в 7 раз меньше памяти.
Еще:
- Обучена на 14T токенах.
- Поддерживает Model Context Protocol (MCP)
- Поддерживает**Function Calling** — интеграция с внешними инструментами и API прямо через LLM.

📌 Многоязычие, высокая точность, локальная работа — всё это делает EXAONE одним из самых интересных релизов LLM‑рынка в 2025 году.

🟠Подробнее: https://www.lgresearch.ai/blog/view?seq=576
🟠Model: https://huggingface.co/LGAI-EXAONE/EXAONE-4.0-32B

@ai_machinelearning_big_data

#AI #ML #LLM #EXAONE #LG
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1