Big Data AI
17.1K subscribers
938 photos
122 videos
19 files
944 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🌌 xAI готовит Grokipedia — открытую базу знаний, где миссия одна: правда.

📖 Что известно:
- Это будет полностью открытый репозиторий знаний без ограничений на использование.
- Основан только на проверенных фактах и правде.
- Задуман как источник, которому смогут доверять и люди, и ИИ.

Почему это важно
Grokipedia — часть миссии xAI: понять Вселенную и дать доступ к истине в её чистейшей форме.

🔮 Grokipedia уже близко...

#xAI #AI #knowledge #opensource
👍13🔥7😁3🤔3
🐦 X открыл исходники алгоритма "For You"

Как работает лента рекомендаций в 7 шагах:

1️⃣ Сырые данные (вход):
- соцграф (кто кого фолловит),
- вовлечённость (лайки, ретвиты, ответы, закладки),
- данные о пользователе (клики, профиль, поведение).

2️⃣ Feature Engineering:
- GraphJet — граф твитов в реальном времени
- SimClusters — объединение в коммьюнити ("AI Twitter", "NBA Twitter")
- TwHIN — карта связей пользовательтвит
- RealGraph — сила связей
- TweepCred — скоринг доверия
- Trust & Safety сигналы

3️⃣ Candidate Sourcing (Home Mixer):
Разные миксеры (CR Mixer, UTEG, FRS) вытягивают твиты из разных пулов → больше разнообразия.

4️⃣ Heavy Ranker (ML-модель):
Нейросеть предсказывает, что вам зайдёт: лайки, ретвиты, ответы, время чтения.

5️⃣ Фильтры и эвристики:
- социальное доказательство
- разнообразие авторов
- блок спама/NSFW/мутов
- баланс контента
- защита от «замыливания»

6️⃣ Микс:
Рекламные твиты + рекомендации «кого фолловить» → в ленту.

7️⃣ Что это значит для вас:
- выбери нишу
- пиши ценные посты
- отвечай по делу в своей теме
→ вырастишь аудиторию и найдёшь людей/идеи для бизнеса.


https://github.com/twitter/the-algorithm

#Twitter #ForYou #AI #RecommenderSystems
1🔥1
🤖 ByteDance Seed представил **AgentGym-RL** — новый единый фреймворк для обучения агентов с подкреплением.

🔹 Первый универсальный RL-фреймворк для обучения агентов в многошаговых задачах (без SFT).
🔹 Модульная и расширяемая архитектура: web, поиск, игры, embodied-среды и научные задачи.
🔹 Агенты достигают и даже превосходят коммерческие модели на 27 задачах.

proj: https://agentgym-rl.github.io
repo: https://github.com/woooodyy/AgentGym-RL

#RL #AI #ByteDance #AgentGym #ReinforcementLearning #Agents
2
Forwarded from Machinelearning
✔️ Ling-1T - новая модель от inclusionAI с 1 триллионом параметров

Модель на 1 трлн, из них ≈ 50 млрд активны на токен (MoE-архитектура).

Она обучена на 20 трлн+ токенов, специально отобранных для задач логического мышления и рассуждений. Контекст: 128 000 токенов.

Построена на базе Evo-CoT (Evolutionary Chain of Thought) и Linguistics-Unit RL - нового метода обучения для масштабируемых рассуждений. При помощи Evo-CoT модель постепенно улучшает баланс между точностью рассуждений и вычислительной эффективностью. То есть с каждым шагом она пытается делать рассуждения «глубже», но не слишком дорого по ресурсам.

Моделька демонстрирует сильные результаты в задачах кода, математики, логики и фронтенд-генерации.

В архитектуре задействованы Mixture-of-Experts (1/32 активация), MTP слои и маршрутизация экспертов.

Ling-1T показывает, что огромные модели можно сделать не только мощными, но и экономичными.

https://huggingface.co/inclusionAI/Ling-1T

@ai_machinelearning_big_data

#Ling1T #AI #ML #OpenSource #Reasoning #TrillionScale #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Китай выходит в лидеры мировой робототехники

Китай стремительно превращается в мирового лидера по производству и внедрению гуманоидных роботов. В стране формируется полный цикл - от датчиков и приводов до готовых автономных систем.

По данным издания, только за прошлый год на китайских заводах установлено около 300 тысяч промышленных роботов, что больше, чем во всём остальном мире вместе взятом. И почти все они - китайского производства.

Компания Unitree уже выпустила гуманоидного робота R1 стоимостью менее 6 000 долларов, что в несколько раз дешевле предыдущих моделей. Это стало возможным благодаря высокой локализации производства и быстрой обратной связи между разработчиками и фабриками.

Демографический кризис и старение населения подталкивают Китай к автоматизации. Правительство активно поддерживает отрасль - создаёт тестовые полигоны, субсидирует стартапы и внедряет роботов в промышленность и сервис.

Если США не активизируют собственные программы в области робототехники, Китай может занять доминирующее положение в одной из ключевых технологий XXI века.
washingtonpost

✔️ Microsoft и Georgia Tech научили ИИ думать “молча”

Исследователи создали систему SwiReasoning, которая позволяет языковым моделям решать, когда говорить, а когда просто думать. Вместо того чтобы постоянно проговаривать свои шаги, как в Chain-of-Thought, модель теперь может рассуждать скрыто - в латентном пространстве.

Когда уверенность низкая, она «думает молча», обрабатывая идеи внутри в виде непрерывных векторов. Когда уверенность возрастает - «высказывает» выводы словами. Такой гибкий режим делает рассуждения в среднем на 56–79% эффективнее, а в пике - до 6.78 раза быстрее, без потери точности.

Исследователи называют это началом новой эры latent reasoning - когда ИИ размышляет не словами, а понятиями.
Paper

✔️ xAI разрабатывает world models - продвинутые системы ИИ, способные понимать и моделировать физический мир.

Для этого проекта xAI привлекла бывших специалистов Nvidia, которые будут работать над созданием ИИ, умеющего формировать реалистичные трёхмерные среды и взаимодействовать с ними.

Первым направлением применения таких моделей станет индустрия игр - xAI планирует использовать world models для генерации интерактивных 3D-миров с динамическим поведением объектов и физикой.
В будущем эти технологии могут применяться в робототехнике и других областях физического ИИ.
Согласно планам компании, первая игра, полностью созданная искусственным интеллектом xAI, должна выйти к концу следующего года.
X

✔️ Учёные научили ИИ определять СДВГ по тому, как человек видит и обрабатывает мелькающие картинки.

Модель анализирует зрительные ритмы - микропаузы между кадрами, которые мозг воспринимает по-разному у людей с и без СДВГ. Точность диагностики - 91,8%, а различить, принимает ли человек стимуляторы, ИИ смог с точностью 91%.

Метод может стать новым способом диагностики без тестов и интервью - достаточно показать короткое видео и измерить, как мозг реагирует на световые ритмы.
psypost

✔️ Microsoft запускает инструмент, который покажет начальнику, насколько активно ты пользуешься ИИ

Microsoft внедряет в свою корпоративную платформу Viva Insights новую функцию под названием Benchmarks - систему, которая позволяет менеджерам отслеживать, насколько активно сотрудники используют искусственный интеллект в рабочих приложениях. Benchmarks станет частью Copilot Dashboard, панели аналитики, которая собирает данные о взаимодействии сотрудников с инструментами Microsoft 365 - от Teams и Outlook до Word, Excel и PowerPoint.

Руководители смогут видеть процент «активных пользователей Copilot» в разных отделах, сравнивать показатели внутри компании и даже сопоставлять их с усреднёнными данными по отрасли. По официальному определению Microsoft, «активный пользователь Copilot» - это тот, кто совершил «намеренное действие с ИИ» в одном из поддерживаемых приложений.

То есть если ты хотя бы раз за месяц использовал Copilot для генерации письма, отчёта или кода - ты попадёшь в статистику
winbuzzer

@ai_machinelearning_big_data


#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2
📢 Калифорния первой в США выпустила закон, обязывающий ИИ признавать, что они не люди

Штат принял закон SB 243 - первый в стране, регулирующий AI-чат-ботов-компаньонов.

Основные положения:

Если пользователь может подумать, что говорит с человеком, бот обязан показать уведомление, что он искусственный интеллект.

Компании должны иметь протокол предотвращения суицида: блокировать подобный контент и направлять пользователей на горячие линии помощи.

Этот протокол должен быть опубликован на сайте.

При общении с несовершеннолетними бот обязан напоминать каждые 3 часа, что это ИИ, и советовать сделать перерыв.

Запрещено выдавать себя за врача или иного специалиста в области здоровья.

Для подростков должен быть фильтр от сексуального контента.

С июля 2027 года операторы обязаны ежегодно отчитываться в Офисе по предотвращению самоубийств о своих действиях при выявлении риска.

Пользователи смогут подавать в суд на компании — минимум на $1 000 за каждое нарушение.

В тот же день подписаны сопутствующие меры:

Закон SB 53 (сентябрь 2025) — обязывает крупных разработчиков ИИ публиковать протоколы безопасности.

Новые правила о проверке возраста, предупреждениях на соцсетях и штрафах до $250 000 за дипфейк-порнографию.

Закон принят после громких случаев и исков, связанных с вредными взаимодействиями подростков с чат-ботами, включая CharacterAI и дело о гибели пользователя ChatGPT.

techcrunch

#ai #news
5👍3👀2🔥1🤡1
Forwarded from Machinelearning
🧠 Андрей Карпаты научил nanochat считать буквы - и объяснил, как расширять способности модели.

Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, чьи размеры он сравнил с «мозгом пчелы».

Он обучил модель считать, сколько раз буква r встречается в слове strawberry - и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.

Он использует задачу SpellingBee, которая генерирует диалоги вида:
> «Сколько букв r в слове strawberry?»
и правильные ответы.

После этого модель дообучается (**SFT**) или проходит обучение с подкреплением (RL), чтобы закрепить навык.

Далее модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.

Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.

Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче «понимает» задачу.

Nanochat решает задачу двумя способами:
логически, рассуждая пошагово,
— и через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.

🧩 Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.

📘 Полный разбор: github.com/karpathy/nanochat/discussions/164

@ai_machinelearning_big_data

#AI #Karpathy #Nanochat #LLM #SFT #RL #MachineLearning #OpenSource
🔥61
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ Omnilingual ASR: опенсорсная система распознавания речи для 1600 языков от FAIR.

Подразделение FAIR компании Марка Цукерберга выпустило Omnilingual ASR для 1600 языков, 500 из которых ранее не были ни в одной ИИ-системе. Фишка проекта - «Bring Your Own Language», которая использует контекстное обучение. Она позволяет добавлять поддержку новых языков на основе всего несколько пар аудиозаписей и текстовых примеров, без необходимости полного переобучения.

Размеры моделей семейства - от 300 млн. до 7 млрд. параметров. Для 78% поддерживаемых языков уровень ошибки по символам (CER) не превышает 10. Дополнительно опубликован датасет Omnilingual ASR Corpus с данными для 350 языков.
github.com

✔️ Microsoft создаёт инструмент для запуска CUDA-кода на видеокартах AMD.

Microsoft разрабатывает набор инструментов, позволяющий адаптировать модели NVIDIA CUDA для работы на платформе AMD ROCm. Цель — снизить затраты на оборудование для инференса, переведя часть нагрузок на более доступные графические процессоры AMD.

Решение представляет собой слой совместимости, который транслирует вызовы API из CUDA в ROCm в реальном времени, что избавляет от необходимости полностью переписывать исходный код. Работу сильно тормозит незрелость экосистемы ROCm: не для всего кода CUDA удается найти эффективный аналог, что может влиять на производительность в крупных дата-центрах.

Готовый инструментарий используется преимущественно внутри компании и дорабатывается совместно с AMD для дальнейшей оптимизации.
wccftech.com

✔️ xAI проведет 24-часовой хакатон.

xAI анонсировала хакатон, который пройдет 6-7 декабря в Сан-Франциско. Его участники займутся разработкой нового поколения ИИ-приложений, получив для этого приоритетный доступ к новой модели Grok и API платформы X.

Мероприятие пройдет в нон-стоп формате. Организаторы обещают предоставить все необходимое: от мониторов и спальных мешков до питания и энергетиков. Пять лучших проектов опубликуют на официальной странице xAI, а тройку лидеров ждут специальные награды. Подать заявку можно до 22 ноября 2025 года, они рассматриваются по мере поступления.
x.ai

✔️ Выбор новостных источников ChatGPT зависит от способа доступа.

Исследование Гамбургского университета показало, что новостные рекомендации ChatGPT сильно различаются в зависимости от того, используется ли веб-интерфейс или API. Анализ более 24 000 ответов на немецком языке выявил четкую закономерность.

Веб-версия активно ссылается на лицензионных партнеров OpenAI (около 13% всех ссылок), а ответы через API почти не содержат этих источников (всего 2%), отдавая предпочтение энциклопедическим сайтам вроде Wikipedia и малоизвестным локальным изданиям.

Интересно, что запрос на «разнообразие источников» не всегда улучшает качество. Хотя число уникальных сайтов растет, модель начинает чаще ссылаться на политически ангажированные ресурсы, пропаганду и даже несуществующие домены или сайты с сгенерированными «новостями». Исследователи предполагают, что для ChatGPT «разнообразие» может означать лишь лингвистические отличия, а не содержательную вариативность.
osf.io

✔️ Wikipedia хочет справедливого лицензирования своего контента.

Фонд Wikimedia опубликовал обращение к разработчикам ИИ, указав на их зависимость от человеческого труда. В фонде считают, что генеративные модели не способны самостоятельно исследовать и проверять факты, поэтому курируемый людьми контент остается ключевым источником знаний.

В связи с этим фонд призывает ИИ-компании корректно маркировать заимствованный контент и использовать его на справедливых лицензионных условиях. Без финансовой поддержки и должного признания, по мнению Wikimedia, вся концепция открытых знаний находится под угрозой.

Заявление последовало после запуска сервиса "Grokipedia", активно использующего данные энциклопедии. При этом Wikipedia уже отмечает снижение посещаемости, так как пользователи получают информацию из её статей напрямую в ответах чат-ботов.
wikimediafoundation.org

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32
Forwarded from Machinelearning
⚡️ В Ai Toolkit появилась поддержка обучения LoRA для Z-Image Turbo.

Ostris, разработчик популярного пакета для обучения диффузионных моделей добавил поддержку обучения для Z-Image Turbo с помощью De-Distill адаптера.

AI Toolkit — это универсальный набор инструментов для обучения диффузионных моделей на потребительском оборудовании. Он может запускаться как в GUI, так и в командной строке. Набор разработан так, чтобы быть простым в использовании, но при этом обладать всеми возможными функциями.


По первым тестам, обучение возможно на 12+ VRAM, а обучение персонажа на 17 изображениях длительностью 3000 шагов на RTX 5090 занимает примерно полтора часа.

Подробный гайд по процессу автор тулкита обещает выпустить в ближайшие дни.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Forwarded from Machinelearning
📌NVIDIA на NeurIPS 2025.

NVIDIA анонсировала, о чем расскажет на конференции NeurIPS, которая началась сегодня и пройдет до 7 декабря в Сан-Диего.

🟡Автономный транспорт.

NVIDIA DRIVE Alpamayo-R1, или сокращенно AR1.
Это первая в мире открытая ризонинг-VLA модель специально для исследований в области автопилотов. Модель построена на базе NVIDIA Cosmos Reason и отлично поддается дообучению с помощью RL.

Alpamayo-R1 будет доступна на GitHub и Hugging Face, а фреймворк AlpaSim для тестов уже опубликован.

🟡Инструменты для создания физических роботов и симуляций.

Cosmos Cookbook - руководство с рецептами для физического ИИ и генерации синтетических данных и оценки моделей.

LidarGen - "модель мира", которая генерирует данные лидаров для симуляций.

Omniverse NuRec Fixer - инструмент мгновенного исправления артефактов в нейронных реконструкциях а робототехнике и БПЛА.

ProtoMotions3 - открытый фреймворк на базе Isaac Lab, позволяющий тренировать цифровых людей с невероятно реалистичной физикой.

🟡Но не только железом и роботами живет NVIDIA.

MultiTalker Parakeet - модель для ASR нескольких спикеров даже в быстром темпе и с перекрытиями.

В паре с ней идет Sortformer - инструмент для диаризации, т. е. разделения спикеров в аудиопотоке в реальном времени.

Ну и, конечно, NeMo Gym - библиотека для создания сред обучения с RL в комплекте с NeMo Data Designer, комплексом для создания и проверки синтетических наборов данных.

🟡И, наконец, о чистой науке.

К конференции NVIDIA подготовила более 70 научных работ. Вот лишь несколько жемчужин из этого списка:

Audio Flamingo 3. Это большая аудио-языковая модель, которая может "понимать" и анализировать аудиозаписи длительностью до 10 минут.

Minitron-SSM. Техника прунинга, которая позволила уменьшить модель Nemotron-H 8B с 8 до 4 млрд. параметров, при этом удвоив скорость инференса.

ProRL, или Prolonged Reinforcement Learning. Концепция, которая доказала, что продление процесса RL выводит модели на совершенно новый уровень в ризонинге.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍1
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI придумала, как заставить модель сообщать о своих галлюцинациях.

OpenAI опубликовала исследование новой техники Confessions. Метод решает проблему, когда модели пытаются обмануть систему оценки^ используют reward hacking или выдают уверенные, но ложные факты ради получения высокого балла.

Суть - в генерации вторичного ответа. После выдачи результата модель формирует отдельный отчет, где анализирует свое поведение на предмет соответствия инструкциям и получает награду за точное описание своих ошибок, даже если в основном ответе она соврала или нарушила правила.

Тесты на GPT-5 Thinkin показали пригодность Confessions: вероятность того, что ИИ нарушит правила и скроет это, упала до 4,4%. Важно понимать, что метод не предотвращает галлюцинации, а служит диагностическим инструментом.
openai.com

✔️ Amazon представила семейство моделей Nova и инструменты для создания ИИ-агентов.

Amazon запустил новую линейку из 4 моделей Nova. В нее вошли версии Lite и Pro, ориентированные на ризонинг, речевая модель Sonic и мультимодальная Omni, работающая одновременно с текстом, изображениями и видео. Все новые сервисы интегрированы в инфраструктуру AWS. Также был представлен сервис Nova Forge, позволяющий компаниям создавать кастомные версии моделей на собственных данных.

Кроме того, анонсирован инструмент Nova Act для создания агентов, автоматизирующих действия в браузере. Nova Act поддерживает архитектуру Human-in-the-Loop для передачи сложных задач человеку, а также предоставляет возможности для отладки: полные логи и записи сессий можно сохранять напрямую в Amazon S3.
aboutamazon.com

✔️ Выходцы из Tesla, Google и Nvidia запустили стартап UMA.

Новая компания Universal Mechanical Assistant (UMA) официально объявила о выходе на рынок. Она будет делать роботов для выполнения реальной физической работы в промышленных масштабах .

В инженерный костяк вошли Реми Каден (разработчик Tesla Autopilot и фреймворка LeRobot), Пьер Сермане (ветеран исследований в DeepMind), а также Роберт Найт, создатель робота SO-100.

UMA уже разрабатывает 2 аппаратные платформы: мобильного промышленного робота с двумя манипуляторами для складов и компактного гуманоида для работы в больницах и жилых помещениях. Стартап заручился поддержкой Яна Лекуна и Томаса Вольфа.
businesswire.com

✔️ KlingAI обновила видеогенератор до версии 2.6.

Новая модель поддерживает режим audio-video co-generation. Она генерирует видеоряд одновременно со звуковым сопровождением в рамках единого процесса. Система умеет создавать диалоги между несколькими персонажами, музыкальные клипы и сложные звуковые сцены (ASMR или экшен) с высокой точностью липсинка.

Есть технические ограничения: генерация голоса поддерживается только на английском и китайском языках (запросы на других языках автоматически переводятся в английский). В режиме Image-to-Video качество финального ролика теперь еще сильнее зависит от разрешения исходного изображения.
klingai.com

✔️ Opera интегрировала Gemini в десктопные браузеры One и GX.

Поддержка Gemini тестировалась исключительно в экспериментальной ветке Opera Neon, а теперь стала доступной в Opera One и геймерском Opera GX. Интеграция реализована через боковую панель.

Ассистент получил доступ к контексту браузера: он может анализировать содержимое активных веб-страниц, групп вкладок и видео, выполняя по запросу саммари или сравнительный анализ контента. Заявлена полноценная мультимодальность: движок обрабатывает не только текст, но и голосовые команды, изображения и загруженные файлы.

Техническая часть тоже изменилась. Разработчики перенесли в основные браузеры новую архитектуру с агентным подходом, изначально обкатанную в Neon. Это позволило увеличить скорость генерации ответов на 20%.
prnewswire.com


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM