Квест Теория Каст и Ролей
19.9K subscribers
1.22K photos
396 videos
44 files
3.55K links
Канал Алексея Крола, автора Теории Каст и Ролей.
Download Telegram
Forwarded from Трендоскоп
Революция Text-to-Image

#ML

Технология генерации изображений из текста развивается стремительно. Мы уже писали про DALL-E и GLIDE от OpenAI, но за последние месяцы появилось много других впечатляющих моделей: Google выпустили Imagen, Meta — Make-A-Scene, Microsoft — NUWA.

Повестку задают не только крупные ИИ-лаборатории корпораций. Стартапы тоже активно заходят в text-to-image и зачастую бьют больших игроков по качеству и скорости генерации. Можно отметить 2 свежих проекта:

- Stable Diffusion на днях открыли бету для всех желающих. В отличие от OpenAI (который далеко не Open), Stable Diffusion заточен на создание своих сервисов — код открыт, веса обещают выложить уже на этой неделе. При этом качество генерации сопоставимо с DALL-E 2. Скоро обещают сделать удобный Inpainting — можно будет брать любые изображения и изменять, соединять, расширять их. В будущем планируют раскатить функционал и на видео.

- MidJourney также недавно стал доступен всем желающим. Генерация происходит через сервер в Дискорде, который набрал уже почти миллион участников. Можно подключить их бота и на своём сервере.

Генерация изображений — это только первый этап. Далее наступит эра синтеза 3D-моделей. Snap на днях представили технологию NeROIC — это новый способ создания трёхмерных моделей для AR из общедоступных фотографий и видео. Нейронка сама додумывает недостающие виды изображения и синтезирует 3D-модель.

А в будущем придёт и генерация видео. Тут релизом отличились Apple: они представили нейронку для создания 3D-сцен по текстовому описанию GAUDI. Качество пока довольно низкое и много артефактов, но фундамент для генерации виртуальных миров заложен.

Комментарии под этим постом предлагаем использовать для поиска соратников. Если у вас есть идея продукта/сервиса/фичи на базе text2image-технологии, опубликуйте тизер в комментах. Трендоскоп читают сотни ML-разработчиков — вполне вероятно, что кого-то из них вы вдохновите написать вам с предложением о коллаборации :)
👍25
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Калифорнийский стартап объявляет о прорыве в области робототехники для повседневных задач с помощью ИИ π0.5 — модели «зрение-язык-действие».

Все, что видит робот, он видит впервые.

🧪 В экспериментах Робот успешно справился с уборкой посуды, застиланием постели и мытьем пола в незнакомых домах, демонстрируя полное понимание задачи, её разбиение на шаги и адаптацию к новым условиям.

➡️ Робот воспринимает команды от абстрактных ("убери посуду") до пошаговых ("подними кружку", "поставь в раковину"), демонстрируя потенциал обобщения для сложных роботизированных навыков.

Модель анализирует семантику задачи, разбивает её на шаги и генерирует команды для моторных систем. π0.5 умеет реагировать и на голосовые команды разной детализации — от «убери посуду» до точечных указаний

✔️ Подробнее про π0.5 мы писали в новостном дайджесте

@ai_machinelearning_big_data

#robots #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
135
Forwarded from Machinelearning
🌟 Matrix-Game: модель для создания интерактивных игровых миров.

Skywork AI опубликовала Matrix-Game - модель с 17 млрд. параметров для генерации интерактивных игровых миров, способная создавать динамические сцены в Minecraft по заданным изображениям и пользовательским действиям.

Проект сочетает предобучение на неразмеченных данных с финальным этапом, где модель учится реагировать на клавиатурные команды и движения мыши. В основе паплайна - диффузионный метод, позволяющий контролировать движения персонажа, повороты камеры и физику объектов с высокой точностью.

На этапе предобучения использовался уникальный датасет Matrix-Game-MC, собранный из 2700 часов игровых видео без разметки и 1000 часов с детальными аннотациями действий, почищенный от нерелевантного контента, в него вошли только качественные сцены с четким освещением, стабильной камерой и активными действиями.

На втором этапе модель обучалась на записях движений в Unreal Engine и симуляциями в Minecraft через агентов VPT.

Под капотом Matrix-Game - 3D-VAE для кодирования видео и DiT для генерации. При автозавершении длинных видео (до 65 кадров) применяется архитектура с обратной связью: последние кадры служат контекстом для следующих сегментов.

Чтобы оценить возможности модели в генерации игровых миров, Skywork AI создали собственный комплексный бенчмарк GameWorld Score. Он учитывает визуальное качество, плавность переходов, управляемость и понимание физических законов.

Matrix-Game показала 95% точности в распознавании клавиатурных команд и 98% для движений мышью, превзойдя аналогичные модели Oasis и MineWorld. По другим критериям бенчмарка Matrix-Game корректно обрабатывает повороты камеры на 8 направлений и сохраняет 3D-консистентность объектов, избегая артефактов вроде «летающих» блоков.

Несмотря на высокие показатели в тестах, есть слабые места. В редких биомах (например, грибных ландшафтах) модель иногда теряет точность из-за недостатка данных. Также требует улучшений имитация физических взаимодействий.

В планах у разработчиков расширить датасеты обучения, внедрить долгосрочную память для последовательностей и адаптировать методику под другие игры: Black Myth: Wukong и CS:GO.


📌Лицензирование: MIT License.


🟡Страница проекта
🟡Бенчмарк
🟡Техотчет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #GameAI #MatrixGame #SkyworkAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
15
Forwarded from Machinelearning
⚡️ Отчет OpenAI по пресечению вредоносного использования ИИ

В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.

Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.

Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.

▶️Всего в отчете приведено 10 случаев обнаружения:

Deceptive Employment Scheme: IT Workers.

🟠Угроза использования ИИ для создания поддельных резюме и получения удалённых IT-вакансий, связанная с подозрением на участников из КНДР.
🟢Были заблокированы аккаунты ChatGPT, использовавшие модели для автоматической генерации документов, а также установлены связи с операторами в Африке и Северной Америке.

Covert IO: Operation “Sneer Review”

🟠Координированная генерация комментариев в соцсетях для продвижения китайских интересов, включая критику Тайваня и Пакистана.
🟢Обнаружены и заблокированы аккаунты, создававшие иллюзию органической активности через множественные языки и платформы.

Covert IO: Operation “High Five”

🟠Массовые комментарии в соцсетях на политические темы в Филиппинах, связанные с маркетинговой компанией Comm&Sense Inc.
🟢Были заблокированы аккаунты, создававшие фейковые TikTok-каналы для популяризации президента Маркоса, и выявлена схема с использованием подставных профилей.

Social engineering meets IO: Operation “VAGue Focus”

🟠Социальная инженерия через поддельные СМИ (Focus Lens News, VAG Group) для сбора информации о политике США и Европы.
🟢Заблокированы аккаунты, использовавшие ИИ для перевода и создания фейковых материалов, а также выявлены признаки связи с китайскими структурами.

Covert IO: Operation “Helgoland Bite”

🟠Пропаганда партии AfD в Германии через поддельные Telegram-каналы и сайт Pravda DE.
🟢Обнаружены и заблокированы аккаунты, распространявшие контент, а также установлены связи с сетью Portal Kombat, известной по предыдущим расследованиям.

Cyber Operation: “ScopeCreep”

🟠Вредоносное ПО, распространяемое через поддельный игровой инструмент Crosshair-X, с функциями шпионажа и обхода антивирусов.
🟢Были заблокированы аккаунты, использовавшие ИИ для отладки кода, а также удалены вредоносные репозитории и установлены методы обнаружения.

Cyber Operations: Vixen and Keyhole Panda

🟠Кибератаки и сбор информации о технологиях США через ИИ, связанные с группами APT5 и APT15.
🟢Заблокированы аккаунты, использовавшие модели для создания скриптов и анализа инфраструктуры, а также переданы индикаторы партнерам для усиления защиты.

Covert IO: Operation “Uncle Spam”

🟠Поляризующий контент в США через фейковые профили с ИИ-генерируемыми изображениями и анализом данных.
🟢Заблокированы аккаунты, использовавшие ИИ для создания логотипов и сбора информации из соцсетей, также проведена оцененка степени влияния.

Recidivist Influence Activity: STORM-2035

🟠Пропаганда в поддержку Ирана и других стран через фейковые аккаунты в X, касающаяся миграции и независимости регионов.
🟢Были заблокированы аккаунты, распространявшие контент на испанском и английском, а также отмечены повторные попытки операторов вернуться к активности.

Scam: Operation “Wrong Number”

🟠Мошенничество с предложениями высокой зарплаты за лайки и инвестиции, связанное с Камбоджей.
🟢Заблокированы аккаунты, использовавшие ИИ для перевода сообщений, а также выявлена схема с этапами «The ping», «The zing» и «The sting» для обмана жертв.


🔜 Почитать полный отчет можно на сейте OpenAI

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
24
Forwarded from Machinelearning
📌 State of Foundation Models 2025 — краткое изложение отчёта Innovation Endeavors

Венчурный фонд Innovation Endeavors, основанный бывшим CEO Google Эриком Шмидтом, выпустил 126-страничный обзор о состоянии и тенденциях фундаментальных ИИ-моделей в 2025 году.

🟢 2025 — год, когда генеративный ИИ стал по-настоящему массовым.

Каждый восьмой работник на планете использует ИИ-инструменты хотя бы раз в месяц, а 90 % прироста аудитории произошло за последние полгода. Многие «ИИ-приложения» уже приносят индустрии миллиарды долларов в год, охватывая инженерию, дизайн, бухгалтерию, юриспруденцию и другие сферы.

🟠LLM уже обходят людей на сложных тестах.

Современные языковые модели превосходят врачей по целому ряду диагностических задач и решают олимпиадную геометрию лучше, чем 99 % людей.

Самое неожиданное: если дать небольшой модели время подумать, то она может обойти гораздо более крупную – эксперименты показали, что 3B-модель с reasoning-механизмом обойдет 70B-модель.


🟠По всем техническим метрикам масштаб моделей растет экспоненциально.

Производительность, интеллект и окна контекста увеличиваются более чем в 10× каждый год. Например, окна контекста выросли примерно с 8 тысяч до миллиона токенов, а стоимость генерации одного токена на крупных моделях упала почти в 1000 раз за пару лет. Средняя «длительность» задачи, которую модель может завершить сама, удваивается примерно каждые 7 месяцев.

🟠 Эксперты резюмируют: «умные модели сначала думают, потом говорят».

Модели рассуждения, обученные через CoT, дают новый путь к масштабированию и требуют активного посттренинга (RL с reward-моделями). Возможно, скоро именно дообучение станет важнее предобучения.

🟠 Экономика фундаментальных моделей запутана.

Крупнейшие игроки генерируют сотни миллионов выручки, но обучение топ-моделей дороже: LLaMA 4 ≳ $300 млн, GPT-4 ≈ $100 млн, а совокупные расходы OpenAI на обучение и данные достигают ~$3 млрд в год. Новая модель устаревает за три недели — конкуренция так высока, что open-source почти сравнялся с закрытыми платформами.

🟠Структура команд меняется под давлением ИИ.

Выяснилось, что функции «узких» специалистов часто уходят к универсалам с ИИ-ассистентам, а профессии уровня "middle management" вымирают.

🟠 MCP становится стандартом интеграции.

Model Context Protocol соединяет модели с почтой, дизайном, чатами и другими сервисами, а «клиентом» всё чаще выступает другой ИИ: крупные CRM и базы данных само-настраиваются через агентов.

🟠 Железо не отстаёт.

В ИИ-облаках важнее продавать «сырые» GPU-часы, чем комплексное ПО; допвремя на GPU обычно выгоднее оптимизаций. NVIDIA остаётся безусловным лидером: отчёт Q1 зафиксировал 10× генерации токенов на инференсе за год. Появилась волна стартапов с трансформер-чипами — теперь переписывать ИИ-ПО под новое железо оправдано: вычислительные затраты многократно превышают зарплаты инженеров.

🟠 Капитал хлынул в ИИ.

Доля венчура выросла с 10% в 2024 до 50+% в 2025. Компании вроде Anthropic показывают $2 млрд годового дохода с двукратным ростом, но их оценивают в 30 годовых выручек, что вызывает опасения перегрева. Некоторые стартапы привлекают инвестиции ещё на этапе идеи, без MVP, усиливая риски "пузыря".

🟠 Осторожнее с трендами:

75 % ИИ-фото-приложений потеряли основную выручку всего за полгода после пика, напоминая, что не каждое модное направление = устойчивый бизнес, тем более когда модели устаревают с космической скоростью.


Полный отчёт
Видео

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
25
Forwarded from Machinelearning
📺 4 из 10 самых популярных YouTube‑каналов теперь создаются ИИ

Звучит как шутка, но это уже реальность: среди топ‑10 каналов YouTube по числу просмотров — 4 полностью сгенерированы ИИ.

Никаких блогеров, продюсеров и съёмок. Только скрипты, голоса, монтаж — всё на автомате. И миллиарды просмотров.

🤖 Добро пожаловать в эру synthetic media.

👉 Подробнее

@ai_machinelearning_big_data

#ml #ai #YouTube
13
Forwarded from Machinelearning
🩺 Боксер 5 лет жил с щелчком в челюсти.

За долгие годы 17 врачей не смогли ему помочь, рентген ничего не показывал.

Чат-бот выдал диагноз за минуту: смещение сустава и рекомендовал сделать - простое упражнение языком.

Он попробовал — и щелчок исчез.

🔜 Добро пожаловать в эру ИИ-медицины.
Пациенты загружают симптомы или даже МРТ — и получают точные диагнозы с вероятностью до 92%.

LLM доверяют сложнейшие кейсы: спинальные патологии, редкие болезни крови и другие «неуловимые» диагнозы.

📊 Новые метрики подтверждают эффективность ИИ:

— MAI-DxO — MAI-DxO — это система оркестрации медицинского ИИ (AI orchestration system), разработанная для объединения разных моделей и инструментов диагностики в единую "умную" систему, которая диагностирует в 4 раза точнее, чем врачи

— HealthBench -это открытый бечмарк для оценки медицинских навыков и точности диагностики, содержит 5000 реальных медицинских cлучаев в формате чатов между пациентом и моделью.

Что самое интересно:
— Когда ИИ работает один — точность диагнозов 95%
— Когда вмешивается человек — точность диагноза падает до 75%: врачи зачастую занижают тревожность, упускают детали

Иногда именно ИИ замечает то, что упустили 17 специалистов.

📌 Источник


@ai_machinelearning_big_data


#ai #ml #medecine
Please open Telegram to view this post
VIEW IN TELEGRAM
158
Forwarded from Machinelearning
📌 Чат-боты начинают всерьез теснить традиционный поиск.

Пока мы с вами обсуждаем архитектуры новых моделей, на наших глазах разворачивается битва за конечного пользователя, и чат-боты, похоже, начинают в ней побеждать.

Аналитики из Sensor Tower опубликовали отчет, который в сухих цифрах показывает, что ChatGPT, Gemini и другие их собратья перестали быть игрушкой для IT-сообществ и превратились в реальную угрозу для поисковых гигантов.

Sensor Tower - платформа цифровой аналитики и один из авторитетных источников аналитики мобильных приложений, цифровой рекламы, розничной медиарекламы и данных об аудитории для крупнейших мировых брендов и создателей приложений.


🟡Главный индикатор: изменение пользовательских привычек.

Аудитория ChatGPT уже перевалила за 500 млн. MAU, причем этот рубеж был достигнут менее чем за 2 года. Но что еще важнее, его аудитория становятся нетехнической.

Год назад 44% всех запросов к ChatGPT были связаны с разработкой ПО, то сегодня эта доля упала до 29%.

А вот категория «Экономика, финансы и налоги» взлетела с 4% до 13%.

Проще говоря, люди все чаще спрашивают у ИИ не как написать код, а как составить бюджет или разобраться в инфляции. Это означает выход в мейнстрим.

🟡Самая показательная метрика из отчета.

В апреле 2025 года время, проведенное пользователями в приложении ChatGPT, взлетело на 98% по сравнению с прошлым годом. За тот же период время, проведенное в приложениях традиционных поисковиков, упало на 3%.

Более того, уже почти треть (31%) пользователей поисковых приложений в США также активно используют ChatGPT. Год назад их было всего 13%. Аудитории начинают пересекаться, и чат-бот явно перетягивает одеяло на себя.

🟡Куда ChatGPT отправляет своих пользователей дальше.

В топе реферальных ссылок: YouTube, Wikipedia и National Library of Medicine. То есть люди приходят за знаниями. Но тут же рядом Amazon (помощь в покупках), GitHub и arXiv (IT и ML). Забавно, что сам Google, как поисковая система, находится на 6 месте в этом списке.

Чат-бот становится новой точкой входа в интернет, которая сама решает, куда направить пользователя.

🟡Еще из интересного.

Ранние последователи ИИ, установившие ChatGPT еще в 2023 году, уже проводят в приложениях Google на 6% меньше времени. Новички пока не изменили привычек, но это, скорее всего, лишь вопрос времени.

Все эти показатели указывают на то, что борьба за "реферал от ИИ" становится главным полем боя для брендов.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
120