🎥 OpenAi показали Sora 2
Всё, что нужно знать коротко:
- Реализм и физика: движение стало правдоподобнее, модель учитывает сложную динамику движения.
- Законы физики соблюдаются: например, промах по кольцу в баскетболе отскакивает, а не “телепортируется”.
- Видео со звуком: синхронная генерация речи, эффектов и фоновых звуков.
- Управляемость: модель точно следует сложным промптам, держит сцены цельным, умеет в реализм и аниме.
- Cameos: можно загрузить своё видео/аудио и вставить лицо + голос в любой сгенерированный ролик.
- Пиложение: новое iOS-приложение “Sora” с лентой наподобие TikTok, ремиксами и cameo.
Доступ дают по инвайтам
- Как попробовать: доступ бесплатный, но пока только в США и Канаде, а Pro-версия генератора доступна для платных акаунтов ChatGPT Pro.
- API обещают скоро подвезти .
https://x.com/OpenAI/status/1973075422058623274
#Sora2 #OpenAI #видеогенерация #ИИ #AIvideo
Всё, что нужно знать коротко:
- Реализм и физика: движение стало правдоподобнее, модель учитывает сложную динамику движения.
- Законы физики соблюдаются: например, промах по кольцу в баскетболе отскакивает, а не “телепортируется”.
- Видео со звуком: синхронная генерация речи, эффектов и фоновых звуков.
- Управляемость: модель точно следует сложным промптам, держит сцены цельным, умеет в реализм и аниме.
- Cameos: можно загрузить своё видео/аудио и вставить лицо + голос в любой сгенерированный ролик.
- Пиложение: новое iOS-приложение “Sora” с лентой наподобие TikTok, ремиксами и cameo.
Доступ дают по инвайтам
- Как попробовать: доступ бесплатный, но пока только в США и Канаде, а Pro-версия генератора доступна для платных акаунтов ChatGPT Pro.
- API обещают скоро подвезти .
https://x.com/OpenAI/status/1973075422058623274
#Sora2 #OpenAI #видеогенерация #ИИ #AIvideo
❤133👍38🔥15😁7🗿5💘3🍓1
Media is too big
VIEW IN TELEGRAM
Новая флагманская модель получила заметные улучшения: поддержка длинного контекста до 200K токенов, сильные возможности в рассуждении, генерации кода, поиска и агентных задачах.
Hf | Api | Попробовать
Newton - это открытый физический движок с GPU-ускорением, созданный на базе NVIDIA Warp и OpenUSD и выпущенный под лицензией Apache 2.0. Он показывает огромный прирост скорости: в задачах движения до 152× быстрее, а при манипуляции объектами — до 313× быстрее по сравнению с MJX на RTX 4090.
Isaac Lab позволяет запускать тысячи параллельных симуляций для ускоренного обучения с подкреплением. Среди демонстраций — робот ANYmal, осваивающий ходьбу, и симуляция складывания одежды с реалистичной мультифизикой.
NVIDIA Blog
Главная идея - контекст не равен простому prompt’у: это весь набор информации (инструкции, история сообщений, память, внешние данные), который агент использует для принятия решений.
Контекст - ограниченный ресурс, длинные цепочки приводят к «context rot» - постепенной потере качества.
Нужно уметь структурировать и минимизировать инструкции, оставляя только важное.
Важно грамотно управлять вызовами инструментов: они должны возвращать релевантные и компактные данные.
Историю лучше периодически сжимать, сохраняя факты, а не «сырые токены».
Для сложных случаев полезно делить задачи между суб-агентами, а затем агрегировать их результаты.
Эффективная контекстная инженерия делает агентов точнее, дешевле и устойчивее при работе с длинными
Подробнее
Новая 15B reasoning-модель с открытыми весами набрала 52 балла в Artificial Analysis Intelligence Index - уровень моделей в сотни миллиардов параметров. Отличается сильным instruction following, многошаговыми диалогами и поддержкой 128k контекста. Доступна на Hugging Face под MIT-лицензией для свободного коммерческого использования.
HF
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩82👍41❤21🎉15🔥11👏3💘2🤔1
В статье рассказано про развитие детектора Яндекс Карт для распознавания дорожных знаков на панорамах — от бинарного классификатора до нейросетей. Сейчас детектор умеет находить почти все знаки в России. Первая же версия создавалась в 2016 году с помощью небольшого датасета и модели на классических подходах компьютерного зрения. Использовали ACFFeatures + WaldBoost с бинарными решающими деревьями.
Классические методы страдали «близорукостью» — детектили знаки только «в лоб», повороты пропускали, поэтому перешли к новой версии на свёрточных нейросетях и натренировали Faster R-CNN.
Нетривиальные архитектурные решения:
▪️Объединили все знаки ограничения скорости в один класс + дополнительная сеть для распознавания чисел на вырезанном знаке
▪️ То же с направлениями по полосам — детектор находит знак, дополнительная модель выдаёт бинарный вектор направлений
▪️ Создали отдельную модель для обработки найденных знаков многополосности. Полная техническая реализация описана в статье.
Как обычно, всё упёрлось в данные для обучения. Терабайты фотографий улиц прогонять через асессоров — дорого и неэффективно. Выстроили такой процесс: сначала автоматически находить фотографии, где есть дорожные знаки, и только потом отправлять их на разметку асессорам.
▪️ 300 тысяч фотографий в датасете
▪️ 1,5 миллиона размеченных знаков
▪️200+ поддерживаемых классов знаков
Любопытный факт: самый частый знак в датасете — пешеходный переход.
Практический результат: всё это помогает автоматически обновлять данные в Картах, по которым сервис строит маршруты, выдаёт голосовые подсказки о том, с какой скоростью ехать и тд. В год так вносится более 200 тысяч автообновлений
⚡️ Статья: https://habr.com/ru/companies/yandex/articles/946338/
@ai_machinelearning_big_data
#ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍325🔥254❤205👏88🥰56😁53🤔22🤣9🤩7👌5❤🔥1
🧠 Google/DeepMind представили AlphaEvolve: ИИ, который помогает математикам и компьютерным теоретикам искать новые результаты.
💡 Как он работает
Обычно LLM стараются писать доказательства целиком, но это слишком сложно и ненадёжно.
AlphaEvolve идёт другим путём: он не пишет доказательства сам, а генерирует новые маленькие элементы *конструкции (gadgets)*.
Эти кусочки можно быстро проверить автоматикой, и если они работают, их можно собрать в более крупные теоремы.
📈 Что удалось найти
- Новый результат для задачи MAX-4-CUT (Это задача из теории алгоритмов и комбинаторной оптимизации, разновидность классической задачи MAX-CUT), с конструкцией, которую раньше никто не придумывал.
- Сильные новые нижние границы для задач на случайных графах, включая работу с Ramanujan graphs.
- Проверка теорем стала в 10 000 раз быстрее, чем в обычных методах.
🧩 Зачем это нужно
- Математика требует 100% точности - и тут AI помогает именно как генератор идей, а проверка остаётся строгой и надёжной.
- Такой подход экономит годы человеческой работы и открывает дорогу к новым теоремам и алгоритмам.
📄 Подробнее: research.google/blog/ai-as-a-research-partner-advancing-theoretical-computer-science-with-alphaevolve/
@ai_machinelearning_big_data
#AI #Math #DeepMind #Research
💡 Как он работает
Обычно LLM стараются писать доказательства целиком, но это слишком сложно и ненадёжно.
AlphaEvolve идёт другим путём: он не пишет доказательства сам, а генерирует новые маленькие элементы *конструкции (gadgets)*.
Эти кусочки можно быстро проверить автоматикой, и если они работают, их можно собрать в более крупные теоремы.
📈 Что удалось найти
- Новый результат для задачи MAX-4-CUT (Это задача из теории алгоритмов и комбинаторной оптимизации, разновидность классической задачи MAX-CUT), с конструкцией, которую раньше никто не придумывал.
- Сильные новые нижние границы для задач на случайных графах, включая работу с Ramanujan graphs.
- Проверка теорем стала в 10 000 раз быстрее, чем в обычных методах.
🧩 Зачем это нужно
- Математика требует 100% точности - и тут AI помогает именно как генератор идей, а проверка остаётся строгой и надёжной.
- Такой подход экономит годы человеческой работы и открывает дорогу к новым теоремам и алгоритмам.
📄 Подробнее: research.google/blog/ai-as-a-research-partner-advancing-theoretical-computer-science-with-alphaevolve/
@ai_machinelearning_big_data
#AI #Math #DeepMind #Research
👍319👏154🔥50🤓23😁21🎉16🤩16😢13👌13🤔11🥰5
Для сравнения: это больше, чем суммарное богатство Джеффа Безоса ($233,5 млрд) и Марка Цукерберга ($245,7 млрд).
Только за последний год Маск увеличил своё состояние на $245 млрд.
Но это не новая модель, а гораздо более практичный инструмент: API для файнтюнинга.
Идея проста: вы пишете код для дообучения, а все заботы о железе берут на себя Thinking Machines - от распределения ресурсов до восстановления после сбоев.
Tinker поддерживает широкий спектр моделей - от небольших до очень крупных. В API доступны базовые примитивы (forward_backward, optim_step, sample), из которых можно собрать кастомные пайплайны. А для тех, кто хочет сразу сложные сценарии, есть Tinker Cookbook - библиотека с готовыми реализациями популярных алгоритмов: RLHF, Multi-Agent, Tool Use, Math Reasoning и других.
Пока продукт доступен только в приватной бете, но уже можно записаться в вейтлист.
В эксперименте на 12B модели RLP повысил точность на 35%, используя всего 0,125% данных.
Главное отличие: вместо обычного предсказания следующего токена модель сначала генерирует «мысль», а затем проверяет, улучшает ли она прогноз. За полезные мысли модель получает вознаграждение, что формирует навык пошагового мышления с самого начала обучения.
На математических и бенчмарках тестах RLP превзошёл стандартные подходы и сохранил преимущество даже после классического дообучения.
nvidia
Подсказки появляются прямо во время ввода промпта и принимаются нажатием Tab. Появились кастомные hooks, которые позволяют управлять жизненным циклом агентов, а также deeplinks для быстрого обмена промптами.
Правила можно назначать сразу для всей команды, включая Bugbot для автоматического кодревью. Кроме того, теперь статус агентов доступен прямо из панели, без необходимости открывать само приложение.
cursor
Она сохранила полный контроль над стартапом, а среди инвесторов - a16z, Accel, Nvidia, AMD и Cisco. В команду вошёл сооснователь OpenAI Джон Шульман и группа экс-исследователей.
Компания зарегистрирована как public benefit corporation, обещает open-source и первый продукт в ближайшие месяцы.
Information
За последние полгода стоимость выросла на $200 млрд. При этом стартап продолжает наращивать убытки, но инвесторы пока закрывают на это глаза.
Сэм Альтман фактически переигрывает весь рынок, превращая OpenAI в главного игрока индустрии.
Bloomberg
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤74🔥25👍13🤣6🌚2😐2😨2💘2
🔦 Генерация изображений на свете, а не на GPU
Исследователи из UCLA представили оптическую генеративную модель (Optical Generative Model).
Она использует свет и линзы вместо вычислительных блоков - то есть картинки рождаются не на чипах, а в физике.
🔬 Как это работает:
1. Лёгкий цифровой энкодер превращает случайный шум в фазовый узор.
2. Этот узор загружается на оптический модулятор света.
3. Свет проходит через дифракционный декодер и прямо на сенсоре формируется изображение.
✔️ Авторами проведены реальные эксперименты: с помощью видимого света и SLM показаны результаты генерации:
- Созданы цифры, лица, бабочки и даже картины в стиле Ван Гога.
- Качество сравнимо с современными диффузионными моделями.
- Есть две версии: мгновенная (один проход) и итеративная (несколько шагов, как у диффузии).
⚡ Чем интересен такой подход
- Подход не требует никакой вычислительной нагрузки.
- Супербыстрая генерация: физика света выполняет то, что GPU делает миллиардами операций.
- Это открывает путь к энергоэффективному ИИ для edge-устройств: AR/VR, мобильные камеры, компактные сенсоры.
⚠️ Ограничения:
- Сложно выравнивать оптические системы.
- Ограничения по точности фазовых масок.
- Зависимость от качества оборудования (шум, битовая глубина).
Но даже с этими проблемами, это первый шаг к новому классу ИИ, где вычисления заменяются чистой оптикой.
Nature: https://www.nature.com/articles/s41586-025-09446-5
@ai_machinelearning_big_data
#AI #OpticalComputing #Photonics #GenerativeA
Исследователи из UCLA представили оптическую генеративную модель (Optical Generative Model).
Она использует свет и линзы вместо вычислительных блоков - то есть картинки рождаются не на чипах, а в физике.
1. Лёгкий цифровой энкодер превращает случайный шум в фазовый узор.
2. Этот узор загружается на оптический модулятор света.
3. Свет проходит через дифракционный декодер и прямо на сенсоре формируется изображение.
- Созданы цифры, лица, бабочки и даже картины в стиле Ван Гога.
- Качество сравнимо с современными диффузионными моделями.
- Есть две версии: мгновенная (один проход) и итеративная (несколько шагов, как у диффузии).
- Подход не требует никакой вычислительной нагрузки.
- Супербыстрая генерация: физика света выполняет то, что GPU делает миллиардами операций.
- Это открывает путь к энергоэффективному ИИ для edge-устройств: AR/VR, мобильные камеры, компактные сенсоры.
⚠️ Ограничения:
- Сложно выравнивать оптические системы.
- Ограничения по точности фазовых масок.
- Зависимость от качества оборудования (шум, битовая глубина).
Но даже с этими проблемами, это первый шаг к новому классу ИИ, где вычисления заменяются чистой оптикой.
Nature: https://www.nature.com/articles/s41586-025-09446-5
@ai_machinelearning_big_data
#AI #OpticalComputing #Photonics #GenerativeA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥122❤32👍18🤔10😨8🤨2🫡2😍1💘1
Четыре новые модели:
- Granite 4.0 H Small - 32B/9B активных параметров
- Granite 4.0 H Tiny - 7B/1B
- Granite 4.0 H Micro - 3B/3B
- Granite 4.0 Micro - 3B/3B
Benchmarking (Artificial Analysis Index):
- Granite 4.0 H Small: 23 балла (на 8 выше Granite 3.3 8B), обходит Gemma 3 27B (22), но уступает Mistral Small 3.2 (29) и Qwen3 30B A3B (37).
- Granite 4.0 Micro: 16 баллов, выше Gemma 3 4B (15) и LFM 2 2.6B (12).
⚡ Token efficiency:
- Granite 4.0 Small — 5.2M токенов
- Granite 4.0 Micro — 6.7M токенов
Обе модели заметно эффективнее Granite 3.3 8B и большинства non-reasoning моделей <40B.
Детали:
- Контекст: до 128K токенов
- Лицензия: Apache 2.0
- Granite 4.0 H Small доступна на Replicate по $0.06 / $0.25 за 1M input/output токенов
- Все модели доступны на Hugging Face
- Модель Micro (3.4B) можно запускать полностью локально.
🔗 Hugging Face: https://huggingface.co/collections/unsloth/granite-40-68ddf64b4a8717dc22a9322d
🔗 Unsloth: https://docs.unsloth.ai/new/ibm-granite-4.0
@ai_machinelearning_big_data
#AI #IBM #Granite4 #LLM #OpenWeights
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥65👏25👍17❤16🥰3💘2🤔1