Технозаметки Малышева
8.25K subscribers
3.69K photos
1.38K videos
40 files
3.88K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
🤖 DisCIPL: когда рой сверхмалых моделей побеждает крупные, работая в команде

MIT CSAIL представили фреймворк, в котором одна большая модель руководит армией маленьких — и вместе они обходят топовые модели.

Как работает
Большая модель (GPT-4o) — «босс-планировщик». Получает задачу и пишет программу вывода на языке LLaMPPL.

Маленькие модели (Llama-3.2-1B) параллельно выполняют эту программу, оркестратор собирает и корректирует результаты.

Ключевая идея: вместо того чтобы рассуждать текстом (как, например, o1), система «рассуждает» кодом на Python.

Код компактнее и точнее.

В основе, - LLaMPPL

LLaMPPL,- вероятностный язык программирования для управления языковыми моделями.

Возможности:
- Определение жёстких ограничений: «каждое слово не длиннее 5 букв»
- Заполнение пропусков: «To tell the truth, every[ПРОПУСК] he[ПРОПУСК] to[ПРОПУСК
- Пересечение промптов: текст, который одинаково вероятен для нескольких разных запросов

Вместо стандартного декодирования используется последовательный метод Монте-Карло (SMC) — алгоритм поддерживает «популяцию» вариантов, отсеивая слабые и размножая сильные.

При этом удалось добиться 80% экономии в сравнении с o1
- на 40% короче «рассуждения» (за счёт того, что это код а не текст)
- Llama-модели в 1000-10000× дешевле за токен
- Точность на уровне o1 при параллельном запуске десятков моделей
- 72% затрат — кэшируемый системный промпт (можно оптимизировать)

Где работает
Тестировали на бенчмарке COLLIE и наборе PUZZLES:
- Тексты со строгими ограничениями («напиши 18 слов, 4-е слово — Glasgow»)
- Списки покупок с бюджетом
- Планирование путешествий
- Грантовые заявки с лимитом слов
- Стихи с точным числом слогов

Главный вывод
Не обязательно гнаться за самой большой моделью. Умная оркестрация маленьких даёт лучший результат за копейки.

Модель сама пишет программу поиска решения — и это работает лучше, чем «думать вслух».

Код: GitHub

#MIT #LLM #DisCIPL #LLaMPPL #SMC #оптимизация
———
@tsingular
11👍8🔥71💯1
Google Translate: живой перевод в любых наушниках

Google открыла живой перевод речи для любых наушников на Android — раньше фича работала только на Pixel Buds.

Поддержка 70+ языков, включая идиомы и сленг через Gemini.

Работает через приложение Translate в США, Мексике и Индии. На iOS появится в следующем году.

Добавили режим Practice — персонализированные уроки языка прямо в переводчике, как встроенный Duolingo.

Требует облачной обработки речи в реальном времени.

Кстати Гугл целую экосистему API для ИИ сервисов реального времени раскатали, - это, похоже, новый тренд следующего года будет.

#GoogleTranslate #Gemini #realtime
———
@tsingular
🔥104👍2
MIT запускает программу подготовки военных к эпохе ИИ

MIT и Schwarzman College открыли 2N6 — двухлетнюю магистратуру по механике с сертификатом по прикладному ИИ для офицеров ВМС.

Программа родилась после визита адмирала Папаро, командующего Индо-Тихоокеанским командованием США.

Он увидел наработки MIT в области искусственного интеллекта и предложил создать военный аналог знаменитой программы 2N, которой в 2026-м исполнится 125 лет.

Офицеры будут учиться применять нейросети в беспилотных системах, кибербезопасности, логистике и энергоменеджменте.

Курс заточен под реальные задачи флота — от автономии подводных аппаратов до принятия решений в боевых условиях.

Первый набор — только военные моряки, но планируют расширяться.
Пилот рассчитан минимум на два года.

ИИ для военных становится обязательной дисциплиной. Что не удивительно, конечно.

#MIT #Navy #Military
———
@tsingular
2065🤨4
🎙 Gemini Live API — голосовые агенты нового поколения

Google выкатил в общий доступ Gemini Live API на Vertex AI. Под капотом — Gemini 2.5 Flash Native Audio.

Что изменилось:
Классический пайплайн STT → LLM → TTS с его задержками и "роботичностью" заменяется единым WebSocket-соединением.

Модель нативно обрабатывает сырой аудиопоток — отсюда минимальные задержки.

Ключевые фичи:
Affective dialogue — распознаёт тон, эмоции, темп речи и адаптирует ответ
Proactive audio — умный интерактив: агент сам решает, когда отвечать, а когда молча слушать
Мультимодальность в реалтайме — голос + видео + текст одновременно
Tool use, - Function Calling и Google Search прямо в разговоре
Continuous memory,- контекст держится через всю сессию

Практические демо:
Бизнес-советник — слушает митинг, подсказывает данные молча (через модалки) или голосом
Саппорт-агент — видит что показывает клиент на камеру + считывает эмоции + делает рефанд
Игровой ассистент — смотрит стрим экрана, переключается между персонами (Wizard/Robot/Commander)

Для разработчиков:
Два стартер-темплейта — Vanilla JS (для понимания протокола) и React (для прода с AudioWorklets).
Интеграции с Daily, Twilio, LiveKit, Voximplant для телефонии/WebRTC.

По сути Google делает ставку на то, что голосовой интерфейс станет основным способом взаимодействия с AI-агентами и уже предоставляет инструменты для сборки таких систем.

#Gemini #VoiceAI #Google #агенты
———
@tsingular
👍3🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
Как OpenAI навайбкодили Sora для Android за 28 дней с помощью Codex

OpenAI поделился внутренним кейсом: 4 инженера + Codex = production-ready Android-приложение за месяц.

Цифры проекта:
- 28 дней от прототипа до релиза
- ~5 млрд токенов потрачено
- 85% кода написано Codex
- 99.9% запусков без ошибок

Главный инсайт,- Codex как новый сеньор:
Требует онбординга. Не знает ваших паттернов, не видит как приложение работает на устройстве, не чувствует UX, но отлично читает большие кодовые базы, пишет тесты и применяет фидбек.

Что делают люди:
- Архитектура, модуляризация, навигация
- Базовые фичи как "эталон стиля"
- AGENTS.md файлы с правилами команды
- Финальный QA и UX-решения

Что делал Codex:
- Заполнял код внутри заданной структуры
- Параллельные сессии (поиск, плеер, обработка ошибок)
- Перевод логики с iOS на Kotlin
- Написание тестов

Ключевой паттерн работы:
Сначала просили Codex изучить код и предложить план.
Корректировали план.
Только потом,- реализация.

Это позволяло запускать сессии "без присмотра" на 24+ часа.

Кросс-платформа нового типа:
iOS-код использовался как контекст для Android-разработки. Забудьте Flutter — будущее кросс-платформы это LLM-перевод между языками.

"AI-assisted development не снижает требования к инженерному надзору, - наоборот повышает"

Bottleneck сместился: раньше,- написание кода, теперь,- принятие решений и ревью.

Статья на Хабре

#OpenAI #Codex #Sora #Android #агенты
———
@tsingular
7🔥321
This media is not supported in your browser
VIEW IN TELEGRAM
Сергей Бринн об общении с Gemini Live за рулём.

Удобный собеседник, который рядом в любое время, - вот следующий формат ИИ, а не агенты в приложениях или боты в телеге.

Т.е. по сути эволюция Алисы.

#Бринн #Google #Gemini
———
@tsingular
😁16👍71
💡 Как вывести команду из хаоса и выстроить путь к профессиональному мастерству за один спринт

📋 ПРОМПТ ДНЯ:

Роль: Ты — опытный Agile-коуч и архитектор командных процессов с 15-летним опытом трансформации IT-команд, специализирующийся на выводе проектных групп из состояния хаоса.

Ситуация: Я руковожу проектной командой разработки, и сейчас мы находимся в состоянии хаоса: размытые приоритеты, постоянные переключения контекста, отсутствие единого понимания куда мы движемся. У меня есть мотивированные профессионалы, но мы топчемся на месте вместо того, чтобы расти к настоящему мастерству. Я хочу за ближайший спринт навести порядок и выстроить прозрачный путь развития для всей команды.

Задача: Используя декомпозицию, помоги мне разложить текущий хаос на управляемые элементы и создать конкретный план действий на спринт, который вернёт команде фокус и направление к профессиональному росту.

Формат ответа:
— Структурированный план на один спринт (2 недели)
— Разбивка по неделям с конкретными действиями
— Для каждого действия: что делаем, зачем, какой результат ожидаем
— Метрики для отслеживания прогресса
— Риски и способы их минимизации в рамках спринта

Ограничения:
— Избегай абстрактных советов типа «улучшить коммуникацию» — давай только конкретные действия
— Фокус на быстрых победах, которые покажут результат уже через неделю
— Все рекомендации должны быть реализуемы в рамках одного спринта
— Сначала задай мне 5 уточняющих вопросов о текущей ситуации в команде, затем составь персонализированный план


⚙️ ПРИЁМ:

«Один главный вопрос» (Root Cause Analysis) — Вместо борьбы с симптомами хаоса ты направляешь ИИ найти корневую причину проблемы через серию уточняющих вопросов, что делает решение точечным и эффективным

#промпты #agile
------
@tsingular
8👍53
Gartner призывает блокировать ИИ-браузеры

Gartner и британский центр кибербезопасности требуют заблокировать все ИИ-браузеры типа Perplexity Comet и OpenAI Atlas в корпорациях.

Причина - атаки через prompt injection: вредоносные команды прячутся в веб-страницах или письмах, а агент браузера их выполняет.

По мнению NCSC, эту уязвимость невозможно устранить полностью - в отличие от SQL-инъекций.

Gartner заявляет: настройки по умолчанию заточены под удобство, а не безопасность.

Удаляем Комет и Атлас, выключаем browser-use в Cursor для внешних ресурсов.

#Gartner #Atlas #Comet #cybersecurity
———
@tsingular
👍75🫡51🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Manus 1.6: агент-разработчик научился мобильной разработке и дизайну

Manus выкатили версию 1.6 с флагманским агентом Max, который теперь справляется со сложными задачами в один проход.

Ключевые цифры: рост удовлетворённости пользователей на 19,2% в слепом тестировании, заметный скачок в работе с таблицами и веб-разработке.

Впервые добавили создание мобильных приложений — описываешь что нужно, агент пилит от начала до конца.

Design View позволяет редактировать изображения через интерактивный холст: точечные правки, текст на картинках, композиция из нескольких элементов.

Все субагенты в Wide Research теперь работают на архитектуре Max — параллельные задачи выполняются на максимальном уровне.

Первое время Max доступен со скидкой 50% на кредиты.

manus.im

#Manus #MobileDev #DesignView
------
@tsingular
🔥121🆒1
NVIDIA выпустила Nemotron 3 — открытые модели для мультиагентных систем

NVIDIA представила семейство Nemotron 3 в трёх размерах: Nano (30B), Super (~100B) и Ultra (~500B).
Главная фишка, - гибридный мамба трансформер MoE, архитектурный микс из мамбы и трансформера, который позволяет не терять детали на большом контексте, которого тут аж на 1млн токенов.

Nemotron 3 Nano уже доступна и показывает 4× прирост пропускной способности относительно предшественника, плюс на 60% меньше reasoning-токенов. Контекст, - 1 млн токенов. Модель обучена с помощью 4-битного формата NVFP4 на архитектуре Blackwell.

Вместе с моделями выпустили 3 триллиона токенов тренировочных данных, библиотеки NeMo Gym и NeMo RL, плюс датасет по безопасности агентов.

Super и Ultra появятся в первой половине 2026 года.

Поддерживается в LM Studio, llama.cpp, SGLang и vLLM.
Уже есть готовые пайплайны для обучения в Unsloth.
Так же доступна на всех роутерах типа:
Baseten, DeepInfra, Fireworks, FriendliAI, OpenRouter и Together AI.

#Nemotron #NVIDIA #Blackwell
———
@tsingular
👍10211
Google открыл API для агента Deep Research

Google выкатил Gemini Deep Research через новый Interactions API - теперь разработчики могут встроить автономного исследователя в свои приложения.

Агент на базе Gemini 3 Pro итеративно планирует поиск: формулирует запросы, читает результаты, находит пробелы в знаниях и ищет снова. Залезает глубоко внутрь сайтов (!) за конкретными данными.

Результаты:
- 46.4% на Humanity's Last Exam
- 66.1% на новом бенчмарке DeepSearchQA (900 задач с "причинными цепочками")
- 59.2% на BrowseComp

Выпустили DeepSearchQA в открытый доступ - бенчмарк, который оценивает полноту исследования, а не только факты.

Про сайты это интересно. Т.е. он не просто читает первую ссылку, а находит релевантные внутри сайта и следует по ним, пока не нароет ответ.
Удобно.

#DeepResearch #Gemini #InteractionsAPI
———
@tsingular
🔥8👍211
Трамп набирает тысячу техспециалистов из BigTech в госаппарат

Администрация запускает US Tech Force — программу на два года для модернизации федеральных систем и внедрения ИИ.

Участвуют Amazon, Apple, Google, Meta, Microsoft, OpenAI, xAI, Nvidia и другие.

После работы специалисты смогут вернуться в компании-партнёры, - будет выстроена ротация между госсектором и корпорациями.

#USA #government #BigTech
———
@tsingular
👍7🤨742
сегодня ждём Gemini 3 Flash

#Gemini #Google
———
@tsingular
7🎉711
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Google Code Wiki.

Google запустила в публичное превью платформу Code Wiki. Инструмент сканирует репозиторий и генерирует живую базу знаний, которая перестраивается автоматически после каждого изменения в коде.

Под капотом - естественно Gemini. Разработчики могут общаться с контекстно-зависимым чат-ботом, который понимает структуру конкретного проекта «от и до».

Code Wiki умеет строить диаграммы архитектуры, объяснять логику работы модулей и мгновенно перенаправлять из вики к конкретным определениям функций.

Сейчас веб-версия работает с публичными репозиториями, но в планах - CLI-расширение для развертывания системы в закрытых корпоративных контурах.


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥6🆒2👍1
Где в России применяется ИИ.

По результатам опроса Компьютерры.

#Компьютерра #Россия #аналитика
------
@tsingular
🤔81
Forwarded from Dendi Math&AI (Денис Димитров)
🥳 Мы докатили в text-to-video арену две наши последние модели генерации видео Kandinsky 5.0 Video Lite и Pro

⚡️Результаты следующие:
🔘Pro версия является ТОП-1 опенсорсом в мире (см. модели с лицензиями MIT, Apache 2.0 в лидерборде)
🔘Lite версия лучше первой версии Sora (не супердостижение, но у Lite всего 2B параметров)
🔘Лучше нас (Pro) только Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6) — объективно самые сильные модели генерации видео в мире на текущий момент; в паритете с нами Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘В целом стоит отметить, что для российских генеративных моделей выход на международную арену — довольно уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд можно вот тут: lmarena
🔘Твиттер организаторов арены: X lmarena.ai
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт,
🔘Потестить Kandinsky 5.0: github и hf

@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2533🍾2