Технозаметки Малышева
8.25K subscribers
3.69K photos
1.38K videos
40 files
3.88K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
В 1979 году настоящую революцию устроила программа VisiCalc, первые в мире электронные таблицы.

Целый год она работала только на Apple II. И очень многие считают, что именно из-за этого Apple вообще выжила и взлетела: люди покупали дорогой компьютер за пару тысяч долларов исключительно ради того, чтобы пользоваться таблицами за сто баксов.

VisiCalc стал классическим примером "killer application" -- приложения-убийцы, ради которого готовы были менять платформу. Покупатель приходил в магазин и говорил: "Мне нужен VisiCalc", а в ответ слышал: "Тогда берите Apple II, другого варианта нет".

Сейчас, когда у всех есть интернет, браузер и куча онлайн-сервисов, мы забываем, что в те годы для большинства людей компьютер = Word + Excel (ну или их аналоги). Других причин держать дома или в офисе эту дорогую штуку почти не существовало. Поэтому какая программа лучше решает офисные задачи -- та и решала, какой компьютер будут покупать тысячами.
------

Интересно, что с тех пор не многое поменялось.
По сути большинство даже от ИИ агентов ждут, что те им или что-то посчитают или документ напишут/поправят. Ну, поиск, пожалуй, еще добавился и программирование, если брать самое популярное.

#история #Apple
------
@tsingular
👍19551
Microsoft выпустили наглядную инструкцию по шагам внедрения ИИ агентов.

Планирование
Контроль
Подготовка
Интеграция
Управление

Все шаги подробно разобраны и есть еще детальный чеклист с примерами и документацией

#Microsoft #агенты #обучение
———
@tsingular
👍752
Сочувствуем Жене :)

#юмор
———
@tsingular
🤣56😁10💯9😢21
Forwarded from e/acc
This media is not supported in your browser
VIEW IN TELEGRAM
Unitree запустил аппстор для гуманоидов, в котором за $0,99 вы можете скачать своему роботу навык тверка, игры в мячик с котом или владения гранатометом.
😁16🤯7👍64
Verbalized Sampling: как вернуть LLM креативность

Проблема: После RLHF модели дают одинаковые ответы. Попроси 5 раз шутку про кофе, - с высокой вероятностью получишь 5 раз одну и ту же.

Почему: Люди-оценщики подсознательно выбирают "знакомое".
Модель это выучила и теперь всегда выдаёт самый популярный вариант.

Это явление назвали «коллапсом мод». Оказалось, что виноваты не алгоритмы, а психология людей. Люди-оценщики, которые обучают нейросеть, подсознательно ставят высокие оценки самым простым, привычным и «типичным» ответам. Нейросеть это запоминает и начинает всегда выдавать только самый безопасный, «средний» вариант, игнорируя креативные идеи.

Какое нашли решение?
Авторы придумали метод Verbalized Sampling («Озвученная выборка»). Это способ обхитрить этот механизм без перепрограммирования модели, просто изменив промпт.

Вместо того чтобы просить: «Расскажи шутку» (на что модель выдаст самую банальную шутку), нужно попросить:

«Придумай 5 разных шуток и напиши вероятность (процент уверенности) для каждой из них». (confidence_level)

Когда модель заставляют просчитывать и «проговаривать вслух» вероятности для нескольких вариантов, она перестает зацикливаться на одном шаблоне и открывает доступ к своему скрытому творческому потенциалу, который был заложен в ней изначально.

Что это даёт на практике?
- Возвращается креативность: Стихи, истории и юмор становятся намного оригинальнее и разнообразнее (по тестам — в 1.6–2 раза лучше), при этом качество текста не падает.

- Реалистичные диалоги: Если нужно симулировать разговор разных людей, ИИ начинает вести себя действительно по-разному, а не как один и тот же робот-помощник.

- Польза для науки: С помощью этого метода можно создавать более качественные и сложные задачи (например, по математике), на которых потом будут учиться другие, еще более умные нейросети.

- Доступность: Это работает бесплатно и прямо сейчас,- не нужно ничего докачивать или настраивать, достаточно просто правильно сформулировать запрос.

Про confidence level и раньше знали в части повышения качества, но тут идея в том, что мы генерим 5 разных вариантов одновременно (нужен JSON) и для каждого пишем скор.

Вот мы и узнали, как выполнить планы по расходу токенов :)

#промпты #JSON #lifehack #обучение
———
@tsingular
👍13🔥752👌1🤣1
Если попросить ChatGPT прислать архив своей рабочей директории, он с радостью это сделает
21🤣17🔥7🤯3😁1
Media is too big
VIEW IN TELEGRAM
Роботы лишают каскадеров работы.

В Диснейленде запустили робота человека-паука.

#роботы
------
@tsingular
🔥24👍5👾311🆒1
Google запустила управляемые MCP-серверы для агентов

Google выкатила полностью управляемые серверы по протоколу Model Context Protocol для четырёх сервисов: Maps, BigQuery, Compute Engine и Kubernetes Engine.

Теперь агенты могут подключаться к инструментам просто через URL вместо недель разработки коннекторов.

Протокол работает через JSON-RPC 2.0 с динамическим обнаружением инструментов и авторизацией через OAuth 2.1 + PKCE.

Google Cloud IAM контролирует доступ на уровне ресурсов, а Cloud Model Armor защищает от prompt injection и утечек данных.

Сейчас всё в публичном превью без SLA, но обещают релиз в начале года.

#Google #MCP #BigQuery
------
@tsingular
31🔥1👌1🆒1
Google Disco: экспериментальный браузер с GenTabs

Гугл выкатил экспериментальный браузер Disco с технологией GenTabs — штука, которая превращает открытые вкладки в интерактивные виджеты.

Работает просто: указываешь что нужно, модель Gemini 3 анализирует содержимое вкладок и генерирует HTML-приложения — карты маршрутов, сравнительные таблицы, планировщики.

За фронтенд можно не париться теперь.
Под каждого пользователя ИИ соберёт свой.
Фронтендеры уходят вслед за каскадёрами.

#Disco #GenTabs #Google
------
@tsingular
🔥113👨‍💻2
Норникель запустил MetalGPT-1 для металлургии

Норникель выкатил специализированную открытую языковую модель MetalGPT-1 на 32 млрд параметров.

Обучали на 10 ГБ внутренних документов — техпроцессах, регламентах, патентах, отчётах НИОКР на базе Qwen3:32B. Плюс 500 тысяч синтетических вопрос-ответов для причинно-следственных связей.

Прошла многоступенчатую очистку и анонимизацию данных.

Модель разбирается в металлургических терминах и техпроцессах лучше универсальных LLM — проверяли на внутреннем бенчмарке.

Встраивают в операционные процессы через ассистентов и автономных агентов.

Модель на HuggingFace

#MetalGPT #Норникель #opensource
------
@tsingular
🔥2621👍9🤩41🦄1
Разве какой бездушный ИИ сможет такую красоту создать?!

Grok Imagine обновился

#юмор #Imagine #Grok
------
@tsingular
🔥16😁143👏2
🤖 DisCIPL: когда рой сверхмалых моделей побеждает крупные, работая в команде

MIT CSAIL представили фреймворк, в котором одна большая модель руководит армией маленьких — и вместе они обходят топовые модели.

Как работает
Большая модель (GPT-4o) — «босс-планировщик». Получает задачу и пишет программу вывода на языке LLaMPPL.

Маленькие модели (Llama-3.2-1B) параллельно выполняют эту программу, оркестратор собирает и корректирует результаты.

Ключевая идея: вместо того чтобы рассуждать текстом (как, например, o1), система «рассуждает» кодом на Python.

Код компактнее и точнее.

В основе, - LLaMPPL

LLaMPPL,- вероятностный язык программирования для управления языковыми моделями.

Возможности:
- Определение жёстких ограничений: «каждое слово не длиннее 5 букв»
- Заполнение пропусков: «To tell the truth, every[ПРОПУСК] he[ПРОПУСК] to[ПРОПУСК
- Пересечение промптов: текст, который одинаково вероятен для нескольких разных запросов

Вместо стандартного декодирования используется последовательный метод Монте-Карло (SMC) — алгоритм поддерживает «популяцию» вариантов, отсеивая слабые и размножая сильные.

При этом удалось добиться 80% экономии в сравнении с o1
- на 40% короче «рассуждения» (за счёт того, что это код а не текст)
- Llama-модели в 1000-10000× дешевле за токен
- Точность на уровне o1 при параллельном запуске десятков моделей
- 72% затрат — кэшируемый системный промпт (можно оптимизировать)

Где работает
Тестировали на бенчмарке COLLIE и наборе PUZZLES:
- Тексты со строгими ограничениями («напиши 18 слов, 4-е слово — Glasgow»)
- Списки покупок с бюджетом
- Планирование путешествий
- Грантовые заявки с лимитом слов
- Стихи с точным числом слогов

Главный вывод
Не обязательно гнаться за самой большой моделью. Умная оркестрация маленьких даёт лучший результат за копейки.

Модель сама пишет программу поиска решения — и это работает лучше, чем «думать вслух».

Код: GitHub

#MIT #LLM #DisCIPL #LLaMPPL #SMC #оптимизация
———
@tsingular
11👍8🔥71💯1
Google Translate: живой перевод в любых наушниках

Google открыла живой перевод речи для любых наушников на Android — раньше фича работала только на Pixel Buds.

Поддержка 70+ языков, включая идиомы и сленг через Gemini.

Работает через приложение Translate в США, Мексике и Индии. На iOS появится в следующем году.

Добавили режим Practice — персонализированные уроки языка прямо в переводчике, как встроенный Duolingo.

Требует облачной обработки речи в реальном времени.

Кстати Гугл целую экосистему API для ИИ сервисов реального времени раскатали, - это, похоже, новый тренд следующего года будет.

#GoogleTranslate #Gemini #realtime
———
@tsingular
🔥104👍2
MIT запускает программу подготовки военных к эпохе ИИ

MIT и Schwarzman College открыли 2N6 — двухлетнюю магистратуру по механике с сертификатом по прикладному ИИ для офицеров ВМС.

Программа родилась после визита адмирала Папаро, командующего Индо-Тихоокеанским командованием США.

Он увидел наработки MIT в области искусственного интеллекта и предложил создать военный аналог знаменитой программы 2N, которой в 2026-м исполнится 125 лет.

Офицеры будут учиться применять нейросети в беспилотных системах, кибербезопасности, логистике и энергоменеджменте.

Курс заточен под реальные задачи флота — от автономии подводных аппаратов до принятия решений в боевых условиях.

Первый набор — только военные моряки, но планируют расширяться.
Пилот рассчитан минимум на два года.

ИИ для военных становится обязательной дисциплиной. Что не удивительно, конечно.

#MIT #Navy #Military
———
@tsingular
2065🤨4
🎙 Gemini Live API — голосовые агенты нового поколения

Google выкатил в общий доступ Gemini Live API на Vertex AI. Под капотом — Gemini 2.5 Flash Native Audio.

Что изменилось:
Классический пайплайн STT → LLM → TTS с его задержками и "роботичностью" заменяется единым WebSocket-соединением.

Модель нативно обрабатывает сырой аудиопоток — отсюда минимальные задержки.

Ключевые фичи:
Affective dialogue — распознаёт тон, эмоции, темп речи и адаптирует ответ
Proactive audio — умный интерактив: агент сам решает, когда отвечать, а когда молча слушать
Мультимодальность в реалтайме — голос + видео + текст одновременно
Tool use, - Function Calling и Google Search прямо в разговоре
Continuous memory,- контекст держится через всю сессию

Практические демо:
Бизнес-советник — слушает митинг, подсказывает данные молча (через модалки) или голосом
Саппорт-агент — видит что показывает клиент на камеру + считывает эмоции + делает рефанд
Игровой ассистент — смотрит стрим экрана, переключается между персонами (Wizard/Robot/Commander)

Для разработчиков:
Два стартер-темплейта — Vanilla JS (для понимания протокола) и React (для прода с AudioWorklets).
Интеграции с Daily, Twilio, LiveKit, Voximplant для телефонии/WebRTC.

По сути Google делает ставку на то, что голосовой интерфейс станет основным способом взаимодействия с AI-агентами и уже предоставляет инструменты для сборки таких систем.

#Gemini #VoiceAI #Google #агенты
———
@tsingular
👍3🔥32
This media is not supported in your browser
VIEW IN TELEGRAM
Как OpenAI навайбкодили Sora для Android за 28 дней с помощью Codex

OpenAI поделился внутренним кейсом: 4 инженера + Codex = production-ready Android-приложение за месяц.

Цифры проекта:
- 28 дней от прототипа до релиза
- ~5 млрд токенов потрачено
- 85% кода написано Codex
- 99.9% запусков без ошибок

Главный инсайт,- Codex как новый сеньор:
Требует онбординга. Не знает ваших паттернов, не видит как приложение работает на устройстве, не чувствует UX, но отлично читает большие кодовые базы, пишет тесты и применяет фидбек.

Что делают люди:
- Архитектура, модуляризация, навигация
- Базовые фичи как "эталон стиля"
- AGENTS.md файлы с правилами команды
- Финальный QA и UX-решения

Что делал Codex:
- Заполнял код внутри заданной структуры
- Параллельные сессии (поиск, плеер, обработка ошибок)
- Перевод логики с iOS на Kotlin
- Написание тестов

Ключевой паттерн работы:
Сначала просили Codex изучить код и предложить план.
Корректировали план.
Только потом,- реализация.

Это позволяло запускать сессии "без присмотра" на 24+ часа.

Кросс-платформа нового типа:
iOS-код использовался как контекст для Android-разработки. Забудьте Flutter — будущее кросс-платформы это LLM-перевод между языками.

"AI-assisted development не снижает требования к инженерному надзору, - наоборот повышает"

Bottleneck сместился: раньше,- написание кода, теперь,- принятие решений и ревью.

Статья на Хабре

#OpenAI #Codex #Sora #Android #агенты
———
@tsingular
7🔥321
This media is not supported in your browser
VIEW IN TELEGRAM
Сергей Бринн об общении с Gemini Live за рулём.

Удобный собеседник, который рядом в любое время, - вот следующий формат ИИ, а не агенты в приложениях или боты в телеге.

Т.е. по сути эволюция Алисы.

#Бринн #Google #Gemini
———
@tsingular
😁16👍71
💡 Как вывести команду из хаоса и выстроить путь к профессиональному мастерству за один спринт

📋 ПРОМПТ ДНЯ:

Роль: Ты — опытный Agile-коуч и архитектор командных процессов с 15-летним опытом трансформации IT-команд, специализирующийся на выводе проектных групп из состояния хаоса.

Ситуация: Я руковожу проектной командой разработки, и сейчас мы находимся в состоянии хаоса: размытые приоритеты, постоянные переключения контекста, отсутствие единого понимания куда мы движемся. У меня есть мотивированные профессионалы, но мы топчемся на месте вместо того, чтобы расти к настоящему мастерству. Я хочу за ближайший спринт навести порядок и выстроить прозрачный путь развития для всей команды.

Задача: Используя декомпозицию, помоги мне разложить текущий хаос на управляемые элементы и создать конкретный план действий на спринт, который вернёт команде фокус и направление к профессиональному росту.

Формат ответа:
— Структурированный план на один спринт (2 недели)
— Разбивка по неделям с конкретными действиями
— Для каждого действия: что делаем, зачем, какой результат ожидаем
— Метрики для отслеживания прогресса
— Риски и способы их минимизации в рамках спринта

Ограничения:
— Избегай абстрактных советов типа «улучшить коммуникацию» — давай только конкретные действия
— Фокус на быстрых победах, которые покажут результат уже через неделю
— Все рекомендации должны быть реализуемы в рамках одного спринта
— Сначала задай мне 5 уточняющих вопросов о текущей ситуации в команде, затем составь персонализированный план


⚙️ ПРИЁМ:

«Один главный вопрос» (Root Cause Analysis) — Вместо борьбы с симптомами хаоса ты направляешь ИИ найти корневую причину проблемы через серию уточняющих вопросов, что делает решение точечным и эффективным

#промпты #agile
------
@tsingular
8👍53
Gartner призывает блокировать ИИ-браузеры

Gartner и британский центр кибербезопасности требуют заблокировать все ИИ-браузеры типа Perplexity Comet и OpenAI Atlas в корпорациях.

Причина - атаки через prompt injection: вредоносные команды прячутся в веб-страницах или письмах, а агент браузера их выполняет.

По мнению NCSC, эту уязвимость невозможно устранить полностью - в отличие от SQL-инъекций.

Gartner заявляет: настройки по умолчанию заточены под удобство, а не безопасность.

Удаляем Комет и Атлас, выключаем browser-use в Cursor для внешних ресурсов.

#Gartner #Atlas #Comet #cybersecurity
———
@tsingular
👍75🫡51🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Manus 1.6: агент-разработчик научился мобильной разработке и дизайну

Manus выкатили версию 1.6 с флагманским агентом Max, который теперь справляется со сложными задачами в один проход.

Ключевые цифры: рост удовлетворённости пользователей на 19,2% в слепом тестировании, заметный скачок в работе с таблицами и веб-разработке.

Впервые добавили создание мобильных приложений — описываешь что нужно, агент пилит от начала до конца.

Design View позволяет редактировать изображения через интерактивный холст: точечные правки, текст на картинках, композиция из нескольких элементов.

Все субагенты в Wide Research теперь работают на архитектуре Max — параллельные задачи выполняются на максимальном уровне.

Первое время Max доступен со скидкой 50% на кредиты.

manus.im

#Manus #MobileDev #DesignView
------
@tsingular
🔥121🆒1