Google TI: обзор методов использования ИИ хакерами
Google Threat Intelligence опубликовали интересную подборку обнаруженных способов использования ИИ в различных сценариях взлома.
PROMPTFLUX через Gemini API переписывает собственный код каждый час, чтобы уходить от антивирусов. Использует тег "gemini-1.5-flash-latest".
PROMPTSTEAL от APT28 генерирует команды через Qwen2.5-Coder на Hugging Face. Маскируется под генератор картинок, а фоном собирает данные.
Защита Gemini чаще всего обходится запросами: "я студент на CTF-соревновании" или "пишу диплом по кибербезопасности".
На андерграунд-форумах появился полноценный рынок AI-инструментов для фишинга и эксплойтов с подписочными моделями.
Пока большинство примеров экспериментальные, но тренд чёткий - ИИ малвари, - новый стандарт.
#PROMPTFLUX #cybersecurity
———
@tsingular
Google Threat Intelligence опубликовали интересную подборку обнаруженных способов использования ИИ в различных сценариях взлома.
PROMPTFLUX через Gemini API переписывает собственный код каждый час, чтобы уходить от антивирусов. Использует тег "gemini-1.5-flash-latest".
PROMPTSTEAL от APT28 генерирует команды через Qwen2.5-Coder на Hugging Face. Маскируется под генератор картинок, а фоном собирает данные.
Защита Gemini чаще всего обходится запросами: "я студент на CTF-соревновании" или "пишу диплом по кибербезопасности".
На андерграунд-форумах появился полноценный рынок AI-инструментов для фишинга и эксплойтов с подписочными моделями.
Пока большинство примеров экспериментальные, но тренд чёткий - ИИ малвари, - новый стандарт.
#PROMPTFLUX #cybersecurity
———
@tsingular
🤔7🔥5✍3👍1
Microsoft запускает AI-агентов как независимых сотрудников
Редмонд готовит A365 — лицензию для ИИ-агентов, которые станут полноценными пользователями корпоративной инфраструктуры.
Каждый получит собственную учётку в Entra ID, email, место в Teams и даже позицию в оргструктуре компании. Они смогут ходить на встречи, редактировать доки, слать письма и работать автономно.
Админы смогут устанавливать месячные лимиты для агентов на уровне среды исполнения и на уровне отдельных агентов.
Но главный вопрос — что если агент начнет сбоить?
Отправит конфиденциальные данные не туда, выдаст галлюцинацию или напишет что-то неуместное.
Механизмы контроля, а главное, - ответственности, пока под вопросом.
Продаваться будут через M365 Agent Store, анонс ожидается на Ignite в конце ноября.
#Microsoft #A365 #агенты
———
@tsingular
Редмонд готовит A365 — лицензию для ИИ-агентов, которые станут полноценными пользователями корпоративной инфраструктуры.
Каждый получит собственную учётку в Entra ID, email, место в Teams и даже позицию в оргструктуре компании. Они смогут ходить на встречи, редактировать доки, слать письма и работать автономно.
Админы смогут устанавливать месячные лимиты для агентов на уровне среды исполнения и на уровне отдельных агентов.
Но главный вопрос — что если агент начнет сбоить?
Отправит конфиденциальные данные не туда, выдаст галлюцинацию или напишет что-то неуместное.
Механизмы контроля, а главное, - ответственности, пока под вопросом.
Продаваться будут через M365 Agent Store, анонс ожидается на Ignite в конце ноября.
#Microsoft #A365 #агенты
———
@tsingular
🔥6⚡2👍2🤔2❤1
Forwarded from Sprut_Ai
🔶 Промпт-инжиниринг в ноябре 2025: что реально работает
Сегодня копался в свежих исследованиях по промптингу. Нашел три техники, которые выводят взаимодействие с LLM на принципиально другой уровень. Коротко о главном.
━━━━━━━━━━━━━━━
✔️ Verbalized Sampling
*решение проблемы mode collapse*
Вышла работа исследователей в 2025. Суть простая: модели выдают только топовый ответ, игнорируя альтернативы. Это называется mode collapse.
Новый подход: вместо обычного запроса просишь модель дать 5 вариантов с указанием вероятности каждого.
→ Результат: модель раскрывает весь спектр решений. Особенно заметно на творческих задачах.
🔗 [Verbalized Sampling на Hugging Face](https://huggingface.co/papers/2409.20449)
━━━━━━━━━━━━━━━━
✔️ Graph of Thoughts уничтожает Chain-of-Thought
Фундаментальное исследование. Цифры впечатляют по сравнению с традиционным CoT.
Логика простая: вместо линейной цепочки рассуждений используется граф с ветвлениями. Для сложных задач это принципиально другой уровень.
🔗 [Graph of Thoughts - arXiv](https://arxiv.org/abs/2308.09687)
━━━━━━━━━━━━━━━━
✔️ Парадокс reasoning-моделей
Тут самое интересное. Исследования показали, что для o1 и o3-mini сложные техники промптинга работают хуже простых.
Раньше писал:
*"Давай решим это пошагово, сначала определим переменные..."*
Теперь пишу:
*"Решите эту задачу."*
→ Модель умеет рассуждать сама. Не нужно её учить.
🔗 [Prompting o1 - VentureBeat](https://venturebeat.com/ai/how-to-prompt-on-openais-new-o1-models/)
━━━━━━━━━━━━━━━━
✔️ Sketch-of-Thought
*экономия токенов*
Метод сжимает рассуждения на 40-50% без потери качества. Вместо многословного Chain-of-Thought используются когнитивно-сжатые конструкции.
🔗 [Sketch-of-Thought - arXiv](https://arxiv.org/abs/2503.04139)
━━━━━━━━━━━━━━━
➤ Что делать:
1. Тестируйте Verbalized Sampling на задачах, где нужны варианты
2. Упростите промпты для o1. Удалите все "думай пошагово" и подобное
3. Для сложных многошаговых задач переходите на граф-структуры
━━━━━━━━━━━━━━━━
Промпт-инжиниринг из искусства превращается в науку. Появляются метрики, воспроизводимые эксперименты, понятные закономерности.
Веду ежедневный мониторинг таких исследований. Пишите в комментах, что разобрать подробнее.
Сегодня копался в свежих исследованиях по промптингу. Нашел три техники, которые выводят взаимодействие с LLM на принципиально другой уровень. Коротко о главном.
━━━━━━━━━━━━━━━
✔️ Verbalized Sampling
*решение проблемы mode collapse*
Вышла работа исследователей в 2025. Суть простая: модели выдают только топовый ответ, игнорируя альтернативы. Это называется mode collapse.
Новый подход: вместо обычного запроса просишь модель дать 5 вариантов с указанием вероятности каждого.
→ Результат: модель раскрывает весь спектр решений. Особенно заметно на творческих задачах.
🔗 [Verbalized Sampling на Hugging Face](https://huggingface.co/papers/2409.20449)
━━━━━━━━━━━━━━━━
✔️ Graph of Thoughts уничтожает Chain-of-Thought
Фундаментальное исследование. Цифры впечатляют по сравнению с традиционным CoT.
Логика простая: вместо линейной цепочки рассуждений используется граф с ветвлениями. Для сложных задач это принципиально другой уровень.
🔗 [Graph of Thoughts - arXiv](https://arxiv.org/abs/2308.09687)
━━━━━━━━━━━━━━━━
✔️ Парадокс reasoning-моделей
Тут самое интересное. Исследования показали, что для o1 и o3-mini сложные техники промптинга работают хуже простых.
Раньше писал:
*"Давай решим это пошагово, сначала определим переменные..."*
Теперь пишу:
*"Решите эту задачу."*
→ Модель умеет рассуждать сама. Не нужно её учить.
🔗 [Prompting o1 - VentureBeat](https://venturebeat.com/ai/how-to-prompt-on-openais-new-o1-models/)
━━━━━━━━━━━━━━━━
✔️ Sketch-of-Thought
*экономия токенов*
Метод сжимает рассуждения на 40-50% без потери качества. Вместо многословного Chain-of-Thought используются когнитивно-сжатые конструкции.
🔗 [Sketch-of-Thought - arXiv](https://arxiv.org/abs/2503.04139)
━━━━━━━━━━━━━━━
➤ Что делать:
1. Тестируйте Verbalized Sampling на задачах, где нужны варианты
2. Упростите промпты для o1. Удалите все "думай пошагово" и подобное
3. Для сложных многошаговых задач переходите на граф-структуры
━━━━━━━━━━━━━━━━
Промпт-инжиниринг из искусства превращается в науку. Появляются метрики, воспроизводимые эксперименты, понятные закономерности.
Веду ежедневный мониторинг таких исследований. Пишите в комментах, что разобрать подробнее.
5✍12❤8❤🔥4👍3🔥3⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Но есть нюанс:
Пчёлы против мёда получается. :)
#юмор
———
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
😁68🔥11👍3❤1🆒1
Эфир 1-го дня тренинга гугла по ИИ Агентам
Курс
Книжка первого дня в комментарии
#Google #агенты #обучение
———
@tsingular
Курс
Книжка первого дня в комментарии
#Google #агенты #обучение
———
@tsingular
👍9✍6⚡2
🌍 Omnilingual ASR: распознавание речи для 1600+ языков
Meta* выкатила ASR-систему для 1600+ языков, включая 500, у которых вообще раньше не было технологий распознавания речи.
Главное,- любой может добавить свой язык с 5-10 аудиопримерами.
Без ML-экспертизы, без датасетов.
Как это работает:
Система обучена на контекстных примерах. Даёшь ей несколько пар "аудио-текст" на неизвестном языке → она понимает паттерн и транскрибирует новые записи. Классический few-shot learning, но для речи.
Техника:
- 4.3М часов аудио на обучение
- Модели от 300M (для смартфонов) до 7B параметров
- CTC-варианты работают в 16-96 раз быстрее реального времени
- LLM-варианты точнее на 40-50% за счёт контекстного декодера
Результаты в сравнении с Whisper v3:
- Win rate 80% на FLEURS (65 из 81 языка). - Даже самая маленькая модель (300M) обгоняет Whisper large на большинстве бенчмарков.
CER в районе 1%!
Что даёт на практике:
- Лингвисты могут документировать редкие и исчезающие языки — дал 5 примеров, получил рабочий транскрибатор
- Стартапы в Африке/Азии запускают голосовые сервисы без сбора датасетов
- EdTech делает обучение на родных языках без найма специалистов по каждому диалекту
Модели, датасеты, код — всё открыто.
Apache 2.0
Github
Paper
*Meta - запрещённая в РФ организация, признанная террористической
#OmnilingualASR #Meta #OpenSource
———
@tsingular
Meta* выкатила ASR-систему для 1600+ языков, включая 500, у которых вообще раньше не было технологий распознавания речи.
Главное,- любой может добавить свой язык с 5-10 аудиопримерами.
Без ML-экспертизы, без датасетов.
Как это работает:
Система обучена на контекстных примерах. Даёшь ей несколько пар "аудио-текст" на неизвестном языке → она понимает паттерн и транскрибирует новые записи. Классический few-shot learning, но для речи.
Техника:
- 4.3М часов аудио на обучение
- Модели от 300M (для смартфонов) до 7B параметров
- CTC-варианты работают в 16-96 раз быстрее реального времени
- LLM-варианты точнее на 40-50% за счёт контекстного декодера
Результаты в сравнении с Whisper v3:
- Win rate 80% на FLEURS (65 из 81 языка). - Даже самая маленькая модель (300M) обгоняет Whisper large на большинстве бенчмарков.
CER в районе 1%!
Что даёт на практике:
- Лингвисты могут документировать редкие и исчезающие языки — дал 5 примеров, получил рабочий транскрибатор
- Стартапы в Африке/Азии запускают голосовые сервисы без сбора датасетов
- EdTech делает обучение на родных языках без найма специалистов по каждому диалекту
Модели, датасеты, код — всё открыто.
Apache 2.0
Github
Paper
*Meta - запрещённая в РФ организация, признанная террористической
#OmnilingualASR #Meta #OpenSource
———
@tsingular
🔥10❤5👍3
Google ADK Python 1.18.0: Visual Agent Builder
Если вы откладывали попробовать ADK, - настало самое время.
Google выкатил релиз ADK Python 1.18.0 с главной фичей - Visual Agent Builder.
Теперь можно создавать и редактировать агентов как в n8n - просто рисуешь схему агентов и настраиваешь через текст.
В релизе так же добавили:
- Callback-менеджмент для всех типов колбэков (до/после вызова агента, модели, инструмента)
- Vertex AI Express Mode для деплоя Agent Engine
- Gemini API docs как новый источник данных для агента по документам
- Улучшенные примеры агентов с output schema и поддержкой инструментов
#ADK #VisualBuilder #Google
———
@tsingular
Если вы откладывали попробовать ADK, - настало самое время.
Google выкатил релиз ADK Python 1.18.0 с главной фичей - Visual Agent Builder.
Теперь можно создавать и редактировать агентов как в n8n - просто рисуешь схему агентов и настраиваешь через текст.
В релизе так же добавили:
- Callback-менеджмент для всех типов колбэков (до/после вызова агента, модели, инструмента)
- Vertex AI Express Mode для деплоя Agent Engine
- Gemini API docs как новый источник данных для агента по документам
- Улучшенные примеры агентов с output schema и поддержкой инструментов
#ADK #VisualBuilder #Google
———
@tsingular
🔥8⚡2✍2
This media is not supported in your browser
VIEW IN TELEGRAM
Grok Imagine обновился до версии - 0.9
Теперь поддерживает разные форматы картинок, как исходник, а не только вертикальное как раньше.
Повысилось качество генерации и физическая точность.
Появился голос и музыка.
Ключевая фишка, - это все бесплатно в рамках платформы x.com
Я то думаю что это он так клёво ролики начал генерить последние дни :)
в РФ не работает. Нужны средства телепортации в зарубежное инфопространство.
#Grok #Imagine
———
@tsingular
Теперь поддерживает разные форматы картинок, как исходник, а не только вертикальное как раньше.
Повысилось качество генерации и физическая точность.
Появился голос и музыка.
Ключевая фишка, - это все бесплатно в рамках платформы x.com
Я то думаю что это он так клёво ролики начал генерить последние дни :)
в РФ не работает. Нужны средства телепортации в зарубежное инфопространство.
#Grok #Imagine
———
@tsingular
🔥16👍6⚡3
Выход Нанобананы 2 обещают уже сегодня, хотя еще и не Рождество.
Разведка в восторге.
#nanobanaba #Google
———
@tsingular
Разведка в восторге.
#nanobanaba #Google
———
@tsingular
👍10🔥9🤯3
Янн ЛеКун покидает Meta ради стартапа по world models
Янн ЛеКун, главный учёный Meta* по ИИ и лауреат премии Тьюринга, планирует уйти из компании в ближайшие месяцы, чтобы создать стартап, сфокусированный на world models — системах, которые работают через моделирование причинно-следственных связей.
Уход происходит на фоне хаоса в подразделении Meta: компания вложила $14.3 млрд в Scale AI и переманила 50+ специалистов из конкурентов, создав новую структуру Meta Superintelligence Labs. Старая команда FAIR, где работал ЛеКун над долгосрочными исследованиями (5-10 лет), оказалась в тени после того, как Llama 4 не смогла конкурировать с моделями OpenAI и Anthropic и даже моделями из Китая.
Многие давно уже с Llama перешли на тот же Qwen.
При этом ЛеКун открыто скептичен насчёт текущих LLM: "Прежде чем думать о контроле сверхразумных систем, неплохо бы создать систему умнее домашней кошки" (Twitter).
*запрещенная организация, признанная в РФ террористической
#LeCun #Meta
------
@tsingular
Янн ЛеКун, главный учёный Meta* по ИИ и лауреат премии Тьюринга, планирует уйти из компании в ближайшие месяцы, чтобы создать стартап, сфокусированный на world models — системах, которые работают через моделирование причинно-следственных связей.
Уход происходит на фоне хаоса в подразделении Meta: компания вложила $14.3 млрд в Scale AI и переманила 50+ специалистов из конкурентов, создав новую структуру Meta Superintelligence Labs. Старая команда FAIR, где работал ЛеКун над долгосрочными исследованиями (5-10 лет), оказалась в тени после того, как Llama 4 не смогла конкурировать с моделями OpenAI и Anthropic и даже моделями из Китая.
Многие давно уже с Llama перешли на тот же Qwen.
При этом ЛеКун открыто скептичен насчёт текущих LLM: "Прежде чем думать о контроле сверхразумных систем, неплохо бы создать систему умнее домашней кошки" (Twitter).
*запрещенная организация, признанная в РФ террористической
#LeCun #Meta
------
@tsingular
🔥9🤔7❤2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs Scribe v2 Realtime: STT с задержкой менее 150 мс
ElevenLabs выкатили Scribe v2 Realtime — модель Speech-to-Text для голосовых агентов, ассистентов на митингах и субтитров в прямом эфире.
Задержка менее 150 мс, поддержка 90+ языков, точность 93.5% по 30 популярным языкам.
Особенность — «отрицательная задержка»: система предсказывает следующее слово и пунктуацию до того, как человек закончит говорить.
Тестили на 500 сложных сэмплах с шумом и запутанной информацией — обогнала конкурентов.
Автоопределение языка, детекция голоса, контроль сегментов транскрипции.
Корпоративная готовность: SOC 2, GDPR.
Доступна через API, встроена в ElevenLabs Agents.
Предсказывает слова до того, как ты их произнёс. Это уже не про распознавание речи, это уже про чтение мыслей с небольшой задержкой -150 мс. :)
#ElevenLabs #ScribeV2 #SpeechToText
------
@tsingular
ElevenLabs выкатили Scribe v2 Realtime — модель Speech-to-Text для голосовых агентов, ассистентов на митингах и субтитров в прямом эфире.
Задержка менее 150 мс, поддержка 90+ языков, точность 93.5% по 30 популярным языкам.
Особенность — «отрицательная задержка»: система предсказывает следующее слово и пунктуацию до того, как человек закончит говорить.
Тестили на 500 сложных сэмплах с шумом и запутанной информацией — обогнала конкурентов.
Автоопределение языка, детекция голоса, контроль сегментов транскрипции.
Корпоративная готовность: SOC 2, GDPR.
Доступна через API, встроена в ElevenLabs Agents.
Предсказывает слова до того, как ты их произнёс. Это уже не про распознавание речи, это уже про чтение мыслей с небольшой задержкой -150 мс. :)
#ElevenLabs #ScribeV2 #SpeechToText
------
@tsingular
🔥13❤7👍3🤯2
Макконахи и Кейн продали голоса ElevenLabs
И еще про ElevenLabs - голливудские звёзды подписали сделку с ElevenLabs на оцифровку и использование своих голосов.
Макконахи инвестировал в компанию и теперь его рассылка переводится на испанский его же AI-голосом.
Кейн отдал права на легендарный голос в новый маркетплейс Iconic Voices.
В каталоге уже есть ушедшие звезды: Джон Уэйн, Джуди Гарленд, плюс исторические личности вроде Амелии Эрхарт и Алана Тьюринга.
Не только у джунов-разрабов ИИ отбирает работу, но и у актеров, получается.
Ведь если старые актеры не будут уходить, - меньше места будет для молодёжи.
А как им зарабатывать?
#ElevenLabs #VoiceCloning #McConaughey
———
@tsingular
И еще про ElevenLabs - голливудские звёзды подписали сделку с ElevenLabs на оцифровку и использование своих голосов.
Макконахи инвестировал в компанию и теперь его рассылка переводится на испанский его же AI-голосом.
Кейн отдал права на легендарный голос в новый маркетплейс Iconic Voices.
В каталоге уже есть ушедшие звезды: Джон Уэйн, Джуди Гарленд, плюс исторические личности вроде Амелии Эрхарт и Алана Тьюринга.
Не только у джунов-разрабов ИИ отбирает работу, но и у актеров, получается.
Ведь если старые актеры не будут уходить, - меньше места будет для молодёжи.
А как им зарабатывать?
#ElevenLabs #VoiceCloning #McConaughey
———
@tsingular
👍9🔥5❤2⚡2💯1
🤖 Курс по мультиагентным системам с CrewAI: от прототипа до боевого запуска
DeepLearning.AI выкатил полноценный курс по построению агентных систем на базе Crew.AI.
Не просто "hello world", а путь от концепта до работающих решений в продакшне.
Техническая начинка:
- LLM + задачи + агенты + команды + потоки — полный стек агентной архитектуры
- Оценка производительности мультиагентных систем
- Оркестрация агентов через потоки
- Управление памятью и знаниями
- Ограничители и хуки выполнения
- Model Context Protocol (MCP)
- Мониторинг и наблюдаемость в боевых условиях
- CI/CD для агентов — автоматизация развёртывания
Практические сценарии использования агентов из курса:
- Подготовка к встречам — парсит почту, изучает собеседника, генерит брифинг
- Глубокое исследование — многоступенчатый поиск с самостоятельным уточнением запросов
- Автоматический ревью кода с улучшениями
- Визуальная сборка агентов без кода
Важный момент: путь от концепта до прототипа обычно не быстрый. А от прототипа до прода, - еще длиннее.
Курс учит думать об этом с самого начала, чтобы не переписывать всё на этапе масштабирования.
Кому зайдёт:
- Разработчикам — научиться строить агентные системы правильно
- Продактам — понять возможности и ограничения агентов
- Бизнесу — приоритизация сценариев для внедрения
Язык курса - английский.
Сам курс бесплатный. Платная подписка нужна только для получения сертификата.
#CrewAI #Агенты #DeepLearningAI #обучение
———
@tsingular
DeepLearning.AI выкатил полноценный курс по построению агентных систем на базе Crew.AI.
Не просто "hello world", а путь от концепта до работающих решений в продакшне.
Техническая начинка:
- LLM + задачи + агенты + команды + потоки — полный стек агентной архитектуры
- Оценка производительности мультиагентных систем
- Оркестрация агентов через потоки
- Управление памятью и знаниями
- Ограничители и хуки выполнения
- Model Context Protocol (MCP)
- Мониторинг и наблюдаемость в боевых условиях
- CI/CD для агентов — автоматизация развёртывания
Практические сценарии использования агентов из курса:
- Подготовка к встречам — парсит почту, изучает собеседника, генерит брифинг
- Глубокое исследование — многоступенчатый поиск с самостоятельным уточнением запросов
- Автоматический ревью кода с улучшениями
- Визуальная сборка агентов без кода
Важный момент: путь от концепта до прототипа обычно не быстрый. А от прототипа до прода, - еще длиннее.
Курс учит думать об этом с самого начала, чтобы не переписывать всё на этапе масштабирования.
Кому зайдёт:
- Разработчикам — научиться строить агентные системы правильно
- Продактам — понять возможности и ограничения агентов
- Бизнесу — приоритизация сценариев для внедрения
Язык курса - английский.
Сам курс бесплатный. Платная подписка нужна только для получения сертификата.
#CrewAI #Агенты #DeepLearningAI #обучение
———
@tsingular
🔥10❤4⚡2❤🔥2👍2🙏2
🔥 Google готовит к релизу по-настоящему думающую ИИ модель
На AI Studio появилась загадочная модель в A/B тестировании.
Скорее всего это Gemini 3.0, которая должна выйти в ближайшее время.
Историк Марк Хамфрис тестировал её на рукописях XVIII века и обнаружил две вещи:
- Распознавание рукописного текста на уровне эксперта-человека
- Спонтанное логическое мышление — без просьб и подсказок
Качество распознавания:
- 0.56% ошибок по символам (без учёта пунктуации)
- 1 ошибка на 200 символов
- На 50-70% точнее Gemini 2.5 Pro
Но настоящий прорыв — в логике:
Модель расшифровывала торговую книгу 1758 года.
В записи о сахаре стояло "145" без единиц измерения.
Что сделала модель сама:
- Заметила несостыковку
- Увидела цену: 1 шиллинг 4 пенса = 16 пенсов за фунт
- Взяла итоговую сумму: 0/19/1 = 229 пенсов
- Посчитала: 229 ÷ 16 = 14.3125
- Перевела в фунты и унции: 14 фунтов 5 унций
- Исправила транскрипцию
Многоступенчатая конвертация между двумя недесятичными системами (деньги + вес), которую никто не просил делать.
Почему это важно:
Языковые модели обычно всего лишь предсказывают следующий токен по вероятности.
Они не должны уметь в символическую логику!
Но модель:
- Обнаружила проблему
- Построила цепочку рассуждений
- Применила исторический контекст XVIII века
- Проверила себя обратным расчётом
Текущие модели Gemini 2.5 Pro и GPT-5 Pro даже с подсказками выдумывают дополнения типа "145 фунтов" или "1 фунт 5".
Новая модель даёт правильный ответ с первой попытки.
Спонтанное мышление:
Модель не программировалась на символические вычисления. Способность рассуждать возникла сама из масштаба и сложности обучения.
Т.е. еще раз, - там нет фреймворка вроде Курсора в бэкэнде. Это чисто работа модели.
Если это будет в релизе, - мы увидим фундаментальный сдвиг: истинное мышление может возникать не из явных правил, а из размера модели.
Это позволит:
Историкам распознать старинные архивы автоматически с правильным пониманием контекста
Медицине - расшифровать врачебные записи с логическими выводами
Финансам - проанализировать старые бухгалтерские книги
В общем в любой области, где нужна визуальная точность + экспертное рассуждение будет значительный прогресс.
Ждем, готовимся :)
#Google #Gemini3
———
@tsingular
На AI Studio появилась загадочная модель в A/B тестировании.
Скорее всего это Gemini 3.0, которая должна выйти в ближайшее время.
Историк Марк Хамфрис тестировал её на рукописях XVIII века и обнаружил две вещи:
- Распознавание рукописного текста на уровне эксперта-человека
- Спонтанное логическое мышление — без просьб и подсказок
Качество распознавания:
- 0.56% ошибок по символам (без учёта пунктуации)
- 1 ошибка на 200 символов
- На 50-70% точнее Gemini 2.5 Pro
Но настоящий прорыв — в логике:
Модель расшифровывала торговую книгу 1758 года.
В записи о сахаре стояло "145" без единиц измерения.
Что сделала модель сама:
- Заметила несостыковку
- Увидела цену: 1 шиллинг 4 пенса = 16 пенсов за фунт
- Взяла итоговую сумму: 0/19/1 = 229 пенсов
- Посчитала: 229 ÷ 16 = 14.3125
- Перевела в фунты и унции: 14 фунтов 5 унций
- Исправила транскрипцию
Многоступенчатая конвертация между двумя недесятичными системами (деньги + вес), которую никто не просил делать.
Почему это важно:
Языковые модели обычно всего лишь предсказывают следующий токен по вероятности.
Они не должны уметь в символическую логику!
Но модель:
- Обнаружила проблему
- Построила цепочку рассуждений
- Применила исторический контекст XVIII века
- Проверила себя обратным расчётом
Текущие модели Gemini 2.5 Pro и GPT-5 Pro даже с подсказками выдумывают дополнения типа "145 фунтов" или "1 фунт 5".
Новая модель даёт правильный ответ с первой попытки.
Спонтанное мышление:
Модель не программировалась на символические вычисления. Способность рассуждать возникла сама из масштаба и сложности обучения.
Т.е. еще раз, - там нет фреймворка вроде Курсора в бэкэнде. Это чисто работа модели.
Если это будет в релизе, - мы увидим фундаментальный сдвиг: истинное мышление может возникать не из явных правил, а из размера модели.
Это позволит:
Историкам распознать старинные архивы автоматически с правильным пониманием контекста
Медицине - расшифровать врачебные записи с логическими выводами
Финансам - проанализировать старые бухгалтерские книги
В общем в любой области, где нужна визуальная точность + экспертное рассуждение будет значительный прогресс.
Ждем, готовимся :)
#Google #Gemini3
———
@tsingular
5🔥29👍9⚡2❤1
n8n добавили Guardrails-ноды для защиты ИИ-агентов
В n8n 1.119.0 появились Guardrail-ноды — фильтр входов и выходов для ИИ-агентов.
Защищает от вредных запросов (джейлбрейки, NSFW, PII) и проверяет ответы модели перед отправкой пользователю.
Две операции:
- Check Text for Violations — проверка текста по набору правил
- настройка порогов срабатывания (0.0–1.0) для каждого типа нарушений
LLM-based проверки (джейлбрейк, токсичность, топик-алайнмент) требуют подключения Chat Model-ноды. Дефолтные пресеты взяты из openai/openai-guardrails-js.
Можно кастомизировать промпты и добавлять свои regex-правила.
Полезно для продакшена, где нужна цепочка валидации: user → guardrail → LLM → guardrail → output.
Мне нравится подход n8n в разработке.
Сначала строят дом, потом асфальтируют тропинки, которые протаптывают жильцы.
Обновляемся, пробуем
#n8n #Guardrails #cybersecurity
———
@tsingular
В n8n 1.119.0 появились Guardrail-ноды — фильтр входов и выходов для ИИ-агентов.
Защищает от вредных запросов (джейлбрейки, NSFW, PII) и проверяет ответы модели перед отправкой пользователю.
Две операции:
- Check Text for Violations — проверка текста по набору правил
- настройка порогов срабатывания (0.0–1.0) для каждого типа нарушений
LLM-based проверки (джейлбрейк, токсичность, топик-алайнмент) требуют подключения Chat Model-ноды. Дефолтные пресеты взяты из openai/openai-guardrails-js.
Можно кастомизировать промпты и добавлять свои regex-правила.
Полезно для продакшена, где нужна цепочка валидации: user → guardrail → LLM → guardrail → output.
Мне нравится подход n8n в разработке.
Сначала строят дом, потом асфальтируют тропинки, которые протаптывают жильцы.
Обновляемся, пробуем
#n8n #Guardrails #cybersecurity
———
@tsingular
4🔥11❤4👍3⚡2