NuExtract 2.0 превзошёл GPT-4 в извлечении данных
Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.
Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.
Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.
Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.
#NuExtract #DataExtraction #OpenSource
------
@tsingular
Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.
Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.
Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.
Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.
#NuExtract #DataExtraction #OpenSource
------
@tsingular
🔥5✍3❤2⚡2
NVIDIA выпустила семейство OpenReasoning-Nemotron для решения сложных задач
Четыре модели размером от 1.5B до 32B параметров специально обучены для математики, программирования и естественных наук. Основаны на Qwen2.5 и дообучены на 5 миллионах ответов от DeepSeek R1.
Главная особенность — режим GenSelect, который запускает несколько параллельных генераций и выбирает лучшее решение. В этом режиме 32B модель превосходит O3 (High) на математических и кодовых бенчмарках.
Интересно, что модели обучались только на математических задачах, но способности автоматически перенеслись на код и науку. Все модели доступны под лицензией CC-BY-4.0 для коммерческого и исследовательского использования.
#NVIDIA #reasoning #opensource
------
@tsingular
Четыре модели размером от 1.5B до 32B параметров специально обучены для математики, программирования и естественных наук. Основаны на Qwen2.5 и дообучены на 5 миллионах ответов от DeepSeek R1.
Главная особенность — режим GenSelect, который запускает несколько параллельных генераций и выбирает лучшее решение. В этом режиме 32B модель превосходит O3 (High) на математических и кодовых бенчмарках.
Интересно, что модели обучались только на математических задачах, но способности автоматически перенеслись на код и науку. Все модели доступны под лицензией CC-BY-4.0 для коммерческого и исследовательского использования.
#NVIDIA #reasoning #opensource
------
@tsingular
👍4❤2🔥1
GitHub Models решает проблему инференса для open source AI проектов
GitHub запустил бесплатный API для инференса популярных моделей - GPT-4o, DeepSeek-R1, Llama 3.
Проблема была в том, что open source проекты постоянно спотыкались о настройку инференса - нужны были ключи API, локальные модели жрали ресурсы, конфигурация отнимала время.
Теперь достаточно GitHub токена и REST эндпоинта, совместимого с OpenAI спецификацией. Никакой дополнительной настройки.
Интеграция с GitHub Actions позволяет автоматизировать AI фичи прямо в CI/CD пайплайнах. Есть бесплатый тир с опцией масштабирования.
Поддерживаются multiple SDK без изменений кода - просто меняешь endpoint.
Удобно. Теперь любой студент может прикрутить ИИ к своему поектику не покидая платформу.
Вообще Гитхаб превращается в пространство самообновляющегося оупенсорса с ИИ мультиагентами разрабами.
#GitHub #inference #opensource
------
@tsingular
GitHub запустил бесплатный API для инференса популярных моделей - GPT-4o, DeepSeek-R1, Llama 3.
Проблема была в том, что open source проекты постоянно спотыкались о настройку инференса - нужны были ключи API, локальные модели жрали ресурсы, конфигурация отнимала время.
Теперь достаточно GitHub токена и REST эндпоинта, совместимого с OpenAI спецификацией. Никакой дополнительной настройки.
Интеграция с GitHub Actions позволяет автоматизировать AI фичи прямо в CI/CD пайплайнах. Есть бесплатый тир с опцией масштабирования.
Поддерживаются multiple SDK без изменений кода - просто меняешь endpoint.
Удобно. Теперь любой студент может прикрутить ИИ к своему поектику не покидая платформу.
Вообще Гитхаб превращается в пространство самообновляющегося оупенсорса с ИИ мультиагентами разрабами.
#GitHub #inference #opensource
------
@tsingular
❤3⚡2👍2🔥2
Forwarded from Анализ данных (Data analysis)
MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.
Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»
⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced
📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.
💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.
📌 GitHub
#MongoDB #AItools #OpenSource #MCP
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✍12🔥5❤1
🚀 Seed-OSS-36B-Instruct от ByteDance — новая открытая модель с контролем глубины мышления
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
⚡3👍2🔥2❤1
🇨🇳 Китай захватил топ OpenSource на designarena.ai
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
🔥10🤯4⚡2❤1
Forwarded from Machinelearning
400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.
📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом
⚡ По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.
@ai_machinelearning_big_data
#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤5✍5⚡1👍1
MoonshotAI выпустила Kimi-K2-Instruct-0905
Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)
Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны
По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.
Попробовать можно тут:
https://www.kimi.com/
GitHub
Hugging Face.
Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)
#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
Китайский стартап обновил свою открытую модель с триллионом параметров. (1 терабайт VRAM для запуска полной версии)
Ключевые улучшения:
- контекстное окно расширилось до 256k токенов
- 53.7% Pass@1 на LiveCodeBench v6
- 69.2% SWE Bench
- архитектура MoE с 32 миллиардами активных параметров
- лицензия Modified MIT - веса и код доступны
По результатам тестирования конкурирует с GPT-4.1 и Claude Sonnet-4.
Попробовать можно тут:
https://www.kimi.com/
GitHub
Hugging Face.
Китайцы теперь смело могут сказать, - Соннет4 есть у нас дома :)
#Kimi #MoonshotAI #OpenSource #Китай
———
@tsingular
⚡5👍4❤2✍1
Media is too big
VIEW IN TELEGRAM
🔥 HunyuanImage 3.0 — прорыв в open-source генерации изображений
Tencent выпустили самую мощную открытую модель генерации изображений с 80 млрд параметров (13 млрд активных). Качество сопоставимо с топовыми закрытыми решениями.
Техническая революция:
- MoE архитектура с Transfusion - глубокая интеграция Diffusion + LLM в единую систему
- Массивный датасет: 5 млрд изображений + 6 трлн токенов текста
- Понимание контекста: промпты до 1000 слов с пониманием модели мира
- Точная генерация текста внутри изображений
- Основана на Hunyuan-A13B - мультимодальной LLM
Сейчас доступен только режим text-to-image. В планах: image-to-image, редактирование, мультитерновые диалоги.
Пробуем тут:
https://hunyuan.tencent.com/image/zh
GitHub
HuggingFace (полный вес 170 гигов)
#HunyuanImage #OpenSource #TextToImage
———
@tsingular
Tencent выпустили самую мощную открытую модель генерации изображений с 80 млрд параметров (13 млрд активных). Качество сопоставимо с топовыми закрытыми решениями.
Техническая революция:
- MoE архитектура с Transfusion - глубокая интеграция Diffusion + LLM в единую систему
- Массивный датасет: 5 млрд изображений + 6 трлн токенов текста
- Понимание контекста: промпты до 1000 слов с пониманием модели мира
- Точная генерация текста внутри изображений
- Основана на Hunyuan-A13B - мультимодальной LLM
Сейчас доступен только режим text-to-image. В планах: image-to-image, редактирование, мультитерновые диалоги.
Пробуем тут:
https://hunyuan.tencent.com/image/zh
GitHub
HuggingFace (полный вес 170 гигов)
#HunyuanImage #OpenSource #TextToImage
———
@tsingular
⚡3👍3❤2🔥1
Lemon AI: локальная альтернатива Manus
Hexdo выкатили Lemon AI - опенсорсный full-stack агентный фреймворк, который позиционируют как альтернативу Manus и Genspark AI.
Lemon AI умеет проводить детальные исследования, изучать сайты, писать код с использованием встроенной песочницы Code Interpreter VM для безопасного запуска, анализировать данные, - все это работает исключительно на вашем локальном железе.
Поддерживает функции планирования, действия, размышления и памяти, используя локальные LLM (например, DeepSeek, Qwen, Llama, Gemma) через Ollama, обеспечивая полную конфиденциальность и нулевую зависимость от облака.
Судя по промо ролику, - реально универсальный комбайн.
#LemonAI #OpenSource #Китай
———
@tsingular
Hexdo выкатили Lemon AI - опенсорсный full-stack агентный фреймворк, который позиционируют как альтернативу Manus и Genspark AI.
Lemon AI умеет проводить детальные исследования, изучать сайты, писать код с использованием встроенной песочницы Code Interpreter VM для безопасного запуска, анализировать данные, - все это работает исключительно на вашем локальном железе.
Поддерживает функции планирования, действия, размышления и памяти, используя локальные LLM (например, DeepSeek, Qwen, Llama, Gemma) через Ollama, обеспечивая полную конфиденциальность и нулевую зависимость от облака.
Судя по промо ролику, - реально универсальный комбайн.
#LemonAI #OpenSource #Китай
———
@tsingular
🔥10❤2⚡2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
OpenArm: открытая роборука за $6500
Команда enactic выложила полностью опенсорсный проект гуманоидной руки с семью степенями свободы.
Цена $6500 за две руки - это примерно в 10 раз дешевле промышленных аналогов.
Основная фишка - высокая податливость и безопасность при контакте с человеком. Можно использовать для телеуправления, обучения через имитацию и сбора данных в задачах с физическим взаимодействием.
Всё железо и софт открыты, есть гайд для сборки.
Скоро в каждом баре, парикмахерской и автосервисе :)
#OpenArm #Robotics #OpenSource
------
@tsingular
Команда enactic выложила полностью опенсорсный проект гуманоидной руки с семью степенями свободы.
Цена $6500 за две руки - это примерно в 10 раз дешевле промышленных аналогов.
Основная фишка - высокая податливость и безопасность при контакте с человеком. Можно использовать для телеуправления, обучения через имитацию и сбора данных в задачах с физическим взаимодействием.
Всё железо и софт открыты, есть гайд для сборки.
Скоро в каждом баре, парикмахерской и автосервисе :)
#OpenArm #Robotics #OpenSource
------
@tsingular
🔥13🆒3⚡2😁1
🛠 cc-switch: менеджер ИИ провайдеров для Claude Code/Codex
Китайцы выкатили бомбу.
Реально.
Мало того, что у них теперь надёжная репутация оупенсорсеров, так они еще и других принудительно затягивают в открытость. (не путать с пиратством :) )
На этот раз они сделали desktop-приложение, которое позволяет гибко переключаться между моделями, - облачными или локальными, для кодовых агентов, которые изначально задуманы, как закрытые, - ClaudeCode и OpenaAI Codex.
Т.е. можно подключать Kimi К2, GLM-4.6, DeepSeek, что угодно.
Проект очень активно развивается.
В версии v3.6.0, например добавили:
- MCP-менеджер — управление Model Context Protocol серверами с шаблонами
- Дублирование провайдеров + drag-n-drop сортировка
- Кастомные эндпоинты + speed-тест латентности
- Cloud-sync — можно указать Dropbox/OneDrive для синхронизации конфигов между машинами
- WSL-поддержка — авто-синк при смене директории конфига
- Импорт/экспорт + автобэкапы (10 последних)
Техника:
- Electron → Tauri 2.0 (размер ↓, старт ↑)
SSOT архитектура — все конфиги в ~/.cc-switch/config.json, при свиче пишет в live-файлы
- Атомарные записи с rollback'ом — нет полуразбитых конфигов
- 100% покрытие тестами hooks (vitest + MSW)
Что интересно, - проект спонсируется Z.ai (это которые GLM)
Ну т.е. теперь можно у себя локально поднять кодовых агентов на популярных фреймворках, но со своими моделями.
#OpenSource #ClaudeCode #Codex #ZAI #GLM #Китай
———
@tsingular
Китайцы выкатили бомбу.
Реально.
Мало того, что у них теперь надёжная репутация оупенсорсеров, так они еще и других принудительно затягивают в открытость. (не путать с пиратством :) )
На этот раз они сделали desktop-приложение, которое позволяет гибко переключаться между моделями, - облачными или локальными, для кодовых агентов, которые изначально задуманы, как закрытые, - ClaudeCode и OpenaAI Codex.
Т.е. можно подключать Kimi К2, GLM-4.6, DeepSeek, что угодно.
Проект очень активно развивается.
В версии v3.6.0, например добавили:
- MCP-менеджер — управление Model Context Protocol серверами с шаблонами
- Дублирование провайдеров + drag-n-drop сортировка
- Кастомные эндпоинты + speed-тест латентности
- Cloud-sync — можно указать Dropbox/OneDrive для синхронизации конфигов между машинами
- WSL-поддержка — авто-синк при смене директории конфига
- Импорт/экспорт + автобэкапы (10 последних)
Техника:
- Electron → Tauri 2.0 (размер ↓, старт ↑)
SSOT архитектура — все конфиги в ~/.cc-switch/config.json, при свиче пишет в live-файлы
- Атомарные записи с rollback'ом — нет полуразбитых конфигов
- 100% покрытие тестами hooks (vitest + MSW)
Что интересно, - проект спонсируется Z.ai (это которые GLM)
Ну т.е. теперь можно у себя локально поднять кодовых агентов на популярных фреймворках, но со своими моделями.
#OpenSource #ClaudeCode #Codex #ZAI #GLM #Китай
———
@tsingular
🔥13👍6 4
🌍 Omnilingual ASR: распознавание речи для 1600+ языков
Meta* выкатила ASR-систему для 1600+ языков, включая 500, у которых вообще раньше не было технологий распознавания речи.
Главное,- любой может добавить свой язык с 5-10 аудиопримерами.
Без ML-экспертизы, без датасетов.
Как это работает:
Система обучена на контекстных примерах. Даёшь ей несколько пар "аудио-текст" на неизвестном языке → она понимает паттерн и транскрибирует новые записи. Классический few-shot learning, но для речи.
Техника:
- 4.3М часов аудио на обучение
- Модели от 300M (для смартфонов) до 7B параметров
- CTC-варианты работают в 16-96 раз быстрее реального времени
- LLM-варианты точнее на 40-50% за счёт контекстного декодера
Результаты в сравнении с Whisper v3:
- Win rate 80% на FLEURS (65 из 81 языка). - Даже самая маленькая модель (300M) обгоняет Whisper large на большинстве бенчмарков.
CER в районе 1%!
Что даёт на практике:
- Лингвисты могут документировать редкие и исчезающие языки — дал 5 примеров, получил рабочий транскрибатор
- Стартапы в Африке/Азии запускают голосовые сервисы без сбора датасетов
- EdTech делает обучение на родных языках без найма специалистов по каждому диалекту
Модели, датасеты, код — всё открыто.
Apache 2.0
Github
Paper
*Meta - запрещённая в РФ организация, признанная террористической
#OmnilingualASR #Meta #OpenSource
———
@tsingular
Meta* выкатила ASR-систему для 1600+ языков, включая 500, у которых вообще раньше не было технологий распознавания речи.
Главное,- любой может добавить свой язык с 5-10 аудиопримерами.
Без ML-экспертизы, без датасетов.
Как это работает:
Система обучена на контекстных примерах. Даёшь ей несколько пар "аудио-текст" на неизвестном языке → она понимает паттерн и транскрибирует новые записи. Классический few-shot learning, но для речи.
Техника:
- 4.3М часов аудио на обучение
- Модели от 300M (для смартфонов) до 7B параметров
- CTC-варианты работают в 16-96 раз быстрее реального времени
- LLM-варианты точнее на 40-50% за счёт контекстного декодера
Результаты в сравнении с Whisper v3:
- Win rate 80% на FLEURS (65 из 81 языка). - Даже самая маленькая модель (300M) обгоняет Whisper large на большинстве бенчмарков.
CER в районе 1%!
Что даёт на практике:
- Лингвисты могут документировать редкие и исчезающие языки — дал 5 примеров, получил рабочий транскрибатор
- Стартапы в Африке/Азии запускают голосовые сервисы без сбора датасетов
- EdTech делает обучение на родных языках без найма специалистов по каждому диалекту
Модели, датасеты, код — всё открыто.
Apache 2.0
Github
Paper
*Meta - запрещённая в РФ организация, признанная террористической
#OmnilingualASR #Meta #OpenSource
———
@tsingular
🔥10❤5👍3
После выхода opensourse фреймворков для роботов их количество резко выросло.
Теперь любой автосервис может запустить производство своего робота в гараже, буквально.
🥳
#роботы #OpenSource #Китай
------
@tsingular
Теперь любой автосервис может запустить производство своего робота в гараже, буквально.
#роботы #OpenSource #Китай
------
@tsingular
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥49🤔11👾8❤5⚡1
Olmo 3: полностью открытая языковая модель от Ai2
Allen Institute for AI выкатил Olmo 3 — LLM, где открыто всё: датасеты, код тренировки, чекпоинты, логи и инструменты.
Флагман справляется с программированием, математикой и длинными контекстами. Есть версия с пошаговым рассуждением для сложных задач и лёгкая 7B-модель для слабого железа.
В комплекте:
- Dolma: микс веба, кода, книг и научных текстов
- OLMo-core: фреймворк для обучения
- Paloma: дедупликация и очистка данных
- Open Instruct: пайплайн пост-тренинга
Исследователи уже используют Olmo для отработки машинного забывания, клинического NLP и изучения динамики обучения.
Давно таких полностью открытых наборов не выходило.
Смотрим.
#Olmo #OpenSource #Ai2
------
@tsingular
Allen Institute for AI выкатил Olmo 3 — LLM, где открыто всё: датасеты, код тренировки, чекпоинты, логи и инструменты.
Флагман справляется с программированием, математикой и длинными контекстами. Есть версия с пошаговым рассуждением для сложных задач и лёгкая 7B-модель для слабого железа.
В комплекте:
- Dolma: микс веба, кода, книг и научных текстов
- OLMo-core: фреймворк для обучения
- Paloma: дедупликация и очистка данных
- Open Instruct: пайплайн пост-тренинга
Исследователи уже используют Olmo для отработки машинного забывания, клинического NLP и изучения динамики обучения.
Давно таких полностью открытых наборов не выходило.
Смотрим.
#Olmo #OpenSource #Ai2
------
@tsingular
🔥10✍4❤2⚡2
This media is not supported in your browser
VIEW IN TELEGRAM
Magentic-UI от Microsoft - локальный Manus
Майкрософт опубликовали интересный фреймворк - Magentic-UI исследовательский прототип веб-агента с человеком в контуре.
В основе AutoGen с мультиагентной оркестрацией: главный Orchestrator управляет специализированными агентами (WebSurfer, Coder, FileSurfer, UserProxy).
Взаимодействие через accessibility tree плюс скриншоты через новую модель Fara 7B.
Всё крутится в изолированных Docker-контейнерах с ограничением доступа к доменам — без утечек креденшелов и кук.
На бенчмарке WebVoyager успешность задач составила 72-82% в зависимости от модели (человек справляется на 95.7%).
Средняя задержка на действие — 6.8 секунд.
Аналог Manus от Майкрософта, получается, да еще и в оупенсорс!
#MagenticUI #AutoGen #WebAgent #Fara #opensource
———
@tsingular
Майкрософт опубликовали интересный фреймворк - Magentic-UI исследовательский прототип веб-агента с человеком в контуре.
В основе AutoGen с мультиагентной оркестрацией: главный Orchestrator управляет специализированными агентами (WebSurfer, Coder, FileSurfer, UserProxy).
Взаимодействие через accessibility tree плюс скриншоты через новую модель Fara 7B.
Всё крутится в изолированных Docker-контейнерах с ограничением доступа к доменам — без утечек креденшелов и кук.
На бенчмарке WebVoyager успешность задач составила 72-82% в зависимости от модели (человек справляется на 95.7%).
Средняя задержка на действие — 6.8 секунд.
Аналог Manus от Майкрософта, получается, да еще и в оупенсорс!
#MagenticUI #AutoGen #WebAgent #Fara #opensource
———
@tsingular
⚡3👍3
Microsoft выпустил Call-Center-AI
Майкрософт опубликовал исходники PoC системы автоматических звонков на базе Azure Communication Services (Azure Communication Services, Azure Cognitive Services и Azure OpenAI ).
Бот принимает входящие и совершает исходящие вызовы через обычные телефонные номера.
Всё работает на связке Azure Call Automation + OpenAI + распознавание речи.
Технически это SIP-маршрутизация через PSTN с лимитом в 2 одновременных исходящих звонка на номер по умолчанию.
Краткое описание системы
- Коммуникации и UX: Входящие/исходящие звонки с выделенным номером, мультиязычность, SMS-обмен данными, потоковая передача в реальном времени, восстановление после разрывов связи, сохранение истории. Доступность 24/7 для звонков низкой и средней сложности.
- ИИ и данные: Модели gpt-4.1 и gpt-4.1-nano для глубокого понимания контекста. Работа с конфиденциальными данными через RAG, понимание отраслевой терминологии, автогенерация задач, фильтрация контента, защита от взлома. Дообучение на истории диалогов, кэширование через Redis.
Кастомизация и контроль: Настраиваемые промпты, feature-флаги, переключение на оператора, запись звонков, мониторинг через Application Insights. В планах — автоколлбэки, IVR-сценарии, брендированный голос.
Инфраструктура: Azure, контейнеры, serverless — минимум обслуживания, автомасштабирование, оплата по использованию. Интеграция с Azure Communication Services, Cognitive Services и OpenAI.
Полезная демка-референс, если вы строите свои сервисы обработки звонков.
Форкаем, переписываем под свою архитектуру.
#Microsoft #CallCenter #opensource
———
@tsingular
Майкрософт опубликовал исходники PoC системы автоматических звонков на базе Azure Communication Services (Azure Communication Services, Azure Cognitive Services и Azure OpenAI ).
Бот принимает входящие и совершает исходящие вызовы через обычные телефонные номера.
Всё работает на связке Azure Call Automation + OpenAI + распознавание речи.
Технически это SIP-маршрутизация через PSTN с лимитом в 2 одновременных исходящих звонка на номер по умолчанию.
Краткое описание системы
- Коммуникации и UX: Входящие/исходящие звонки с выделенным номером, мультиязычность, SMS-обмен данными, потоковая передача в реальном времени, восстановление после разрывов связи, сохранение истории. Доступность 24/7 для звонков низкой и средней сложности.
- ИИ и данные: Модели gpt-4.1 и gpt-4.1-nano для глубокого понимания контекста. Работа с конфиденциальными данными через RAG, понимание отраслевой терминологии, автогенерация задач, фильтрация контента, защита от взлома. Дообучение на истории диалогов, кэширование через Redis.
Кастомизация и контроль: Настраиваемые промпты, feature-флаги, переключение на оператора, запись звонков, мониторинг через Application Insights. В планах — автоколлбэки, IVR-сценарии, брендированный голос.
Инфраструктура: Azure, контейнеры, serverless — минимум обслуживания, автомасштабирование, оплата по использованию. Интеграция с Azure Communication Services, Cognitive Services и OpenAI.
Полезная демка-референс, если вы строите свои сервисы обработки звонков.
Форкаем, переписываем под свою архитектуру.
#Microsoft #CallCenter #opensource
———
@tsingular
✍6❤1👍1🆒1
Норникель запустил MetalGPT-1 для металлургии
Норникель выкатил специализированную открытую языковую модель MetalGPT-1 на 32 млрд параметров.
Обучали на 10 ГБ внутренних документов — техпроцессах, регламентах, патентах, отчётах НИОКР на базе Qwen3:32B. Плюс 500 тысяч синтетических вопрос-ответов для причинно-следственных связей.
Прошла многоступенчатую очистку и анонимизацию данных.
Модель разбирается в металлургических терминах и техпроцессах лучше универсальных LLM — проверяли на внутреннем бенчмарке.
Встраивают в операционные процессы через ассистентов и автономных агентов.
Модель на HuggingFace
#MetalGPT #Норникель #opensource
------
@tsingular
Норникель выкатил специализированную открытую языковую модель MetalGPT-1 на 32 млрд параметров.
Обучали на 10 ГБ внутренних документов — техпроцессах, регламентах, патентах, отчётах НИОКР на базе Qwen3:32B. Плюс 500 тысяч синтетических вопрос-ответов для причинно-следственных связей.
Прошла многоступенчатую очистку и анонимизацию данных.
Модель разбирается в металлургических терминах и техпроцессах лучше универсальных LLM — проверяли на внутреннем бенчмарке.
Встраивают в операционные процессы через ассистентов и автономных агентов.
Модель на HuggingFace
#MetalGPT #Норникель #opensource
------
@tsingular
🔥26⚡21👍9🤩4❤1🦄1
Китай запустил альянс по открытому ИИ
В Гуанчжоу создали AI Open Alliance, который объединит 17 университетов и 5 техгигантов (Huawei, Tencent и другие).
Будет создано пять комитетов в каждом из институтов (Tsinghua University, Peking University, Shanghai Jiao Tong University, the Chinese University of Hong Kong and the Hong Kong University of Science and Technology), которые покроют следующие области:
AI в образовании и науке
Базовая инженерия AI
Этика и governance
Международное сотрудничество
Цели поставленные перед альянсом:
Независимая AI-инфраструктура (читай: без западных зависимостей)
Open-source экосистема
Подготовка кадров
"AI Plus" в образовании
Ли Люмин (ректор Tsinghua):
"Университеты дают данные и сценарии применения, компании — вычислительные мощности и модели. Нужна интеграция."
Что важно понимать:
Это не просто декларация. Китай системно строит вертикаль: фундаментальная наука → прикладные разработки → индустриальное внедрение.
Плюс фокус на "последнюю милю" — чтобы исследования не застревали в статьях, а шли в реальные продукты.
На горизонте: образовательная AI-сеть на отечественных мощностях + участие в глобальных стандартах governance.
Скоро будет еще больше оупенсорса из Китая. Уже сейчас в мире 60% перешли на Qwen и прочие GLM, а так, глядишь, совсем запад вытеснят.
#Китай #OpenSource #AIAlliance #Tsinghua #Huawei
———
@tsingular
В Гуанчжоу создали AI Open Alliance, который объединит 17 университетов и 5 техгигантов (Huawei, Tencent и другие).
Будет создано пять комитетов в каждом из институтов (Tsinghua University, Peking University, Shanghai Jiao Tong University, the Chinese University of Hong Kong and the Hong Kong University of Science and Technology), которые покроют следующие области:
AI в образовании и науке
Базовая инженерия AI
Этика и governance
Международное сотрудничество
Цели поставленные перед альянсом:
Независимая AI-инфраструктура (читай: без западных зависимостей)
Open-source экосистема
Подготовка кадров
"AI Plus" в образовании
Ли Люмин (ректор Tsinghua):
"Университеты дают данные и сценарии применения, компании — вычислительные мощности и модели. Нужна интеграция."
Что важно понимать:
Это не просто декларация. Китай системно строит вертикаль: фундаментальная наука → прикладные разработки → индустриальное внедрение.
Плюс фокус на "последнюю милю" — чтобы исследования не застревали в статьях, а шли в реальные продукты.
На горизонте: образовательная AI-сеть на отечественных мощностях + участие в глобальных стандартах governance.
Скоро будет еще больше оупенсорса из Китая. Уже сейчас в мире 60% перешли на Qwen и прочие GLM, а так, глядишь, совсем запад вытеснят.
#Китай #OpenSource #AIAlliance #Tsinghua #Huawei
———
@tsingular
👍16❤6🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
Копируем миллиардный SAAS за 30 минут
Тут чел решил проверить, на что способен Claude Opus 4.5: решил клонировать полностью функциональный SaaS-продукт стоимостью в миллиард долларов и сделать его как минимум в 100 раз дешевле.
Первым продуктом, который пришел на ум, стал TypeForm, потому что он очень популярен, очень дорог и, теоретически, очень прост.
В результате получился OpenForm: отполированный, функциональный и открытый клон Typeform, который стоит примерно в 100 раз дешевле и может быть настроен и развернут примерно за 15 минут. Процесс сборки занял около 35 минут.
OpenForm
Мы все чаще будем встречать гиперперсонализацию в разработке.
Зачем платить за дорогое облачное решение, когда можно за пол-часа собрать для себя минимально-достаточное на порядки дешевле.
#opensource #claudecode
———
@tsingular
Тут чел решил проверить, на что способен Claude Opus 4.5: решил клонировать полностью функциональный SaaS-продукт стоимостью в миллиард долларов и сделать его как минимум в 100 раз дешевле.
Первым продуктом, который пришел на ум, стал TypeForm, потому что он очень популярен, очень дорог и, теоретически, очень прост.
В результате получился OpenForm: отполированный, функциональный и открытый клон Typeform, который стоит примерно в 100 раз дешевле и может быть настроен и развернут примерно за 15 минут. Процесс сборки занял около 35 минут.
OpenForm
Мы все чаще будем встречать гиперперсонализацию в разработке.
Зачем платить за дорогое облачное решение, когда можно за пол-часа собрать для себя минимально-достаточное на порядки дешевле.
#opensource #claudecode
———
@tsingular
🔥31❤5😐5👍3🗿2