This media is not supported in your browser
VIEW IN TELEGRAM
NotebookLLaMA: открытая альтернатива NotebookLM
Команда LlamaIndex выпустила полностью открытый аналог Google NotebookLM. Проект работает на базе LlamaCloud и позволяет создавать подкасты из документов.
Основные возможности:
- Генерация разговорных аудиосводок из загруженных файлов
- Использование нескольких моделей Llama для разных этапов обработки
- Преобразование текста в речь через Elevenlabs
Установка требует настройки PostgreSQL, Jaeger и MCP сервера. Готовое решение запускается через Streamlit на порту 8751.
Интересная альтернатива для работы с документами и создания AI-подкастов, если кто-то не хочет делать это с Гуглом.
#NotebookLM #LlamaCloud #OpenSource
------
@tsingular
Команда LlamaIndex выпустила полностью открытый аналог Google NotebookLM. Проект работает на базе LlamaCloud и позволяет создавать подкасты из документов.
Основные возможности:
- Генерация разговорных аудиосводок из загруженных файлов
- Использование нескольких моделей Llama для разных этапов обработки
- Преобразование текста в речь через Elevenlabs
Установка требует настройки PostgreSQL, Jaeger и MCP сервера. Готовое решение запускается через Streamlit на порту 8751.
Интересная альтернатива для работы с документами и создания AI-подкастов, если кто-то не хочет делать это с Гуглом.
#NotebookLM #LlamaCloud #OpenSource
------
@tsingular
✍8❤5⚡1
Швейцария выпустит полностью открытую языковую модель
Исследователи из EPFL и ETH Zurich создали языковую модель, которая будет доступна под лицензией Apache 2.0 уже этим летом.
Особенность проекта — модель обучена на углеродно-нейтральном суперкомпьютере Alps.
Модель говорит на 1000+ языках и будет выпущена в двух размерах: 8 и 70 миллиардов параметров. Обучение велось на 15 триллионах токенов из более чем 1500 языков (английский, правда занял 60% всего датасета).
"Полностью открытые модели позволяют создавать высокодоверенные приложения и необходимы для исследований рисков и возможностей ИИ", — объясняет руководитель проекта Имануэль Шлаг.
Интересно будет посмотреть.
#OpenSource #Switzerland
———
@tsingular
Исследователи из EPFL и ETH Zurich создали языковую модель, которая будет доступна под лицензией Apache 2.0 уже этим летом.
Особенность проекта — модель обучена на углеродно-нейтральном суперкомпьютере Alps.
Модель говорит на 1000+ языках и будет выпущена в двух размерах: 8 и 70 миллиардов параметров. Обучение велось на 15 триллионах токенов из более чем 1500 языков (английский, правда занял 60% всего датасета).
"Полностью открытые модели позволяют создавать высокодоверенные приложения и необходимы для исследований рисков и возможностей ИИ", — объясняет руководитель проекта Имануэль Шлаг.
Интересно будет посмотреть.
#OpenSource #Switzerland
———
@tsingular
✍6
This media is not supported in your browser
VIEW IN TELEGRAM
Machine Learning Visualized — интерактивные уроки по машинному обучению
Некий студент из University of Maryland создал открытый ресурс для изучения ML-алгоритмов через интерактивную визуализацию.
Проект состоит из Jupyter Notebooks с математическими выводами и наглядными примерами обучения моделей.
На данный момент включает 4 главы: оптимизация, кластеризация, линейные модели и нейросети.
Каждый алгоритм показан от теории до практики с визуализацией процесса обучения и поиска оптимальных весов.
Есть проект в GitHub.
Все блокноты можно скачать и запустить локально или в Google Colab.
#MachineLearning #обучение #OpenSource
———
@tsingular
Некий студент из University of Maryland создал открытый ресурс для изучения ML-алгоритмов через интерактивную визуализацию.
Проект состоит из Jupyter Notebooks с математическими выводами и наглядными примерами обучения моделей.
На данный момент включает 4 главы: оптимизация, кластеризация, линейные модели и нейросети.
Каждый алгоритм показан от теории до практики с визуализацией процесса обучения и поиска оптимальных весов.
Есть проект в GitHub.
Все блокноты можно скачать и запустить локально или в Google Colab.
#MachineLearning #обучение #OpenSource
———
@tsingular
✍9🍾4👍2
NuExtract 2.0 превзошёл GPT-4 в извлечении данных
Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.
Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.
Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.
Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.
#NuExtract #DataExtraction #OpenSource
------
@tsingular
Команда NuMind выпустила NuExtract 2.0 — мультимодальную модель для извлечения структурированной информации из текстов, PDF и изображений. Модель показала результат на +9 F-Score выше GPT-4.
Основные возможности: работа с несколькими языками, обучение в контексте и вывод в формате JSON. Доступны open-source версии от 2B до 8B параметров на базе Qwen 2.5 VL.
Платформа nuextract.ai позволяет настраивать задачи извлечения через веб-интерфейс и масштабировать через API. Цена: $5 за миллион токенов, но пока бесплатно на время бета-тестирования.
Модель использует синтетические данные для обучения — аннотировано 300,000 текстов для повышения точности извлечения.
#NuExtract #DataExtraction #OpenSource
------
@tsingular
🔥5✍3❤2⚡2
NVIDIA выпустила семейство OpenReasoning-Nemotron для решения сложных задач
Четыре модели размером от 1.5B до 32B параметров специально обучены для математики, программирования и естественных наук. Основаны на Qwen2.5 и дообучены на 5 миллионах ответов от DeepSeek R1.
Главная особенность — режим GenSelect, который запускает несколько параллельных генераций и выбирает лучшее решение. В этом режиме 32B модель превосходит O3 (High) на математических и кодовых бенчмарках.
Интересно, что модели обучались только на математических задачах, но способности автоматически перенеслись на код и науку. Все модели доступны под лицензией CC-BY-4.0 для коммерческого и исследовательского использования.
#NVIDIA #reasoning #opensource
------
@tsingular
Четыре модели размером от 1.5B до 32B параметров специально обучены для математики, программирования и естественных наук. Основаны на Qwen2.5 и дообучены на 5 миллионах ответов от DeepSeek R1.
Главная особенность — режим GenSelect, который запускает несколько параллельных генераций и выбирает лучшее решение. В этом режиме 32B модель превосходит O3 (High) на математических и кодовых бенчмарках.
Интересно, что модели обучались только на математических задачах, но способности автоматически перенеслись на код и науку. Все модели доступны под лицензией CC-BY-4.0 для коммерческого и исследовательского использования.
#NVIDIA #reasoning #opensource
------
@tsingular
👍4❤2🔥1
GitHub Models решает проблему инференса для open source AI проектов
GitHub запустил бесплатный API для инференса популярных моделей - GPT-4o, DeepSeek-R1, Llama 3.
Проблема была в том, что open source проекты постоянно спотыкались о настройку инференса - нужны были ключи API, локальные модели жрали ресурсы, конфигурация отнимала время.
Теперь достаточно GitHub токена и REST эндпоинта, совместимого с OpenAI спецификацией. Никакой дополнительной настройки.
Интеграция с GitHub Actions позволяет автоматизировать AI фичи прямо в CI/CD пайплайнах. Есть бесплатый тир с опцией масштабирования.
Поддерживаются multiple SDK без изменений кода - просто меняешь endpoint.
Удобно. Теперь любой студент может прикрутить ИИ к своему поектику не покидая платформу.
Вообще Гитхаб превращается в пространство самообновляющегося оупенсорса с ИИ мультиагентами разрабами.
#GitHub #inference #opensource
------
@tsingular
GitHub запустил бесплатный API для инференса популярных моделей - GPT-4o, DeepSeek-R1, Llama 3.
Проблема была в том, что open source проекты постоянно спотыкались о настройку инференса - нужны были ключи API, локальные модели жрали ресурсы, конфигурация отнимала время.
Теперь достаточно GitHub токена и REST эндпоинта, совместимого с OpenAI спецификацией. Никакой дополнительной настройки.
Интеграция с GitHub Actions позволяет автоматизировать AI фичи прямо в CI/CD пайплайнах. Есть бесплатый тир с опцией масштабирования.
Поддерживаются multiple SDK без изменений кода - просто меняешь endpoint.
Удобно. Теперь любой студент может прикрутить ИИ к своему поектику не покидая платформу.
Вообще Гитхаб превращается в пространство самообновляющегося оупенсорса с ИИ мультиагентами разрабами.
#GitHub #inference #opensource
------
@tsingular
❤3⚡2👍2🔥2
Forwarded from Анализ данных (Data analysis)
MongoDB представили открытый MCP сервер, который позволяет AI-инструментам вроде Claude, Cursor и GitHub Copilot напрямую общаться с вашей MongoDB-базой.
Теперь даже без знаний запросов можно просто написать:
• «Покажи самых активных пользователей»
• «Создай нового пользователя с правами только на чтение»
• «Как устроена коллекция orders?»
⚙️ MCP Server поддерживает:
• MongoDB Atlas
• Community Edition
• Enterprise Advanced
📌 Главное — не нужен SQL, не нужно знать синтаксис. Достаточно обычного языка.
💡 Под капотом: AI превращает ваши фразы в рабочие Mongo-запросы.
Открытый исходный код. Готово к продакшену.
📌 GitHub
#MongoDB #AItools #OpenSource #MCP
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
✍12🔥5❤1
🚀 Seed-OSS-36B-Instruct от ByteDance — новая открытая модель с контролем глубины мышления
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
36B параметров с GQA attention
Контекст 512K токенов
Совместимость с vLLM и Transformers
Бенчмарки — SOTA среди открытых моделей:
MMLU: 90.6% (vs 78.6% у Gemma3-27B)
LiveCodeBench: 66.8%
SWE-Bench Verified: 48.4%
AIME 2024: 90.3%
ArcAGI V2 - 50.3%
SimpleQA 23.7%
Agent: SWE-Bench Verified
(OpenHands) 41.8%
Про thinking budget:
- Задается через лимит токенов на размышления (512, 1K, 2K, 4K, 8K, 16K)
- Модель периодически отчитывается о потраченных/оставшихся ресурсах
- При исчерпании бюджета выдает финальный ответ
- Budget = 0 → прямой ответ без раздумий
Требует ~77GB VRAM (FP16), но thinking budget позволяет оптимизировать затраты — простые задачи решает быстро, сложные получают необходимое время на размышления.
Есть GGUF вариант под LM Studio и Ollama в Q4 - 20 гигов
Q8 - 38.5 Gb
Apache 2.0 лицензия - можно использовать в коммерции.
HF: https://huggingface.co/ByteDance-Seed/Seed-OSS-36B-Instruct
#SeedOSS #ByteDance #OpenSource #Китай
———
@tsingular
⚡3👍2🔥2❤1
🇨🇳 Китай захватил топ OpenSource на designarena.ai
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
Интересно сформировался топ-15 открытых моделей в Design Arena,- теперь он состоит только из китайских моделей.
Топ-15 открытых моделей:
- DeepSeek - лидер (5 моделей: позиции 1, 4, 5, 8, 10)
- Alibaba (6 моделей: позиции 3, 6, 9, 13, 14, 15)
- Zhipu AI (2 модели: позиции 2, 7)
- THUDM (1 модель: позиция 11)
- Moonshot AI (1 модель: позиция 12)
Первая западная модель, GPT-OSS-120B, появляется только на 16 месте
#OpenSource #designarena #China #Китай
———
@tsingular
🔥10🤯4⚡2❤1
Forwarded from Machinelearning
400 страниц про всё, что нужно знать об агентных системах. Автор — senior engineer в Google, выложил драфт для открытого ревью.
📖 В книге:
- продвинутые техники промптинга
- паттерны для мульти-агентов
- использование инструментов и MCP
- практические примеры с кодом
⚡ По сути, это полный справочник по построению умных агентов. Must-read для разработчиков AI.
@ai_machinelearning_big_data
#AI #Agents #Google #OpenSource #freebook
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18❤5✍5⚡1👍1