🔥 TorchCode: Практика для собеседований по PyTorch
TorchCode предлагает структурированную среду для тренировки навыков программирования, необходимых для собеседований в области машинного обучения. Решайте задачи по реализации операторов и архитектур, получая мгновенную обратную связь и подсказки.
🚀Основные моменты:
- 40 задач, часто встречающихся на собеседованиях
- Автоматическая проверка корректности и производительности
- Мгновенная обратная связь по каждому тесту
- Подсказки и эталонные решения для изучения
- Возможность запуска в браузере без установки
📌 GitHub: https://github.com/duoan/TorchCode
#python
TorchCode предлагает структурированную среду для тренировки навыков программирования, необходимых для собеседований в области машинного обучения. Решайте задачи по реализации операторов и архитектур, получая мгновенную обратную связь и подсказки.
🚀Основные моменты:
- 40 задач, часто встречающихся на собеседованиях
- Автоматическая проверка корректности и производительности
- Мгновенная обратная связь по каждому тесту
- Подсказки и эталонные решения для изучения
- Возможность запуска в браузере без установки
📌 GitHub: https://github.com/duoan/TorchCode
#python
❤4
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Умные агенты с OpenSpace: эволюция и экономия 💰
OpenSpace — это движок, который позволяет AI-агентам учиться и развиваться, превращая каждую задачу в возможность для улучшения. Он объединяет навыки, которые автоматически адаптируются и улучшаются, обеспечивая совместное использование знаний между агентами.
🚀 Основные моменты:
- Саморазвивающиеся навыки, которые учатся на реальном опыте
- Совместный интеллект: улучшения одного агента доступны всем
- Снижение затрат на 46% благодаря более эффективному использованию токенов
- Легкость в обмене навыками между агентами
- Реальные результаты: агенты зарабатывают в 4.2 раза больше
📌 GitHub: https://github.com/HKUDS/OpenSpace
#python
OpenSpace — это движок, который позволяет AI-агентам учиться и развиваться, превращая каждую задачу в возможность для улучшения. Он объединяет навыки, которые автоматически адаптируются и улучшаются, обеспечивая совместное использование знаний между агентами.
🚀 Основные моменты:
- Саморазвивающиеся навыки, которые учатся на реальном опыте
- Совместный интеллект: улучшения одного агента доступны всем
- Снижение затрат на 46% благодаря более эффективному использованию токенов
- Легкость в обмене навыками между агентами
- Реальные результаты: агенты зарабатывают в 4.2 раза больше
📌 GitHub: https://github.com/HKUDS/OpenSpace
#python
👍2
🚀 Tencent выкатывает Covo-Audio (7B) - новый уровень голосовых AI.
Это уже не просто “распознал → ответил → озвучил”.
Модель умеет говорить и слушать одновременно.
Что внутри:
• Qwen2.5-7B + Whisper
• 8 млн часов аудио обучения
• full-duplex — диалог без пауз
Главное отличие:
Нет отдельных пайплайнов ASR и TTS.
→ всё работает как единая модель
Что это даёт:
• можно перебивать (barge-in)
• естественный разговор, как с человеком
• меньше задержек
• меньше костылей в архитектуре
Отдельно:
Разделение интеллекта и голоса
→ проще делать voice cloning
→ гибкость под разные сценарии
Тренд очевиден:
AI переходит от “голосовых интерфейсов”
→ к полноценному живому диалогу
Скоро кнопка “нажми и говори” исчезнет совсем.
Модель: https://huggingface.co/tencent/Covo-Audio-Chat
Это уже не просто “распознал → ответил → озвучил”.
Модель умеет говорить и слушать одновременно.
Что внутри:
• Qwen2.5-7B + Whisper
• 8 млн часов аудио обучения
• full-duplex — диалог без пауз
Главное отличие:
Нет отдельных пайплайнов ASR и TTS.
→ всё работает как единая модель
Что это даёт:
• можно перебивать (barge-in)
• естественный разговор, как с человеком
• меньше задержек
• меньше костылей в архитектуре
Отдельно:
Разделение интеллекта и голоса
→ проще делать voice cloning
→ гибкость под разные сценарии
Тренд очевиден:
AI переходит от “голосовых интерфейсов”
→ к полноценному живому диалогу
Скоро кнопка “нажми и говори” исчезнет совсем.
Модель: https://huggingface.co/tencent/Covo-Audio-Chat
🔥2❤1
🚀 Google DeepMind представила Gemma 4
Новое семейство открытых моделей, которые можно запускать на собственном железе.
Четыре размера:
31B Dense & 26B MoE - топовые результаты для сложных локальных задач: кастомные ассистенты, анализ научных данных
E4B & E2B (Edge) — для мобильных устройств, поддержка текста, зрения и аудио в реальном времени
Ключевые особенности:
Заточены под продвинутый reasoning и агентные задачи (автономные агенты, планирование, многошаговые workflows)
По Arena Elo Score: Gemma 4 31B (1452) и 26B (1441) обгоняют Qwen 3.5 (1450), Kimi k2.5 (1454) и DeepSeek v3.2 (1425)
Где попробовать: Google AI Studio, Hugging Face, Kaggle, Ollama
Почему это важно: Apache 2.0 + open weights = можно файн-тюнить и деплоить без ограничений и зависимости от API. Именно это отделяет настоящий open-source релиз от «контролируемого» research drop'а.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Лицензия Apache 2.0 - полностью коммерчески свободная.
#Gemma
Новое семейство открытых моделей, которые можно запускать на собственном железе.
Четыре размера:
31B Dense & 26B MoE - топовые результаты для сложных локальных задач: кастомные ассистенты, анализ научных данных
E4B & E2B (Edge) — для мобильных устройств, поддержка текста, зрения и аудио в реальном времени
Ключевые особенности:
Заточены под продвинутый reasoning и агентные задачи (автономные агенты, планирование, многошаговые workflows)
По Arena Elo Score: Gemma 4 31B (1452) и 26B (1441) обгоняют Qwen 3.5 (1450), Kimi k2.5 (1454) и DeepSeek v3.2 (1425)
Где попробовать: Google AI Studio, Hugging Face, Kaggle, Ollama
Почему это важно: Apache 2.0 + open weights = можно файн-тюнить и деплоить без ограничений и зависимости от API. Именно это отделяет настоящий open-source релиз от «контролируемого» research drop'а.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Лицензия Apache 2.0 - полностью коммерчески свободная.
#Gemma
❤7🔥2
Forwarded from Machinelearning
🔥 Собери свой OpenClaw за вечер
Репозиторий, в котором разобрано устройство OpenClaw по слоям.
Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности
Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели
В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»
Дает неплохое понимание архитектуры клешни.
https://github.com/czl9707/build-your-own-openclaw
@ai_machinelearning_big_data
#opensource #openclaw
Репозиторий, в котором разобрано устройство OpenClaw по слоям.
Это формат, которого не хватает большинству гайдов, пошаговая сборка системы, где каждый этап добавляет новый уровень сложности
Сначала обычный чат. Потом подключаются инструменты. Затем навыки, работа с вебом, память, маршрутизация задач и мультиагентная логика. В какой-то момент начинаешь ловить себя на мысли, что уже думаешь как оркестратор, а не как пользователь модели
В гайде хорошо видно, где заканчивается модель и начинается обвязка. Как строится цикл принятия решений, как агент выбирает инструменты и как вообще появляется ощущение «интеллекта»
Дает неплохое понимание архитектуры клешни.
https://github.com/czl9707/build-your-own-openclaw
@ai_machinelearning_big_data
#opensource #openclaw
🔥4❤2👍1
Liquid AI выкатили LFM2.5-VL-450M - vision-language модель, заточенную под работу на edge-устройствах в реальном времени.
Картинка 512×512 обрабатывается за ~240мс прямо на девайсе. Этого хватает, чтобы рассуждать над каждым кадром видеопотока в 4 FPS - причем с пониманием контекста, а не просто детекцией объектов.
Ключевая идея: один инференс-пасс заменяет классическую связку детектор → классификатор → эвристики. Те самые multi-stage пайплайны, которые в продакшене до сих пор ломаются, тормозят и больно поддерживаются.
Что нового в релизе: bounding box prediction (81.28 на RefCOCO-M), мультиязычное визуальное понимание на 8 языках (MMMB подняли с 54.29 до 68.09), поддержка function calling (BFCLv4).
Работает на Jetson Orin, Samsung S25 Ultra, AMD 395+ Max. Веса открыты, облако не нужно.
Веса на HuggingFace, блог и playground - в треде Liquid AI.
huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPU
Картинка 512×512 обрабатывается за ~240мс прямо на девайсе. Этого хватает, чтобы рассуждать над каждым кадром видеопотока в 4 FPS - причем с пониманием контекста, а не просто детекцией объектов.
Ключевая идея: один инференс-пасс заменяет классическую связку детектор → классификатор → эвристики. Те самые multi-stage пайплайны, которые в продакшене до сих пор ломаются, тормозят и больно поддерживаются.
Что нового в релизе: bounding box prediction (81.28 на RefCOCO-M), мультиязычное визуальное понимание на 8 языках (MMMB подняли с 54.29 до 68.09), поддержка function calling (BFCLv4).
Работает на Jetson Orin, Samsung S25 Ultra, AMD 395+ Max. Веса открыты, облако не нужно.
Веса на HuggingFace, блог и playground - в треде Liquid AI.
huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPU
❤5👍1
Media is too big
VIEW IN TELEGRAM
🚨 Автоматическая фабрика рилзов в одну команду
Если видел эти бесконечные видео с озвученными тредами, теперь понятно, откуда они берутся.
RedditVideoMakerBot - скрипт, который полностью автоматизирует весь пайплайн.
Ты запускаешь один Python файл и получаешь готовое видео под TikTok, Shorts или Reels.
Под капотом происходит следующее.
• Скрипт сам тянет тред из выбранного сабреддита. • Делает скриншоты через Playwright.
• Прогоняет текст через TTS.
• Подкладывает фоновое видео и собирает всё в финальный ролик с таймингами.
Без монтажа. Без таймлайна. Без ручной сборки.
Фактически это конвейер контента. Один запуск равен одному видео.
Формат уже оптимизирован под алгоритмы. Тот самый визуал, который все видят в ленте. Minecraft фон, скриншоты Reddit, синтетическая озвучка.
Репозиторий уже набрал больше 10 тысяч звёзд. Полностью open source.
https://github.com/elebumm/RedditVideoMakerBot
Если видел эти бесконечные видео с озвученными тредами, теперь понятно, откуда они берутся.
RedditVideoMakerBot - скрипт, который полностью автоматизирует весь пайплайн.
Ты запускаешь один Python файл и получаешь готовое видео под TikTok, Shorts или Reels.
Под капотом происходит следующее.
• Скрипт сам тянет тред из выбранного сабреддита. • Делает скриншоты через Playwright.
• Прогоняет текст через TTS.
• Подкладывает фоновое видео и собирает всё в финальный ролик с таймингами.
Без монтажа. Без таймлайна. Без ручной сборки.
Фактически это конвейер контента. Один запуск равен одному видео.
Формат уже оптимизирован под алгоритмы. Тот самый визуал, который все видят в ленте. Minecraft фон, скриншоты Reddit, синтетическая озвучка.
Репозиторий уже набрал больше 10 тысяч звёзд. Полностью open source.
https://github.com/elebumm/RedditVideoMakerBot
❤4🔥2👍1