Big Data AI
16.9K subscribers
920 photos
118 videos
19 files
922 links
@haarrp - админ

Вопросы с собеседований по Machine Learning, Data Science, Deep Learning и Нейроннным сетям

@data_analysis_ml - анализ данных

@ai_machinelearning_big_data

@itchannels_telegram - важное для программиста

РКН: clck.ru/3Fmqxe
Download Telegram
🖥 PlutoPrint — быстрое создание PDF и PNG из HTML с помощью Python

PlutoPrint — это лёгкая и удобная библиотека на Python для генерации качественных PDF и изображений напрямую из HTML или XML. Она основана на мощном рендеринг-движке PlutoBook, что делает её идеальной для отчетов, счетов, билетов и визуализаций.

Основные возможности

Поддержка PDF и PNG – можно создавать как статичные изображения, так и печатные документы из
Простота установки и использования — установка через pip install plutoprint; пример для командной строки:

plutoprint input.html output.pdf --size=A4

🟠 Github

@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥3❤‍🔥2
Хочешь запускать AI-продукты на базе LLM — не на словах, а в продакшене?
Тогда учиться нужно не у теоретиков, а у тех, кто уже делает это для крупнейших компаний.

Курс «Инженер LLM» — про то, как на практике собирать рабочие архитектуры под реальные задачи, адаптировать open‑source решения и запускать продукты с ИИ, которые действительно работают.

Разработан GIGASCHOOL, совместно с крупнейшей магистратурой по искусственному интеллекту AI Talent Hab.


Преподаватели — топы индустрии:
Кристина Желтова, директор по разработке моделей, Газпромбанк;
Александр Потехин, NLP Lead, X5 Tech;
Евгений Кокуйкин, CEO HiveTrace.

Ты научишься:
➡️дообучать модели (fine-tuning, PEFT, RLHF);
➡️работать с LangChain, LangGraph и векторными базами;
➡️строить RAG‑системы, реализовывать инфопоиск и защищать LLM;
➡️собирать пайплайны, деплоить, трекать, версионировать;
➡️проектировать мультиагентные решения и ассистентов.

▪️252 часа теории и практики;
▪️диплом о профессиональной подготовке;
▪️старт 15 октября | 25 недель онлайна с заранее продуманными каникулами;
▪️36 450₽/мес (рассрочка);
▪️повышение цены — 3 октября.


Смотри программу и оставляй заявку🔗
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍2🔥2
🌌 xAI готовит Grokipedia — открытую базу знаний, где миссия одна: правда.

📖 Что известно:
- Это будет полностью открытый репозиторий знаний без ограничений на использование.
- Основан только на проверенных фактах и правде.
- Задуман как источник, которому смогут доверять и люди, и ИИ.

Почему это важно
Grokipedia — часть миссии xAI: понять Вселенную и дать доступ к истине в её чистейшей форме.

🔮 Grokipedia уже близко...

#xAI #AI #knowledge #opensource
👍12🔥7😁3🤔3
🔥 7 бесплатных интерактивов для аналитиков

Эти сервисы — не просто игрушки, а мощные симуляторы, которые помогают прокачивать аналитику через практику.
Они отлично подходят для подготовки к собеседованиям, изучения новых концепций или просто для того, чтобы «залипнуть» с пользой.

Вот подборка, в которую я сам возвращаюсь снова и снова:

1️⃣ Симулятор стартапа — teachmegrow.com

2️⃣ A/B-тесты на практике — lukasvermeer.nl/confidence

3️⃣ Эволюция доверия — notdotteam.github.io/trust

4️⃣ UX-игра на внимательность — cantunsee.space

5️⃣ UX Arcade — uxcel.com/arcade

6️⃣ Вероятности и статистика на пальцах — seeing-theory.brown.edu

7️⃣ Алгоритмы в картинках — visualgo.net

💡 Сохраняйте, проходите и делитесь с коллегами — это реально полезный интерактив.
👍31
🌍 MENLO: From Preferences to Proficiency

Новый фреймворк и датасет для оценки и моделирования качества ответов LLM, максимально приближенного к "родной речи", сразу на 47 языках.

Идея вдохновлена принципами audience design - то есть адаптацией модели под разные аудитории и культурные контексты.

📄 Статья: arxiv.org/abs/2509.26601
🤗 Датасет: huggingface.co/datasets/facebook/menlo
2
🐦 X открыл исходники алгоритма "For You"

Как работает лента рекомендаций в 7 шагах:

1️⃣ Сырые данные (вход):
- соцграф (кто кого фолловит),
- вовлечённость (лайки, ретвиты, ответы, закладки),
- данные о пользователе (клики, профиль, поведение).

2️⃣ Feature Engineering:
- GraphJet — граф твитов в реальном времени
- SimClusters — объединение в коммьюнити ("AI Twitter", "NBA Twitter")
- TwHIN — карта связей пользовательтвит
- RealGraph — сила связей
- TweepCred — скоринг доверия
- Trust & Safety сигналы

3️⃣ Candidate Sourcing (Home Mixer):
Разные миксеры (CR Mixer, UTEG, FRS) вытягивают твиты из разных пулов → больше разнообразия.

4️⃣ Heavy Ranker (ML-модель):
Нейросеть предсказывает, что вам зайдёт: лайки, ретвиты, ответы, время чтения.

5️⃣ Фильтры и эвристики:
- социальное доказательство
- разнообразие авторов
- блок спама/NSFW/мутов
- баланс контента
- защита от «замыливания»

6️⃣ Микс:
Рекламные твиты + рекомендации «кого фолловить» → в ленту.

7️⃣ Что это значит для вас:
- выбери нишу
- пиши ценные посты
- отвечай по делу в своей теме
→ вырастишь аудиторию и найдёшь людей/идеи для бизнеса.


https://github.com/twitter/the-algorithm

#Twitter #ForYou #AI #RecommenderSystems
🔥1
Генерим безумные мюзиклы из чего угодно — Sora 2 теперь и в этом мастер.

🎭 Промт:

[Warhammer 40K], но в стиле бродвейского мюзикла — герои поют на сцене, яркий свет, театральные костюмы, всё на русском языке.


@bigdatai
5👍2🔥1
🛠️📊 Логирование разработки с AI-поддержкой

Dev3000 собирает полную хронологию разработки вашего веб-приложения, включая логи сервера, события браузера и автоматические скриншоты. Этот инструмент упрощает отладку, позволяя AI-ассистентам, таким как Claude, анализировать все данные в одном месте.

🚀Основные моменты:
- Хранит логи с временными метками для легкого доступа.
- Автоматически создает скриншоты при навигации и ошибках.
- Интеграция с AI для мгновенной отладки.
- Поддерживает фильтрацию и поиск по логам.
- Визуальный интерфейс для просмотра логов.

📌 GitHub: https://github.com/vercel-labs/dev3000
2👍1
У вас есть 404 секунды, чтобы разобраться, зачем ML-разработчикам нужен MCP

Model Context Protocol — это опенсорсный стандарт, который позволяет LLM напрямую взаимодействовать с IDE, таск-трекерами, БД и другими сервисами.

То есть агент может не только писать код, но и:
— ставить задачи в трекере,
— запускать автотесты,
— проверять безопасность,
— деплоить в облако.

Больше никаких «костылей» с отдельными интеграциями — один протокол закрывает весь цикл ML-разработки.

Подробнее — в выпуске «404 секунды» на YouTube или VK Видео
2🫡1
🤖 ByteDance Seed представил **AgentGym-RL** — новый единый фреймворк для обучения агентов с подкреплением.

🔹 Первый универсальный RL-фреймворк для обучения агентов в многошаговых задачах (без SFT).
🔹 Модульная и расширяемая архитектура: web, поиск, игры, embodied-среды и научные задачи.
🔹 Агенты достигают и даже превосходят коммерческие модели на 27 задачах.

proj: https://agentgym-rl.github.io
repo: https://github.com/woooodyy/AgentGym-RL

#RL #AI #ByteDance #AgentGym #ReinforcementLearning #Agents
2
Forwarded from Machinelearning
✔️ Ling-1T - новая модель от inclusionAI с 1 триллионом параметров

Модель на 1 трлн, из них ≈ 50 млрд активны на токен (MoE-архитектура).

Она обучена на 20 трлн+ токенов, специально отобранных для задач логического мышления и рассуждений. Контекст: 128 000 токенов.

Построена на базе Evo-CoT (Evolutionary Chain of Thought) и Linguistics-Unit RL - нового метода обучения для масштабируемых рассуждений. При помощи Evo-CoT модель постепенно улучшает баланс между точностью рассуждений и вычислительной эффективностью. То есть с каждым шагом она пытается делать рассуждения «глубже», но не слишком дорого по ресурсам.

Моделька демонстрирует сильные результаты в задачах кода, математики, логики и фронтенд-генерации.

В архитектуре задействованы Mixture-of-Experts (1/32 активация), MTP слои и маршрутизация экспертов.

Ling-1T показывает, что огромные модели можно сделать не только мощными, но и экономичными.

https://huggingface.co/inclusionAI/Ling-1T

@ai_machinelearning_big_data

#Ling1T #AI #ML #OpenSource #Reasoning #TrillionScale #FP8
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍2🔥1