Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏗 Metaxy: как перестать пересчитывать лишнее в ML-пайплайнах

В обычном Data Engineering всё просто: обновился файл — пересчитываем весь граф. Но в мультимодальном ML (видео + аудио + текст) такой подход — это прямой путь к сжиганию бюджета на облака.

Metaxy — это умный слой метаданных, который понимает внутреннюю структуру данных и умеет «отсекать» ненужные вычисления.

Данные (видео, картинки) лежат в S3, а Metaxy хранит их «цифровые следы»: версии, пути и связи. Но главное — он знает, какая часть файла нужна конкретной модели.

Кейс из жизни:
У вас есть пайплайн распознавания лиц. На вход идет видеофайл. Вы решили заменить в нем аудиодорожку на более качественную.

❌ Обычный пайплайн: увидит изменение файла и заново запустит тяжелую модель распознавания лиц.
✅ Metaxy: «поймет», что блок Face Recognition зависит только от видеокадров. Раз кадры не менялись — вычисления просто пропускаются (pruning).

🔗 Репозиторий проекта: https://clc.to/Jwgv2g

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥2❤1👍1

1.85K views12:50

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

За год мы провели три потока курса по ИИ-агентам, а теперь запускаем масштабное обновление!

В новом, четвёртом потоке мы учли все пожелания студентов, добавили большой блок про AgentOps и сместили фокус с базовых концепций на суровый инжиниринг. Написать скрипт генерации легко, а вот заставить агентов работать со сложным RAG, не галлюцинировать и соблюдать бюджет пайплайна в проде — задача со звёздочкой.

В программе:

— практика в Jupyter-ноутбуках: от прототипа до продакшена;
— продвинутый RAG: обработка разнородных документов и улучшение поиска;
— оркестрация в LangGraph: human-in-the-loop и механизм time-travel;
— метрики качества моделей и защита от деградации пайплайна;
— развёртывание локальных опенсорс-моделей с соблюдением 152-ФЗ.

В честь старта продаж действует спецпредложение: 3 курса по цене 1 (два дополнительных курса в подарок).

Доступ к материалам для предварительной подготовки откроется сразу после оплаты.

По промокоду Agent забирайте скидку 10 000 ₽ (89 000 ₽ вместо 99 000 ₽). Успейте занять место до 28 февраля!

👉 Присоединиться к четвёртому потоку и вывести пайплайны в прод

1.8K views17:00

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

💻 Узнай, какие LLM «взлетят» на твоем железе

Проблема локального запуска ИИ всегда одна: скачиваешь 50 ГБ весов, а в итоге получаешь 0.2 токена в секунду или ошибку Out of Memory. Этот инструмент решает проблему одной командой.

Что умеет тулза:
✔️Автодетект железа: Мгновенно сканирует вашу RAM, VRAM (включая Multi-GPU), CPU и архитектуру.
✔️Анализ 200+ моделей: Сверяет ваши ресурсы с базой данных из 206 моделей от 57 провайдеров.
✔️Умный скоринг: Каждая модель получает оценку по 4 параметрам.
✔️Динамическое квантование: Инструмент сам подскажет, в каком сжатии (Q4, Q8, IQ4_XS) модель лучше всего сбалансирует скорость и качество.

🔗 Попробовать: https://clc.to/U7aQyw

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🎉2👍1🔥1🙏1

2.19K views18:41

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📂 Идеальная структура Data Analysis проекта

Из чего состоит правильный проект:
— config/: Централизованное хранение путей и параметров в config.yaml.
— data/: Разделение данных на сырые (`raw`), промежуточные (`interim`) и готовые к анализу (`processed`).
— notebooks/: Только для экспериментов, EDA и черновых находок.
— src/: Здесь живет «чистый» и переиспользуемый код для очистки данных, генерации признаков и моделей.
— tests/: Юнит-тесты, которые гарантируют, что логика обработки данных не сломалась после правок.

Золотые правила работы:
1. Как только код в Jupyter стал стабильным и переиспользуемым — выносите его в модули в папку src/.
2. Читайте из raw, очищайте в src/ и сохраняйте результат в processed. Никогда не перезаписывайте сырые данные!
3. Описывайте методику и логику анализа в папке docs/, а не только в комментариях к коду.

👇 Забирайте шаблон себе в закладки.

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤8😁2🤩2🙏2

1.83K views13:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🌸 Куда катятся LLM в 2026 году

Себастьян Рашка выпустил свой традиционный «весенний» обзор открытых моделей, и, кажется, индустрия окончательно переросла старый добрый Трансформер. Если вы думали, что в архитектурах нейросетей всё замерло — вы сильно ошибались.

Вот главные тезисы:
🌟 Прощай, классический Attention: Внедрение Sliding Window Attention (SWA) позволило моделям «переваривать» гигантские контексты без потери памяти.
🌟 Gated Attention: На выходе внимания теперь стоят сигмоидные «гейты» (как в Qwen3-Next). Это позволяет модели динамически решать, какие данные важны, а какие — шум.
🌟 Inference-time scaling: Главный хайп сезона. Модели учат «думать» дольше во время генерации (reasoning), что дает прирост качества без раздувания количества параметров.
🌟 Tiny is the new Big: Компактные модели вроде Tiny Aya (3.35B) показывают, что мультиязычность и интеллект теперь можно упаковать в смартфон.

🔗 Весь разбор здесь

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

👍6❤3🤩1

1.75K viewsedited 12:05

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

Последний шанс: 3 курса по цене 1 и запуск AI-агентов в продакшн

Запускать модели в Jupyter — весело, но бизнесу нужны готовые агентные пайплайны. Как превратить «голую» LLM в автономную систему с RAG, контролировать затраты на инференс и не нарушить 152-ФЗ?

В обновлённой программе фокус смещён на жёсткий ML-инжиниринг и вывод в прод. Вы научитесь строить ReAct-циклы, работать с LangGraph и AutoGen, внедрять RAG высокого уровня, протоколы MCP и AgentOps. Все ключевые навыки в одном месте: защита от деградации, time-travel дебаггинг, оценка качества генерации, human-in-the-loop и развёртывание отечественных моделей.

Почему нельзя откладывать:

— масштабная акция «3 курса по цене 1» сгорит уже завтра;
— промокод Agent на скидку 10 000 рублей действует последние часы;
— сразу после оформления открываются материалы для подготовки — начать учиться можно прямо сейчас.

Забронировать место на курсе и забрать бонусы до 28 февраля

🙏1

1.82K views15:03

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🧬 SymTorch: превращаем нейросети в читаемые формулы

Интерпретируемость моделей — одна из главных проблем современного ML. SymTorch — это новый инструментарий, который использует символическую регрессию, чтобы раскрыть поведение «черных ящиков».

Вместо того чтобы гадать, как нейронка пришла к результату, SymTorch автоматически извлекает из обученных моделей человекочитаемые математические формулы.

Ключевые особенности:
🛠 Инструмент объединяет мощь PyTorch (нейронные сети) и PySR (символическая регрессия).
🛠 Вместо «черного ящика» вы получаете наглядные математические зависимости, которые обнаружила модель в процессе обучения.
🛠 Это позволяет верифицировать логику модели и использовать её находки в научных или аналитических целях.

🔗 Репозиторий проекта: https://clc.to/F967PQ

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

❤7👍3🤩1

1.74K views21:18

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👨‍💻

Шпаргалка: как выкатывать ML-модели в продакшен и не поседеть

Обучить модель на исторических данных — это только полдела. Настоящий вызов начинается, когда её нужно выпустить к реальным пользователям. Вот 4 проверенных сценария, как это сделать безопасно:

♾

A/B Тестирование (A/B Testing)

Стандарт индустрии. Мы делим пользователей на две группы: контрольную (старая модель) и тестовую (новая).

Суть: Сравниваем бизнес-метрики (конверсию, CTR, выручку) между группами.
Когда использовать: Когда нужно четкое статистическое подтверждение, что новая модель действительно лучше старой.

♾

Канареечный релиз (Canary Deployment)

Выкатываем новую модель не на всех сразу, а на маленькую долю трафика или конкретный регион.

Суть: Если за час мониторинга мы не увидели всплеска ошибок или падения метрик, постепенно увеличиваем долю трафика (5% -> 20% -> 100%).
Когда использовать: Когда важно минимизировать «радиус поражения» в случае критического бага.

♾

Перемешанное тестирование (Interleaved Testing)

Часто применяется в ранжировании и поиске. Вместо того чтобы делить пользователей, мы смешиваем ответы от двух моделей в один список.

Суть: Мы смотрим, на какие позиции в выдаче пользователь кликает чаще. Это позволяет быстрее получить статистически значимый результат, чем в обычном A/B тесте.
Когда использовать: В рекомендательных системах, где нужно быстро отсеять неудачные гипотезы.

♾

Теневое тестирование (Shadow Testing)

Самый спокойный вариант. Новая модель работает параллельно со старой, получает те же запросы, но её ответы никуда не уходят — они просто пишутся в логи.

Суть: Мы проверяем, как модель держит нагрузку и какие предсказания выдает на живом трафике, вообще не влияя на пользовательский опыт.
Когда использовать: Перед первым серьезным релизом, чтобы убедиться в стабильности инфраструктуры.

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🥰2👍1🔥1🎉1🙏1

1.71K views17:48

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ИИ-агенты меняют образование. Хочешь быть тем, кто их проектирует? 🚀

Пока другие только пробуют промпты, Proglib App внедряет LLM в ядро продукта. Это EdTech-платформа с курсами и квизами, где ИИ помогает разработчикам расти. MVP в проде, пользователи на борту.

Проекту нужен технический кофаундер, способный соединить Fullstack-разработку и работу с ИИ-агентами.

🛠️ Технологический стек:

React 18, TypeScript, Express 5, PostgreSQL, Drizzle ORM.

Что предстоит:

• Проектировать архитектуру сервиса и интеграцию LLM. • Развивать ИИ-агентов для персонализации обучения. • Работать автономно: от архитектурного наброска до прода.

Идеальный мэтч, если:

• Уверенно чувствуешь себя в TS, React и Node.js. • Умеешь выжимать максимум из Claude Code и Cursor. • Бонус: опыт создания ИИ-агентов и интерес к EdTech.

Удалёнка, гибкость, работа напрямую с фаундером. Никаких «менеджеров среднего звена».

Готов строить самый умный образовательный сервис для профи? Пиши о себе 👇

@proglibrary_feedback_bot

🥰2

1.75K views10:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🆕 Свежие новости для дата‑сайентистов

🧠 Agentic reasoning: 3 уровня автономности LLM
Команда из University of Illinois Urbana-Champaign, Meta, Amazon и Google DeepMind предлагает смотреть на LLM не как на «умный чат», а как на полноценного агента — с памятью, планированием и координацией. Фреймворк из трёх слоёв (base → self-evolving → collective) выглядит как попытка систематизировать весь хайп вокруг AI-агентов и сделать его инженерно управляемым.

🚨 Anthropic и массовая дистилляция Claude
Anthropic заявила, что DeepSeek, Moonshot AI и MiniMax через десятки тысяч фейковых аккаунтов собрали ~16 млн ответов Claude, чтобы воспроизвести его агентные способности.

⏳ 25 часов автономного кодинга от OpenAI
OpenAI провела стресс-тест: GPT-5.3-Codex получил пустой репозиторий и 25 часов времени. Итог — полноценный инструмент, 30k строк кода и 13 млн токенов.

💻 FDM-1 — универсальная модель для работы за компьютером
FDM-1 обучили на 11 млн часов видео, чтобы она могла выполнять реальные компьютерные задачи — от CAD до навигации в GUI. Интересно, что акцент сделан на масштабируемость и отказ от дорогой разметки.

🔥 Qwen3.5-35B-A3B
Новая версия Qwen от Alibaba Cloud усиливает позиции open-weight моделей в среднем размере (30–40B). Мультимодальность, RL-скейл и архитектурные улучшения — китайские модели продолжают стабильно сокращать разрыв с западными лидерами.

⚡ MIT про ускорение обучения LLM
Исследователи из MIT предлагают использовать idle-время вычислений, чтобы почти вдвое ускорить обучение без потери качества. На фоне дефицита GPU такие инженерные оптимизации могут оказаться не менее важными, чем новые архитектуры.

🍌 Nano Banana 2 от Google
Google обновила свою image-модель: больше скорости, больше контроля, уровень Pro в компактном формате. Сегмент «быстро и качественно» в генерации изображений становится всё плотнее.

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#свежак

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🙏2❤1

2.09K views18:47

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🍳AI Cookbook: локальный ИИ правильно

Если вы проспали последние полгода, Liquid AI — это те ребята, которые делают нейронки на альтернативной архитектуре (LFM), забивая на классические трансформеры ради безумной эффективности.

Их свежий Cookbook на GitHub — это не просто доки, а готовый набор хаков для тех, кто хочет запустить серьезный ИИ на «калькуляторе».

Разбираем репозиторий:
🔛 Примеры того, как запустить LFM 2.5 (включая "думающие" модели) прямо в браузере через WebGPU. Никаких API-ключей и облаков, всё шуршит на твоем GPU.

🔛 Готовые проекты для iOS (Swift) и Android (Kotlin). Хочешь свой локальный ChatGPT, который не сливает переписку? Бери за основу их LeapChat.

🔛 Обработка аудио в реальном времени (LFM2-Audio) и разбор инвойсов по фото (LFM2-VL) на моделях смешного размера (от 1.2B до 3B параметров), которые выдают результат уровня гигантов.

🔛Ноутбуки для дообучения через Unsloth и GRPO (привет, OpenAI o1 стиль рассуждений). Можно быстро натаскать модель под специфический домен.

🔗 Заглянуть в репозиторий: https://clc.to/1BVkhw

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1😢1🤩1

2.11K views11:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

0:34

Media is too big

VIEW IN TELEGRAM

👀

Интерактивный 3D-разбор LLM

Cамый наглядный способ понять устройство больших языковых моделей (LLM) через глубокую 3D-визуализацию.

🔗 Попробовать: https://clc.to/kmCVsw

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1😢1

2.23K views19:38

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🏛️ MIT выложил свою AI-библиотеку бесплатно

Это не просто статьи — это база, на которой построены OpenAI, Google DeepMind и Anthropic. Если вы хотели серьезно зайти в ИИ, это ваш знак.

🧭 Навигация по библиотеке:

1. Фундамент (Для старта):

Foundations of Machine Learning — база алгоритмов.
Understanding Deep Learning — самый наглядный современный учебник. Если пугает математика, начинайте здесь.
Algorithms for ML — как устроены «внутренности» моделей.

2. Глубокое обучение (Deep Learning):

Deep Learning — легендарная «библия» DL. По ней училось всё нынешнее поколение топ-инженеров.
Probabilistic ML — всё о том, как заставить ИИ работать с неопределенностью.

3. Обучение с подкреплением (RL) — разум машин:

RL Basics — абсолютный стандарт. Без этой книги в RL делать нечего.
Multi-Agent Systems — как обучать целые группы агентов взаимодействовать друг с другом.

4. Этика и будущее:

Fairness in ML — как избежать предвзятости и сделать ИИ справедливым.

📌

Чтобы не потерять вакансии и анонсы — добавь папку

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤4👍2🎉2🙏2

2.63K viewsedited 12:32

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🛠 Git Submodules: как не плодить копипасту в ML-проектах

Представьте: у вас три команды (Fraud Detection, Credit Scoring и Trading). Всем им нужна одна и та же функция calculate_risk_score().

Обычно это превращается в кошмар:
1. Команды копируют код себе.
2. Одна команда находит баг и исправляет его.
3. Остальные два проекта остаются с багами, потому что даже не знают об исправлении.

Итог: «расползание» версий (version drift) и ошибки в продакшене.

✅ Решение: Git Submodules

Это способ вставить одну Git-репозиторий внутрь другого как подпапку. Вы не копируете код, а ссылаетесь на конкретный коммит в общем репозитории библиотек.

🚀 Шпаргалка по командам

1. Добавить общую библиотеку в проект:


git submodule add https://github.com/user/ml-utils.git ml-utils

Это создаст папку ml-utils/ и файл .gitmodules, где прописана ссылка на репозиторий.

2. Клонировать проект со всеми зависимостями:

Если вы просто сделаете git clone, папка с сабмодулем будет пустой. Нужно так:


git clone --recurse-submodules https://github.com/user/main-project.git

3. Обновить общие утилиты до последней версии:


git submodule update --remote ml-utils
git add ml-utils
git commit -m "Update shared ML utils"

📍 Навигация: Вакансии • Задачи • Собесы

🐸

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤4🙏3🎉1

4.6K viewsedited 19:43

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎓 PaperDebugger: личный ИИ-соавтор прямо в Overleaf

Написание научной статьи — это бесконечный цикл правок и споров с «Рецензентом №2». Проект PaperDebugger ломает эту стену, внедряя продвинутого ИИ-ассистента прямо в редактор Overleaf.

В основе проекта лежит уникальный движок на базе MCP (Model Context Protocol). Он имитирует полный рабочий процесс ученого: Исследование → Критика → Ревизия.

Основные фишки:
— Работает как расширение Chrome. Читает ваш проект и дает советы, не выходя из вкладки.
— Модель анализирует текст глазами строгого рецензента конференции.
— Проверка цитат, верификация литературы и глубокая работа с предметной областью.
— Инструмент только читает ваш код и предлагает правки. Окончательное решение и вставка — всегда за вами (Instant Insert).

🔗 Репозиторий проекта: https://clc.to/rfexYQ

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤5👍2🥰2

2.03K views11:29

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🐼 Шпаргалка по Pandas: как не завалить секцию Live Coding

Разбираем основные шаги подготовки.

🏗 Шаг 1: Доступ и чистка данных

Прежде чем анализировать, нужно «причесать» датафрейм.

— `.loc` vs `.iloc`: Запомните раз и навсегда — .loc работает с текстовыми метками (названия столбцов и индексов), а .iloc — строго по целочисленным позициям.
— Если числа ведут себя как текст, используйте .astype(int) или float для явного преобразования.
— Используйте .isnull() для поиска пропусков и .dropna(), если решили радикально избавиться от строк с NaN.

🔄 Шаг 2: Трансформация и анализ

— `.apply()` : позволяет прогнать любую пользовательскую функцию через каждую строку или столбец.
— `.groupby()` : разбивает данные на группы (например, по категориям), чтобы вы могли применить агрегацию: sum(), count() или mean().
— `.pivot_table()` : создает сводные таблицы в стиле Excel для быстрой оценки больших наборов данных по нескольким измерениям.

💡 Топ-3 совета для интервью

1. Не забывайте про inplace=True** (или переопределение переменной), иначе ваши изменения не сохранятся.
2. Всегда предпочитайте встроенные методы Pandas обычному циклу for.
3. После .dropna() или фильтрации часто полезно сделать .reset_index().

А какой метод в Pandas ваш самый любимый? Или, может, вы уже перешли на Polars? Пишите в комментариях!

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤6👍6🥰4

1.97K viewsedited 19:34

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

ML_Notes.pdf

2.8 MB

🎓 Лекции: математические основы машинного обучения

Краткий конспект лекций для тех, кто хочет понимать машинное обучение на уровне теории.

➡️ Без кода — только ключевые математические идеи.

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤1

2.03K views11:51

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

This media is not supported in your browser

VIEW IN TELEGRAM

0:59

1.78K views14:43

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

👍

На курсе по контролируемой разработке AI-агентов мы будем разбирать ровно то, о чём говорит Владислав в голосовом, но уже в формате системной практики.

📅 Старт курса — 20 апреля.

Если хотите разобраться, как строить управляемые агентные системы:
➡️ Присоединяйтесь.

P.S. С первого занятия будет практика: код и разбор реальных ошибок, а не только теория.

Please open Telegram to view this post

VIEW IN TELEGRAM

1.69K views14:43

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🔄 Статистические связи в Data Science

Понимание того, как переменные «общаются» друг с другом — фундамент для построения точных моделей. Без этого анализа вы рискуете обучить модель на случайных шумах.

1. Ковариация vs Корреляция

Хотя оба термина описывают взаимосвязь, они решают разные задачи:
➡️ Ковариация (Cov): Показывает направление связи. Если значение > 0 — переменные растут вместе, если < 0 — одна растет, другая падает.

Минус: сильно зависит от масштаба данных (метры или километры), поэтому её сложно сравнивать между разными датасетами.

➡️ Корреляция (ρ): Это «причесанная» ковариация. Показывает силу связи в строгом диапазоне от -1 до 1.

Плюс: не зависит от единиц измерения.

2. Анализ временных рядов (Time Series)

Когда данные зависят от времени, обычного скаттер-плота мало. Здесь в игру вступают специфические инструменты:

➡️ ACF (Автокорреляция): Насколько сильно прошлые значения влияют на текущие. Помогает найти циклы и сезонность.

➡️ PACF (Частичная автокорреляция): Изолирует прямое влияние конкретного временного лага, убирая «эхо» промежуточных шагов.

➡️ CCF (Кросс-корреляция): Поиск связи между двумя разными рядами (например, как реклама сегодня влияет на продажи через неделю).

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4🥰3❤1🎉1🙏1

1.74K views19:06

Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

📊 EDA в терминале: зачем Data Scientist’у нужен Chartli

Когда вы работаете на удаленном сервере через SSH или копаетесь в логах весом в несколько гигабайт, выгружать данные в локальный Jupyter Notebook для простого plt.show() — это долго. Chartli позволяет увидеть распределение или тренд, не покидая консоль.

🛠 Почему это удобно для DS

1. Быстрая проверка гипотез

Нужно понять, есть ли сезонность в логах или не «поплыли» ли веса модели? Просто пробросьте данные через пайп:


cat training_loss.txt | npx chartli -t spark

2. Поддержка многомерных данных

Если у вас есть матрица корреляций или веса слоев, используйте режим Heatmap:


npx chartli matrix.txt -t heatmap

3. Визуализация без графического окружения:
В отличие от Matplotlib, которому нужен X-сервер или сохранение в файл, Chartli использует Unicode и Braille (символы Брайля) для отрисовки графиков с удивительно высокой детализацией прямо в сетке символов.

💡 Лайфхак для Pandas

Вы можете интегрировать Chartli прямо в свои скрипты через os.system или просто выводить данные в stdout, чтобы быстро взглянуть на них через CLI:


import pandas as pd
df = pd.read_csv('data.csv')
# Вывод колонки в текстовый файл для chartli
df['target'].to_csv('target.txt', index=False, header=False)

И затем в терминале: npx chartli target.txt -t braille -h 10

📂 Проект на GitHub: https://clc.to/-Pk5bw

📍 Навигация: Вакансии • Задачи • Собесы

Библиотека дата-сайентиста

#буст

❤5👍4🥰1

1.71K views12:07

About

Blog

Apps

Platform