VitGot
6 subscribers
834 photos
4 videos
1 file
1.38K links
Мой персональный блог
Download Telegram
Экстраверты имеют в 2 раза больше друзей (медиана: 15 vs 7).
3. Корреляции
Heatmap:
*Сильнее всего с типом личности связаны Social_event_attendance (r=0.62) и Time_spent_Alone (r=-0.58).*
🤖 ML-модели: какая лучше?
Модель Accuracy Лучший признак
Logistic Regression 81% Social_event_attendance
Random Forest 85% Time_spent_Alone
SVM 79% Stage_Fear
Вывод: Random Forest предсказывает тип личности точнее всего.
💻 Ключевой код
python
# Топ-3 важных признака в Random Forest
feature_importance = pd.DataFrame({
'Feature': X.columns,
'Importance': model.feature_importances_
}).sort_values('Importance', ascending=False)
print(feature_importance.head(3))
Результат:

Social_event_attendance (0.41)
Time_spent_Alone (0.33)
Stage_Fear (0.12)

💡 Задание для подписчиков
«Попробуйте улучшить accuracy! Какие гипотезы проверить? Варианты:

Добавить фичу Drained_after_socializing / Time_spent_Alone,
Использовать ансамбль моделей. Лучший вариант разберу в следующем посте!»

🎯 Почему это цепляет?

Готовый анализ — можно сразу применять в кейсах.
Сравнение моделей — помощь в выборе алгоритма.
Интерактив — вовлекает аудиторию.
Как посчитать скользящее среднее за 3 дня без сложных формул
https://vitoandolini.livejournal.com/624671.html

Как посчитать скользящее среднее за 3 дня без сложных формул
Скользящее среднее нужно для анализа трендов (например, продаж). Вот 2 способа:
В Excel:
=СРЗНАЧ(B2:B4) // для диапазона из 3 ячеек
В Google Sheets:
=AVERAGE(OFFSET(B2;0;0;3;1)) // динамический диапазон
📊 Протяните формулу вниз — и готово!
👉 Делитесь в комментах, для каких данных вы применяете скользящее среднее?
Как автоматически выделять дубликаты в таблице
https://vitoandolini.livejournal.com/625096.html

Чтобы найти повторы в списке заказов или клиентов:
Excel:
Выделите данные → «Условное форматирование» → «Повторяющиеся значения».
Готово! Дубли подсветятся цветом.
Google Sheets:
Формат → Условное форматирование → «Пользовательская формула»:=COUNTIF(A:A; A1)>1
👉 Как вы боретесь с дублями? Пишите в комментарии!
Как заменить Excel на Python для анализа данных
https://vitoandolini.livejournal.com/625370.html

Если Excel тормозит на больших данных, вот как перейти на Python:
Чтение файла:
import pandas as pd  
data = pd.read_excel("sales.xlsx")  
Сводная таблица:
pivot = data.pivot_table(index="Город", values="Продажи", aggfunc="sum")  
Фильтрация:
filtered = data[data["Продажи"] > 1000]  
📌 Пример вывода в Jupyter Notebook или Google Colab.
👉 Кто уже использует Python вместо таблиц? Делитесь опытом!
Автоматизация отчётов в Python: код для новичков
https://vitoandolini.livejournal.com/625541.html

Как каждый понедельник не делать один и тот же отчёт вручную:
import pandas as pd  
from datetime import datetime  
# Загрузка данных  
data = pd.read_csv("data.csv")  
# Фильтр по текущей дате  
today = datetime.now().strftime("%Y-%m-%d")  
report = data[data["Date"] == today]  
# Сохранение в Excel  
report.to_excel(f"report_{today}.xlsx", index=False)  
🔹 Можно добавить отправку на почту через smtplib.
👉 Какие отчёты вы автоматизировали?
Как исправить #ЗНАЧ! и другие ошибки в Excel
https://vitoandolini.livejournal.com/625854.html

Самые частые ошибки в Excel и как их исправить за 5 секунд:
#ЗНАЧ (https://www.livejournal.com/rsearch/?tags=%23%D0%97%D0%9D%D0%90%D0%A7)! — чаще всего означает, что формула ссылается на пустую ячейку или текст вместо числа.
#ДЕЛ (https://www.livejournal.com/rsearch/?tags=%23%D0%94%D0%95%D0%9B)/0! — деление на ноль. Исправьте знаменатель или используйте =ЕСЛИОШИБКА().
#ИМЯ (https://www.livejournal.com/rsearch/?tags=%23%D0%98%D0%9C%D0%AF)? — опечатка в названии функции. Проверьте, нет ли лишних пробелов.
👉 Какие ошибки бесят вас больше всего? Пишите в комменты!
Секретная функция Google Sheets, о которой мало кто знает
https://vitoandolini.livejournal.com/625959.html

=QUERY() — это как SQL прямо в таблице! Пример:
=QUERY(A1:D100; "SELECT A, SUM(D) GROUP BY A LABEL SUM(D) 'Итого'")
Что делает:
Группирует данные по столбцу A и суммирует значения из D.
Работает в Google Sheets (в Excel нет аналога).
👉 Кто уже использовал QUERY()? Делитесь примерами!
Как автоматически обновлять сводную таблицу при добавлении данных
https://vitoandolini.livejournal.com/626273.html

Чтобы не обновлять сводную вручную:
В Excel:
Превратите исходные данные в «Умную таблицу» (Ctrl + T).
Сводная таблица будет подхватывать новые строки автоматически.
В Google Sheets:
Используйте именованный диапазон или =FILTER() для динамического источника.
👉 Кто знает другие способы?
Python: как проанализировать Excel-файл без открытия
https://vitoandolini.livejournal.com/626518.html



Скрипт для анализа данных прямо из файла:
import pandas as pd 
# Чтение файла
df = pd.read_excel("data.xlsx")
# Анализ: среднее, максимум, медиана
stats = df.describe()
print(stats)
Плюсы:
Не нужно открывать тяжелый файл вручную.
Можно обрабатывать сотни тысяч строк без тормозов.
👉 Кто перешел с Excel на Python для анализа? Расскажите о плюсах/минусах!
Мем: Когда находишь ошибку в данных за месяц
https://vitoandolini.livejournal.com/626699.html
Знакомое чувство? 😅 Проверяйте данные до анализа, а не после!
Как я победил хаос в учёте целей за один вечер
https://vitoandolini.livejournal.com/627057.html

История о том, как 30 строк кода заменили мне гору таблиц
Было:
📉 Excel-файлы с расчётами в разных форматах
📅 Потерянные данные за прошлые месяцы
3 часа ручной работы каждый отчётный период
Стало:
# Автоматический расчёт прогресса
days_passed = (datetime.now() - start_date).days
progress = (current_result / yearly_goal) * 100
daily_needed = (yearly_goal - current_result) / (365 - days_passed)
Что получил:
Мгновенные расчёты

Прогресс по целям
Отклонения в днях
Рекомендации по ежедневному плану

Автоматическое сохранение
Все данные аккуратно записываются в CSV:
Дата, Цель, Факт, Отклонение
2025-06-29, 5510, 2885, +168
2025-06-29, 1377, 673, -6
Главный плюс:
Теперь вместо рутинных подсчётов я трачу 5 минут на:

Ввод текущих результатов
Анализ автоматически сгенерированных данных
Корректировку планов
Типичные ошибки в Excel, которые портят ваши отчёты
https://vitoandolini.livejournal.com/627351.html

Проверьте, не делаете ли вы так:
Смешанные форматы (числа как текст → СУММ не работает).
Жёсткие числа в формулах (например, =B2*0.2 вместо =B2*$C$1).
Неиспользование именованных диапазонов — усложняет чтение формул.
Как исправить:

Выделите данные → Ctrl+1 → проверьте формат ячеек.
Заменяйте числа на ссылки (например, ставьте ставку НДС в отдельную ячейку).
Создайте именованный диапазон: Формулы → Диспетчер имен.

👉 Какие ошибки бесят вас больше всего?
Как автоматически собирать данные из нескольких файлов Excel
https://vitoandolini.livejournal.com/627612.html

Задача: У вас есть 10 файлов с продажами за месяц — как объединить их в одну таблицу?
Решение 1: Power Query (Excel)

Данные → Получить данные → Из файла → Из папки.
Выберите папку → «Объединить и загрузить».

Решение 2: Python (pandas)
import pandas as pd
import glob

files = glob.glob("sales/*.xlsx") # читаем все файлы из папки  
data = pd.concat([pd.read_excel(f) for f in files])
data.to_excel("combined_sales.xlsx")
👉 Кто использует другие способы? Делитесь в комментах!
Разбор вашего кейса: как я предсказывал выручку на Python
https://vitoandolini.livejournal.com/627797.html

Недавно мне нужно было спрогнозировать продажи на следующий квартал. Вот что сделал:

Данные: История продаж за 2 года + внешние факторы (праздники, реклама).
Графики: Тренд + сезонность (библиотека statsmodels).
Модель: Prophet от Facebook (код ниже).

from prophet import Prophet

model = Prophet()
model.fit(df)
future = model.make_future_dataframe(periods=90)
forecast = model.predict(future)
Итог: Точность прогноза — 89%.
👉 Хотите разбор вашего кейса? Присылайте данные анонимно!