Инжиниринг Данных

Для инвесторов было необходимо посмотреть демографию клиентов в США. Для такой задачи можно использовать открытые источники, например данные US Census Bureau, которые доступны в Snowflake.

Бюро переписи населения США публикует данные о американском населении и экономике.

Американское исследование сообществ (American Community Survey) этого агентства — это постоянно проводимый опрос, который предоставляет самые актуальные социальные, экономические, жилищные и демографические статистические данные. Ежегодно публикуются как однолетние, так и пятилетние оценки для различных уровней географических единиц, включая штаты, города, почтовые индексы и группы переписных участков. В отличие от Всеобщей переписи населения (Decennial Census), Американское исследование сообществ публикуется каждый год и рассылается по выборке адресов в США (~3,5 миллиона).

Задача простая, показать типового американца клиента нашего продукта. Последний опрос проводился в декабре 2023.

Сами по себе данные очень неудобные https://api.census.gov/data/2023/acs/acs5/variables.html, так что AI очень хорошо помог (Cursor, MCP - прям как я в недавнем видео записал).

Чтобы упросить логику, трансформации разложил по слоям в dbt.

Хотел поделиться примером демографии по медиане доходов в США:


CASE 
        WHEN median_household_income_dollars >= 150000 THEN 'High Income ($150k+)'
        WHEN median_household_income_dollars >= 100000 THEN 'Upper Middle ($100k-$150k)'
        WHEN median_household_income_dollars >= 75000 THEN 'Middle Income ($75k-$100k)'
        WHEN median_household_income_dollars >= 50000 THEN 'Lower Middle ($50k-$75k)'
        ELSE 'Lower Income (<$50k)'

То есть из примера видно, что средний доход в штатах это 75к в год (до налогов), где-то 4т в месяц на руки. А высокий доход это 150т+, около 8т на руки в месяц. Точно так же и в Канаде, только в Канадских долларах, но налоги будут выше и цены на все тоже будут выше.

А если посмотреть на зп Инженера данных, то старший специалист в США это 180-220к$, а в Канаде 160-180к CAD.

То есть зарплаты в ИТ они выше, чем “high income”.

Но у них есть недостаток, как правило все “high income” специалисты будут жить в дорогих городах, платить большую ипотеку или рент, платить кредит за машину(ы) и по факту, они будут такими же бедными.

Я бы сделал сейчас другие бакеты:
- High Income: >600к
- Upper Middle: 400-600к
- Middle: 250-400к
- Lower: <200к

Snowflake

US Census Bureau | Documentation

Delivers population, housing, economic, and geographic data for the United States.

❤‍🔥19💯7⚡3😭31

6.08K viewsedited 16:55