Архитектор Данных
1.12K subscribers
152 photos
8 videos
2 files
118 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Завтра начинаем

Еще есть возможность присоединиться
https://devhands.ru/lakehouse
👍1162🤡1
Все понимаем к чему это приведет?

ЕС компании теперь будут до последнего держать, но ни в коем случае не поднимать никому вилки ни на евро-цент.
😢6👍4💯3
Пополняем коллекцию полезных видео.

1️⃣ Запись 2-го эпизода «разговоров на архитекторском». С Олегом Королевым из Авито говорим о построении и развитии ИИ-платформ в крупном бизнесе. А также чем отличается витрина в КХД от МЛ фича-стора. За качество - извините, так вышло 🙂

2️⃣ Плейлист Лейкхауса пополнен записью демо с Алексеем Рыбаком.

Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👌3🎉1
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям.

Дешевая розетка - есть

Градирня или пруд для охлаждения - есть

Дизеля - есть

РосАтом-ЦОД - идея-то рабочая.
🔥184🤔3🤡21
Архитектор Данных
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям. Дешевая розетка - есть Градирня или пруд для охлаждения - есть Дизеля - есть РосАтом-ЦОД - идея-то рабочая.
Посоветовавшись с голосами в голове GPT, стало понятно, что по правилам МАГАТЭ и Ростехнадзора подключать ЦОД к градирне или дизелям АЭС конечно же нельзя.

Это может сказаться на работе самой станции и повлиять на ее безопасность. Контуры охлаждения, резерв питания и всего остального должны быть разделены, это правильно.

Так что АЭС для ЦОД просто недорогая и стабильная розетка.

Кроме того, как подсказали в коментах, у РосАтома есть проект арендных ЦОД atomdata. Но в Москве и Иннополисе.
5👍1
Forwarded from Ai molodca (Alexander Dobrokotov)
Как контент-фабрики убивают интернет 🌸

Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации.
YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют.
Проблема — не в том, что контент поверхностный.
Проблема — он неправдивый.

Когда образовательные ролики генерятся пачками без проверки фактов, это не просто засоряет платформы — это подрывает доверие к информации вообще. Эффект снежного кома: фейковая инфа попадает в обучающие датасеты и материалы для дипресёрча, потом в новый контент, и так по кругу.

При этом экономика сломана так, что качество проигрывает количеству. Платформы поощряют объём (алгоритмы любят частоту постинга), а не глубину. YouTube не особо заинтересован банить слоп, пока он генерит просмотры и рекламные деньги.

Генеративные тулзы могут быть черновиком для качественного контента, а могут быть финальным продуктом для быстрых денег. Разница — в ответственности создателя.

Думаю мы движемся к расслоению. Будет "премиум-интернет" — курируемые платформы, проверенные источники, подписки — и "слоп-интернет" из автогенерации. Доступ к правде и качеству станет платным де-факто.

Что делать? А черт его знает. Голосовать вниманием, например. Поддерживать создателей, которые не автоматизируют финал. Быть занудой и проверять факты. Если производите контент — нанимать людей для факт-чека и контролировать продакшн-качество.

Ну или просто жить в лесу и трогать траву каждый день. 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
💯104👍3😁1
В S3 папок нет!

Не все понимают свойства и ограничения такого сервиса как S3.

Все считают что это такая большая файлопомойка, к которой можно примонтировать все что нужно. Хоть Windows проводник.

Но нет.

В S3 даже файлов и папок нет. Вместо файлов - объекты, вместо папок - некоторым образом похожие ключи.

Отсюда и то, что если ты прямо серьезно собрался работать с S3 на больших объемах и нагрузках (привет Лейкхаус и ML-at-Scale), то и подходы надо менять.


Пример:

Вместо листинга положить в "папку" с данными маленький мета файл с тем, что должно оказаться в листинге. Листинг дорогой, файл поднять - дешево.

Это не зашквар, это Айсберг Манифест 😎
152👍2
Грустная и поучительная история

Очень много стартапов, основанных технарями, погибли от неуместного использования google scale решений.

Обратная сторона гипер-доступности технологий.
👀8👍5🤔42🤡1
Впервые увидел себя в выдаче гугла 😎

А конкретно - эта статья на хабре
👍20🔥5👀21
Там Яндекс рост облаков в 3 раза к 2030 году нашел.

Пока же у нас нередки заказчики, у которых в ТЗ на облако написано требование каждый день предоставлять фотоотчет о состоянии их серверов.

Многие не понимают как управлять ИТ инфраструктурой когда нет решетки, бирочек, ключиков и Яков Саныча с журналом доступа.
😁2031
Forwarded from VK Cloud
👏 Вчера на TAdviser SummIT 2025 сразу два проекта VK Tech берут награды в номинации «Проект года».

🛢 ПАО Сургутнефтегаз

Компания перешла на технологическую платформу на базе VK Private Cloud: запустила первые бизнес-приложения, выстраивает собственный центр компетенций и внедряет DevSecOps-подходы. Это модульное частное облако в ЦОДе заказчика — с надежностью, катастрофоустойчивостью и масштабированием под цифровые инициативы.

🏛 Федеральное казначейство

«Электронный бюджет» ускорили за счет миграции неструктурированных объектов из реляционных баз данных в S3-совместимое хранилище VK Object Storage. В итоге получили –50% к отклику БД, 30–60% экономии пространства хранения, 5 миллиардов объектов в хранилище и +50 миллионов объектов каждую неделю.

🎉 Поздравляем команды и продолжаем делать проекты, которые двигают инфраструктуру страны вперед.
1👍1053
Forwarded from 5 minutes of data
Увидел в Airflow одну очень прикольную фичу — Human-in-the-Loop операторы.

Можно просто встроить человеческое подтверждение прямо в DAG.

Работает это так:
AI или любая задача что-то генерит → Airflow ставит паузу и ждёт решения → человек получает ссылку, жмёт approve/reject → пайплайн продолжает работу.

Никаких кастомных сенсоров, костылей и блокировок воркеров — всё из коробки в 3.1.

Очень удобная штука для тех, кто запускает AI в проде и хочет держать ручной контроль там, где это реально важно.

@five_minutes_of_data
👍20👏4👀4🔥2
А можно я лучше в колбасный цех?
5🤣5🫡2
Архитектор Данных
А можно я лучше в колбасный цех?
ЧатГПТ 5.1 подтверждает что разницы с архитектурой данных никакой.

Интересно, когда пинский комбинат догадается переименовать должность в Senior Pig Engineer для повышения престижа профессии.

И тогда вперед к новым карьерным перспективам.
😁1561
Когда придумано идеальное название для стартапа
1😁19👍4411🔥1
Отвез джунов в живописное место.

Нашли памятные места известных людей (цитата): Марина Цветкова, Белая Ахмадуллина, Пауковский.

Также живописную Оку и богатую культурную жизнь.

Вопрос к знатокам: угадайте место!
18👍3😁2😎2🤝1