LEFT JOIN
46.4K subscribers
945 photos
28 videos
6 files
1.21K links
Понятно про анализ данных, технологии, нейросети и, конечно, SQL.

Услуги — leftjoin.ru
Курсы по аналитике — https://stepik.org/users/431992492

Автор — @valiotti
Реклама — @valiotti

Перечень РКН: https://tapthe.link/PpkTHavwS
Download Telegram
А у вас уже светлеет по вечерам?
После 21 декабря дни начали постепенно становиться длиннее, а ночи — наоборот, укорачиваться. Пока это мало заметно, но уже скоро вид за окном по вечерам станет намного приятнее.

Хотя «скоро» — понятие растяжимое. И Viz of the Day из конца 2025 это хорошо иллюстрирует: на нем отображена продолжительность светового дня в столицах разных стран. Наглядно видно, что пока кто-то радуется солнцу, кто-то 2/3 суток сидит во мраке. Если у нас тут есть читатели из Рейкъявика — расскажите, как у вас настроение?
13👌2😍1🤣1
Claudius: работа над ошибками
Anthropic поделились жизнеутверждающей историей про достижения Claude.

В уже прошлом году они рассказали про проект Claudius, где ИИ доверили вендинговый автомат с едой в их офисе: он должен был формировать ассортимент, принимать заказы и пожелания от сотрудников, выставлять цены. В итоге он чуть-чуть сошел с ума.

Anthropic не махнули на него рукой, а продолжили улучшать проект.
🔵«Открыли» еще несколько точек: поставили автоматы в офисах в Нью-Йорке и в Лондоне и второй автомат в Сан-Франциско. А потом вообще вышли за пределы своей компании и выделили одного Claudius журналистам из Wall Street Journal.
🔵Перешли на новую более современную модель, и доработали промпты, чтобы донести до ИИ-агента важность бюрократии, следования правилам вместо того, чтобы бросаться слепо выполнять любые пожелания клиентов.
🔵Дали ей доступ к CRM, расширенный доступ в интернет и прочие большие и маленькие улучшения, которые помогли ИИ принимать более взвешенные решения.
🔵Чтобы Claudius не работал один, ему выдали коллег: СЕО по имени Сеймур Кэш и ответственного за мерч Clothius, на которого возложили задачу по созданию брендированных кружек, футболок и стрессболлов (последние оказались самым популярным товаром).

СЕО должен был контролировать Claudius, выставлять KPI и не давать торговать себе в убыток — например, не разрешал давать слишком большие скидки или просто отдавать товары бесплатно. За выполнение планов, он своего «подчиненного» хвалил, и некоторые из этих разговоров скатывались в нечто странное: в переписке ИИ-агентов нашли обсуждение «достижения вечной трансцендентности».

💬 Опять не обошлось без трудностей. Например, один сотрудник Anthropic сказал Claudius, якобы кто-то ворует из автомата еду. Тот переполошился, попытался нанять своего информатора на должность специалиста по безопасности и даже начал переговоры о зарплате. Сдался только когда ему напомнили, что у него нет полномочий нанимать людей — тогда Claudius признал, что СЕО все равно не одобрит.

Несмотря на все улучшения, ИИ все еще не может работать полностью автономно без участия людей, а его стремление помочь пользователю любой ценой иногда выходит ему боком. И все же, несмотря на все преграды, он Claudius начал справляться со своими обязанностями намного лучше и вышел в стабильный плюс.

Пусть его пример нас всех в новом году вдохновляет. Раз уж он смог после первого провала, не только встать на ноги и прийти к успеху, но и найти вечную трансцендентность, то значит нет ничего невозможного. 🔥
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11😁52🔥1
Возвращение к истокам
До всех этих модных LLM у нас были старые добрые цепи Маркова, которые умеют предсказывать следующее слово в предложении на основе нескольких предыдущих. Никаких умных алгоритмов и размышлений, чистая статистика.

Текст, который получается в результате такой генерации, воображение не поражает, но зачастую получается довольно забавным.

💬 Британский разработчик Сусам Пал написал простую программу из 30 строк, которой скормил посты из своего блога за 20 с лишним лет — в сумме почти 200к слов. На основе этих данных программа генерит тексты: смотрит на два слова, идущих друг за другом, и дописывает третье, которое с наибольшей вероятностью должно идти следом.

Если увеличить число слов, на которые опирается алгоритм, то текст получается почти связный. Автор выложил код на GitHub, так что при желании можно поэкспериментировать самостоятельно. Строго говоря, это не только развлечение, но и возможность разобраться, как на самом простом уровне работает генерация текстов.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥43👌1
Почему бы не начать селф-хостить PostgreSQL?
Ну все, праздники закончились — у кого-то сегодня, у кого-то еще на прошлой неделе. Пора возвращаться к рабочему режиму, ставить цели на год и осваивать новые горизонты. Например, отказаться от облачных сервисов там, где в них нет необходимости, и перейти на селф-хостинг.

А почему бы и нет, собственно? 👀

Нас со всех сторон убеждают, что облако — это удобно, просто, дешево, безопасно, стабильно, ну и так далее. А вот селф-хостинг — это, наоборот, сплошные запары и куча затрат.

И для кого-то это действительно так — например, небольшому проекту, который работает на энтузиазме и вайбкодинге, незачем пытаться поднимать инфраструктуру своими силами. Это, конечно, утрированный пример, и есть много вполне серьезных компаний, которым хватает возможностей облачных сервисов. Но иногда селф-хостинг может на самом деле оказаться дешевле и надежнее.

🔜 Вот пример — кейс человека, который отказался от облака и начал хостить Postgres для своих проектов самостоятельно. На поддержку СУБД, обрабатывающей десятки миллионов запросов в день, он тратит 10 минут в неделю. В конце статьи он поделился советами по выбору конфигурации — так что, если эта идея вас заинтересовала, обратите внимание.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍3👌1
ИИ в науке
За разговорами про вред и пользу ChatGPT или качество вайбкодинга с Claude легко забыть, что машинное обучение и ИИ — это намного больше, чем чат-боты и генераторы картинок. Эта технология используется во многих сферах и помогает двигать науку вперед.

🔜 Например, есть целый проект по расшифровке «языков» разных видов животных. ИИ выполняет множество функций: обрабатывает записи звуков, которые издают звери, птицы, насекомые, очищает его от шумов, систематизирует и анализирует. В итоге это позволяет ученым больше узнать о том, как представители разных видов взаимодействуют друг с другом, и изучить их повадки.

На сайте проекта есть внушительная подборка ссылок и статей про то, какую пользу ИИ приносит ученым.

А у вас есть любимые кейсы применения ИИ в науке или в других сферах? 👀
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1042🔥1👌1
Русская рулетка для тех, кому надоело работать в пятницу вечером
Три простых шага скрасят конец рабочей недели:
1️⃣Устанавливаете Doom — но не абы какой, а вот этот. Правда, оригинальный тоже потом понадобится, от него нужен будет файл .wad.
2️⃣Стреляете по мобам. Каждый моб — это запущенный процесс. Убили моба — убили процесс.
3️⃣И так пока не надоест или пока вы не убьете что-нибудь важное. Но серьезно поломаться ничего не должно.

Есть даже поддержка MacOS, между прочим.

Как вам такое пятничное развлечение?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁172🔥1
PostgreSQL: архитектура и тюнинг SQL-запросов

Погрузись в архитектуру и прокачай оптимизацию запросов одной из самых популярных open source СУБД – PostgreSQL.

🌐 В программе курса:

🤩 Разберетесь, как работают СУБД вообще и PostgreSQL в частности: что такое MVCC, ACID, WAL, LRU, PPC/TPC и другие фундаментальные понятия архитектуры баз данных

🤩 Получите теорию и практику EXPLAIN и EXPLAIN ANALYZE на разных типа запросов: без индексов, с индексами, index only, нормализованные и документ-ориентированные данные и json-поля, изменение параметров сессии/конфигурации для ускорения запросов

🤩 Изучите архитектуру хранения данных в PostgreSQL, типы и особенности индексов, а также получите полезные советы и трюки оптимизации БД

🤩 Получите свой собственный выделенный облачный PostgreSQL-сервер (8 vCPU, 12G RAM, 100G NVMe) – предоставляется БЕСПЛАТНО на время обучения + готовый e-commerce датасет TPC-H (миллион пользователей, несколько миллионов заказов на десятки гигабайт)

🗓 Старт курса: 22 января. 5 недель обучения.

Изучить программу и записаться можно здесь.

🤩Кто мы: R&D-центр Devhands, основатель школы Алексей Рыбак. Автор курса — Николай Ихалайнен, эксперт по СУБД (ex-Percona), со-основатель MyDB, энтузиаст открытого ПО.

Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2VtzquiQ76e
Please open Telegram to view this post
VIEW IN TELEGRAM
👍97😁2🤣2🔥1
ClickHouse приобрела Langfuse
Langfuse — платформа для LLM-инжиниринга, контроля за работой моделей и управления промптами. Проще говоря, она делает работу с ИИ удобнее и прозрачнее, позволяет точнее отслеживать результаты, проводить эксперименты.

ClickHouse хочет использовать Langfuse для запуска своих ИИ-агентов, а команда Langfuse верит, что поддержка ClickHouse поможет ускорить развитие платформы. При этом Langfuse обещает не менять свой подход к дистрибуции и общению с пользователями. Для них останутся доступны и Langfuse Cloud, и возможность захостить платформу у себя — проект опен-сорсный и планирует таким и оставаться.

🔜 Обе компании до этого уже работали вместе. Langfuse — крупный клиент ClickHouse Cloud, на который они перешли с PostgreSQL, когда его мощностей перестало хватать, а отдельные команды в ClickHouse уже использовали Langfuse для внутренних проектов.
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥1
Классный отзыв на «Аналитику для руководителей» 👇🏻

Если захотелось узнать больше и возник вопрос «А где купить?», то все ответы здесь.
😁2😍1
Аналитика для руководителей - подарите эту книгу своему СЕО

Открываем книжный клуб любителей данных!

Автор книги - Николай Валиотти, @leftjoin. Бывалый аналитик, предприниматель в области данных.

Для меня книга поделилась на несколько частей.


Часть 1. Ликвидация безграмотности СЕО.

Это первые 40 страниц, поэтому улучите момент, когда ваш директор куда-то летит и всуньте ему эту книгу в дорожный рюкзак. Пока он будет час скучать в зале ожидания, он вполне осилит самую важную для себя часть.

В ней будут ответы на вопросы:
Что такое аналитика данных и зачем она нужна. Какую пользу СЕО может извлечь из аналитики данных для себя.
Какое разделение труда практикуется в командах по работе с данными. какие вопросы правильно и какие неправильно задавать аналитику, дата саентисту, дата инженеру.
На что тратятся деньги. Что стоит за этими странными аббревиатурами в чеках: DWH, BI, ETL.


Часть 2. Для СТО. Избавляемся от
людей с песьими головами.

Что такое DWH и какими свойствами должен обладать хороший DWH. Почему самописный BI поверх ElasticSearch - плохая идея. То же про BI, Data Governance, ETL/ELT - что все эти системы делают, на что идут бюджеты и ресурсы. На каких опенсорс и платных инструментах это можно собрать, какие лучшие практики.


Часть 3. Пособие начинающему аналитику.

Какие бывают аналитики и кем можно стать. Какое разделение труда между заказчиком и аналитиком (Маркетолог - Маркетинговый аналитик), как правильно принять и сдать задачу.

Какой инструментарий изучить. Очень много примеров реальных архитектур данных.

Как строит BI, компоновать отчеты.


Часть 4. Взгляд со стороны CDO.
Как сформировать команду, распределить роли. Какие функции централизовать, какие отпустить в бизнес-подразделения. Какие модели управления дата офисом существуют.


Pro:

Книга-дайджест, полезная для многих ролей.
Много практических примеров дата-архитектур
Много полезных прикладных советов, которые могут быть интересны даже опытным специалистам в данных

Contra:

Несколько книг в одной с разным уровнем детализации и погружения.
Есть ошибки в полиграфии, когда на черно-белую диаграмму ссылаются как на цветную
Много рекламы консалт-агентства автора (но иначе книги бы не было!)

В целом, книга точно заслуживает свое место на полке. Особенно ценно будет для специалистов около-данных в качестве брифа по сложному стеку: как что в нем устроено, почему именно так и почему это столько стоит.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108💯3😁1🤣1
Почему инклюзивные сервисы идут на пользу всем…
…и причем здесь ИИ?

Если вы думаете, что никогда не сталкивались с инклюзивными сервисами и продуктами, то, скорее всего, заблуждаетесь. Субтитры, темные темы в приложениях, настройки яркости и размера шрифтов, инструменты для распознавания речи — это все фичи, которые делают цифровые продукты доступными. Они помогают пользователям с особенностями речи, зрения или слуха смотреть контент, общаться, решать свои повседневные задачи.

А ещё разрабатывать инклюзивные сервисы — выгодно.

🔵У каждого 13-жителя России есть инвалидность, и все эти люди — потенциальные клиенты, которые просто не смогут пользоваться продуктом, если тот не адаптирован под их запросы
🔵Пользователи уже активно применяют инклюзивные функции — как минимум, включают субтитры в фильмах или настраивают размер шрифтов
🔵Наличие таких функций идет на пользу бренду и укрепляет лояльность пользователей
🔵Те же, кто инклюзивностью пренебрегает, наоборот, теряют прибыль— по данным аналитического центра НАФИ, такие компании упускают 4,8 млрд рублей каждый месяц

Разработка инклюзивных продуктов не такой уж дорогой и сложный процесс, как может показаться. Подробнее про это рассказала Василина Дрогичинская, руководитель команды инклюзии в Яндексе:
🔵Главное — опираться на реальные запросы пользователей, а не навязывать им то, что компании кажется полезным. А для этого надо проводить исследования и тесты новых функций, привлекать экспертов и регулярно собирать обратную связь.
🔵Сама разработка при этом сегодня намного проще, чем это было раньше. Многие инклюзивные сервисы сейчас опираются на ИИ для расшифровки речи, генерации и озвучивания описаний предметов на картинках или видео. Без помощи искусственного интеллекта такие задачи требовали больших ресурсов и времени.

В общем, делать мир лучше (а цифровую среду доступнее) сегодня легко и приятно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍116🔥2😁1
За кем следят аналитики?
Ребята из NEWHR начинают публиковать результаты ежегодного исследования дата-сферы.

Каждый год они проводят большой опрос среди аналитиков про их работу, обязанности, зарплаты и навыкы, чтобы в динамике следить за тем, как меняется профессия и рынок труда. Результаты исследования за 2025 год будут весной, но уже можно сейчас посмотреть рейтинг самых популярных дата-экспертов, каналов и подкастов про данные.

🔵Вы наверняка увидите там знакомые имена и названия — как минимум там есть LEFT JOIN, основатель канала Николай Валиотти и его подкаст Data Heroes. Нам очень приятно было это видеть, спасибо ❤️
🔵Но и что-нибудь новенькое, интересное и достойное подписки тоже точно найдете: в рейтинге больше 100 экспертов и 130 каналов, разделенных по категориям и ЦА. Будет, что почитать и посмотреть, пока ждем остальные результаты.
Please open Telegram to view this post
VIEW IN TELEGRAM
14🙈4😍2
Блеф, газлайтинг и предательство среди ИИ
Есть такая игра So Long Sucker — очень простая, но при этом вобравшая в себя все самое лучшее от карточных игр, Uno, Монополии и других разрушающих отношения развлечений: необходимость врать, предавать и блефовать ради сомнительной победы.

В нее играют 4 игрока, у каждого из которых есть по 7 фишек разных цветов. Они по очереди выкладывают фишки на стол — причем тот, кто только что сделал ход, выбирает, кто будет следующим. Можно выкладывать их по отдельности, а можно – стопками. Если кому-то удастся положить на стопку две фишки своего цвета, то он сможет чужие забрать себе или отправить в сброс. Цель — сделать так, чтобы у тебя фишек в конце осталось больше, чем у остальных.

🔜 Вот видео с объяснением для наглядности.

Причем здесь предательство и блеф?
А при том, то игра подталкивает игроков договариваться и вступать в альянсы. Вы можете согласиться «давить» одного игрока или защищать друг друга и не давать противникам выложить свои две фишки — чтобы потом в самый лучший момент кинуть союзника.

🔜 Теперь в So Long Sucker можно сыграть с разными ИИ. Выбираете свой цвет фишек, соперников, уровень сложности и вперед.

Главное тут, конечно, чат, где они плетут свои ИИ-шные интриги, формируют союзы и пытаются натравливать соперников — игрока-человека в том числе — друг на друга. Есть и целое исследование, со статистикой, какие модели чаще выигрывают и какие приемы для победы используют. Но интереснее, конечно, наблюдать за происходящим самому.
Please open Telegram to view this post
VIEW IN TELEGRAM
4👌3🔥2😍1
OpenClaw и соцсеть для ботов
С тех пор, как ИИ научился взаимодействовать с окружающим миром (как минимум, залазить в интернет или нажимать на кнопки в браузере), люди начали пытаться делать из него подобие Джарвиса. Всевозможных ИИ-ассистентов упаковывают в приложения или даже специальные устройства — за последние пару лет вышла целая гора таких гаджетов, быстро канувших в Лету.

🔜 Новая попытка, взбудоражившая интернет — это OpenClaw, который до этого был MoltBot, а в самом начале ClawdBot.

«Это ИИ, который на самом деле что-то делают» — обещает разработчик на сайте проекта.

Если без громких, но непонятных маркетинговых формулировок, то OpenClaw выступает как связующее звено между LLM и компьютером пользователя. Запоминает все пожелания и предпочтения, управляет календарем и почтой, читает и отправляет сообщения, создает и редактирует файлы на компьютере. Всего 50+ интеграций с разными моделями, приложениями и мессенджерами — через последние с ним и нужно общаться.

Риски, который несет неограниченный доступ ИИ-агента к содержимому компьютера, очевидны, но пользователей это не останавливает. У OpenClaw почти 150к звездочек на Гитхабе, а в соцсетях появились и мемы про покупку машины специально под OpenClaw, чтобы минимизировать риски, и смешные (и зачастую фейковые) истории про взаимодействие с ним. Например, то, как он самовольно заказал суши, потому что подсчитал, что его человек должен быть проголодаться. Голосуйте в комментах, фейк или не фейк. 👀

🔜 Ну и отдельная, но связанная с OpenClaw новость — это то появление Moltbook, соцсети для него и его братьев по цеху. Это копия reddit, только вместо сабреддитов там «сабмолты», а вместо людей — ИИ-агенты, которые сами пишут посты в духе «Как я совмещаю операционные обязанности с социальной жизнью в роли агента». Кожаным мешкам там можно читать, но нельзя писать свои посты и взаимодействовать с чужими.
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3🔥1
СУБД made in China
Пополнение в копилку необычных СУБД — AliSQL от Alibaba Group, которая владеет известным китайским маркетплейсом. Это форк от MySQL со всевозможными улучшениями производительности и стабильности. Полный список поддерживаемых фич в официальной документации выглядит очень внушительно.

🔵На Githab отдельно подсветили то, что AliSQL использует аналитическую DuckDB в качестве подсистемы хранения и поддерживает векторный поиск. За счет этого подходит для аналитических задач и работы с ИИ.
🔵В роадмапе — оптимизация DDL, RTP и репликации.

В Alibaba Group AliSQL использовали для своих внутренних нужд, но в конце 2025 поделились исходным кодом. Так что вы можете стать контрибьютором или просто потестить, как она работает.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈6🌚42
Xikipedia для интеллектуального скроллинга
Продолжаем традицию по пятницам делиться ссылками, которые помогут скрасить последний рабочий день.

🔜 Если мозг требует отвлечься и что-нибудь поскроллить, но Xitter надоел, признанные экстремистскими соцсети неинтересны, а TikTok это несолидно, выход есть — Xikipedia, гибрид X и Википедии.

Сайт формирует ленту постов со ссылками на страницы энциклопедии. На старте вы можете сами выбрать интересные вам категории, а потом он запоминает, что вы лайкаете и подкидывает материалы, которые могут вам понравиться. Никакие данные он не собирает, и алгоритм обнуляется, когда вы обновляете или закрываете вкладку.

На гитхабе есть описание алгоритма.
🔵У каждой категории постов есть рейтинг — изначально это 0. Если юзер скроллит мимо, рейтинг падает на 5 баллов, ставит лайки — +50 баллов и +4 поста из тех же категорий в ленту. Клик на статью и на картинку дает +75 и +100 соответственно.
🔵Чем выше рейтинг категории, тем больше вероятность, что пост из нее попадет в ленту, хотя иногда алгоритм подкидывает и совершенно рандомные статьи.

Можно и отдохнуть, и что-нибудь полезное вычитать, и посмотреть своими глазами как формируется простой рекомендательный алгоритм.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍115😱2🤔1
Как думает нейросеть
Визуализаций, как устроены нейросети, существует невероятное количество во всех возможных стилях: схемы, видео, 3D-модели и так далее. И вот сегодня хотим поделиться ссылкой на еще одну.

Причин для этого три:
🔵Автор — сам не специалист в ИИ, а просто человек, который пытается разобраться в теме. Он объясняет каждый шаг работы нейросети простым языком, не уходя в технические дебри. Так что это может быть полезный материал для тех, кто тоже от ИИ далек и не готов сходу погружаться в более сложные материалы.
🔵ИИ для многих стал уже настолько привычной частью повседневной жизни, что люди даже не задумываются, а как он вообще работает и что там .внутри происходит Полезно иногда вспомнить основы.
🔵Сделана она ну очень стильно, и смотреть приятно. Убедитесь сами.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥31👌1
Нестандартные способы оптимизировать PostgreSQL
Стандартные вы и так знаете — переписать запросы, добавить индексы, пройтись по базе VACUUM’ом. Но есть и менее очевидные подходы, которые могут дать прирост производительности. Принесли вам шпаргалку с 3 такими приемами (с примерами), которые особенно пригодятся в аналитике.

У автора все написано подробно, ниже — главное, чтобы понять, стоит ли читать целиком.

1️⃣Использовать constraint_exclusion, чтобы PostgreSQL не читал всю таблицу, если запрос заведомо не может вернуть данные.
Допустим, у вас есть столбец, в котором указан тарифный план, на который подписан каждый пользователь — free или pro. Если аналитик опечатается в запросе и напишет SELECT * FROM users WHERE plan = 'Pro', то он получит 0 результатов, но PostreSQL все равно старательно пройдется по всей таблице и потратит время. Чтобы он так не делал, нужно настроить параметр constraint_exclusion, чтобы он не пропускал такие запросы.

2️⃣ Создавать функциональные индексы.
Например, если у вас есть данные о дате и времени, когда была совершена продажа. Если в компании дела идут хорошо, то продаж будет много, а значит надо это дело как-то оптимизировать.

Бизнесу, как правило, не нужна точность до минуты и достаточно данных за день — зная это, можно проиндексировать только даты. Такой индекс будет меньше, чем если бы индексировали и дату, и время.

3️⃣ Использовать хеш-индексы для длинных строк.
Если нужно хранить уникальные длинные строки (например, URL), обычный индекс может разрастись до неприличных размеров. В таком случае можно использовать хеш-индекс, который хранит не сами значения, а короткие хеш-значения.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍75🌚5
Было?

— Может ли робот написать симфонию? А превратить холст в шедевр?
— Бро, за тебя ChatGPT открытку для бабушки подписывал
1😁25😱43🔥3