Большинство не просило, но некоторым было интересно
Запускаем курс по МЛ Систем Дизайну, с живыми лекциями
Курс будет идти 10-14 недель, с двумя занятиями в неделю и разбором курсового проекта
Посмотреть и записаться можно здесь
Запускаем курс по МЛ Систем Дизайну, с живыми лекциями
Курс будет идти 10-14 недель, с двумя занятиями в неделю и разбором курсового проекта
Посмотреть и записаться можно здесь
karpov.courses
ML design
Karpov.Courses. Школа Data Science
🔥138👍44🤡29❤1👏1😭1💊1
Великолепный репорт
Действительно, хоть фантастику не читай
Как будто комбинация трилогии - Проблема трёх тел и первых двух книг Гиперион, Дэна Симмонса
Действительно, хоть фантастику не читай
Как будто комбинация трилогии - Проблема трёх тел и первых двух книг Гиперион, Дэна Симмонса
❤20🔥4
Forwarded from gonzo-обзоры ML статей
Хоть фантастику не читай!
We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.
We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.
https://ai-2027.com/
Executive summary:
https://ai-2027.com/summary
We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.
We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.
https://ai-2027.com/
Executive summary:
https://ai-2027.com/summary
Ai-2027
AI 2027
A research-backed AI scenario forecast.
🤮53💊31👍18🦄8❤7🕊7🐳4🔥1
Права на перевод книги купили на русском и китайском языке соответствующие издательства
Кажется, получилась неплохая книга
Кажется, получилась неплохая книга
5🔥453👍109💯27❤19👏9🎉5🍌2
Приятная новость с утра
Стартап по ллм в силиконовой долине, где я был ангел инвестором и эдвайзером, совершил экзит
Выкупили по цене последнего раунда, а значит я ничего не потерял.
На фоне успехов рынка за последний месяц, это уже большое достижение!
Стартап по ллм в силиконовой долине, где я был ангел инвестором и эдвайзером, совершил экзит
Выкупили по цене последнего раунда, а значит я ничего не потерял.
На фоне успехов рынка за последний месяц, это уже большое достижение!
1❤193👍93😁69🔥33😎16🤪8🍾3🍌2🦄1
Лучший мем, описывающий Баесовское А/Б, от пацанов из Х5. Мифы о байесовском А/Б тестировании
55🤣104❤25👍19😁12👏2🔥1
Вчера познакомился в Куала-Лумпуре с морским котиком из США (в отставке, 26 лет службы).
Здоровенный, накачанный мужик из Техаса, с небольшим ранчо на 16 акрах.
Сегодня, понятное дело, уже вместе занимались в качалке и завтракали.
Сейчас работает президентом компании, занимающейся поставками нефти по миру.
Учился в той же бизнес-школе, что и Трамп — Wharton. Говорит, что Трамп ведет переговоры именно так, как их учили.
Страшно представить, как ведут переговоры преподаватели этой школы.
Хорошее знакомство.
Здоровенный, накачанный мужик из Техаса, с небольшим ранчо на 16 акрах.
Сегодня, понятное дело, уже вместе занимались в качалке и завтракали.
Сейчас работает президентом компании, занимающейся поставками нефти по миру.
Учился в той же бизнес-школе, что и Трамп — Wharton. Говорит, что Трамп ведет переговоры именно так, как их учили.
Страшно представить, как ведут переговоры преподаватели этой школы.
Хорошее знакомство.
9🤯348🔥176😁97👍46🤡15❤13🌭12🍌3👏1🎃1🗿1
UK: Ministry of Justice secretly developing ‘murder prediction’ system
Надо посоветовать им купить правильную книжку, чтобы выбирали правильные метрики и объясняли как пользоваться системой, иначе опять оконфузятся и снова не получится жить в будущем.
Predictive Policing Software Terrible At Predicting Crimes
Журналистам, кстати, тоже надо купить, есть подозрение, что они тоже не понимают, как мл системы работают
Надо посоветовать им купить правильную книжку, чтобы выбирали правильные метрики и объясняли как пользоваться системой, иначе опять оконфузятся и снова не получится жить в будущем.
Predictive Policing Software Terrible At Predicting Crimes
Журналистам, кстати, тоже надо купить, есть подозрение, что они тоже не понимают, как мл системы работают
😁114🔥24👀8👍7🎄4👾3💯2
Спустя год, у меня наконец-то дошли руки, последовать совету Игоря и начать проходить курс по Transformer Interpretability (mechanistic interpretability). Один модуль успешно пройден, надеюсь не сложу руки и смогу закончить остальные
Курс хороший, спасибо Игорю
Курс хороший, спасибо Игорю
Telegram
Сиолошная
К сожалению, увидел только сейчас: Neel Nanda, ведущий исследователь в DeepMind, ищет себе студентов на программу по mechanistic interpretability. Это один из самых горячих топиков, в рамках него исследователи пытаются понять, как учится трансформер, что…
🔥127❤29👍17😁7🙏2
Сейчас в Дубае, в гостях у очень успешного друга. Он водит меня по разным интересным ресторанам.
Один из ресторанов смог удивить: в туалетной комнате сидит специальный человек, который следит за тем, чтобы у посетителей всё было хорошо.
Один — в мужском, другая — в женском.
Такого я ещё не видел.
Знаю, переживаете, у меня все прошло хорошо.
Один из ресторанов смог удивить: в туалетной комнате сидит специальный человек, который следит за тем, чтобы у посетителей всё было хорошо.
Один — в мужском, другая — в женском.
Такого я ещё не видел.
Знаю, переживаете, у меня все прошло хорошо.
😁439🤡68🙏28❤22🤣9👍8🌚6🤮5👻4👎3🔥2
Онлайн конференция от Карпов Курсес, на которой я планировал выступать, но судьба-злодейка разлучила нас.
Из интересного для меня - Нерсес расскажет про дерево метрик, по совпадению - над похожим проектом (один из) мы сейчас работаем в BP. И перекликается с моим старым докладом - Метрики: от офлайна до иерархии
Из интересного для меня - Нерсес расскажет про дерево метрик, по совпадению - над похожим проектом (один из) мы сейчас работаем в BP. И перекликается с моим старым докладом - Метрики: от офлайна до иерархии
karpov.courses
Конференция Data-driven for Business от karpov.courses
Посетите конференцию от karpov.courses для тех, кто применяет анализ данных для принятия бизнес-решений - реальные кейсы лидеров рынка и выступления лучших экспертов.
🔥57👍20❤4👏4🫡1
Не перестаю удивляться, как плохо люди умеют анализировать, казалось бы, простые данные
Заголовок Financial Times : "Manufacturing: Someone's American Dream, just not mine." Где говорится, что все это производство нужно американцам, только на словах, но не лично. Посмотрим на полную картинку
Примерно 4% (некоторые источники называют 8%) американцев работают в производстве, однако 25% говорят: "I would be better off if I worked in a factory." Это подчёркивает огромный потенциал — людей, считающих, что они могли бы преуспеть в отрасли, в шесть (или три) раза больше, чем тех, кто там работает в настоящее время.
При этом подавляющее большинство относится к этой идее положительно. Да, многие не считают что им самим там будет лучше, чем сейчас, но так можно сказать почти про что угодно. Cамое важное, что тех, кто считает что им там ,будет лучше, в 3-6 раз больше, чем тем, кто есть сейчас.
И казалось бы, здесь можно сделать единственный вывод - потенциал и желание есть
Заголовок Financial Times : "Manufacturing: Someone's American Dream, just not mine." Где говорится, что все это производство нужно американцам, только на словах, но не лично. Посмотрим на полную картинку
Примерно 4% (некоторые источники называют 8%) американцев работают в производстве, однако 25% говорят: "I would be better off if I worked in a factory." Это подчёркивает огромный потенциал — людей, считающих, что они могли бы преуспеть в отрасли, в шесть (или три) раза больше, чем тех, кто там работает в настоящее время.
При этом подавляющее большинство относится к этой идее положительно. Да, многие не считают что им самим там будет лучше, чем сейчас, но так можно сказать почти про что угодно. Cамое важное, что тех, кто считает что им там ,будет лучше, в 3-6 раз больше, чем тем, кто есть сейчас.
И казалось бы, здесь можно сделать единственный вывод - потенциал и желание есть
🥴82👍61❤22🤓10🤡8👎3🔥2🤯2😭1
Сегодня я пришёл к выводу, что придётся повысить градус.
После использования deep search в Gemini, O3 и Manus выяснилось, что идеальный протокол для восстановления в cold plunge — это 10 градусов на 10 минут, а не 3 градуса на 4 минуты.
Температура в 3 градуса хороша, чтобы продемонстрировать стальную волю и спровоцировать выброс гормонов — мне нравились эти первые секунды шока, — но, похоже, придётся этим пожертвовать.
К тому же поддерживать температуру в 10 градусов гораздо проще, чем в 3.
После использования deep search в Gemini, O3 и Manus выяснилось, что идеальный протокол для восстановления в cold plunge — это 10 градусов на 10 минут, а не 3 градуса на 4 минуты.
Температура в 3 градуса хороша, чтобы продемонстрировать стальную волю и спровоцировать выброс гормонов — мне нравились эти первые секунды шока, — но, похоже, придётся этим пожертвовать.
К тому же поддерживать температуру в 10 градусов гораздо проще, чем в 3.
❤87🐳68😁40🔥16🤡12👍11🤔1😭1
Недавно на одной встрече, очень большой начальник заметил: с учётом того, что мы теперь много нанимаем по всему миру и в разных часовых зонах, умение писать становится критически важным.
Спорить с этим сложно, и переоценить важность тоже. К сожалению, многие люди катастрофически не умеют формулировать свои мысли — отсюда все эти «давай быстро созвонимся», «пересечёмся раз на раз» или голосовые сообщения. Не всегда, но очень часто это происходит не потому, что встреча действительно нужна, а потому что человек просто не в состоянии организовать свой словесный салат во что-то внятное. В итоге он выливает свои мысленные помои на собеседника в надежде, что тот переработает это во что-то осмысленное — вместо того чтобы самому потратить время и внимание.
Черчилль как-то написал: «Прости, времени было мало, поэтому письмо длинное». И почти все это понимают на подсознательном уровне — отсюда все мемы и приколы про голосовые сообщения. Сложно переоценить важность хорошей культуры письма: она не только экономит кучу времени и сил, позволяет работать асинхронно, но со временем ещё и учит человека мыслить собранно и чётко.
Возможно, не стоит доходить до пределов ребят из провинции Лакония с их «если», но пример с них брать точно стоит. В здоровом письме — здоровый дух. А лучшая встреча - это короткая встреча
Спорить с этим сложно, и переоценить важность тоже. К сожалению, многие люди катастрофически не умеют формулировать свои мысли — отсюда все эти «давай быстро созвонимся», «пересечёмся раз на раз» или голосовые сообщения. Не всегда, но очень часто это происходит не потому, что встреча действительно нужна, а потому что человек просто не в состоянии организовать свой словесный салат во что-то внятное. В итоге он выливает свои мысленные помои на собеседника в надежде, что тот переработает это во что-то осмысленное — вместо того чтобы самому потратить время и внимание.
Черчилль как-то написал: «Прости, времени было мало, поэтому письмо длинное». И почти все это понимают на подсознательном уровне — отсюда все мемы и приколы про голосовые сообщения. Сложно переоценить важность хорошей культуры письма: она не только экономит кучу времени и сил, позволяет работать асинхронно, но со временем ещё и учит человека мыслить собранно и чётко.
Возможно, не стоит доходить до пределов ребят из провинции Лакония с их «если», но пример с них брать точно стоит. В здоровом письме — здоровый дух. А лучшая встреча - это короткая встреча
14👍643💯236❤76✍31🔥16🤡10👎3🤔3
Во время лекции о сборе данных на курсе по ML System Design зашёл разговор о data governance. Пришли к неожиданным выводам:
1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)
Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».
Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
1. Нормального определения нет, даже Data Management Institute не даёт чёткого ответа.
2. Попробовали сформулировать своё: Data Governance — это связка между процессами и политиками (policy), с одной стороны, и контролем + внедрением(policy enforcement), с другой, направленная на реализацию стратегии данных компании. (Часто стратегия сводится к обеспечению быстрого и бесшовного доступа к актуальным, полным и качественным данным с учётом контроля доступа и соблюдения комплаенса. Но, как известно по Румельту, это не совсем стратегия, поэтому требуется стратегия достижения, и data governance ближе к таковой.)
Проблема в том, что вторая часть связки — контроль и внедрение — часто отсутствует. Это приводит к тому, что через X лет после утверждения стратегии участники начинают перекладывать ответственность друг на друга, тыкать пальцем , и побеждает тот, у кого «палец длиннее».
Потенциальным решением видится направление в продуктовые/бизнес команды людей, который будет делать эту неблагодарную и важную работу, но и это непросто
Jeff Zych's Internet Nook
Notes from “Good Strategy / Bad Strategy” by Jeff Zych
Strategy has always been difficult for me to pin down. What does a strategy look like? What makes a strategy good or bad? “Good Strategy / Bad Strategy,” by UCLA Anderson School of Management professor Richard P. Rumelt, takes a nebulous concept and makes…
12❤47👍34🥱10👀10🔥5⚡1🙏1💊1
Время Валеры
Запись стрима
До чего меня довел Игорь. Позвали судить хакатон по вайб-кодингу!
2😁276🔥29🤣24🤮8🙉5👍3👏3😱2🥴2❤1
Не прошло и года с момента покупки 4-й версии мегапростыни, как вышла 5-я.
Новая версия, помимо простыни, теперь включает мегаодеяло (греет/холодит), генератор «правильного» шума, специальную базу под матрас, снимающую напряжение со спины и борющуюся с храпом, а также новые датчики для отслеживания здоровья.
Непростая дилемма конечно, брать или нет
https://www.eightsleep.com/uk/product/pod-cover/
Новая версия, помимо простыни, теперь включает мегаодеяло (греет/холодит), генератор «правильного» шума, специальную базу под матрас, снимающую напряжение со спины и борющуюся с храпом, а также новые датчики для отслеживания здоровья.
Непростая дилемма конечно, брать или нет
https://www.eightsleep.com/uk/product/pod-cover/
😁138💅40❤28🔥13👍6😱4💩3🤡3👎1🤔1
Искренне рекомендую прочитать про stage gate для AI проектов
https://xn--r1a.website/c3po_notes/317
Давал как пример студентам в рамках курса по МЛ Систем Дизайну
https://xn--r1a.website/c3po_notes/317
Давал как пример студентам в рамках курса по МЛ Систем Дизайну
Telegram
Записки C3PO
Привет, я Адам 👋
Пару месяцев назад я вышел в AI-центр Т-Банка продуктовым директором развивать пользовательские продукты. В этом посте расскажу, в чем ключевые отличия разработки AI-продуктов от традиционных, и как мы адаптировали классический Stage-Gate…
Пару месяцев назад я вышел в AI-центр Т-Банка продуктовым директором развивать пользовательские продукты. В этом посте расскажу, в чем ключевые отличия разработки AI-продуктов от традиционных, и как мы адаптировали классический Stage-Gate…
👍44❤11🔥8🤡3😁1
Удивился второй раз в жизни при работе над инфрой. Первый раз был, когда переезд с Postgres на BigQuery в Blockchain com ускорил (на самом деле!) запросы в 100 раз и снизил стоимость в 10.
Тестировали Iceberg поверх Parquet
AWS Glue + Iceberg: стоимость ↓2.3x, скорость ↑3x
AWS EMR Serverless + Iceberg: стоимость ↓31x, скорость ↑6x
Databricks Serverless on Delta Lake: стоимость ↓3.5x, скорость ↑12x
Полез разбираться, как алгоритмически работает Iceberg поверх Parquet, и в очередной раз убедился, как же приятно читать/смотреть такие инженерные вещи, когда ребята садятся решать человеческие проблемы и находят простые решения.
Умные метаданные: знает статистики каждого файла без его чтения
Убирает дорогие LIST операции в S3 (экономия I/O)
Predicate pushdown: исключает файлы еще на этапе планирования
Hidden partitioning: автоматически находит нужные данные по любым колонкам ( У паркета тоже есть, но не так хорошо)
Snapshot isolation: читает консистентное состояние без блокировок
Главное - важность проверки разных платформ под конкретные бенчмарки. То, что работает для одного типа нагрузок, может быть неоптимально для другого.
P.S. Databricks показал отличные результаты с Delta Lake, но это уже другая история
Тестировали Iceberg поверх Parquet
AWS Glue + Iceberg: стоимость ↓2.3x, скорость ↑3x
AWS EMR Serverless + Iceberg: стоимость ↓31x, скорость ↑6x
Databricks Serverless on Delta Lake: стоимость ↓3.5x, скорость ↑12x
Полез разбираться, как алгоритмически работает Iceberg поверх Parquet, и в очередной раз убедился, как же приятно читать/смотреть такие инженерные вещи, когда ребята садятся решать человеческие проблемы и находят простые решения.
Умные метаданные: знает статистики каждого файла без его чтения
Убирает дорогие LIST операции в S3 (экономия I/O)
Predicate pushdown: исключает файлы еще на этапе планирования
Hidden partitioning: автоматически находит нужные данные по любым колонкам ( У паркета тоже есть, но не так хорошо)
Snapshot isolation: читает консистентное состояние без блокировок
Главное - важность проверки разных платформ под конкретные бенчмарки. То, что работает для одного типа нагрузок, может быть неоптимально для другого.
P.S. Databricks показал отличные результаты с Delta Lake, но это уже другая история
6🔥235❤38👍26💯12🕊1🤡1
Ходил по краю два года назад. Одним из вариантов работы в 2023 был VP of AI в buidr
Ранний аналог lovable
Ранний аналог lovable
Ft
Microsoft-backed UK tech unicorn Builder.ai collapses into insolvency
Once high-flying group founded by Sachin Dev Duggal says its was unable to recover from ‘past decisions’
❤28🙏20😨9👍1
Анонимусы (без шуток, так и написано в статье) из неуказанной компании (но дальше честно говорится, что это Яндекс) выпустили статью — Yambda-5B: A Large-Scale Multi-modal Dataset for Ranking and Retrieval.
Собирать и раздавать датасеты — дело богоугодное. Помню, как Женя Макаров на Датафесте в 2018 году ходил и фотографировал эмоции людей, чтобы собрать уникальный датасет (Женя, где датасеты!). А тут сразу:
1 миллион пользователей,
9.39 миллиона треков,
4.78 миллиарда взаимодействий из Яндекс Музыки.
Для каждого трека прилагается эмбеддинг, полученный свёрточной сетью по спектрограмме. Почему не Vision Transformer — вопрос интересный, но идея понятна.
По типу фидбэка:
– Implicit — прослушивания
– Explicit — лайки и прочие действия
Из уникальных штук — флаг is_organic. У каждого события указано, было ли оно органическим или вызвано рекомендацией. Это редкость: можно отдельно изучать, как алгоритмы влияют на поведение и как выглядит "чистое" прослушивание.
Датасет выдают в Parquet (но без Iceberg, увы) — что уже хорошо.
И ещё одна редкость — реалистичная схема сплита (Где то радуется один Information Retrieval) :
• Train — 300 дней
• Gap — 30 минут
• Test — 1 день
Сначала делают Global Temporal Split по таймстемпам, но корректируют его, чтобы в тесте были только те пользователи, что есть в трейне — ближе к продакшену.
В общем, выглядит мощно. Ждём, когда Саша Петров наложит на это свои руки.
Перезалил, с ссылкой на датасет
Собирать и раздавать датасеты — дело богоугодное. Помню, как Женя Макаров на Датафесте в 2018 году ходил и фотографировал эмоции людей, чтобы собрать уникальный датасет (Женя, где датасеты!). А тут сразу:
1 миллион пользователей,
9.39 миллиона треков,
4.78 миллиарда взаимодействий из Яндекс Музыки.
Для каждого трека прилагается эмбеддинг, полученный свёрточной сетью по спектрограмме. Почему не Vision Transformer — вопрос интересный, но идея понятна.
По типу фидбэка:
– Implicit — прослушивания
– Explicit — лайки и прочие действия
Из уникальных штук — флаг is_organic. У каждого события указано, было ли оно органическим или вызвано рекомендацией. Это редкость: можно отдельно изучать, как алгоритмы влияют на поведение и как выглядит "чистое" прослушивание.
Датасет выдают в Parquet (но без Iceberg, увы) — что уже хорошо.
И ещё одна редкость — реалистичная схема сплита (Где то радуется один Information Retrieval) :
• Train — 300 дней
• Gap — 30 минут
• Test — 1 день
Сначала делают Global Temporal Split по таймстемпам, но корректируют его, чтобы в тесте были только те пользователи, что есть в трейне — ближе к продакшену.
В общем, выглядит мощно. Ждём, когда Саша Петров наложит на это свои руки.
Перезалил, с ссылкой на датасет
🔥134👍28❤21🤣4💩3