Forwarded from Максим Цепков (Maxim Tsepkov)
#Highload Николай Никитин из ИТМО. Как обеспечить воспроизводимость научных исследований в AI/ML с помощью Open Source? Основной тезис доклада, на мой взгляд, остался за рамкой: смысл научного исследования в том, что его результаты могут быть использованы другими в своих разработках. Именно это подразумевается под воспроизводимостью, не ограничиваясь просто проверкой результатов. Для Николая это тезис очевиден, в то время, как в социальных реалиях современной науки это далеко не так. Если же принять этот тезис, то для современных исследований, особенно в области AI/ML, просто публикации статьи недостаточно, к статье должен прилагаться код и наборы данных, которые обеспечат легкое использование результатов, включая его проверку, но не ограничиваясь ей. В open source есть площадки для этого. Но ученые - не программисты, разработка и создание open source для них - не профильная работа, получается довольно высокий порог входа, который полезно снизить. Они в 2020 годы в ИТМО начали это делать, и сейчас у них 10+ различных проектов. Был более подробный рассказ про фреймворк FEDOT. Тут есть особенности, связанные с тем, что есть 2-3 человека в ядре команды и ассоциированные стажры, которые делают студенческие работы. Но для успеха ядро должно быть увлеченным, в том числе проводить менторинг для студентов - и административно это не масштабируется. Такие проекты делают пиар, показывают что университет способен достигать серьезных результатов. Однако, несмотря на это уровень энтузиазма довольно велик. Тут есть вопрос финансирования, если на новые версии его еще можно получить, то на поддержку - не получается. Но сейчас есть возможность получить гранты, и то, что продуктом будет не просто публикация. а open source эксперты оценивают. И коммерческие компании тоже становятся толерантными к выкладке результатов в open source, хотя тут это каждый раз вопрос переговоров. Лично я желаю ИТМО всяческих успехов, и надеюсь, что этот опыт будет распространяться.
👍2❤1
Друзья, напоминаем, что благодаря генеральному партнеру, компании МТС, Saint HighLoad++ 2024 заряжена поездками на самокатах МТС Юрент 😎
Вы можете добраться от метро до места проведения конференции на самокатах МТС Юрент.
Для этого сегодня перейдите в бот выберите «На Saint HighLoad++ на самокате МТС Юрент» и введите первые 8 цифр номера своего билета на конференцию. Вы получите промокод на 200 бонусов на поездку, который сможете активировать в приложении Юрент
Ближе всего к конференции станция метро Новочерскасская, выход 6 - там же можно взять самокат и поехать на Saint HighLoad++
Парковки, где самокат можно оставить, вы увидите в приложении Юрент.
Количество промокодов ограничено ;)
Вы можете добраться от метро до места проведения конференции на самокатах МТС Юрент.
Для этого сегодня перейдите в бот выберите «На Saint HighLoad++ на самокате МТС Юрент» и введите первые 8 цифр номера своего билета на конференцию. Вы получите промокод на 200 бонусов на поездку, который сможете активировать в приложении Юрент
Ближе всего к конференции станция метро Новочерскасская, выход 6 - там же можно взять самокат и поехать на Saint HighLoad++
Парковки, где самокат можно оставить, вы увидите в приложении Юрент.
Количество промокодов ограничено ;)
❤1🔥1
🖐 Следующие доклады ждут вас в 13:40
⠀
🏰 «00 Зал - Башня». Миграция банковского ядра на собственную разработку. Как выстроить процессы распространения данных? Лев Осипов (Райффайзен Банк)
Уникальный доклад о том, как в одном из крупнейших банков России решили переписать ядро банка.
⠀
🔘 Зал «08 Шатер Голубой». Fullstack v2: я научу вас писать UI на Go. Илья Глухов (Независимый эксперт)
Как на Go написать UI приложения? gopherjs, полузаброшенный gomobile, обертки над Qt/GTK и прочими ncurses. А чтобы общий код для браузеров, мобилок и десктопа? В докладе будет разобран рабочий пример кросс-платформенного UI на Go.
⠀
🔹 «03 Зал Синий». Делаем бесконечную галерею в Яндекс.Диске: балуемся плюшками, кластеризацией и синхронизацией. Дмитрий Кривопальцев (Яндекс 360)
Показать все, что скрыто! Честный и откровенный рассказ о том, как устроен изнутри просмотр фотографий в Яндекс.Диске, какие нестандартные решения пришлось применить, чтобы можно было удобно смотреть фоточки на мобилке и в браузере.
⠀
🟣 «04 Зал Красный». Гайд по shift left security для архитекторов и разработчиков. Вацлав Довнар (Независимый эксперт)
Когда начинаешь заниматься внедрением безопасности в разработку, порой начинает казаться, что она сложнее самого продукта. Между тем, какие-то вещи можно сделать проще, какие-то можно не делать вообще, а о каких-то вы раньше могли и не задумываться. Об этом всём — в докладе Вацлава.
⠀
🟢 «06 Зал Зеленый». Collection. Темная сторона Data Science. Ольга Кравченко (Газпромбанк.Тех)
Взыскание банком долга может выглядеть как консервативный процесс. Но прогресс не остановить — ML и здесь. Ольга расскажет про модельный скоринг, возможно ли подобрать идеальный мэтч между оператором и клиентом, почему не ко всем должникам приезжают домой, а также о будущем этой области.
⠀
🔵 Зал «09 Шатер Фиолетовый». Как научить почтовый сервер Exim под нагрузкой 1 000 000 писем/мин. переживать отказ ЦОД без простоя с помощью FUSE и Tarantool, а также развернуть такую систему в K8s. Максим Уймин (VK, Mail.ru)
Мы в целом научились делать отказоустойчивые и распределенные системы. В любом типе систем есть свои особенности. В докладе вы заглянете под капот почтового сервера Exim и вместе с докладчиком пройдете путь создания отказоустойчивой распределенной системы, работающей под большой нагрузкой.
🔸 Зал «07 Шатер Оранжевый». YTsaurus SPYT: внедряем Spark SQL в массы. Алексей Шишкин (Яндекс)
История от разработчиков YTsaurus о том, как сделать собственный клиент к Spark и на уровне сетевого протокола отправлять к нему запросы из удобного веб-интерфейса.
⠀
🏰 «00 Зал - Башня». Миграция банковского ядра на собственную разработку. Как выстроить процессы распространения данных? Лев Осипов (Райффайзен Банк)
Уникальный доклад о том, как в одном из крупнейших банков России решили переписать ядро банка.
⠀
🔘 Зал «08 Шатер Голубой». Fullstack v2: я научу вас писать UI на Go. Илья Глухов (Независимый эксперт)
Как на Go написать UI приложения? gopherjs, полузаброшенный gomobile, обертки над Qt/GTK и прочими ncurses. А чтобы общий код для браузеров, мобилок и десктопа? В докладе будет разобран рабочий пример кросс-платформенного UI на Go.
⠀
🔹 «03 Зал Синий». Делаем бесконечную галерею в Яндекс.Диске: балуемся плюшками, кластеризацией и синхронизацией. Дмитрий Кривопальцев (Яндекс 360)
Показать все, что скрыто! Честный и откровенный рассказ о том, как устроен изнутри просмотр фотографий в Яндекс.Диске, какие нестандартные решения пришлось применить, чтобы можно было удобно смотреть фоточки на мобилке и в браузере.
⠀
🟣 «04 Зал Красный». Гайд по shift left security для архитекторов и разработчиков. Вацлав Довнар (Независимый эксперт)
Когда начинаешь заниматься внедрением безопасности в разработку, порой начинает казаться, что она сложнее самого продукта. Между тем, какие-то вещи можно сделать проще, какие-то можно не делать вообще, а о каких-то вы раньше могли и не задумываться. Об этом всём — в докладе Вацлава.
⠀
🟢 «06 Зал Зеленый». Collection. Темная сторона Data Science. Ольга Кравченко (Газпромбанк.Тех)
Взыскание банком долга может выглядеть как консервативный процесс. Но прогресс не остановить — ML и здесь. Ольга расскажет про модельный скоринг, возможно ли подобрать идеальный мэтч между оператором и клиентом, почему не ко всем должникам приезжают домой, а также о будущем этой области.
⠀
🔵 Зал «09 Шатер Фиолетовый». Как научить почтовый сервер Exim под нагрузкой 1 000 000 писем/мин. переживать отказ ЦОД без простоя с помощью FUSE и Tarantool, а также развернуть такую систему в K8s. Максим Уймин (VK, Mail.ru)
Мы в целом научились делать отказоустойчивые и распределенные системы. В любом типе систем есть свои особенности. В докладе вы заглянете под капот почтового сервера Exim и вместе с докладчиком пройдете путь создания отказоустойчивой распределенной системы, работающей под большой нагрузкой.
🔸 Зал «07 Шатер Оранжевый». YTsaurus SPYT: внедряем Spark SQL в массы. Алексей Шишкин (Яндекс)
История от разработчиков YTsaurus о том, как сделать собственный клиент к Spark и на уровне сетевого протокола отправлять к нему запросы из удобного веб-интерфейса.
AvitoTech передаёт привет и ждёт в зале и на стенде.
В зале с докладом: «Opentelemetry и эволюция распределенного пайплайна трейсинга в Авито» —бэкенд-разработчик Сергей Ларионенко.
На стенде с целой командой: инженеры, техлид и IPM-менеджер. Все те, для кого хайлоад — стиль жизни.
Приходите общаться, играть, раскрашивать. Что? Да. Привезли самую большую в вашей жизни (но это неточно) раскраску по номерам. И фломики!
Реклама ООО «Авито Тех» erid: LjN8KHnyB
В зале с докладом: «Opentelemetry и эволюция распределенного пайплайна трейсинга в Авито» —бэкенд-разработчик Сергей Ларионенко.
На стенде с целой командой: инженеры, техлид и IPM-менеджер. Все те, для кого хайлоад — стиль жизни.
Приходите общаться, играть, раскрашивать. Что? Да. Привезли самую большую в вашей жизни (но это неточно) раскраску по номерам. И фломики!
Реклама ООО «Авито Тех» erid: LjN8KHnyB
❤3👍1
🖐 Ловите анонс докладов, которые начнутся в 14:50
⠀
🏰 «00 Зал - Башня». Streaming Processing на данных BigData для рекламных кампаний МТС. Евгений Ненахов (МТС Диджитал)
Вы узнаете, как делать процессинг очень больших потоков данных в режиме реального времени из Kafka на голой Java с использованием минимального количества железа.
⠀
🔘 Зал «08 Шатер Голубой». Opentelemetry и эволюция распределенного пайплайна трейсинга в Авито. Сергей Ларионенко (Авито)
Opentelemetry — де-факто стандарт современной телеметрии. Сергей Ларионенко расскажет о подводных камнях при построении распределенного пайплайна трейсинга, какие модули пришлось переписать, чтобы собирать 14 млн спанов в секунду с 2к микросервисов почти без потерь. Много деталей, очень интересно!
⠀
🔹 «03 Зал Синий». Чего не хватает обычному сервису, чтобы стать cloud-native. Дмитрий Некрылов (Яндекс 360)
Как встроить в платформу или облако сервис, который по дефолту для этого не был рассчитан? Дмитрий расскажет о том, как встраивали Jitsi в Яндекс 360, обеспечивали много девяток и отказоустойчивость под нагрузкой и встреченных подводных камнях на этом пути.
⠀
🟣 «04 Зал Красный». «А так можно было?» — обзор нестандартной криптографии в применении к практическим задачам. Сергей Прилуцкий (MixBytes)
Изучите передовые криптографические алгоритмы, решающие реальные задачи. Узнайте, как они могут быть полезны для вашего проекта и внести вклад в развитие вашей работы.
Сергей расскажет теорию и представит примеры их применения в реальных технических задачах.
⠀
🟢 «06 Зал Зеленый». Highload MLOPs: ускорение и автоматизация. Павел Николаев (Альфа-банк)
Доклад будет интересен широкой публике ML-разработчиков. Из доклада вы узнаете, как в условиях ограниченных вычислительных ресурсов может выживать большая DS-команда. Также вы узнаете, как на небольших серверах оптимально крутить не менее 300 моделей.
⠀
🔵 Зал «09 Шатер Фиолетовый». Оптимизация баннерного демона в условиях резкого роста нагрузки. Артем Букин (VK, VK Реклама)
Арбитраж рекламы — технически сложно. Сотни тысяч рекламных компаний и только 40 миллисекунд, чтобы найти лучшее объявление. Спикер из VK расскажет, какие технические приемы применила команда разработки, чтобы справиться с ростом нагрузки, который увеличил количество серверов до 1500.
🔸 Зал «07 Шатер Оранжевый». Как продакту инфраструктурного софта через телеметрию познать клиента. Аркадий Велькер (erlyvideo)
Как понимать профиль поведения клиента, если ваше ПО установлено у заказчика? Кажется, что никак. Но ребята разобрали эту задачу, решили ее и готовы поделиться своим опытом. А также рассказать о конкретных клиентских проблемах, которые они сумели решить без обращений клиентов.
⠀
🏰 «00 Зал - Башня». Streaming Processing на данных BigData для рекламных кампаний МТС. Евгений Ненахов (МТС Диджитал)
Вы узнаете, как делать процессинг очень больших потоков данных в режиме реального времени из Kafka на голой Java с использованием минимального количества железа.
⠀
🔘 Зал «08 Шатер Голубой». Opentelemetry и эволюция распределенного пайплайна трейсинга в Авито. Сергей Ларионенко (Авито)
Opentelemetry — де-факто стандарт современной телеметрии. Сергей Ларионенко расскажет о подводных камнях при построении распределенного пайплайна трейсинга, какие модули пришлось переписать, чтобы собирать 14 млн спанов в секунду с 2к микросервисов почти без потерь. Много деталей, очень интересно!
⠀
🔹 «03 Зал Синий». Чего не хватает обычному сервису, чтобы стать cloud-native. Дмитрий Некрылов (Яндекс 360)
Как встроить в платформу или облако сервис, который по дефолту для этого не был рассчитан? Дмитрий расскажет о том, как встраивали Jitsi в Яндекс 360, обеспечивали много девяток и отказоустойчивость под нагрузкой и встреченных подводных камнях на этом пути.
⠀
🟣 «04 Зал Красный». «А так можно было?» — обзор нестандартной криптографии в применении к практическим задачам. Сергей Прилуцкий (MixBytes)
Изучите передовые криптографические алгоритмы, решающие реальные задачи. Узнайте, как они могут быть полезны для вашего проекта и внести вклад в развитие вашей работы.
Сергей расскажет теорию и представит примеры их применения в реальных технических задачах.
⠀
🟢 «06 Зал Зеленый». Highload MLOPs: ускорение и автоматизация. Павел Николаев (Альфа-банк)
Доклад будет интересен широкой публике ML-разработчиков. Из доклада вы узнаете, как в условиях ограниченных вычислительных ресурсов может выживать большая DS-команда. Также вы узнаете, как на небольших серверах оптимально крутить не менее 300 моделей.
⠀
🔵 Зал «09 Шатер Фиолетовый». Оптимизация баннерного демона в условиях резкого роста нагрузки. Артем Букин (VK, VK Реклама)
Арбитраж рекламы — технически сложно. Сотни тысяч рекламных компаний и только 40 миллисекунд, чтобы найти лучшее объявление. Спикер из VK расскажет, какие технические приемы применила команда разработки, чтобы справиться с ростом нагрузки, который увеличил количество серверов до 1500.
🔸 Зал «07 Шатер Оранжевый». Как продакту инфраструктурного софта через телеметрию познать клиента. Аркадий Велькер (erlyvideo)
Как понимать профиль поведения клиента, если ваше ПО установлено у заказчика? Кажется, что никак. Но ребята разобрали эту задачу, решили ее и готовы поделиться своим опытом. А также рассказать о конкретных клиентских проблемах, которые они сумели решить без обращений клиентов.
❤1
Forwarded from Максим Цепков (Maxim Tsepkov)
#Highload Иван Чернов (Островок). Как работать с поставщиками на примере поиска доступных отелей. Чем отличается Островок от Букинга? В силу своей позиции на рынке букинг может от отелей потребовать работать в своей админке, описывать там условия отелей, и резервирование проводить внутри. А еще у него каждый отель представлен однократно. Хотя у каждого отеля есть своя система управления номерами, они очень разные, но проблемы интеграции их с букингом он отдает отелю. Островок сейчас работает как агрегатор, отели продаются через разные каналы, островок все это забирает и предлагает наиболее выгодные цены. В им надо при резервировании получать подтверждение отеля. А еще им важно кешировать запросы, чтобы сокращать число обращений к системам отелей. При этом учитывать, что данные устаревают. Динамика не столь высокая, как для динамического ценообразования в такси, но довольно высокая, при этом сильно различается в зависимости от спроса на конкретный период. При этом у отелей свое ценообразование, для раннего заказа могут быть скидки, для длинных сроков проживания тоже, плюс посредники, предлагающие отели, предлагают скидки по своим правилам. То есть ключ запроса - длинный, включает много данных. В докладе был рассказ про архитектуру решения для кеширования. Использовался redis, но там были сложности, связанные с большими ключами и большим объемом возвращаемых данных. Поэтому перешли на aerospike. В какой-то момент тоже отвалился, при разборе оказалось, что есть два вида ответов: описание доступных номеров и просто отказ, что номеров нет, без информации. И они разделили эти кэши, для кеширования отказов вернулись к redis, в котором использовали фильтр Блума. И тут сои хитрости, потому что некоторые поставщики, если у них проблемы, делают вид, что сервис работает, просто он перестает выдавать доступные номера, и эту ситуацию надо ловить, чтобы временно переставать обращаться. В целом - это был рассказ о решении задачи, в которой у авторов появилась довольно витиеватая схема. Ну и попробовали альтернативу redis.
🔥2❤1
🖐 Приходите на доклады и мастер-классы, которые начинаются в 16:00
⠀
🏰 «00 Зал - Башня». Как мигрировать тысячи сервисов между любыми дистрибутивами Kubernetes без единой правки чего-либо. Максим Чудновский (СберТех)
Постараемся обойтись без спойлеров: Максим и команда получили на вход очень сложную и тяжёлую задачу и успешно её решили, причём крайне остроумным способом. В конце доклада вас ждёт open source-анонс.
⠀
🔘 Зал «08 Шатер Голубой». Как сделать тесты надежными: property-based-тестирование и fuzzing на практике. Николай Климов (VK, ВКонтакте)
Property-based-тестирование существует уже более 20 лет, но используется довольно редко. А зря, ведь этот подход может избавить от необходимости придумывать кучу тест-кейсов для юнит-тестов. Николай расскажет, чем этот подход отличается от фаззинга и как его применить в вашем проекте.
⠀
🔹 «03 Зал Синий». Мастер-класс «Разделим данные». Алексей Лосев (Яндекс Маркет)
Продолжение серии мастер-классов от Алексея. В этот раз будет разобран кейс создания системы с разделенными и слабо связанными мастер-системами.
⠀
🟣 «04 Зал Красный». Психологический возраст кибербезопасности. Антон Бочкарев (Третья сторона)
Внимание к кибербезопасности сегодня повышенное и невозможно обойти стороной такую её сторону, как готовность организации. Обычно оценивают технологии с помощью опросов и аудита. Антон пошёл дальше и расскажет, как всё это работает и как определить психологическую зрелость кибербеза в компании.
⠀
🟢 «06 Зал Зеленый». Выбор стримингового фреймворка в 2024 году. Максим Буйлин (Т-Банк)
Spark, Flink, Nifi или что-то другое — какой стриминговый фреймворк выбрать в текущем году? Из доклада вы узнаете основные критерии для выбора, на что обращать особое внимание. И все это на основе практического опыта.
⠀
🔵 Зал «09 Шатер Фиолетовый». Мастер-класс «Создание модульной (и желательно эффективной) RAG-системы». Антон Белоусов (Raft AI Labs)
В результате воркшопа каждый участник поймет, как строить системы RAG (Retrieval Augmented Generation), узнает их особенности и получит собственную работоспособную систему.
🔸 Зал «07 Шатер Оранжевый». Механизм пререндера в браузерах. Алексей Кузнецов (Chromium contributor и энтузиаст)
Highload — это не только бэкенд, но и браузеры, отображающие наши сайты. Алексей расскажет, как на низком уровне в современных браузерах организован «пререндер» — механизм, с помощью которого браузеры делают вид, что наши сервисы быстрее, чем на самом деле.
⠀
🏰 «00 Зал - Башня». Как мигрировать тысячи сервисов между любыми дистрибутивами Kubernetes без единой правки чего-либо. Максим Чудновский (СберТех)
Постараемся обойтись без спойлеров: Максим и команда получили на вход очень сложную и тяжёлую задачу и успешно её решили, причём крайне остроумным способом. В конце доклада вас ждёт open source-анонс.
⠀
🔘 Зал «08 Шатер Голубой». Как сделать тесты надежными: property-based-тестирование и fuzzing на практике. Николай Климов (VK, ВКонтакте)
Property-based-тестирование существует уже более 20 лет, но используется довольно редко. А зря, ведь этот подход может избавить от необходимости придумывать кучу тест-кейсов для юнит-тестов. Николай расскажет, чем этот подход отличается от фаззинга и как его применить в вашем проекте.
⠀
🔹 «03 Зал Синий». Мастер-класс «Разделим данные». Алексей Лосев (Яндекс Маркет)
Продолжение серии мастер-классов от Алексея. В этот раз будет разобран кейс создания системы с разделенными и слабо связанными мастер-системами.
⠀
🟣 «04 Зал Красный». Психологический возраст кибербезопасности. Антон Бочкарев (Третья сторона)
Внимание к кибербезопасности сегодня повышенное и невозможно обойти стороной такую её сторону, как готовность организации. Обычно оценивают технологии с помощью опросов и аудита. Антон пошёл дальше и расскажет, как всё это работает и как определить психологическую зрелость кибербеза в компании.
⠀
🟢 «06 Зал Зеленый». Выбор стримингового фреймворка в 2024 году. Максим Буйлин (Т-Банк)
Spark, Flink, Nifi или что-то другое — какой стриминговый фреймворк выбрать в текущем году? Из доклада вы узнаете основные критерии для выбора, на что обращать особое внимание. И все это на основе практического опыта.
⠀
🔵 Зал «09 Шатер Фиолетовый». Мастер-класс «Создание модульной (и желательно эффективной) RAG-системы». Антон Белоусов (Raft AI Labs)
В результате воркшопа каждый участник поймет, как строить системы RAG (Retrieval Augmented Generation), узнает их особенности и получит собственную работоспособную систему.
🔸 Зал «07 Шатер Оранжевый». Механизм пререндера в браузерах. Алексей Кузнецов (Chromium contributor и энтузиаст)
Highload — это не только бэкенд, но и браузеры, отображающие наши сайты. Алексей расскажет, как на низком уровне в современных браузерах организован «пререндер» — механизм, с помощью которого браузеры делают вид, что наши сервисы быстрее, чем на самом деле.
👍1