MarksRemarks – Telegram

MarksRemarks

1.25K subscribers

71 photos

6 videos

3 files

74 links

Author – @qwertysobaka

Download Telegram

About

Blog

Apps

Platform

1.25K subscribers

Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг

Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»

🔥18❤3👍1🌚1

3.35K viewsMark Baushenko, 13:52

Всем привет! Давно ничего не писал и на то есть причина. Наткнулся сейчас на интересный пост и понял что примерно месяц назад поймал себя на этом же. Советую его прочитать и тогда вы поймете в чем причина длительного инактива в канале.

P.S. Кстати чтобы уменьшить «облако суеты» заняло почти месяц. Так что чем раньше вы начнете, тем раньше сможете выдохнуть и начнете продуктивно работать 🫡

❤17👍11😁4🤗1

3.09K viewsMark Baushenko, 06:33

Сегодня разобщались со знакомыми на тему собесов и подготовки к ним. Разговор зашел об этапе алгоритмов и я вскользь прокинул что недостаточно знать как решаются алгоритмы, важно еще понимать как устроен язык на котором вы пишите. Один из ребят посоветовал лекции Никиты Соболева. Я как человек который постоянно проводит собесы в девайсах посмотрел, понравилось и вот вам советую. Каждая видеолекция это раскрытие определенной темы и прикольно что он сделал 3 разных уровня погружения в тему: junior, middle, senior.

Кароч пользуйтесь перед подготовкой к собесам, особенно к нам 😉

1❤34👍9⚡1👎1🤔1

4.43K viewsMark Baushenko, 15:34

Новая эра оценки енкодеров, скажем спасибо Давиду за детство

❤9👍6😁4

2.6K viewsMark Baushenko, edited 10:05

Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса

Энкодечка мёртв, да здравствует ruMTEB!

Пару лет назад я много писал про сравнение русскоязычных энкодеров предложений по качеству, размеру и быстродействию. Тогда (а на самом деле даже в 2021) я создал бенчмарк Энкодечка, позволяющий выявить оптимальные модели по соотношению этих трёх параметров. И эти три года он был единственным более-менее живым бенчмарком, позволяющим сравнивать такие модели.

Спустя некоторое время появился бенчмарк MTEB, выполнявший похожую роль для английского. В отличие от Энкодечки, MTEB не особо интересуется размером и быстродействием моделей, но в эпоху, когда нейросети с семью миллиардами параметров считаются "маленькими", это вроде как никому особо и не нужно. Благодаря хорошему покрытию задач и простоте добавления моделей, MTEB стал популярен, и в него стали постепенно просачиваться и другие языки (вдобавок к нескольким мультиязычным задачам, включённым туда с самого начала).

И вот совсем недавно что ребята из Сбера добавили в MTEB большую пачку русскоязычных задач (17 новых, вдобавок к 6 мультиязычным задачам из MTEB, где и так уже был включён русский). Это новое двадцатитрёхзадачаное русскоязычное подмножество MTEB достаточно хорошо охватывает все типы задач, присутствовавшие в Encodechka (кроме NER, которое вообще-то не про эмбеддинги предложений, и которое я прилепил сбоку чисто по приколу), плюс покрывает поиск и переранжирование документов - то, чего в энкодечке не было (потому что он фокусировался на отдельных предложениях).

Этот новый бенчмарк совершенно логично прозвали ruMTEB, и отныне рулить будет он.
Динамического лидерборда там пока нет, но в обозримом будущем должен появиться.
Добавлять новые модели в репо энкодечки всё ещё можно, но каких-то серьёзных обновлений я больше не планирую.

Поддерживать популярные проекты приятно. Но когда их можно больше не поддерживать, приятно тоже 🙃

1👍17👎1

3.43K viewsMark Baushenko, 10:05

This media is not supported in your browser

VIEW IN TELEGRAM

А что вас повеселило в последнее время?

1😁33👎3🤡2🫡2👍1

3.3K viewsMark Baushenko, 07:23

Forwarded from AiConf Channel

Приглашаем экспертов в data science на закрытую встречу сообщества

Когда: 29 августа, онлайн, в 18:00 по Мск.

Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:

⚡️Как развиваться внутри data science?

⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?

⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие

⚡️Где получать практические навыки и обмениваться опытом и связями?

Участники встречи:

- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Social Discovery Group)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)

Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.

✅ Регистрируйтесь на встречу и зовите коллег!

👍4

4.02K viewsMark Baushenko, 09:42

Теперь вы знаете куда поступать чтобы зарабатывать 300к в секунду 😅

🔥22💩9🤨3👍2🤡2👎1🗿1

4.58K viewsMark Baushenko, 16:58

Ох уж этот Augmentex ))

GitHub - ai-forever/augmentex: Augmentex — a library for augmenting texts with errors

Augmentex — a library for augmenting texts with errors - ai-forever/augmentex

🔥6

4.25K viewsMark Baushenko, 07:28

Forwarded from алиса олеговна

Да уж, вот вам и текстовые аугментации

#ShitPost

😁20❤2

4.77K viewsMark Baushenko, 07:28

Искусственный интеллект повсюду…

😁15🤡8😱3❤2

4.35K viewsMark Baushenko, 20:59

Forwarded from DziS Science | Data Science

Привет всем!👋

Ловите подборку мероприятий, на которые можно сходить в ближайшее время:

В 🏦 пройдет Turbo ML Conf
Достаточно интересное мероприятие, включающее большое количество докладов в разных областях DS.

Выступления будут поделены на 5 секций: NLP, Research & RnD, LLM Applications & Copilots, RecSys, CV & Speech

📍Локация: Москва, Раменский бул., 1, кластер Ломоносов
📆 Время: 19 июля
👉 Регистрация по ссылке
👨‍🏫 Формат: Офлайн🕺

В 📱 пройдет dream->teamlead.
Митап для обмена менеджерским опытом. Как заявлено, никаких скучных докладов, только полезные инсайты и кейсы управления командой.

📍Локация: Москва, ул. Льва Толстого, д.16
📆 Время: 19 июля
👉 Регистрация по ссылке
👨‍🏫 Формат: Онлайн 👨‍🏫/Офлайн🕺

В 📱 пройдет AI Dev Day
Митап посвящен опыту разработки и успешного использования AI в промышленной эксплуатации. Позиционируется, как первое мероприятие Яндекса такого рода.

📍Локация: Москва, ул. Льва Толстого, д.16
📆 Время: 27 июля
👉 Регистрация по ссылке
👨‍🏫 Формат: Онлайн 👨‍🏫/Офлайн🕺

В конце июля пройдет конференция Pycon Russia

🐍

Крутая и качественная по наполнению конференция про Python.
Есть отдельно хардовый трек по Python, отдельно Data трек.
Ценник, конечно солидных (билет стоит 28000 рублей). Если есть бюджет компании на мероприятия, постарайтесь выбить и посетить.
Ходил на данную конференцию лет так 5 назад, посетил мастер класс тогда еще Senior NLP Саши (сейчас это уже очень уважаемый человек в области NLP и многим известный блоггер), который в то время показывал RuBert, первый BERT, обученный на русском корпусе.
Также узнал много хардовых штук для оптимизации кода. В общем, эффект для хардов был строго положительный.

📍Локация: Москва, Конгресс-центр ЦМТ, Краснопресненская набережная, 12
📆 Время: 25-26 июля
👉 Информация по ссылке
👨‍🏫 Формат: Офлайн🕺

📱

анонсировал Practical ML Conf 2025
Одна из крупнейших конференций в профессиональной среде от Яндекса, включающая доклады практически по всем основным направлениям. На данный момент регистрация не открыта, но можно "подписаться на событие", что б получить возможность early регистрации. Рекомендую так сделать.

📍Локация: Москва, ул. Льва Толстого, д.16
📆 Время: 27 сентября
👉 Информация по ссылке
👨‍🏫 Формат: Онлайн 👨‍🏫/Офлайн🕺

Пишите в комментариях, куда собираетесь пойти✍️

@dzis_science
#мероприятия

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8👍4❤1🫡1

2.59K viewsMark Baushenko, 08:55

Всем привет 👋 , чет я подзабросил группу, но пора возобновлять ее вести.

Во время моего отсутствия я занимался новым проектом связанным с долгосрочной глобальной памятью в LLM. Было перечитано десятки статей, были построены десятки MVP, что-то заработало, а что-то улетело в ящик и возможно навсегда. Пока без подробностей, потому что проект NDA, но можно посмотреть выступление (тайм-код 1:33:00, хз как в ВК видео ссылку с временем сделать) моего лида, он там постарался рассказать как сейчас у нас обстоят дела.

Промежуточным этапом/чекпоинтом нашего проекта стало соревнование AI Journey Contest 2025 в котором мы стали организатором одного из кейсов: GigaMemory: global memory for LLM. На самом деле, создать кейс задача не из простых, наша команда почувствовала себя внутри хакатона длинной в месяц.

В качестве задачи мы предлагаем создать универсальный модуль памяти который можно будет применять с любой LLM. Задача очень интересная и супер актуальная для всего мира. Более подробно можете прочитать в карточке задачи. Мне будет очень приятно если вы поддержите мой труд и поучаствуете. ❤️

Data Fest 2025 в гостях у Сбера! 30 мая, Москва (2)

Присоединяйтесь к трансляции и смотрите выступления от топовых спикеров в тематике GenAI

❤28🔥6👍3🤔1

2.54K viewsMark Baushenko, edited 12:42

Пост помощи ❤️

Есть уже собранный компьютер. Задача из него сделать 2 компьютера докупив комплектующие и потом настроить все. Кто за это шарит в лс напишите плиз🙏🏼

👍6

2.03K viewsMark Baushenko, 06:12

Сегодня буду на Practical ML Conf. Вы тоже заранее смотрите программу и составляете себе расписание на конфу?)

Кароч выделил для себя интересные доклады, тут в основном все что связано с LLM и RecSys. LLM потому что напрямую связано с моей работой, а RecSys часто встречается в соревнованиях, поэтому надо быть в курсе.

- 14:20-14:55, зал Данные
Память и online-RL: опыт YandexGPT 5.1

- 14:55-15:35, зал Данные
Создание памяти для LLM на примере GigaChat

- 15:45-16:55, зал Сеть
Эволюция UniSRec: от рекомендаций к универсальным эмбеддингам поведения для персонализированных ML-систем

- 17:00-17:45, зал Код
Генеративные рекомендательные технологии: что работает в Яндексе

- 17:50-19:00, зал Серверная
Разбор ошибок при проектировании рекомендательной системы

Также будет доклад про память в GigaChat, мой руководитель расскажет про наши достижения в последнее время 🫶

❤9👍1

1.75K viewsMark Baushenko, 09:34

🚀 VK запустила RecSys Challenge 2025, где можно подраться с настоящей промышленной задачей и крупным призовым фондом.

🎯 Что за соревнование?
Задача здесь зеркальная классической: нужно не подбирать контент под пользователя, а находить целевую аудиторию для нового клипа, который еще никто не видел («холодный старт»).

Формат решения: для каждого нового видео нужно предсказать упорядоченный список из 100 пользователей, которым он, скорее всего, понравится. Главное ограничение — одного пользователя нельзя спамить, он может встретиться в сабмите не более 100 раз.

⚙️ Сложности и данные

🟣

Датасет огрооомный: VK-LSVD, это 40 миллиардов обезличенных взаимодействий с 20 миллионами коротких видео.

🟣

Метрика: itemNDCG@100.

🟣

Лимиты: Не больше 5 сабмитов в день.

🏆 Призы

🟣

Общий трек: 850 000 ₽, 600 000 ₽, 400 000 ₽

🟣

Студенческий трек: 350 000 ₽, 200 000 ₽, 100 000 ₽

📅 Даты

🟣

Регистрация и работа: до 15 декабря 2025

🟣

Финал и награждение: 17 января 2026

P.S. Тоже думаю залететь, но пока не ясно сколько у меня свободного времени на это

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4👎1🔥1

1.48K viewsMark Baushenko, edited 14:15

Forwarded from Dealer.AI

Вспомнить все: трек памяти для LLM на AIJ contest 2025.

Приоткрыли завесу тайны, что за соревнование, дали пару советов и кое-что пошерили для вас.

P.S. И как вовремя qwen.chat.ai выпустили свой вариант ассистента с памятью. Хороший обзор у коллеги по цеху.

Лайк на Хабре, участие в соревке и ваши мысли, приветствуются ;)

https://habr.com/ru/companies/sberbank/articles/957292/

GigaMemory: научи ИИ «помнить всё» с AI Journey Contest 2025

Мы всё чаще делегируем ИИ-ассистентам рабочую рутину и бытовые вопросы. Но во взаимодействии с ними есть существенная проблема: модели не помнят пользователя . Между сессиями теряются имя,...

👍4❤1

1.82K viewsMark Baushenko, 11:17

Устал от Литкода? Попробуй другой подход.
Все знают этот рутинный путь к найму в крупные IT-компании: открываешь leetcode.com или neetcode.io и решаешь задачи до тех пор, пока if x != y: не начинает сниться. Процесс необходимый, но откровенно надоедает.

Нашел в Steam игру, которая прокачает твои алгоритмические скиллы под видом увлекательной автоматизации. Называется The Farmer Was Replaced.

🎯В чем суть:
Фермер исчез, и тебе приходится делать его работу, программируя дрона на языке, почти идентичном Python. Твоя задача — автоматизировать все процессы: посадку, полив и сбор урожая.
🟣Сначала всё просто — пишешь линейный код для сбора травы. Потом подключаются условия, циклы, функции.
🟣Кактусы — их нужно отсортировать по высоте, иначе они плохо растут.
🟣Подсолнухи — нужно найти самый большой в каждом ряду. Это уже задача на поиск максимума, а не на симуляцию фермерства.
🟣Тыквы — их состояние зависит от соседних клеток. Привет, задачи на многоклеточные состояния.
🟣А ещё там есть мини-игры: лабиринты (натаскиваешь дрона на поиск выхода) и динозавр (это змейка, которую тебе тоже нужно запрограммировать).

⚡️Почему это стоит попробовать:
🟣Эффективность — опциональна. Можно собрать урожай и неидеальным кодом, а можно сесть и вылизать алгоритм до оптимального O(n), чтобы выжать максимум ресурсов.
🟣Тебя не держат за новичка. Игра не разжёвывает, как решить задачу. Она даёт инструменты (переменные, функции, импорт файлов) и отправляет в свободное плавание. Настоящая проверка на то, умеешь ли ты думать самостоятельно.
🟣Правая ветка технологий — всё. В апгрейдах есть две ветки: на новые культуры и на новые фичи кода. Прокачай правую (с переменными и функциями), и жизнь станет проще. Прямо как в реальной разработке: выбрал правильный стек — и полдела сделано.

Так что, если надоело просто кликать по задачам и хочется по-настоящему увидеть, как твой код оживает и делает работу — заходи. Говорят, после прохождения гигантской тыквы 32x32 любая задачка с binary search tree кажется разминкой.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16👍3

3K viewsMark Baushenko, 10:14

Всем привет! 👋

Сегодня буду стоять на постерной сессии на AIJ. Можете подходить и я вам расскажу как мы делали память в GigaChat.

🔥14👍6

2.26K viewsMark Baushenko, 05:25

Forwarded from AI программуля

Наконец завершили проведение соревнования AIJ по памяти GigaMemory. Это был мой первый очень нервный, но очень интересный опыт проведения такого масштабного контеста.
Огромное спасибо всем организаторам и участникам!

Разобрали топовые решения в хабр-статье:
https://habr.com/ru/companies/sberbank/articles/974310/

GigaMemory на AI Journey Contest 2025: итоги

Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного...

❤10👍3

1.39K viewsMark Baushenko, 13:38