MarksRemarks
1.25K subscribers
71 photos
6 videos
3 files
74 links
Author – @qwertysobaka
Download Telegram
Мы строили, строили и наконец-то построили :) Книга «Охота на электроовец: большая книга искусственного интеллекта» вышла из печати и доступна к заказу. Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно: http://markoff.science#book

«Мифы и заблуждения об искусственном интеллекте, страхи, насущные проблемы, перспективные направления исследований — обо всём этом вы узнаете из «Большой книги искусственного интеллекта»
🔥183👍1🌚1
Всем привет! Давно ничего не писал и на то есть причина. Наткнулся сейчас на интересный пост и понял что примерно месяц назад поймал себя на этом же. Советую его прочитать и тогда вы поймете в чем причина длительного инактива в канале.

P.S. Кстати чтобы уменьшить «облако суеты» заняло почти месяц. Так что чем раньше вы начнете, тем раньше сможете выдохнуть и начнете продуктивно работать 🫡
17👍11😁4🤗1
Сегодня разобщались со знакомыми на тему собесов и подготовки к ним. Разговор зашел об этапе алгоритмов и я вскользь прокинул что недостаточно знать как решаются алгоритмы, важно еще понимать как устроен язык на котором вы пишите. Один из ребят посоветовал лекции Никиты Соболева. Я как человек который постоянно проводит собесы в девайсах посмотрел, понравилось и вот вам советую. Каждая видеолекция это раскрытие определенной темы и прикольно что он сделал 3 разных уровня погружения в тему: junior, middle, senior.

Кароч пользуйтесь перед подготовкой к собесам, особенно к нам 😉
134👍91👎1🤔1
Новая эра оценки енкодеров, скажем спасибо Давиду за детство
9👍6😁4
Энкодечка мёртв, да здравствует ruMTEB!

Пару лет назад я много писал про сравнение русскоязычных энкодеров предложений по качеству, размеру и быстродействию. Тогда (а на самом деле даже в 2021) я создал бенчмарк Энкодечка, позволяющий выявить оптимальные модели по соотношению этих трёх параметров. И эти три года он был единственным более-менее живым бенчмарком, позволяющим сравнивать такие модели.

Спустя некоторое время появился бенчмарк MTEB, выполнявший похожую роль для английского. В отличие от Энкодечки, MTEB не особо интересуется размером и быстродействием моделей, но в эпоху, когда нейросети с семью миллиардами параметров считаются "маленькими", это вроде как никому особо и не нужно. Благодаря хорошему покрытию задач и простоте добавления моделей, MTEB стал популярен, и в него стали постепенно просачиваться и другие языки (вдобавок к нескольким мультиязычным задачам, включённым туда с самого начала).

И вот совсем недавно что ребята из Сбера добавили в MTEB большую пачку русскоязычных задач (17 новых, вдобавок к 6 мультиязычным задачам из MTEB, где и так уже был включён русский). Это новое двадцатитрёхзадачаное русскоязычное подмножество MTEB достаточно хорошо охватывает все типы задач, присутствовавшие в Encodechka (кроме NER, которое вообще-то не про эмбеддинги предложений, и которое я прилепил сбоку чисто по приколу), плюс покрывает поиск и переранжирование документов - то, чего в энкодечке не было (потому что он фокусировался на отдельных предложениях).

Этот новый бенчмарк совершенно логично прозвали ruMTEB, и отныне рулить будет он.
Динамического лидерборда там пока нет, но в обозримом будущем должен появиться.
Добавлять новые модели в репо энкодечки всё ещё можно, но каких-то серьёзных обновлений я больше не планирую.

Поддерживать популярные проекты приятно. Но когда их можно больше не поддерживать, приятно тоже 🙃
1👍17👎1
This media is not supported in your browser
VIEW IN TELEGRAM
А что вас повеселило в последнее время?
1😁33👎3🤡2🫡2👍1
Forwarded from AiConf Channel
Приглашаем экспертов в data science на закрытую встречу сообщества

Когда: 29 августа, онлайн, в 18:00 по Мск.

Будем обсуждать горизонты профессионального развития в DS и машинном обучении. Темы встречи:

⚡️Как развиваться внутри data science?

⚡️Какие интересные прикладные задачи стоят перед лидерами индустрии?

⚡️Перспективы для сеньора: расти вверх по карьерной лестнице или углубляться внутри своей специализации? Поговорим про вертикальное и горизонтальное развитие

⚡️Где получать практические навыки и обмениваться опытом и связями?

Участники встречи:

- Андрей Кузнецов (AIRI)
- Евгений Смирнов (АЛЬФА-БАНК)
- Роман Поборчий (self-employed)
- Дани Эль-Айясс (Social Discovery Group)
- Владимир Ершов (Яндекс)
- Никита Зелинский (МТС)
- Александр Самойлов (Wildberries)
- Иван Бондаренко (Новосибирский государственный университет)

Встреча пройдет в формате открытой дискуссии, где каждый желающий сможет задать интересующие его вопросы. Участие бесплатное.

Регистрируйтесь на встречу и зовите коллег!
👍4
Теперь вы знаете куда поступать чтобы зарабатывать 300к в секунду 😅
🔥22💩9🤨3👍2🤡2👎1🗿1
Да уж, вот вам и текстовые аугментации

#ShitPost
😁202
Искусственный интеллект повсюду…
😁15🤡8😱32
Привет всем!👋

Ловите подборку мероприятий, на которые можно сходить в ближайшее время:

В 🏦 пройдет Turbo ML Conf
Достаточно интересное мероприятие, включающее большое количество докладов в разных областях DS.

Выступления будут поделены на 5 секций: NLP, Research & RnD, LLM Applications & Copilots, RecSys, CV & Speech

📍Локация: Москва, Раменский бул., 1, кластер Ломоносов
📆 Время: 19 июля
👉 Регистрация по ссылке
👨‍🏫 Формат: Офлайн🕺

В 📱 пройдет dream->teamlead.
Митап для обмена менеджерским опытом. Как заявлено, никаких скучных докладов, только полезные инсайты и кейсы управления командой.

📍Локация: Москва, ул. Льва Толстого, д.16
📆 Время: 19 июля
👉 Регистрация по ссылке
👨‍🏫 Формат: Онлайн 👨‍🏫/Офлайн🕺


В 📱 пройдет AI Dev Day
Митап посвящен опыту разработки и успешного использования AI в промышленной эксплуатации. Позиционируется, как первое мероприятие Яндекса такого рода.

📍Локация: Москва, ул. Льва Толстого, д.16
📆 Время: 27 июля
👉 Регистрация по ссылке
👨‍🏫 Формат: Онлайн 👨‍🏫/Офлайн🕺

В конце июля пройдет конференция Pycon Russia 🐍
Крутая и качественная по наполнению конференция про Python.
Есть отдельно хардовый трек по Python, отдельно Data трек.
Ценник, конечно солидных (билет стоит 28000 рублей). Если есть бюджет компании на мероприятия, постарайтесь выбить и посетить.
Ходил на данную конференцию лет так 5 назад, посетил мастер класс тогда еще Senior NLP Саши (сейчас это уже очень уважаемый человек в области NLP и многим известный блоггер), который в то время показывал RuBert, первый BERT, обученный на русском корпусе.
Также узнал много хардовых штук для оптимизации кода. В общем, эффект для хардов был строго положительный.

📍Локация: Москва, Конгресс-центр ЦМТ, Краснопресненская набережная, 12
📆 Время: 25-26 июля
👉 Информация по ссылке
👨‍🏫 Формат: Офлайн🕺

📱 анонсировал Practical ML Conf 2025
Одна из крупнейших конференций в профессиональной среде от Яндекса, включающая доклады практически по всем основным направлениям. На данный момент регистрация не открыта, но можно "подписаться на событие", что б получить возможность early регистрации. Рекомендую так сделать.

📍Локация: Москва, ул. Льва Толстого, д.16
📆 Время: 27 сентября
👉 Информация по ссылке
👨‍🏫 Формат: Онлайн 👨‍🏫/Офлайн🕺

Пишите в комментариях, куда собираетесь пойти✍️

@dzis_science
#мероприятия
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍41🫡1
Всем привет 👋 , чет я подзабросил группу, но пора возобновлять ее вести.

Во время моего отсутствия я занимался новым проектом связанным с долгосрочной глобальной памятью в LLM. Было перечитано десятки статей, были построены десятки MVP, что-то заработало, а что-то улетело в ящик и возможно навсегда. Пока без подробностей, потому что проект NDA, но можно посмотреть выступление (тайм-код 1:33:00, хз как в ВК видео ссылку с временем сделать) моего лида, он там постарался рассказать как сейчас у нас обстоят дела.

Промежуточным этапом/чекпоинтом нашего проекта стало соревнование AI Journey Contest 2025 в котором мы стали организатором одного из кейсов: GigaMemory: global memory for LLM. На самом деле, создать кейс задача не из простых, наша команда почувствовала себя внутри хакатона длинной в месяц.

В качестве задачи мы предлагаем создать универсальный модуль памяти который можно будет применять с любой LLM. Задача очень интересная и супер актуальная для всего мира. Более подробно можете прочитать в карточке задачи. Мне будет очень приятно если вы поддержите мой труд и поучаствуете. ❤️
28🔥6👍3🤔1
Пост помощи ❤️

Есть уже собранный компьютер. Задача из него сделать 2 компьютера докупив комплектующие и потом настроить все. Кто за это шарит в лс напишите плиз🙏🏼
👍6
Сегодня буду на Practical ML Conf. Вы тоже заранее смотрите программу и составляете себе расписание на конфу?)

Кароч выделил для себя интересные доклады, тут в основном все что связано с LLM и RecSys. LLM потому что напрямую связано с моей работой, а RecSys часто встречается в соревнованиях, поэтому надо быть в курсе.

- 14:20-14:55, зал Данные
Память и online-RL: опыт YandexGPT 5.1

- 14:55-15:35, зал Данные
Создание памяти для LLM на примере GigaChat

- 15:45-16:55, зал Сеть
Эволюция UniSRec: от рекомендаций к универсальным эмбеддингам поведения для персонализированных ML-систем

- 17:00-17:45, зал Код
Генеративные рекомендательные технологии: что работает в Яндексе

- 17:50-19:00, зал Серверная
Разбор ошибок при проектировании рекомендательной системы

Также будет доклад про память в GigaChat, мой руководитель расскажет про наши достижения в последнее время 🫶
9👍1
🚀 VK запустила RecSys Challenge 2025, где можно подраться с настоящей промышленной задачей и крупным призовым фондом.

🎯 Что за соревнование?
Задача здесь зеркальная классической: нужно не подбирать контент под пользователя, а находить целевую аудиторию для нового клипа, который еще никто не видел («холодный старт»).

Формат решения: для каждого нового видео нужно предсказать упорядоченный список из 100 пользователей, которым он, скорее всего, понравится. Главное ограничение — одного пользователя нельзя спамить, он может встретиться в сабмите не более 100 раз.

⚙️ Сложности и данные
🟣Датасет огрооомный: VK-LSVD, это 40 миллиардов обезличенных взаимодействий с 20 миллионами коротких видео.
🟣Метрика: itemNDCG@100.
🟣Лимиты: Не больше 5 сабмитов в день.

🏆 Призы
🟣Общий трек: 850 000 ₽, 600 000 ₽, 400 000 ₽
🟣Студенческий трек: 350 000 ₽, 200 000 ₽, 100 000 ₽

📅 Даты
🟣Регистрация и работа: до 15 декабря 2025
🟣Финал и награждение: 17 января 2026

P.S. Тоже думаю залететь, но пока не ясно сколько у меня свободного времени на это
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👎1🔥1
Forwarded from Dealer.AI
Вспомнить все: трек памяти для LLM на AIJ contest 2025.

Приоткрыли завесу тайны, что за соревнование, дали пару советов и кое-что пошерили для вас.

P.S. И как вовремя qwen.chat.ai выпустили свой вариант ассистента с памятью. Хороший обзор у коллеги по цеху.

Лайк на Хабре, участие в соревке и ваши мысли, приветствуются ;)

https://habr.com/ru/companies/sberbank/articles/957292/
👍41
Устал от Литкода? Попробуй другой подход.
Все знают этот рутинный путь к найму в крупные IT-компании: открываешь leetcode.com или neetcode.io и решаешь задачи до тех пор, пока if x != y: не начинает сниться. Процесс необходимый, но откровенно надоедает.

Нашел в Steam игру, которая прокачает твои алгоритмические скиллы под видом увлекательной автоматизации. Называется The Farmer Was Replaced.

🎯В чем суть:
Фермер исчез, и тебе приходится делать его работу, программируя дрона на языке, почти идентичном Python. Твоя задача — автоматизировать все процессы: посадку, полив и сбор урожая.
🟣Сначала всё просто — пишешь линейный код для сбора травы. Потом подключаются условия, циклы, функции.
🟣Кактусы — их нужно отсортировать по высоте, иначе они плохо растут.
🟣Подсолнухи — нужно найти самый большой в каждом ряду. Это уже задача на поиск максимума, а не на симуляцию фермерства.
🟣Тыквы — их состояние зависит от соседних клеток. Привет, задачи на многоклеточные состояния.
🟣А ещё там есть мини-игры: лабиринты (натаскиваешь дрона на поиск выхода) и динозавр (это змейка, которую тебе тоже нужно запрограммировать).

⚡️Почему это стоит попробовать:
🟣Эффективность — опциональна. Можно собрать урожай и неидеальным кодом, а можно сесть и вылизать алгоритм до оптимального O(n), чтобы выжать максимум ресурсов.
🟣Тебя не держат за новичка. Игра не разжёвывает, как решить задачу. Она даёт инструменты (переменные, функции, импорт файлов) и отправляет в свободное плавание. Настоящая проверка на то, умеешь ли ты думать самостоятельно.
🟣Правая ветка технологий — всё. В апгрейдах есть две ветки: на новые культуры и на новые фичи кода. Прокачай правую (с переменными и функциями), и жизнь станет проще. Прямо как в реальной разработке: выбрал правильный стек — и полдела сделано.

Так что, если надоело просто кликать по задачам и хочется по-настоящему увидеть, как твой код оживает и делает работу — заходи. Говорят, после прохождения гигантской тыквы 32x32 любая задачка с binary search tree кажется разминкой.
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍3
Всем привет! 👋

Сегодня буду стоять на постерной сессии на AIJ. Можете подходить и я вам расскажу как мы делали память в GigaChat.
🔥14👍6
Наконец завершили проведение соревнования AIJ по памяти GigaMemory. Это был мой первый очень нервный, но очень интересный опыт проведения такого масштабного контеста.
Огромное спасибо всем организаторам и участникам!

Разобрали топовые решения в хабр-статье:
https://habr.com/ru/companies/sberbank/articles/974310/
10👍3