Data, Stories and Languages
2.96K subscribers
69 photos
8 videos
494 links
Канал о Data Science, изучении иностранных языков, книгах и жизни.
Контакт с автором https://xn--r1a.website/Erlemar
Download Telegram
Coursera to Combine with Udemy to Empower the Global Workforce with Skills for the AI Era

https://investor.coursera.com/news/news-details/2025/Coursera-to-Combine-with-Udemy-to-Empower-the-Global-Workforce-with-Skills-for-the-AI-Era/default.aspx

Внезапно появилось объявление о слиянии Coursera и Udemy, общая оценка 2.5 млрд долларов. Монополии грядут прям везде.

Coursera - весьма хорошая платформа. Udemy, по ощущениям, выезжала чисто на маркетинге.

Интересно, как будет развиваться новая компания
😭8🤯4🔥3
Book Review: Python Object-Oriented Programming (5th Edition) by Steven F. Lott and Dusty Phillips

Я получил очередную книжку на ревью от Packt, на этот раз чисто про программирование.

Меня торопили побыстрее опубликовать ревью, так что читал не полностью (там аж 500 страниц).

Первые главы чисто про классы - объяснения подробные и годные. Единственное - авторы написали какое-то слишком длинное введение и просто обожают UML диаграммы. Брр, вспомнились годы работы в консалтиге.

А дальше... она стали писать про всё, что сколько либо относится к OOP - type hinting, структуры данных, design patterns, тестирование и так далее. Полезно ли это? Точно полезно. Нужно ли всё это в одной книге? Не уверен.

В любом случае, книга насыщенная, материала много, но из-за такого количества разной информации не всё покрыто глубоко. Читать, пожалуй, рекомендую.

Красивый длинный пост на Linkedin

Если есть желание купить, это можно сделать на сайте packt со скидкой - всего 10$.

#books
👍4🔥1
Agents Intensive - Capstone Project. Winner announcement

На Каггле объявили победителей по мини-конкурсу на создание проектов после курса по агентам: https://xn--r1a.website/datastorieslanguages/539

Как обычно, пошли бурные обсуждения - некоторые решения явно нарушают ранее объявленные критерии оценки.
Например, кто-то выложил youtube видео с демкой на 23 минуты, хотя в правилах написано, что максимальная длина ролика - 2 минуты.
В секции Agent for Good category одно из победивших решений явно направленное на Enterprise, а на это вообще говоря есть отдельная номинация.
Есть и другие примеры несостыковок.

В общем, всё как обычно для "соревнований" с оценками от жюри.

#kaggle #datascience
😁5
​​NitroGen: A Foundation Model for Generalist Gaming Agents

NitroGen — это vision-action foundation model для generalist gaming agents, обученная на 40k часов gameplay videos из 1к+ игр: авторы автоматически извлекают player actions из публичных видео, обучают единый модельный стек через large-scale behavior cloning и показывают, что такая модель хорошо обобщается между играми, давая до +52% task success на unseen games по сравнению с training from scratch; плюс они выкладывают dataset, benchmark и model weights.

Вообще, если так подумать, сама идея до неприличного проста - скачиваем видео того как люди стримят видео-игры, берем только те, где стримеры демонстрируют как именно управляют героем; тренируем на этом годную модель для предсказания следующих действий - и готово. Есть моделька, которая неплохо играет почти в любые игры (кроме игр с уникальными механиками).

Мне это напомнило Lumine.

Paper
Project
Code and weights
Dataset

Мои обзоры:
Personal blog
Medium
Linkedin

#paperreview
👍5🔥2
​​Топ-10 интересных статей 2025

В этом году я написал 30+ обзоров статей. Получилось немного меньше, чем в прошлые годы, но очень уж много топовых компаний публикуют лишь сухие technical reports.
Большинство статей было, конечно, про LLM, но не только ими полон мир - был интересный прогресс в компьютерном зрении и многих других направлениях.

Хочу поделится топ-10 статей, которые мне показались особо интересными. Лист совершенно субъективный и не покрывает топ-фронтир LLM.

DeepSeek-R1
GSPO
Lumine
SAM-3
Chronos-2
NeoBERT
AlphaEvolve
SWE-rebench
DINOv3
Dragon Hatchling

Детали можно почитать в моём блогпосте. Или на medium.

#datascience
🔥9👍32
​​The Kaggle Book: Master data science competitions with machine learning, GenAI, and LLMs. 2nd Edition

Вышло второе издание книги про Каггл от грандмастеров. Популярность у первого издания была высокая, так что авторы запилили второе издание, в этот раз вместе с Бояном :)

Второе издание я ещё не читал (только первое), но мне предложили написать пару слов о книге, и теперь мои слова увековечены в этой книге :)

https://www.amazon.com/Kaggle-Book-science-competitions-learning-ebook/dp/B0FDFXR8N9

#datascience #books
9🔥5
Forwarded from max.sh
Год подходит к концу, поэтому самое время подводить итоги.

В этом посте разбираю одну из центральных тем блога в этом году: собеседования на ML/Research роли.

⚫️В первой половине года я много собеседовал и понял, что хочется делиться тем, что может помочь соискателям. Так появились эти тексты. Они разные по формату и теме, все субъективные и основаны на личном опыте. А теплые сообщения в личку о пользе текстов только мотивируют стараться

Типы вопросов на собеседованиях про Трансформеры
Подборка ресурсов для изучения RL в контексте LLM
Лонгрид ML Breadth Interview Deep Dive

Как готовиться к Coding Interview
Как готовиться к ML Design Interview
Как готовиться к ML Depth Interview

Рисерч стажировки в биг техе. Часть 1. Как попасть на собеседование
Рисерч стажировки в биг техе. Часть 2. Структура Интервью

⚫️Потом я оказался по другую сторону и начал собеседоваться сам. Собесы – это во многом рандом, поэтому любая информация помогает хоть немного увеличить шансы в этой лотерее. А реальные отзывы других людей так тем более. Я начал собирать истории подписчиков канала и делиться ими здесь. В итоге получилась солидная коллекция интервью-историй за 2025 год.

Все отзывы можно найти по тегу #интервью. А здесь оставлю ссылки на истории в зарубежные компании:

🌐Research Engineer в Google DeepMind
🍏Senior ML Engineer в Apple Music
💻Performance Engineer в Nvidia, Munich
💻OpenAI, Solutions Architect, Generative AI Deployment, London
Ⓜ️ Senior ML Engineer в Meta
🖥 Research Fellowship в Anthropic
🛒Applied Scientist, Amazon
🎧 Senior DL Engineer в Spotify, Personalization, London

Senior ML Engineer в Waymo, Perception Team, California
Solutions Architect в ByteDance, Дубай.
VP of AI ML в J.P. Morgan Chase, London
AI Engineer в Mistral.AI

🔥 Буду рад если поддержите пост репостами или поделитесь с друзьями. И забирайте себе в коллекцию, если готовитесь к новому приключению в следующем году!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74👀1
Полгода работы в Meta

Вот уже полгода как я переехал в Лондон и работаю на новом месте, пришло время подвести промежуточные итоги. В работе, конечно, есть свои особенности, но очень многое похоже на компании не из BigTech.

Я работаю в команде look alike (возможно меня взяли потому, что я делал подобное лет 7 назад, когда работал в Tele2), но мой проект отдельный, чему я рад. В старых проектах полно легаси, например, у нас только недавно мигрировали с Caffe2 на Pytorch. В команде 15-20 человек, больше половины - MLE, остальное - инженеры. Как-то получилось так, что в команде нет "старичков" MLE. В начале этого года трое людей ушли по разным причинам (в другие команды или в другие компании), в итоге максимум, что есть - парень с 1-1.5 года стажа в нашей команде. Команда инженеров работает здесь намного дольше, так что это помогает.

Наша команда - часть направления targeting (реклама), и почему-то в нём очень мало ml-команд. Так что начиная с этого годы мы решает задачи не только look-alike, но и другие вещи. Подробно рассказывать про проект пока не могу, но суть в том, чтобы делать предсказания некоторых характеристик юзеров. Делаю это для всех юзеров Instagram. В легаси, конечно, копаться приходится. Например, недавно изучал код 10-летней давности на местном диалекте PHP :see Заодно пару багов нашли :) Но зато данные собираю сам с нуля, модельки тоже можно выбирать. Тренирую старые добрые бустинги. Нейронки пробовал - не докидывало (но будем ещё пробовать). Внутренних фреймворков полно, по факту все решения кастомые.
Первый запущенный a/b тест дал положительные, но не статистически значимые результаты. По его итогам посидели, подумали о том, что могло пойти не так, запланировали следующий эксперимент - радует, что процесс обсуждения спокойный.

Теперь про работу в целом.
Переработки у нас редко, за полгода работы я редко видел, чтобы коллеги в команде писали что-то в рабочем чате ночью, если не считать oncall. Некоторые по своей инициативе могут работать в нерабочее время, но подавляющее большинство - нет. Возможно одна из причин: пять человек в команде - французы, поэтому не дают на себя давить.

Я уже успел пережить 3 реорга (сменился skip-1, команда пивотнулась, на высоком уровне сменились приоритеры и названия команд).

У нас есть целая куча своих AI-помощников: в чат-интерфейсе, агенты для кодинга и так далее. По моим ощущениям, они на 1-2 поколения хуже современного состояния мира, даже когда под капотом используется последний opus/chatgpt. С одной стороны, ai-помощники хорошо помогают с поиском инфы, но они слишком часто галлюцинируют факты и api, генерят идеи хуже gpt-5, просто тупят и так далее. Но признаю, что без них было бы значительно хуже. Сейчас использование AI сделали обязательным для всех, поэтому метрики использования AI напоминают мем с экстраполяцией по количеству мужей.

Позитивное: здесь есть программа dogfooding, всем желающим выдают VR headset Meta Quest Pro. Я подобное никогда раньше не использовал, испытал полный восторг. Теперь занимаюсь dogfooding, получаю плюшки (футболку, толстовку, всякое по мелочи), просто играю в VR игры. VR очки пока не получил, жду своей очереди.

Ещё один большой аспект работы в этой компании: у всех команд, главная цель - увеличение выручки, это называется iRev (incremental revenue). Команды из-за того временами прям грызутся. Как-нибудь потом расскажу пару историю :)
👍13🔥8
Последнее интересное:
Конец года, время писать self-review. Написал черновик, перечитал и думаю о том, что наверное многовато написал и слишком много всего. Попросил фидбек у своего ментора. Созвонились, я рассказал о сделанном за год и показал написанный текст. Он подумал и сказал, что я слишком скромный и надо больше писать о том, что я сделал. Ибо я сделал много всего, что не написал в документе (мне казалось это мелочи).
И мол, то, что я сам собрал датасеты для тренировки с нуля, это круто, ибо многие mle в мете просто тренируют модельки на принесенных им данных (вот с этого я выпал - у меня такого ни в одной компании не было).
Надо будет калибровать свои ожидания под то, что ожидается в компании.

#career #life
12👍7
Итоги года для канала "Data, Stories and Languages" от @TGStat
👍8🔥7
​​Итоги года: книги

Под конец года принято подводить итоги, и на этот раз я хочу поговорить о книгах. Чтение книг - одно из моих основных хобби, поэтому хочу поделиться книгами, которые меня особо впечатлили в этом году. Заодно Goodreads поделился красивой иконографикой, которой грех не поделиться.

Часть 1. Профессиональные книги.

В этом году мне прислали 5+ книг на самые разные темы для ревью, запомнилась только одна: Python Object-Oriented Programming - она была насыщенной и неплохо написаной, можно использовать как референс по конкретным вопросам.

Часть 2. Книги на иностранных языках.

В этом году я решил попробовать почитать классику на испанском и немецком - и для практики языка, и для расширения кругозора. Результаты получились смешанные.

Steppenwolf. Много рассуждений на тему личности и того, что она состоит из многих частей; началась с мыслей героя о самоубийстве и пошло к самопознанию; рассуждения о том, что нельзя воспринимать жизнь и вообще всё слишком серьёзно; важно быть креативным; важно не упиваться самобичеванием.

La Casa en Mango Street - интересная, но грустная история о девочке из бедной семьи. Формат - мини-истории из её жизни. Первые рассказы простенькие, но с возрастом героини тон и содержание меняются.

Дальше я пробовал читать La Casa de los Espíritus и House of Spirits, но бросил, ибо почти все персонажы неприятны или отвратительны, а во второй книге часто описываются вещи, от которых хочется вырвать себе глаза. Мне это напоминает классику русской литературы - чтобы страдал не только герой, но и читатель.

Помимо этого я прочитал ещё несколько книг из классики и решил, что лучше уж я буду читать то, что мне интересно.

На испанском я прочёл фанфик по покемонам. Длина - 2.2 млн слов. Начиналось незатейливо, но потом пошла эпичная история о людях и не только.

На немецком прочёл серию Der 13. Paladin. Она мне понравилась настолько, что я прочёл её дважды. Её можно описать как "классическая история на новый лад" - есть избранный герой, есть явный враг и путешествие для победы над ним. Но довольно быстро мы встречаем много вопросов, которые редко освещаются в классическом фентези: что если бессмертные воины "добра" устают от бесконечных сражений и начинают творить всякое? Что если концепция fated mates срабатывает "неправильно" и один из mates уже состоит в счастливом браке?
Помимо этого книги в целом написаны отлично, герои получились запоминающиеся, история интересная, эпилог хороший. Теперь эта серия в моём личном топ-5 фентези книг.

Не забыл я и японский: прочитал 2 тома 狼と香辛料, 2 тома 蜘蛛ですが、なにか, 1 том 沈黙の魔女 и всякое другое по мелочи. 狼と香辛料 и 沈黙の魔女 продолжу читать в следующем году.
🔥86
​​Часть 3. Фентези.

Все прочитанные книги перечислять будет слишком долго, назову лишь несколько:

Inheritance by Ilona Andrews - новая серия от одного из моих любимых авторов (точнее это пара). На нашей планете открылись ворота в другой мир, ведущие в подземелья, люди получили особые способности, бла-бла-бла. Вот только героиня - женщина в среднем возрасте с двумя детьми, которая скорее занимается полевыми исследованиями. Ей не повезло угодить в неудачное подземелье, где из её спутников в живых осталась только собака. Миссия - выжить и вернуться к детям.
LitRPG The Grand Game - на удивление хорошо написанная история и система.
Bard (Ghost Mountain Wolf Shifters) - прекрасная серия о доброте и восстановлении от психологических травм.
The Raven Scholar - очень интересная история с интригами, расследованиями и секретами. Я бы поставил ей 5/5, но был ряд проблем, которые просто не дали это сделать: большинству героев должно быть за 30, но ощущение, что читаешь про школьную/университетскую драму; некоторые герои совершали поступки, противоречащие их характеру; некоторые герои были слишком легко прощены за непрощаемые веши.
Yumi and nightmare painter - очередная прекрасная новелла от Brandon Sanderson. История о креативе и любви.
Red Winter trilogy - интересные персонажи, интересная мифология и душевная романтика.

#books
6🔥5
Кто о чём, а он о старом. Итоги года: опять у него всю славу украли.
😁15
Итоги года: остальное

Карьерные итоги я уже подвёл, итоги по книгам тоже. Кратко напишу про остальное:

• Собственно говоря, переехал в Лондон. В первый раз живу в Европе, так что много интересного. Если сравнивать с Азией, основные плюсы: чистота воздуха, больше возможностей для карьеры, больше мест и мероприятий которые можно посетить, возможность получить гражданство. По другим критериям Азия, всё же, выигрывает :)
• Открыл для себя VR. Очень удобный вариант подвигаться дома, особенно когда снаружи плохая погода.
• В иностранных языках прогресс есть, но меньше, чем хотелось бы (из-за переезда).
• Стараюсь заниматься спортом
• Меня постиг распространённый бич: сессии компании D&D (в которую играл пару лет) в этом году очень часто отменялись

Всех с Новым Годом!

#life
9🔥4
Best Japanese Learning Tools 2025

Пару недель назад я натолкнулся на замечательный блогпост. В нём подборка инструментов для изучения японского; или, точнее, инструменты для упрощения поглощения разнообразного контента.

Большинство программ я знал, но были и новые для меня. Хочу поделиться самым интересным из списка:

Yomitan позволяет смотреть перевод слов в любом браузере (включая мобильные браузеры), можно добавлять свои словари, можно делать интеграцию с Anki и всякое другое. Это актуальная замена старенькому Yomichan, который уже давно не поддерживается. Использую и рекомендую.
Anki - лучшая программа для flashcards.
Game Sentence Miner (GSM) - новинка для меня. Позволяет играть в игры, читать мангу, смотреть аниме и с помощью OCR смотреть переводы слов/предложений. Можно создавать карточки в Anki с аудио и даже гифками. Работает не только для японского языка и других. Единственный минус - сложно настраивать.
Renshuu - это как Duolingo, но лучше во всём. Есть практика слов, предложений, иероглифов и грамматики. Вариантов практики много. Можно добавлять свои списки. Я использую уже год и очень доволен.
Jidoujisho - для чтения на android девайсах.
Manabi Reader - примерно тоже самое, но для iOS. Если хочется погружаться в книги, аниме, мангу, игры на iPhone/iPad - самое то.
Migaku - платно. Есть курсы для изучения японского, есть своя система flashcards, можно смотреть видео с нетфликса и создавать карточки.
• Я долгое время использовать старенький Textextractor для выхватывания текста из visual novels, теперь перешёл на Luna Translator - примерно тоже самое, но активно поддерживается, выглядит получше, больше возможностей настраивания.
• Я уже как-то давно жаловался на неудобство чтения манги. Мне посоветовали Mokuro, но это вызывало мучения. Благо, что появилась альтернатива - Mangatan. Настройка чтения манги с моего ноута у меня заняла меньше получаса. Оно просто работает, не надо тратить часы на конвертацию манги, как с Mokuro.
• Для чтения книг на ноуте я использую ttsu reader + Yomitan. Просто и удобно. Есть чуть более красивая альтернатива Lumi Reader, но с ограничениями, за снятие которых надо платить.

Очень радует, что в наше время полно таких годных инструментов.

И поделюсь забавным: я нашёл дискорд-канал по изучению японского, кто-то говорил, что он прям серьёзный. Открываю его... и мне предлагается пройти quiz на знание языка.
Можно выбрать уровни сложности. На самом простом уровне попытки неограничены, все остальные можно пробовать лишь один раз в неделю.
Тебе показываются слова, надо написать их вариант в kana (romaji не принимается). Даётся 5 секунд, если не успел - ошибка. Для прохождения quiz надо дать 50 (!) правильных ответов, при этом, если ошибок больше 10 - fail.
Кажется только изучающие японский язык настолько хардкордны :)

#languages
5🔥2
Чудеса AI агентов

Мой опыт работы с AI агентами имеет переменный успех. Иногда получается быстро сделать нужное и агенты сильно упрощают работу, иногда агенты никак не справляются с задачей, и проще сделать самому.

Но иногда бывают моменты, когда реально впечатляешься возможностям. У нас на работе с недавних пор стало можно официально использовать Claude Code, и люди стали активно допиливать его. Один из способов расширения возможностей - создание skills. По факту, это инструкции для выполнения каких-то конкретных задач.

Сегодня мне надо было обновить ранее сделанные мной диаграммы Excalidraw. Я их рисовал вручную, на основе моих пайпланов (sql-запросы с разными обёртками). Снова делать это вручную стало лень, и я стал искать другие варианты. Буквально случайно обнаружил, что несколько недель назад кто-то сделал skill для создания диаграмм Excalidraw.

Я установил skill, написал команду типа "Generate the excalidraw diagram for the dataflow in this file", подождал минут 5, и получил файлик. Открыл его... и реально - красиво нарисованная диаграмма, со стрелочками, разными цветами, комментариями. Всё было нарисовано из коробки отлично, даже не пришлось ничего исправлять. Это был взрыв мозга.

P. S. Потом правда оказалось, что если попросить его нарисовать диаграмму по нескольким большим скриптам, он ломается с ошибкой 504, ибо превышает лимиты :) Так что создавал дальше диаграммы по отдельности для каждого файла.

#datascience
👍8😁3👀1
​​О насущном
🤣9
The Kaggle Book, 2nd Edition

https://xn--r1a.website/datastorieslanguages/569

Наконец-то и ко мне самому приехала эта книжка. Kaggle играл большую роль в начале моей карьеры, и я до сих пор время от времени использую идеи оттуда.
🔥14