Data Secrets | Карьера
6.49K subscribers
1.05K photos
47 videos
1 file
1.16K links
Вакансии Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Прислать вакансию/сотрудничество: @veron_28

https://telega.in/c/data_secrets_career
Download Telegram
Опыт прохождения собеседований

Один из ML-специалистов поделился своей историей прохождения собеседований на должность AI-research, где не только выделил общие моменты процесса найма, но и выделил несколько проблем при трудоустройстве.

➡️ Первоначально, автор сделал целый список компаний, которые находил через Twitter или LinkedIn, куда отправлял резюме, выписывал требования и ключевые детали вакансий, также отмечал те компании, где резюме отклонили или уже приняли. Для каждой заявки он делал скриншоты требований к работе и ключевых деталей, чтобы подготовиться к первоначальным разговорам, что помогло ему понять фокус собеседований каждой компании.

➡️ Автор статьи считает, что самостоятельное написание сопроводительного письма очень важно, использовать LLM можно только в качестве исправления пунктуации и орфографии:
Вы заметите, что компании часто задают похожие вопросы на протяжении всего процесса подачи заявки, что помогает определить ключевые тезисы. Я сохранял все свои предыдущие ответы в Notion, поскольку одни и те же вопросы, как правило, возникают в разных компаниях.


➡️ Также, каждому кандидату необходимо умение самопрезентации. Это должен быть краткий рассказ о себе, где вы делитесь своим опытом и сильными сторонами, но при этом рассказ о себе должен быть краток и понятен:
Мое типичное сообщение было таким: «Здравствуйте, [Имя], я наткнулся на вашу вакансию и считаю, что я хорошо подхожу, потому что [конкретные причины]. Я приложил краткое введение о себе и своем резюме».


➡️ Автор поделился и опытом прохождения собеседований в стартапы. Процесс найма не намного проще, чем в устоявшиеся компании, а порой даже сложнее:
Большинству стартапов, с которыми я общался, требовалось 5-6 встреч после первоначального звонка рекрутера/основателя. Обычно они включали кодирование (задачи с LeetCode или ML-задачи), основы ML и собеседование на соответствие целям компании. Я намеренно избегал стартапы, которые продвигали 6/7-дневную рабочую неделю или постоянные 12-часовые рабочие дни.


➡️ В процессе поиска работы одной из проблем с которыми столкнулся кандидат — это не соответствие между названием должности и обязанностями, вот где все становится сложнее:
Названия должностей, такие как «AI Research Engineer» или «AI Research Scientist», часто имеют вводящие в заблуждение описания. Например, когда в вакансии явно требуют наличия докторской степени и опубликованных исследовательских работ, такие вакансии часто вообще не ориентированы на исследования. Во время собеседований выясняется, что на самом деле в компании хотят, чтобы кто-то исследовал существующие эксперименты или настраивал готовые решения, а не занимался новыми исследованиями.


Как итог: после 400 собеседований герой истории смог трудоустроиться в Meta.
Please open Telegram to view this post
VIEW IN TELEGRAM
25
Middle Data Scientist в стартап Luminaria
От 2.000 до 4.000$
Удаленно

Предстоит: Разработка и оптимизация моделей на основе погодных и геоданных; Проведение экспериментов с фичами, методами агрегации данных и моделями; Анализ данных о погоде, спутниковых изображениях и почвенных условиях для улучшения точности прогнозов... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Google совместно с Kaggle приглашают на интенсив по генеративному ИИ

Это будет пятидневный онлайн-курс с 31 марта по 4 апреля, который посвящен основам и методам, лежащим в основе GenAI.

Каждый день будет сопровождаться онлайн-трансляциями, домашними заданиями, а в конце вас ждет сдача выпускного проекта.

Мы уже успели сказали, что интенсив бесплатный? Необходимо только пройти регистрацию и дождаться начала занятий.
Please open Telegram to view this post
VIEW IN TELEGRAM
13
ML Engineer в Ekleft
До 390.000₽

Предстоит: Обучение моделей для автоматизации обработки обращений; Классификация отзывов и прогнозирование; Разработка инструментов аннотирования данных... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Время практиковаться 🚀

Собрали небольшую подборку хакатонов, чтобы вы смогли не просто потренировать свои скиллы, но и, возможно, выиграть денежные призы.

🔵 Cup IT 2025: трек аналитика данных
Предстоит обработать, изучить, интерпретировать данные и помочь бизнесу принять верное решение. Подходит тем, кто одинаково хорошо разбирается в математике, IT и бизнесе.
Регистрация до 9 марта.

🔵 AI Mathematical Olympiad - Progress Prize 2
Предстоит создать модели, которые могут решать сложные математические задачи, написанные в формате LaTeX.
Прием решений до 26 марта.

🔵 IT Purple Hack
Предстоит решить кейсы крупнейших IT-компаний России, связанные с разработкой ПО, созданием цифровых продуктов и оптимизацией бизнес-процессов.
Регистрация до 3 марта.

🔵 March Machine Learning Mania 2025
Предстоит спрогнозировать результаты мужских и женских баскетбольных турниров среди колледжей 2025 года, отправляя прогнозы на все возможные матчи турнира.
Прием решений до 20 марта.
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Старший аналитик данных
До 4.500$
Удаленно

Предстоит: Строить команду талантливых аналитиков и продвигать культуру data-driven decision making; Отвечать за построение "end-to-end" аналитики в домене коммерции — работать с бизнес-командами, дизайнить систему метрик, создавать BI и ad-hoc аналитику, генерировать идеи и инициативы для улучшения бизнеса... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Литература для инженеров ИИ

Нашли для вас сайт, на котором собрана вся необходимая литература для изучения DL: как правильно проводить тесты и оценивать результаты, обзоры и объяснения статей, всевозможная литература по генерации кода и агентному ИИ, а также статьи по компьютерному зрению.
11
Data Scientist в Ингосстрах
Удаленно

Предстоит: Осуществлять полный цикл разработки моделей; Строить модели NLP; Участвовать в интеграции моделей в прод и разработке и стандартизации ML-пайплайнов... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5
GTC 2025 - конференция по искусственному интеллекту от NVIDIA

С 16 по 21 марта этого года пройдет конференция, посвященная ИИ, на которой генеральный директор NVIDIA Дженсен Хуанг выступит с основным докладом на тему "What’s Next in AI Starts Here".

Но основной доклад — не единственная изюминка. Программа конференции обещает быть насыщенной: на ней выступят такие спикеры, как Ян Лекун из Нью-Йоркского университета, генеральный директор Mistral AI Артур Менш, а также многие другие представители бигтеха.
10
Senior Quantitative Developer
Офис / Гибрид / Удаленно

Предстоит: Тесное сотрудничество с технологами и исследователями над оптимизаторами портфеля, созданием сложных конвейеров данных и инфраструктур для анализа стратегии и производительности... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Google рекомендует своим сотрудникам работать не менее 60 часов в неделю

🔷 По инсайдерской информации, Сергей Брин во внутренней записке рекомендовал находиться в офисе каждый будний день и отметил, что 60 часов в неделю — это «sweet spot» для производительности.

🔷 Также руководитель добавил, что конкуренция за развитие ИИ усилилась, но Google способен выиграть гонку за AGI, если компания сможет «зарядить» свои усилия введя ряд изменения. И одной из таких мер как раз-таки является 60 часовой рабочей недели.

🔷 Такая трудовая неделя рекомендуется сотрудникам, работающим над Gemini. Но не смотря на такие требования, руководитель предостерегает сотрудников от переработок свыше 60 часов, так как это может привести к выгоранию, а тех, кто работает меньше установленных 60 часов руководитель назвал не продуктивными, и даже «опасными», тк такие сотрудники влияют на продуктивность остальных коллег.

Напомним, что в прошлом году большой резонанс вызвал стартап, в котором руководитель требовал работать не менее 80 часов.
Please open Telegram to view this post
VIEW IN TELEGRAM
21
Портфельный аналитик (Антифрод) в Сбер
Офис в Москве

Предстоит: Применять современные ML-модели для оптимального использования в стратегии одобрения; Анализировать текущий портфель на определение мошеннических схем... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
3
В любой непонятной ситуации - используй бустинг
47
Открытые вакансии в HighSky 🔵

Senior NLP-engineer
От 8.000 до 15.000$
Удаленно

Senior ML Engineer
От 6.000 до 10.000$
Удаленно

ML-engineer/ DS - Fake News Detection
От 8.000 до 15.000$
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
5
Amazon против использования ИИ, но только на собеседовании

В Кремниевой долине многие компании обеспокоены тем, что все больше кандидатов используют приложения-суфлеры или Claude в процессе трудоустройства. Особенно остро проблема ощущается при найме инженеров или разработчиков ПО.

Amazon считает, что использование инструментов ИИ во время собеседования крайне неэтично и несправедливо, так как это мешает оценить подлинные навыки кандидата.

Компания даже порекомендовала рекрутерам вовсе отказаться от тех кандидатов, кто во время трудоустройства воспользовался технологиями GenAI.

Также сообщается, что в компании уже придумали ряд мер по выявлению ИИ, а для тех, кому посчастливилось попасть обманным путем на работу, Amazon разработал "особые меры" 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Senior Analyst в Авито

Предстоит: Сравнительный анализ с конкурентами по ключевым метрикам; Разработка модели/платформы для поиска оптимального предложения (offer) для PRO селлера в различных каналах коммуникаций — Next Best Offer... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Как проходят собеседования в OpenAI, Anthropic и Scale AI

Если вы когда-нибудь задумывались, как проходит процесс собеседования в таких компаниях, как OpenAI или Anthropic, вот история от специалиста, который делится своим опытом прохождения собеседований на должность научного сотрудника в области ИИ.

➡️ Anthropic:
В Anthropic было три раунда кодирования, ориентированных на ООП, за которыми последовали семь раундов, связанных с ML, LLM, а также вопросы о моем соответствии культуре компании. Мне понравился их процесс найма: вопросы были по делу, а рекрутеры уважительно относились ко мне и моему опыту.


➡️ OpenAI:
Что касается OpenAI, техническое собеседование включало проверку знаний математики и кодирования LLM, а не общие вопросы по алгоритмам и ООП (как, например, в случае с Anthropic). Мне предложили роль MLE в Сан-Франциско, но я отказался, так как это потребовало бы еще 5–6 собеседований на месте.


➡️ Scale:
В Scale процесс найма включал интервью и три собеседования на соответствие техническим навыкам. Мне понравилось, что интервьюеры были вовлечены в процесс и вели себя профессионально на протяжении всех собеседований.


Автор выделил, что ни одна из компаний-стартапов не использовала вопросы в стиле LeetCode. Более того, они разрешали использование справочных материалов во время кодинга (за исключением LLM — спрашивать у них было запрещено). Но не смотря на это, автор выделил ряд плюсов и минусов:

Плюсы:
Во всех трех компаниях были превосходные интервьюеры, причем интервью Anthropic были особенно профессиональны;
OpenAI проявила инициативу, предложив альтернативные позиции, которые могли бы подойти лучше;
Интервьюер Scale AI сделал все возможное, чтобы обеспечить продуктивную сессию во время программирования.

Из минусов:
Процесс интервью Anthropic был довольно обширным. Хотя сами интервью были хорошо проведены, их количество оказалось значительным;
В Scale коммуникация была не очень приятной — мне пришлось несколько раз связываться с рекрутером в течение 2–3 недель молчания после предпоследнего собеседования;
В OpenAI, несмотря на наличие офиса в Сиэтле, они строго требовали работы в Сан-Франциско. Они были прозрачны в этом с самого начала, что я оценил, но это меня огорчило.
Please open Telegram to view this post
VIEW IN TELEGRAM
15
DeepSchool открыл набор на вакансии преподавателей онлайн-курсов

В этих курсах совместно с опытными менторами вы будете учить студентов решать различные DL-задачи «с изюминкой», где «fit, predict» уже недостаточно.

Например:
Надо решить сегментацию, но на очень больших картинках — как лучше поделить изображение? Как собрать результаты вместе? Почему маски рваные и как этого избежать?
Создание агента для бизнеса, но он отказывается использовать функции, зацикливается и не выдает результат — как снизить число ошибок? На чем учить? Как автоматически собирать данные?

Сейчас команда DeepSchool ищет опытных NLP-инженера и CV-инженера для проведения соответствующих лекций.
Please open Telegram to view this post
VIEW IN TELEGRAM
114
Подборка открытых вакансий для Data Engineer 🔵

Middle, Senior Data Engineer в VK Team
Офис, Гибрид в Москве

Data Engineer в X5 Tech
Удаленно

Team Lead Big Data Engineer в Lamoda
Офис, Гибрид в Москве

Data engineer в Сбер
От 200.000₽
Офис, Гибрид в Москве

Data Engineer в Wildberries
Офис, Гибрид в Москве
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Работаем с данными как ML-гуру: Часть 2 – Обработка данных

Ранее мы уже говорили, что после выявления выбросов их не обязательно удалять. Но что делать дальше после обнаружения нежелательных данных? Вот несколько способов обработки:

🟦 Если речь идет о пробелах в датасете, воспользуйтесь импутацией: обычно используют среднее/максимальное значение или алгоритмы для заполнения пропусков, например, KNN. Если мы говорим о временных рядах, то пропуски можно заполнить с помощью скользящего среднего или интерполяции. Для изображений можно попробовать медианный или гауссовский фильтры, которые помогут избавиться от шума.

🟦 Для тех, кто немного ленится, подойдет использование устойчивых к шуму моделей, например, регрессионные модели с регуляризацией или деревья решений. Бустинг в целом тоже хорошо справляется с шумом. Однако будьте осторожны: убедитесь, что модель не переобучается. Лучше недообучить, чем переобучить. Кстати, проверить, переобучилась модель или нет, можно с помощью кросс-валидации.

🟦 Всегда необходимо учитывать контекст данных: в таких задачах, как анализ финансовых рынков или обнаружение редкого заболевания, шумные данные могут оказаться не шумом, а редкими, но информативными признаками. Тогда их следует учитывать при обучении, например, указать больший вес признаку с меньшим количеством наблюдений или решать задачу как поиск аномалий.

🟦 Дубликаты. Они могут быть идентичными или противоречивыми. Оба варианта неприятны, так как могут увеличивать время обучения модели и ухудшать обобщающую способность. Идентичные записи просто удаляются, оставляя одну запись. Однако не всегда это хорошо. Например, в задачах классификации миноритарный класс стараются увеличить дублированием (или генерацией). Если речь идет о противоречивых данных, то необходим анализ, поскольку в одном случае могла возникнуть ошибка ввода данных, а в другом — реальные случаи, противоречащие друг другу. В первом случае удаляем ошибочную строку, во втором — используем агрегирование.

🟦 Если вам попались временные ряды, то без сглаживания не обойтись. Для них используют скользящее или экспоненциальное среднее и преобразование Бокса-Кокса для стабилизации дисперсии. Однако данные для этого преобразования должны быть строго положительными. Если есть нули или отрицательные значения, используйте преобразование Йео-Джонсона.

Повторим еще раз: учитывать контекст задачи — очень важно, т.к. от этого зависит дальнейшая обработка данных, а в последствие и способность модели к обобщению.
Please open Telegram to view this post
VIEW IN TELEGRAM
119
Senior Data Scientist NLP в ГазпромБанк

Предстоит: Проектировать, разрабатывать и внедрять LLM модели, участвовать в разработке pipeline до промышленной реализации; Создавать генеративные модели, чат-боты... Узнать подробнее 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
5