Data Secrets | Карьера
6.49K subscribers
1.05K photos
47 videos
1 file
1.16K links
Вакансии Data Science | Machine Learning | Big Data | Deep Learning | Neural Networks

Прислать вакансию/сотрудничество: @veron_28

https://telega.in/c/data_secrets_career
Download Telegram
Андрей Карпаты поделился своим студенческим опытом. Вот несколько советов, которые он бы дал молодым студентам:

⚪️ Совет 1. График обучения — полезная вещь.
Составьте график обучения, даже если вы не планируете его придерживаться. Я это делал и делаю до сих пор для того, чтобы у меня возникло представление обо всем, что нужно узнать или сделать.


⚪️ Совет 2. Заранее ознакомьтесь с тем, чему вас будут обучать.
Во время учебы я старался просмотреть все экзаменационные вопросы до того, как начнется обучение. Это дает не только представление о том, как надо учиться по этому предмету, но еще и позволяет понять метод оценивания преподавателя.


⚪️ Совет 3. Чтение и понимание — не то же самое, что воспроизведение содержания.
Чтобы не попасть в ловушку "Да, я все понял", попробуйте закрыть учебник и воспроизвести ту формулу, которую только что прочли. Важно убедиться, что вы действительно можете написать ту или иную формулу.


⚪️ Совет 4. Учитесь вместе с одногруппниками, но не сразу.
Сначала отточите свои знания самостоятельно, но ближе к экзаменам или тестам активно общайтесь с одногруппниками или преподавателями; они укажут вам на возможные подводные камни в материале.


⚪️ Совет 5. Общайтесь со всеми одногруппниками.
Общаться не только с сильными, но и со слабыми одногруппниками — очень полезная вещь. Сильные студенты помогут своим своим советом, а слабым студентам вы сможете что-то объяснить, это в свою очередь очень помогает в понимании материала.


⚪️ Совет 6. Придите к преподавателю на консультацию, хотя бы один раз.
Я заметил, что преподаватели охотнее рассказывают об экзамене тет-а-тет, нежели всей группе. Даже если это существенно не поможет, то это даст возможность преподавателю узнать вас с хорошей стороны.


⚪️ Совет 7. Математика: практика > теория.
Для таких предметов, как математика, важнее больше выполнять упражнения, чем читать теорию. Когда вы поймете, что с теорией достаточно, закрепляйте ее практикой. Это очень помогает не только закреплять материал, но и заполнять пробелы в знаниях.


⚪️ Совет 8. Находитесь там, где другие учатся.
Вы будете испытывать чувство стыда от того, что не занимаетесь. По крайней мере, мне это помогало :) Места с большим количеством шума плохи и, как показывают исследования, отрицательно влияют на обучение. Библиотеки и читальные залы подойдут лучше всего.


⚪️ Совет 9. Важно осознать, что никому не будут интересны ваши оценки, если только они не плохие.
Ваше время — драгоценный, ограниченный ресурс. Достигните точки, когда вы не облажаетесь на экзаменах, а затем переключайте свое внимание на более важные вещи: получение реального опыта, поиск или создание своих проектов.


⚪️ Совет 10. Напутственные слова:
Вносите вклад в Open Source, создавайте или помогайте создавать что-то крутое и делитесь этим в своих блогах! Ведь это то, на что люди или работодатели будут смотреть через несколько лет. Ваши оценки? Это всего лишь помеха, с которой придется иметь дело по ходу обучения. Используйте свое время с умом и удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
55
#Точка: Team Lead Data Scientist
#Офис / #Гибрид /#Удаленно
До 450 000 ₽

➡️ Кому подойдет:
Сейчас вакансия открыта для трех команд: Продукт, ML Team и Данные новых бизнес линий. В каждом из них решаются разные задачи: от классификации налоговый требований до генерации сайтов.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Работаем с данными как ML-гуру: 1 часть – выявление выбросов

Все мечтают о том, чтобы лосс уменьшался как показательная функция, где параметр альфа меньше 1, а все метрики сходились к теоретическому идеалу. Но...

Как бы вы ни старались придумать классный алгоритм, оптимизировать вычисления – все это провальная идея, если ваши данные, мягко говоря, не очень. Не зря же бигтех так пристально смотрит на умение кандидата работать с данными.

Очень важно, чтоб данные были качественными и чистыми, ведь скор модели напрямую зависит от них. Поэтому мы начнем нашу серию постов с одной из самых частых проблем – выбросов:

Как же их обнаружить? Всего есть три вида методов:

➡️ Статистические;
➡️ Визуальные;
➡️ Методы на основе ML-алгоритмов.

Статистические методы базируются, как бы внезапно это не звучало, на статистических критериях:

➡️ Интерквартильный размах (IQR) – способ нахождения выбросов, основанный на квартилях. IQR == разница между первым и третим квартилями. Значения, которые находятся за пределами диапазона
[Q1 − 1.5 × IQR, Q3 + 1.5 × IQR], считаются выбросами. Довольно надежный метод, но работает плохо, если данные сильно асимметричны;

➡️ Z-оценка. Показывает, насколько значение отклоняется от среднего и высчитывается, как показано на картинке. Но обязательно помните, что Z-оценка применяется только для нормальных данных (для проверки на нормальность можно воспользоваться критериями Шапиро-Уилка или Хи-квадрат, а если данные не нормальны, их можно попробовать логарифмировать или применить Box-Cox).

Визуальные методы – это про построение всевозможных графиков. Что можно рисовать:

➡️ Если у вас малое количество переменных, то можно построить точечный график для каждой фичи с таргетом;

➡️ Ящик с усами. Классика, которая вызывает у новичков наибольшее недопонимание. На самом деле все довольно просто: границы ящика – это первый и третий квартили, полоска внутри – медиана. Длина усов – ничто иное, как IQR помноженный на полтора. И снова: точки, которые не входят в этот размах – и есть выбросы;

➡️ Гистограмма. Если данные нормальные, ее можно сопоставлять с ящиком с усами и снова смотреть на IQR, как показано на картинке. На самом графике выбросы будут видны в виде длинных хвостов или отдельных "блоков" далеких от основной массы данных.

Наконец, ML-алгоритмы. Они чаще всего метрические, то есть базируются на определении дальности выбросов от скопления остальных точек.

➡️ Но есть и исключения. Например, метод Isolation Forest не является метрическим и основан на идее построения деревьев решений, где в среднем аномальные точки находятся в листьях деревьев близких к корню, то есть в листьях с низкой глубиной. Если у вас многомерные данные – обязательно попробуйте этот способ;

➡️ Если возвращаться к методам, основанным на плотностях точек, то в голову сразу приходит LOF. Этот алгоритм похож на метод k-ближайших соседей, и тоже требует настройки параметра K. Идея в том, что нужно посмотреть на плотность точки относительно ее соседей. Чем ниже плотность, чем больше шансов, что рассматриваемая точка является выбросом;

➡️ Еще есть идейно похожий на LOF метод DBSCAN, но этот алгоритм все же определяет аномалию через кластеризацию и уже требует тюнинга целых двух параметров (ϵ и minPts). Если LOF предоставляет оценку аномалии для каждой точки, то DBSCAN классифицирует точки как часть кластера или шум;

➡️ И последний, но не безызвестный One-Class SVM. One-Class SVM строит гиперплоскость, отделяющую основной кластер данных от выбросов с учетом плотности распределения точек. Если данные плохо линейны разделимы, можно играть с ядрами.

Обратите внимание: выбросы не всегда нужно удалять. Они могут указывать на редкие, но важные события. Учитывайте не только специфику задачи, но и природу данных, а для этого развивайте насмотренность. Больше практики и у вас все получится!
Please open Telegram to view this post
VIEW IN TELEGRAM
44
➡️ Сбер
Data Analyst (B2C)
Офис, Гибрид

➡️ Иннотех
Data Science (Разработка моделей КИБ и СМБ)
Удаленно

➡️ Авиасейлс
Data Engineer
Удаленно

➡️ 2GIS
Data Scientist в команду NLP
Удаленно

➡️ Wildberries
Computer Vision в качество ПВЗ
Офис, Гибрид

➡️ VK Team
Аналитик данных в Data Office
Офис, Гибрид

➡️ Автомакон
Middle MLE/DS + NLP
До 300 000₽
Удаленно
Please open Telegram to view this post
VIEW IN TELEGRAM
4
AI Engineer World's Fair 2024

🔷 Этим летом прошло интересное мероприятие, на котором были собраны представители "большой технологической четверки": исследователи в области искусственного интеллекта от Google, Amazon, Microsoft, Anthropic и многих других компаний поделились своим опытом на AI Engineer World's Fair 2024.

🔷 Целых три дня с утра до вечера опытные специалисты рассказывали о передовых разработках, а также делились своими хитростями. В программе хоть и преобладающее число докладов было про генеративные модели (в основном про LLM: файтюнинг, RAG, галлюцинации), но также много внимания на мероприятии уделили агентам: создание, улучшение и их масштабирование. Например, вот здесь ребята из MongoDB проводят мастер-класс "The A to Z of Building AI Agents".

🔷 Мероприятие, хоть и рассчитано на специалистов с опытом, но и начинающие найдут для себя много полезного. Рекомендуем всем обязательно изучить эти воркшопы: Low Level Technicals of Large Language Models и Build, Evaluate and Deploy a RAG-based retail copilot with Azure AI. И да, каждый доклад можно посмотреть на YouTube, ссылку на все доклады оставляем здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
6
В канун Нового Года работа дарит не горящую елку, а горящие дедлайны 🥲
Please open Telegram to view this post
VIEW IN TELEGRAM
22
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Нетворкинг для стажера: 5 советов

Технические навыки - это, конечно, хорошо, но также не забываем о прокачке софт-скиллов, потому что каждому приходится взаимодействовать не только с компьютером, но и с различными командами. Ловите 5 советов стажерам по нетворкингу:

Первое, что нужно сделать новичку на пути в карьеру, это наладить связи с людьми, которые непосредственно связаны с профессией. Если вы хотите быть крутым дата-аналитиком, то резонно познакомиться с уже опытными сотрудниками этой сферы, а также хорошо бы подружиться со смежной ML-командой. Такие связи помогут понять, какие навыки действительно нужны и чем вы будете заниматься.

Второе, что нужно сделать, - составить список тех, с кем бы вы хотели познакомиться. Здесь очень поможет тактика "снежного кома", когда ты просишь одного человека познакомить тебя с другими. Еще полезные знакомства можно заиметь, посещая различные митапы: так вас не только запомнят, но еще у вас сложится понимание целей компании, где вы стажируетесь.

Нетворкинг - это важно, но не увлекайтесь слишком сильно. Все же вы пришли на стажировку, чтобы набраться не только новых знакомств, но и практического опыта. Делу время, а нетворкингу час.

Четвертый пункт - активное обучение. Будьте любопытны, открыты, внимательны и, самое главное, искренними. Старайтесь задавать вопросы, но не перебарщивайте: иногда лучше внести каплю самостоятельности в работу. Не пытайтесь выглядеть вовлеченным в задачи, если вы на самом деле не заинтересованы в этой работе - это сразу видно.

Даже если вам не предложили оффер по окончании стажировки, не расстраивайтесь и не прекращайте общаться с новыми знакомыми. В случае вопросов вы всегда сможете обратиться к своим бывшим коллегам, а также они смогут порекомендовать вас как добросовестного сотрудника своим знакомым.

Не стесняйтесь спрашивать и просить о помощи! Это будет вам только в плюс. Но и не забывайте, что нетворкинг - это круто и классно, но параллельно не забывайте прокачивать хард-скиллы.
Please open Telegram to view this post
VIEW IN TELEGRAM
14
#Lamoda: Senior Big Data Engineer
#Офис

Будет плюсом:
Опыт сбора и обработки требований;
Опыт работы с Docker.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
4
Нашли курс по Deep Learning от Женевского университета

Программа курса охватывает все основные темы, необходимые для глубокого обучения. В начале лекций рассказывается база DL без которой нельзя двигаться дальше: основы ML, работа перцептрона и метод обратного распространения ошибок.

Далее объясняется работа оптимизаторов, L1 и L2 регуляризации, а также полный разбор нейронных сетей, включая батч-нормализацию, слои dropout, остаточные сети и использование графических процессоров.

Курс также включает в себя изучение автокодировщиков, разбор задач обнаружения объектов, а также рассмотрение современных подходов, таких как GAN и трансформеры.

Все лекции есть в видео-формате и сопровождаются презентациями и раздаточным материалом.
Please open Telegram to view this post
VIEW IN TELEGRAM
13
#VK: Программист-исследователь в AI VK
#Офис / #Гибрид / #Удаленно

➡️ Кому подойдет:
Команда решает задачу поиска релевантных рекламных объявлений для пользователя. Если пользователь видит только полезную рекламу, а рекламодатель быстро находит нужное число пользователей своего продукта — значит, мы хорошо сделали свою работу.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
8
Вы думали, что только в российском бигтехе нужно проходить 100500 собеседований? Вот из чего состоит отбор на MLE в небольшом американском стартапе 🔵

Парень в своем блоге поделился опытом прохождения технического собеседования на должность MLE:

На первом этапе мне дали решить две задачи уровня medium. Они оказались простыми, поэтому я решил их достаточно быстро. После мне задали вопросы по NLP, включая объяснение трансформеров и вопросы по позиционному кодированию. Еще попросили объяснить устройство моделей типа GPT или LLaMA, и вскользь спрашивали про Gemma и PaliGenMA. В целом само интервью было посвящено проверке понимания глубокого обучения и математики, что находится «под капотом» моделей.

После мне назначили еще одно собеседование с лидом, где задавали вопросы про RAG, ViTs, CLIP, SigLIp. Также спросили: «Как получить эмбеддинги для чанков из 100 слов?» и «Объясните работу энкодеров и декодеров».

На финальном этапе я потратил 20 минут на интервью с гендиректором, где меня уже спрашивали о моем опыте и проектах. На этом же собеседовании мне сказали ждать письмо о приеме в штат.

Надеюсь, мой опыт поможет другим кандидатам устроиться на работу 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
45
➡️ Сбер
Аналитик данных/Data analyst
Офис
От 105 000 ₽

➡️ Авито
Аналитик данных в команду монетизации Авито Работы
Офис

➡️ Магнит Tech
ML engineer (поиск)
Удаленно

➡️ LSR Group
Дата-Инженер
Офис
200 000 ₽
Please open Telegram to view this post
VIEW IN TELEGRAM
7
Сколько платят инженерам в стартапах?

➡️ Недавно было проведено исследование зарплат в стартапах, в котором участвовало 450 таких компаний. По словам исследователей, они не устраивали опрос среди работников, а смотрели на реальные зарплаты.

➡️ Выяснилось, что джуны получают в среднем 90 000 до 130 000 долларов США, а инженеры уровня сеньер от 160 000 до 210 000 долларов США.

➡️ Для сравнения: средняя зарплата в Европе меньше. Например, на должность джуна платят 40 000 фунтов стерлингов (полная статистика тут), при этом если сравнивать сеньера и гендиректора, работающих в одном стартапе, то в среднем гендиректор получает меньше (132 000 долларов США).

Появилось желание пойти работать в стартап, чтобы потом рассказывать, что зарплата выше чем у начальника 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
11
#OpenAI: Research Scientist
#Офис
От $295.000 до $440.000 + акции компании

➡️ Кому подойдет:
OpenAI ищет людей, которые хотят открывать подходы и идеи, которые хорошо работают даже на больших масштабах.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
125
Джейсон Стейтем, подвинься! Сэм Альтман поделился тредом по достижению успеха на карьерном пути.

В далеком 2020 году Альтман написал пару советов по достижению успеха. Вышло довольно забавно, в стиле "пацанского цитатника".

Мы постарались собрать самые полезные советы, которые помогут добиться успешного успеха в работе.

Самые успешные люди (судя по истории, а не деньгам) постоянно в поиске ключевого в их бизнесе; именно над этим они и будут фокусировать все свое внимание. Они не попадают в локальный максимум и не обманываются, если находят что-то более важное. Важное не значит популярное.

Если и есть ключ к успеху, то это способность влиять на события в мире — воля, решимость, сосредоточенность, умение не сдаваться, решать любые проблемы и вера в себя.

Подавляющее большинство недооценивает ценность "быстрых изменений". Адаптируйтесь и будьте теми, кто эти изменения создает.

Очень полезно, когда кто-то делает ставку именно на вас (нанимает, повышает или инвестирует в вашу компанию) на ранних этапах карьеры. Лучший способ добиться этого — сделать все возможное, чтобы помочь потенциальным инвесторам.

Наибольшая ценность
создать то, до чего никто не мог додуматься или сделать.

Будьте любопытны! Ищите ответы в себе, а не снаружи. Будьте честными с собой относительно пересечения ваших навыков, страстей и того, что нужно миру.

Если вы хотите разбогатеть, помните: сделать это можно с помощью капитала, а не зарплаты.

Чем раньше вы начнете игнорировать хейтеров, тем лучше; но также избегайте соблазна стать одним из них или окружать себя такими людьми. Да, это весело, но только в краткосрочной перспективе — хейтеры не добиваются успеха, кроме как в диванных войсках.

В самых сильных командах — большое разнообразие мыслей, но нет большого разнообразия ценностей и целей.

Лучший способ заставить людей помогать вам — сначала помочь им. Второй лучший способ — работать над чем-то интересным.

Попробуйте выделять один день в неделю, когда вы будете работать нон-стопом, чтобы наверстать упущенное за неделю и подготовиться к следующей.


Напоследок Сэм Альтман советует сосредоточить свое внимание на важных вещах и не отвлекаться на глупости.
20
#Сбер: Стажер, Data Science Global markets
#Офис

➡️ Кому подойдет:
Команда внедряет AI-модели в бизнес на финансовых рынках – помогает внутренним и внешним клиентам увеличивать доходность и оптимизировать процессы, создает аналитическую платформу, анализирует финансовый рынок, работает с разными форматами данных, занимается текстовой аналитикой.

🚀 Откликнуться | Все вакансии
Please open Telegram to view this post
VIEW IN TELEGRAM
9
В следующем году пройдёт тринадцатая международная конференция ICLR 2025. На текущий момент подано около 10 000 заявок на участие!

Уже есть список всех докладов, которые будут представлены на конференции. Топ-5 лучших из них:

➡️ Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport

➡️ Safety Alignment Should be Made More Than Just a Few Tokens Deep

➡️ Unlocking the Power of Function Vectors for Characterizing and Mitigating Catastrophic Forgetting in Continual Instruction Tuning

➡️ BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

➡️ Artificial Kuramoto Oscillatory Neurons

Для тех, кто захочет изучить все предложенные доклады, то вы сможете найти их здесь.

Регистрация на конференцию еще открыта, так что вы можете попытать счастье и представить свой доклад.
Please open Telegram to view this post
VIEW IN TELEGRAM
9
Наглядное объяснение основных концепций ML от Amazon

AWS сделал классную визуализацию для каждой из ключевых тем в ML: случайный лес, перекрестная проверка, обучение с подкреплением, особое внимание уделили теме поиска компромисса между смещением и дисперсией.

Материала не так много, но он достаточно емкий, чтобы рассказать об основных концепциях в ML.
30
Парочка способов поздравить с Новым Годом самых продвинутых 🎄

Для любителей математики – нестареющая классика: x-max формула. А для фанатов программирования – кот(д) в мешке – запусти и узнаешь, что будет...

from colorama import Fore

def heart_shape(msg="Merry Christmas"):
lines = []
for y in range(15, -15, -1):
line = ""
for x in range(-30, 30):
f = ((x * 0.05) ** 2 + (y * 0.1) ** 2 - 1) ** 3 - (x * 0.05) ** 2 * (y * 0.1) ** 3
line += msg[(x - y) % len(msg)] if f <= 0 else " "
lines.append(line)
print(Fore.RED+"\n".join(lines))
print(Fore.GREEN+msg)
heart_shape()
Please open Telegram to view this post
VIEW IN TELEGRAM
25
Хотим поздравить подписчиков с Новым 2025 годом 🎄

Желаем чистых и обобщаемых данных, высоких метрик и большого количества оперативки для будущих моделей.

Пока не пробили куранты и не начался новый 2025 год, предлагаем окунуться в атмосферу праздника с подборкой Новогодних фильмов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
17