Dealer.AI
14.6K subscribers
685 photos
46 videos
16 files
715 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
1👍11
Forwarded from LLM Arena
😨 Бенчмаркинг LLM в кризисе?

Классические лидерборды больше не отражают реальную эффективность моделей в прикладных задачах. Мы видим, что специалисты комбинируют метрики и сигналы, чтобы подобрать идеальную LLM под свой уникальный кейс.

Мы проводим новое исследование, чтобы понять:

🔹Как профессионалы выбирают решение на базе LLM.
🔹Какие данные, инструменты и сигналы реально помогают.

🧑‍💻 Для кого?

Приглашаем всех, кто профессионально связан с AI-продуктами и работает с LLM: ML-инженеры, дата-сайентисты, исследователи, продакты, MLOps и индивидуальные контрибьюторы.

➡️ Пройти опрос: https://forms.gle/dDWeWaWbxhk6qsNL7

🙏 Будем признательны за репост — это поможет собрать более широкую и качественную выборку. Мы обязательно поделимся результатами исследования по его завершению.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍53😐3
Приходите на конфу этой осенью, будет интересно!
Forwarded from AiConf Channel
Кто делает так, чтобы в программе каждый доклад был по делу и с пользой, соответствовал актуальным вызовам и содержал работающие инструменты?

Это программный комитет AiConf X — опытные практики из мира Data Science, лучшие из лучших в нашей сфере.

Именно они:
🔴Оценивают глубину и новизну.
🔴Отбирают то, что будет полезно сегодня на рынке (а он у нас с вами быстро меняется).
🔴Следят, чтобы в каждом докладе, кейсе, мастер-классе были конкретные цифры и инструменты.

И все для того, чтобы вы могли выйти с конференции с фразой «было мощно» и десятками идей и решений, которые возьмете в работу.


Сегодня хотим познакомить вас с теми, кто создает AiConf Х (и это еще не все, ждите вторую часть команды) — поддержите реакцией🔥

Все, что нужно знать о конференции, — на сайте

💬 Подписаться на AiConf X
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥156😐2👍1🫡1
Лоооол. 🚬🚬🚬🚬

👇👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
😁3
Forwarded from Pavel Zloi
вайб-кодер != программист

Увидел на канале тёзки @toshoseti публикацию про турнир по вайб-кодингу, результат данного турнира меня совсем не удивил, так как оказалось, что дрессированные модельки показали не самый лучший результат.

В целом, ожидаемо.

Как говорят автомобилисты: "самое главное в автомобиле - это прослойка между рулём и сидением".

В вайб-кодинге плюс-минус то же самое, если над задачей работает бестолковый инженер, то и результат будет соответствующий, даже если нейросеть у него state-of-the-art и файнтюненная под задачу и промтами с контекстом подбодрённая.

Приведу одну занятную цитату из поста:
Для сравнения: на тесте SWE‑Bench лучшие модели показывают до 75% успешных решений на простом уровне и 34% на сложном. В K Prize ни одна из участвовавших моделей не преодолела даже 10% порог.

Сошлюсь на @Roma_Data и @dealerAI, которые в своих публикациях не раз подмечали - тестирование LLM по современным бенчмаркам зачастую не показывает объективной картины. Потому что как только задачка выходит за пределы того, что модель видела в процессе обучения - всё, приехали, она начинает тупить, узкие места всплывают моментально и надо иметь опыт и знания, чтобы это подметить и вернуть модель в нужное русло.

Вот и получается, что хороший вайб-кодер - это не просто человек и нейросеть, а связка: инженер с опытом и пониманием проблемы + правильно подключённые и настроенные инструменты, в таком случае можно и 75% и больше задач решить, а если у специалиста пробел в знаниях, то всего его успешные потуги - просто удачное стечение обстоятельств, так как модель видела в процессе обучения как решать подобные задачи.

И хотя прогресс в кодинге у LLM есть, пока что я могу его охарактеризовать как костыль на костыле, который упирается не столько в архитектуру или там какую-то абстрактную точность модели, сколько в то, кто и как её использует. Поэтому ИМХО 100% успеха на подобных соревновании мы как мне кажется не увидим ни завтра, ни через год и вполне возможно, что при нашей жизни не увидим тоже.

Есть мнение, что если кто и добьётся успеха такого рода конкурсах, то это не тот, кто пишет промты в стиле "ты теперь TypeScript Senior" или "изучи исходный код проекта и реши вот эту задачу", а тот, кто будет выполнять декомпозицию задач на более простые, заставлять модели строить reasoning цепочки и не будет надеется на магию, но это уже скорее soft skills, а не фичи LLM.
9🔥26🤔8👨‍💻32💯2🆒1
🤣48👍6🔥5🙈2💯1
Dealer.AI
Photo
Drugs зло.
😁28👍91
Рефлексия о работе в OpenAI или как из хаоса и атомарных действий рождается великое.

Ex сотрудник Codex рассказывает о своем опыте работы в OpenAI.

Советую почитать самостоятельно, если уж английский не ваше - перевод тут.

Выделю то, что именно интересно мне, в основном, это процессы, за остальным вэлкам, опять же, в полную версию.

1. Наличие моно-репо разработки, отсутствие коммуникаций в почте. Да, ребята общаются через мессенджер - Slack. Имеется многоуровневая система доступов, особенно, к чатам с фин. информацией. В почте почти нет коммуникации, автор буквально получал около 10 писем за все время. На сладкое разработка в одном огромном монорепозитории.

2. Процессы под лозунгом "bias to action". Формирование групп и команд идет по интересам и сразу в бой. Зачастую, годные идеи и их реализации просто интегрируют в более масштабный флоу к основной ветке. Отсюда возможность создания параллельно нескольких групп, делающих одну фичу по-своему, далее побеждает "сильнейший". Также это дает возможность расти тем, кто делает интересное/полезное хорошо и быстро, даже без возможности нормальной презентации. Вокруг таких успешных групп быстро далее формируется core команда для доведения до ума решения. Обычно все крутые фичи рождаются в рамках "мелких" исследований, это в т.ч. порождает порой огромные распределенные кусочки, которые важно соединить воедино. Отсюда и важны руководители.

3. Руководители исследовательских групп – «мини CEO». В рамках работы, при создании трека важная максимальная самостоятельность и принятие рисков. Поэтому лиды групп становятся мини-CEO, которые видят весь ландшафт работ, в т.ч. в соседних командах. Отмечается важность иметь хороших research engineering manager и PMов. Причём люди, занимающие данные позиции обладают открытым и широким взглядом, создавая впечатление что уже видели все. Но эта черта не мешает поддерживать команды, мотивировать на успех и минимально вмешиваться в реализацию. Такие руководители поощряют креатив и т. п., а не микроменеджерят, помогая и нанять лучших людей под задачу или ротировать их, а также дать выч. ресурсы.

Как следствие из п. 1-3, компания довольно гибкая и быстро может менять направление исследований и разработок. Все что не интересно, решенное и устарело, скорее всего, делаться не будет. Также это не дает возможности быть инертными и четко двигаться по плану/стратегии в отличии от конкурентов в Google и др. Руководители вовлечены в работу и не ждут квартального планирования и планового перераспределения в штат, подтягивая опять же быстро нужных людей. Какой к чёрту план, когда вы на острие технологий и все меняется молниеносно.

4. Важность оптимизации GPU. Работа с оптимизацией латенси вплоть до времени отклика на генерацию первого токена. Отмечается, что ресурсы GPU для создания одной нишевой функции Codex были сопоставимы по затратам со всем пайпом сбора и чистки данных логов клиентов.

5. Не забываем о социальной ответственности. Большое внимание уделяется практическим угрозам (например, разжиганию вражды, злоупотреблению технологиями, манипуляциям общественным мнением, созданию биологического оружия, проблемам самолечения и атакам методом инъекций запросов), нежели абстрактным рискам вроде интеллектуального скачка или стремлениях машин к власти. Однако это вовсе не означает, что вопросами гипотетических рисков никто не занимается — такие специалисты действительно существуют.

Интересно? Читайте полную версию и черпайте интересные моменты для себя. Жду от вас комментарии, что отметили именно вы.

Upd. Мне напомнило это все, кстати, рассказ разработчиков ChatGPT, как они сделали это. Когда Сэм пришел и попросил перед очередным собранием инвесторов удивить его, команда достала из широких штанин, что они делали с GPT3.5 (или 3). И это было оно. Сама сказал, накинуть на это GUI и пустить на бой, ибо это вызывало шок, вострог и вау. Чуваки делали несколько месяцев экспы и никто их не хватился, до нужного момента. И вот такая исследовательская группа удивила. Вот так это и работает в такой архитектуре процессов.
28👍9🔥7🙈1
Microsoft показали списки профессий, которые больше всего и меньше всего подвержены риску быть замененными ИИ.

Data scientist 0.77 😳

В массажисты, я пойду пусть меня научат(с) 😁

Upd. Статья тут 👇👇👇 https://arxiv.org/abs/2507.07935
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
💯19😁18🤔32👍1
Dealer.AI
Photo
Что же на самом деле было в статьей от Microsoft?

Когда все покекали, пришло время заменить редакторов и авторов и написать вам обзор при помощи LLM. Статья про анализ влияния искусственного интеллекта на занятость населения:

▌ Постановка задачи

Авторы исследуют влияние генеративного искусственного интеллекта на рабочие процессы различных профессий, определяя уровень применимости ИИ для конкретных видов профессиональной деятельности. Они используют анонимные беседы пользователей с системой
Microsoft Bing Copilot — общедоступным инструментом ИИ, применяемым на практике.

▌ Идея алгоритма

Основной метод исследования заключается в анализе больших объемов реальных взаимодействий между пользователями и ИИ-системами. Авторы классифицируют труд работников по видам действий, наиболее часто выполняемых совместно с ИИ. Затем, основываясь на измерениях успешности и распространенности каждой деятельности, вычисляется показатель применимости ИИ для разных профессиональных групп и как следствие - автоматизацию их труда. Эта же автоматизация и подразумевает замену функций работника на ИИ.

▌ Экспериментальная система дизайна

Эксперимент основан на обработке набора данных, состоящего из 200 тысяч бесед пользователей с ИИ-помощником Microsoft Bing Copilot. Эти данные позволяют определить частоту обращения к помощи ИИ в различных рабочих ситуациях, установить характер взаимодействия и оценить успех решения поставленных задач.

▌ Метрики оценки

Используются следующие показатели:

- Частота запросов определенной рабочей активности.
- Уровень успешности выполнения задач.
- Широта охвата различных занятий, связанных с использованием ИИ.
На основании этих показателей строится рейтинг профессий по уровню применимости ИИ ( и в т.ч. является прокси автозаменяемости).

▌ Основные выводы

Исследование выявило, что наибольший потенциал внедрения ИИ наблюдается среди интеллектуальных профессий («computer and mathematical», «office and administrative support»), а также у специалистов сферы продаж, чья работа связана с предоставлением и передачей информации. Важным открытием стало обнаружение корреляций между уровнем заработной платы, образованием и степенью применимости ИИ.

Кстати, в своем интервью, Дядя тоже говорил о том, что в первую очередь заменяют функции для интеллектуальных и высокооплачиваемых профессий: аналитика, моделирование, программирование и др.

Кроме того, авторы подчеркнули необходимость дальнейшего изучения долгосрочных последствий широкого распространения ИИ на рынок труда и качество жизни работников.

Таким образом, исследование представляет собой значимый вклад в понимание текущих тенденций и перспектив развития технологий ИИ в области занятости.


P.S. Ну что как вам замена автора канала на LLM (или совместное написание)?
10🙈10👍3🔥2