Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Кстати, а вы тоже чувствуете этот взрыв количества статей про интерпертируемость?

Если да, чутье вас не подводит. На графике справа – количество статей по интерпретируемости за каждый год, начиная с 2016 (считается с июня по июнь). Левый график показывает распределение таких статей статей по прикладным областям. Видите этот экспоненциальный рост?

А на следующей картинке – разбиение по подходам. Feature extraction, которым сейчас активно занимаются Anthropic и Google, судя по всему относится к полю Attributions. На графике видно, что популярность Attributions падает, но нужно понимать, что Feature extraction – только частица этого кластера и достаточно новый подход, который, возможно, еще не был вполне освоен ресерчерами.

Все картинки взяты из статьи "Trends in NLP Model Interpretability in the Era of LLMs" (вышла пару дней назад). Подробности тоже можно почитать там.
👍4010😍5👀1
Data Secrets
Тем временем противостояние века продолжается. Да, эта война растянулась на 4 дня, и еще не закончилась. Апогеем стало заявление Илона Маска о том, что в его self-driving Tesla не используются CNN (которые изобрел Лекун) 🤡 Соболезнования команде Tesla,…
This media is not supported in your browser
VIEW IN TELEGRAM
Правдивая история о том, как ученые подкалывают друг друга

«Найдено архивное видео, на котором Ян Лекун продвигает свертки в 90-х».


Лекун без внимания твит коллеги не оставил. Он прокомментировал:

«Нет, это я в окружении фанатов Илона Маска»
😁12356👍12❤‍🔥1😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Архитектура таинственной Strawberry от OpenAI

Strawberry – тот самый мега-проект OpenAI, о котором слухи ходят уже год. Раньше он числился как Q*. СМИ писали, что в основе Strawberry aka Q* предположительно лежит метод STaR (self-taught reasoners). А теперь вот в сети завирусился твит некоего независимого исследователя, который завез свой прогноз на то, из каких подходов будет состоять модель.

Пересказываем и зашиваем в текст ссылки на все статьи:

1) Сложный роутинг запросов (так называемый Active Inference). Это когда ответ не всегда генерируется по одним и тем же правилам, а маршрутизируется в зависимости от длины/сложности/других факторов. Возможные модели: GoT, AoT, CoV и MCTS.

2) Агентный подход в планировании. Отдельная модель с условно-графовой архитектурой, которая составляет план действий для рассуждений главной модели. Возможно, на основе параллельного вызова функций и LDB.

3) Reasoning & Continuous Learning. Применяется, чтобы модель могла как бы исправлять и анализировать сама себя в рассуждениях непосредственно. Тут прогнозируется что-то типа гугловского Self Discover (может CLIN или MedAgent-Zero) + графовая RAG для ускорения и уточнения, как в LGGM.

4) Соединяем все это с помощью симуляции агентных сред. Это нужно для того, чтобы все перечисленные части "научились" взаимодействовать между собой и доучили друг друга в среде, похожей на реальную. Скорее всего, это будет нечто, вдохновленное DSPy и Agent Symbolic learning.

Самое сложное – последний пункт. Такие среды очень сложно масштабировать, а еще сложнее прокормить, потому что для действительно сильной модели понадобятся миллиарды сессий симуляции 💀
33👍259😁2🤯1🍓1
Бывшие инженеры Google, учредители успешного стартапа Character.AI, снова возвращаются в компанию

Вообще, схема там получилась очень интересная. Google подписала соглашение об использовании технологий Character.AI, которое подразумевает финансирование стартапа и выплаты ему лицензий за использование моделей, то есть тот не закрывается.

В то же время Шазир и Де Фрейтас возвращаются в Альма-матер на те же позиции, с которых они уходили. А работали они, говорят, над «секретным» ИИ-проектом. Кстати, Шазир еще и сыграл большую роль в легендарной статье «Attention is all you need».

Еще одна интересная деталь: как раз сейчас Character.AI переходят со своих моделей на общедоступные, в связи с возросшей мощью опенсорса. Получается, Google будет платить лицензию за Llama 3.1 😂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37😁195
This media is not supported in your browser
VIEW IN TELEGRAM
На HuggingFace опять завезли прикольный проект: это интерактивная демонстрация того, как на выходы модели влияют температура, Top-k и Top-p

Temperature, Top-k и Top-p – это инференсные параметры, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других разработчиков моделей.

Все эти параметры, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Подробнее:

⚙️ Temperature контролирует детерменированность предсказания. Чем она ниже, тем чаще модель выбирает просто самый вероятный следующий токен. Такое подходит для каких-нибудь строгих задач, требущих краткого точного ответа. Ну а чем температура выше – тем модель "креативнее" (но и чаще шалит и галлюцинирует).

⚙️ Top_k – смысл тот же, но работает иначе, а именно просто ограничивает количество токенов для рассмотрения. Например, top_k=5 означает, что рассматриваются только 5 лучших токенов, а для остальных устанавливается нулевая вероятность.

⚙️ Top-p. Так называемое сэмплирование ядра. Токены выбираются по убыванию вероятности до тех пор, пока их суммарная вероятность не достигнет значения top_p. Опять же, ищете более разнообразные ответы – увеличьте top_k и top_p.

Зайти и потыкаться самому можно по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🤗17🤯41😎1
Желаем, чтобы графики ваших лоссов всегда выглядели как рынок криптовалют сегодня
😁68👍558🕊5
Тем временем еще двое бывших инженеров Google со своим стартапом строят планы перещеголять Nvidia

Компания занимается разработкой ИИ-чипов, называется Groq (как тебе такое, Илон Маск?) и сейчас оценивается в $2.8 миллиарда. Недавно стало известно, что они привлекли $640 миллионов новых вложений.

Кроме новости про инвестиции также появилась новость о том, что в качестве нового тех.консультанта у Groq выступит Ян Лекун, а в качестве COO – Стюард Панн, бывший директор тех.производства Intel и ex-CIO HP 😮

Сейчас компания занимается чипом нового поколения LPU (language processing unit). Как вы понимаете, специально для LLM. Обещают х10 к скорости инференса и выпуск в Q1 2025.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4215🫡106🤯2😁1🤔1
⚡️ Hugging Face выделяет 10 миллионов долларов на общедоступные бесплатные GPU

Они будут "дарить" сервера с A100 мелким стартапам и разработчикам в рамках новой программы ZeroGPU. Цель состоит в том, чтобы "помочь малому и среднему бизнесу и независимым рисерчерам противостоять централизации ИИ".

Благотворительность, которую мы заслужили 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
170🤗60👍24🆒2😁1
⚡️ Еще трое соучредителей, среди которых Грег Брокман, покинули OpenAI

Правда, Грег не совсем ушел: он взял длительный отпуск до конца года. В твиттере он написал, что это его первый отпуск за 9 лет в OpenAI. Однако, его мотивы все еще неизвестны.

Кроме него, из компании ушел Питер Денг – Vice President of Product, и Джон Шульман.

Шульман – мега выдающийся исследователь, автор метода PPO, который лежит в основе RLHF, и любитель alignment’a. Не мудрено, что ушел он… в Anthropic 🫠

Интересно, как там настроение у Альтмана
Please open Telegram to view this post
VIEW IN TELEGRAM
8223👍19😁121🤯1
Кажется, знаменитый Андрей Карпаты скоро дропнет что-то новенькое

На его GitHub появился новый репозиторий nano-llama31. В ридми написано, что этот проект – аналог его nanoGPT (2022 год) для GPT-2. Иными словами, это переписанный официальный код Llama 3.1, который имплементирует облегченную версию модели, содержащую меньше тугих зависимостей и строк кода в целом.

Такое упрощение дает возможность легче запускать, дообучать или файнтюнить модельку. В общем, ждем официального видео (или хотя бы твита) от Андрея.

P.S. За новость спасибо нашему чату ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7322👏8❤‍🔥5
Forwarded from XOR
А вот краткая история OpenAI в 2024 году для тех, кто не успевает следить

@xor_journal
😁1033912👍7🤯3💯1🙈1
Что интересного почитать про ИИ?

Обожаем это чувство, как его там... разнообразный экспертный контент с авторским юмором. Особенно если автор – предприниматель и практик с кучей проектов.

В общем, сегодня рекомендуем вам канал про ИИ с изюминкой от Сергея Булаева. Он создатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker и Взахлёб. Когда началась ИИ-революция, Сергей уехал на необитаемый остров Самуи познавать происходящее на практике.

В его блоге вы найдете много полезных технических материалов и новостей, которые он откапывает где-то в глубинах интернета, истории об экспериментах с LLM, и еще много-много про ботов, кодинг и индустрию. Вот, например, посты, которые нам особенно приглянулись:

▪️ Пост про фильм, сценарий к которому полностью написал ChatGPT, о сценаристе, который пишет сценарий с помощью ChatGPT 🤯

▪️ Рассказ про проект с правильным балансом творческой LLM и четкого кода

▪️ Интересное про сервильность моделей

И такое выходит в канале каждый день. Подписывайтесь: @sergiobulaev
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯12👍53🗿31
В открытый доступ вышла новая книжка «ИИ и игры»

Необычно, но очень интересно. В книге рассматриваются методы машинного обучения для решения всяких игровых задач (от крестиков-ноликов и до шахмат). Много про DL, классическую математику теории игр и, куда же здесь без него, обучение с подкреплением.

При этом если вы с какими-то из рассматриваемых методов не знакомы, в книге достаточно классической теории, чтобы все понять. Так что можно читать даже как классический путеводитель по ML.

Скачать тут
👍5512❤‍🔥6🤓1
Как будто у них и без этого проблем мало: ютуберы подали коллективный иск на OpenAI, а Илон Маск возобновляет судебный процесс против компании.

Претензии Маска прежние – нарушение устава. Ну а ютуберы, понятное дело, после всех новостей о том, что OpenAI транскрибирует YouTube, начинают бороться за свой контент.

Эх, тяжелый день для Сэма 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
90🙈13👍93
Data Secrets
Помните мы рассказывали про начало сотрудничества OpenAI с роботех-стартапом Figure? Так вот, результаты не заставили себя долго ждать. Благодаря OpenAI, Figure 01 теперь обладает языковым и визуальным интеллектом и может полноценно общаться с людьми. Скорость…
Media is too big
VIEW IN TELEGRAM
Figure наконец анонсировали новое поколение своего робота: того самого, которого они разрабатывали совместно с OpenAI. Вот что пишут:

➡️Может свободно общаться в режиме speech2speech (спасибо gpt-4o)
➡️6 встроенных камер с системой компьютерного зрения
➡️Руки с 16 степенями свободы и силой, равной человеческой
➡️На 50% больше времени без зарядки за счет бодрого аккумулятора
➡️Вычисления в 3 раза быстрее, чем у прошлого поколения

Домой такого надо? 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
👾43👍1671🏆1
🤗 Вышла обновленная версия библиотеки transformers от HuggingFace

▪️Добавили Gemma 2, Codestral и Nemotron
▪️ Оптимизированный Supervised файнтюнинг
▪️ Наконец-то целостная сквозная компиляция, теперь от трех до пяти раз быстрее
▪️ Возможность выгружать кэш в процессор (для GPU poor 😋)
▪️ И torch export для статического кэша

Все подробности и примеры в репозитории
Please open Telegram to view this post
VIEW IN TELEGRAM
🤗5611👍9
Никогда такого не было, и вот опять: новая модель-загадка на LMSYS. В лидерборде ее нет, пока что участвует только в тестах. Сама отвечает, что «основана на GPT-4».
🤔447👍5😁4
Аналитика! Продукт! Мотор!

22 августа на больших экранах премьера аналитического митапа от команды Купер.тех (ex СберМаркет Tech). 

Объединим четыре сюжетные линии и завершим кульминационной afterparty:

🎬 Предсказание оптимального ПВЗ покупателя на Авито. Directed by Ксения Кригер, аналитик в команде логистики, Авито.

🎬 Факторный анализ Retention пользователей самовывоза и B2B. Directed by Никита Истомин и Евгений Кадыгров, продуктовые аналитики самовывоза и B2B, Купер.

🎬 Не CSAT’ом едины: как анализировать клиентский опыт с помощью ML-алгоритмов? Directed by Владислав Петраков, руководитель продуктовой аналитики Платформы Origination, и Анна Муратова, продуктовый аналитик, Т-Банк.

🎬 Как ошибиться в АВ-тестах, даже если хорошо знаешь математику. Directed by Никита Мананников, руководитель направления аналитики BX, Ozon.

🗓 22 августа в 19:00 по Москве, КАРО 11 Октябрь.

Регистрируйся по ссылке и приятного просмотра!

Реклама. ООО «ИНСТАМАРТ СЕРВИС», ИНН: 9705118142. Ерид: LjN8KE4Et
🤯73👍1