This media is not supported in your browser
VIEW IN TELEGRAM
Смотрите, какое симпатичное объяснение метода обратного распространения ошибки всего в одной гифке
Давайте разбираться, что тут происходит. Нам дана нейросеть с тремя слоями (layer), входной вектор X, предсказания, которые мы получили в ходе прямого прохода (Y_pred) и истинные метки (Y_target).
Перед нами стоит задача сделать шаг Backpropagation и обновить веса модели. Как мы это делаем? Считаем градиенты, конечно.
Сначала для третьего слоя. Здесь мы можем посчитать градиент обычным вычитанием (синий цвет), так как используем софтмакс и кросс-энтропийный лосс. Это наш ∂L / ∂z3. Чтобы с помощью этого градиента сосчитать, как нужно менять веса и biases, мы домножаем его на активацию, которая стояла после второго слоя (a2) + вектор из единиц. Так мы получим ∂L / ∂W3 и ∂L / ∂b3 (черный и оранжевый цвет), которые после и прибавялются с некоторым весом к weights, чтобы их обновить.
Для второго слоя все то же самое. Вот только ∂L / ∂z2 в этот раз посчитать вычитанием не получится. Придется сначала как бы сделать шаг назад по сети, то есть домножить полученный на прошлом шаге ∂L / ∂z3 на неизмененные пока веса третьего слоя и получить ∂L / ∂a2 (зеленое). Только потом мы можем посчитать ∂L / ∂z2 (синее), а дальше все по накатанной.
С третьим слоем все то же самое. Вот такой алгоритм, благодаря которому обучаются все нейросети (и LLM тоже). Тут, как (не)говорится, матричное умножение is All You Need. Вот почему способность GPU эффективно умножать матрицы играет такую важную роль в развитии Deep Learning. Вот почему NVIDIA сейчас оценивается примерно в 1 триллион долларов.
P.S. Крайне полезно проделать это упражнение вручную с другими числами: не пожалеете. А если хотите больше узнать про алгоритм, читайте этот наш пост.
Давайте разбираться, что тут происходит. Нам дана нейросеть с тремя слоями (layer), входной вектор X, предсказания, которые мы получили в ходе прямого прохода (Y_pred) и истинные метки (Y_target).
Перед нами стоит задача сделать шаг Backpropagation и обновить веса модели. Как мы это делаем? Считаем градиенты, конечно.
Сначала для третьего слоя. Здесь мы можем посчитать градиент обычным вычитанием (синий цвет), так как используем софтмакс и кросс-энтропийный лосс. Это наш ∂L / ∂z3. Чтобы с помощью этого градиента сосчитать, как нужно менять веса и biases, мы домножаем его на активацию, которая стояла после второго слоя (a2) + вектор из единиц. Так мы получим ∂L / ∂W3 и ∂L / ∂b3 (черный и оранжевый цвет), которые после и прибавялются с некоторым весом к weights, чтобы их обновить.
Для второго слоя все то же самое. Вот только ∂L / ∂z2 в этот раз посчитать вычитанием не получится. Придется сначала как бы сделать шаг назад по сети, то есть домножить полученный на прошлом шаге ∂L / ∂z3 на неизмененные пока веса третьего слоя и получить ∂L / ∂a2 (зеленое). Только потом мы можем посчитать ∂L / ∂z2 (синее), а дальше все по накатанной.
С третьим слоем все то же самое. Вот такой алгоритм, благодаря которому обучаются все нейросети (и LLM тоже). Тут, как (не)говорится, матричное умножение is All You Need. Вот почему способность GPU эффективно умножать матрицы играет такую важную роль в развитии Deep Learning. Вот почему NVIDIA сейчас оценивается примерно в 1 триллион долларов.
P.S. Крайне полезно проделать это упражнение вручную с другими числами: не пожалеете. А если хотите больше узнать про алгоритм, читайте этот наш пост.
😐32👍21❤18 3🤯2😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
😁149❤16👍11⚡1👨💻1
Anthropic опять выкатили огненную статью-отчет про интерпретируемость: что мешает нам понимать черный ящик нейросетей?
Основная идея текста: современные методы интерпретации лишь соскребают верхний слой интерпретируемости, в то время как основная масса «темной материи» все еще ускользает от исследователей, и вот 5 причин, почему:
➡️ Мы пока не умеем извлекать все интерпретируемые фичи. Такие методы, как SAE, достают только до части фичей, остальные выцепить невозможно без большого алгоритмического прорыва. О том, что за фичи и как работает SAE, мы рассказывали тут и тут.
➡️ Межслойная суперпозиция: активации могут быть настолько запутаны между слоями, что возникает эффект суперпозиции. С таким явлением SAE также не справляются.
➡️ Аналогично суперпозиции нейронов между слоями, возникает суперпозиция внимания между головами. Это SAE тоже не могут учесть, хотя это может быть фундаментальной вещью для вычисления фичей.
➡️ Сюда же суперпозиция самих весов. Проблема везде одна: вектора запутаны между слоями или головами так, что автоэнкодеры не могут их распутать.
➡️ И, наконец, даже если мы извлечем всевозможные фичи, это все равно не сложится в общее понимание черного ящика. В идеале для этого нужна структура совсем других масштабов. К тому же, далеко не факт, что это вообще возможно полностью автоматизировать.
Полный текст здесь. Подходящее чтиво для субботы😉
Основная идея текста: современные методы интерпретации лишь соскребают верхний слой интерпретируемости, в то время как основная масса «темной материи» все еще ускользает от исследователей, и вот 5 причин, почему:
Полный текст здесь. Подходящее чтиво для субботы
Please open Telegram to view this post
VIEW IN TELEGRAM
❤51 19🎉8👍7😁1
Досуг на вечер (или даже два): вышло интервью с Илоном Маском, топ-менеджерами Neuralink и вторым добровольцем с чипом. Что интересного:
⚙️ Маск говорит, что данные, которые будут собираться в режиме реального времени с соц.сети X (а кто разрешал?) , Tesla Cars и роботов Optimus сделают Grok «лучшим ИИ в мире».
⚙️ Про чипы: до конца года Маск хочет вживить Neuralink 10 добровольцам. За десять лет он ожидает увидеть миллионы людей с Neuralinks. А дальше телепатия, прозрение и коллективный интеллект.
Желающим преисполниться советуем, конечно, вот только длится вся красота 8.5 часов…
Желающим преисполниться советуем, конечно, вот только длится вся красота 8.5 часов…
Please open Telegram to view this post
VIEW IN TELEGRAM
😎48👍15😁12🤪12🗿6❤5🤨4🫡2 1
Кстати, а вы тоже чувствуете этот взрыв количества статей про интерпертируемость?
Если да, чутье вас не подводит. На графике справа – количество статей по интерпретируемости за каждый год, начиная с 2016 (считается с июня по июнь). Левый график показывает распределение таких статей статей по прикладным областям. Видите этот экспоненциальный рост?
А на следующей картинке – разбиение по подходам. Feature extraction, которым сейчас активно занимаются Anthropic и Google, судя по всему относится к полю Attributions. На графике видно, что популярность Attributions падает, но нужно понимать, что Feature extraction – только частица этого кластера и достаточно новый подход, который, возможно, еще не был вполне освоен ресерчерами.
Все картинки взяты из статьи "Trends in NLP Model Interpretability in the Era of LLMs" (вышла пару дней назад). Подробности тоже можно почитать там.
Если да, чутье вас не подводит. На графике справа – количество статей по интерпретируемости за каждый год, начиная с 2016 (считается с июня по июнь). Левый график показывает распределение таких статей статей по прикладным областям. Видите этот экспоненциальный рост?
А на следующей картинке – разбиение по подходам. Feature extraction, которым сейчас активно занимаются Anthropic и Google, судя по всему относится к полю Attributions. На графике видно, что популярность Attributions падает, но нужно понимать, что Feature extraction – только частица этого кластера и достаточно новый подход, который, возможно, еще не был вполне освоен ресерчерами.
Все картинки взяты из статьи "Trends in NLP Model Interpretability in the Era of LLMs" (вышла пару дней назад). Подробности тоже можно почитать там.
👍40❤10😍5👀1
Data Secrets
Тем временем противостояние века продолжается. Да, эта война растянулась на 4 дня, и еще не закончилась. Апогеем стало заявление Илона Маска о том, что в его self-driving Tesla не используются CNN (которые изобрел Лекун) 🤡 Соболезнования команде Tesla,…
This media is not supported in your browser
VIEW IN TELEGRAM
Правдивая история о том, как ученые подкалывают друг друга
Лекун без внимания твит коллеги не оставил. Он прокомментировал:
«Найдено архивное видео, на котором Ян Лекун продвигает свертки в 90-х».
Лекун без внимания твит коллеги не оставил. Он прокомментировал:
«Нет, это я в окружении фанатов Илона Маска»
😁123 56👍12❤🔥1😐1
This media is not supported in your browser
VIEW IN TELEGRAM
Архитектура таинственной Strawberry от OpenAI
Strawberry – тот самый мега-проект OpenAI, о котором слухи ходят уже год. Раньше он числился как Q*. СМИ писали, что в основе Strawberry aka Q* предположительно лежит метод STaR (self-taught reasoners). А теперь вот в сети завирусился твит некоего независимого исследователя, который завез свой прогноз на то, из каких подходов будет состоять модель.
Пересказываем и зашиваем в текст ссылки на все статьи:
1) Сложный роутинг запросов (так называемый Active Inference). Это когда ответ не всегда генерируется по одним и тем же правилам, а маршрутизируется в зависимости от длины/сложности/других факторов. Возможные модели: GoT, AoT, CoV и MCTS.
2) Агентный подход в планировании. Отдельная модель с условно-графовой архитектурой, которая составляет план действий для рассуждений главной модели. Возможно, на основе параллельного вызова функций и LDB.
3) Reasoning & Continuous Learning. Применяется, чтобы модель могла как бы исправлять и анализировать сама себя в рассуждениях непосредственно. Тут прогнозируется что-то типа гугловского Self Discover (может CLIN или MedAgent-Zero) + графовая RAG для ускорения и уточнения, как в LGGM.
4) Соединяем все это с помощью симуляции агентных сред. Это нужно для того, чтобы все перечисленные части "научились" взаимодействовать между собой и доучили друг друга в среде, похожей на реальную. Скорее всего, это будет нечто, вдохновленное DSPy и Agent Symbolic learning.
Самое сложное – последний пункт. Такие среды очень сложно масштабировать, а еще сложнее прокормить, потому что для действительно сильной модели понадобятся миллиарды сессий симуляции 💀
Strawberry – тот самый мега-проект OpenAI, о котором слухи ходят уже год. Раньше он числился как Q*. СМИ писали, что в основе Strawberry aka Q* предположительно лежит метод STaR (self-taught reasoners). А теперь вот в сети завирусился твит некоего независимого исследователя, который завез свой прогноз на то, из каких подходов будет состоять модель.
Пересказываем и зашиваем в текст ссылки на все статьи:
1) Сложный роутинг запросов (так называемый Active Inference). Это когда ответ не всегда генерируется по одним и тем же правилам, а маршрутизируется в зависимости от длины/сложности/других факторов. Возможные модели: GoT, AoT, CoV и MCTS.
2) Агентный подход в планировании. Отдельная модель с условно-графовой архитектурой, которая составляет план действий для рассуждений главной модели. Возможно, на основе параллельного вызова функций и LDB.
3) Reasoning & Continuous Learning. Применяется, чтобы модель могла как бы исправлять и анализировать сама себя в рассуждениях непосредственно. Тут прогнозируется что-то типа гугловского Self Discover (может CLIN или MedAgent-Zero) + графовая RAG для ускорения и уточнения, как в LGGM.
4) Соединяем все это с помощью симуляции агентных сред. Это нужно для того, чтобы все перечисленные части "научились" взаимодействовать между собой и доучили друг друга в среде, похожей на реальную. Скорее всего, это будет нечто, вдохновленное DSPy и Agent Symbolic learning.
Самое сложное – последний пункт. Такие среды очень сложно масштабировать, а еще сложнее прокормить, потому что для действительно сильной модели понадобятся миллиарды сессий симуляции 💀
Бывшие инженеры Google, учредители успешного стартапа Character.AI, снова возвращаются в компанию
Вообще, схема там получилась очень интересная. Google подписала соглашение об использовании технологий Character.AI, которое подразумевает финансирование стартапа и выплаты ему лицензий за использование моделей, то есть тот не закрывается.
В то же время Шазир и Де Фрейтас возвращаются в Альма-матер на те же позиции, с которых они уходили. А работали они, говорят, над «секретным» ИИ-проектом. Кстати, Шазир еще и сыграл большую роль в легендарной статье «Attention is all you need».
Еще одна интересная деталь: как раз сейчас Character.AI переходят со своих моделей на общедоступные, в связи с возросшей мощью опенсорса. Получается, Google будет платить лицензию за Llama 3.1😂
Вообще, схема там получилась очень интересная. Google подписала соглашение об использовании технологий Character.AI, которое подразумевает финансирование стартапа и выплаты ему лицензий за использование моделей, то есть тот не закрывается.
В то же время Шазир и Де Фрейтас возвращаются в Альма-матер на те же позиции, с которых они уходили. А работали они, говорят, над «секретным» ИИ-проектом. Кстати, Шазир еще и сыграл большую роль в легендарной статье «Attention is all you need».
Еще одна интересная деталь: как раз сейчас Character.AI переходят со своих моделей на общедоступные, в связи с возросшей мощью опенсорса. Получается, Google будет платить лицензию за Llama 3.1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37😁19❤5
This media is not supported in your browser
VIEW IN TELEGRAM
На HuggingFace опять завезли прикольный проект: это интерактивная демонстрация того, как на выходы модели влияют температура, Top-k и Top-p
Temperature, Top-k и Top-p – это инференсные параметры, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других разработчиков моделей.
Все эти параметры, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Подробнее:
⚙️ Temperature контролирует детерменированность предсказания. Чем она ниже, тем чаще модель выбирает просто самый вероятный следующий токен. Такое подходит для каких-нибудь строгих задач, требущих краткого точного ответа. Ну а чем температура выше – тем модель "креативнее" (но и чаще шалит и галлюцинирует).
⚙️ Top_k – смысл тот же, но работает иначе, а именно просто ограничивает количество токенов для рассмотрения. Например, top_k=5 означает, что рассматриваются только 5 лучших токенов, а для остальных устанавливается нулевая вероятность.
⚙️ Top-p. Так называемое сэмплирование ядра. Токены выбираются по убыванию вероятности до тех пор, пока их суммарная вероятность не достигнет значения top_p. Опять же, ищете более разнообразные ответы – увеличьте top_k и top_p.
Зайти и потыкаться самому можно по ссылке
Temperature, Top-k и Top-p – это инференсные параметры, то есть они задаются уже на этапе генерации. Например, их можно указать в API OpenAI и других разработчиков моделей.
Все эти параметры, в целом, отвечают за одно и то же: насколько разнообразной с точки зрения токенов будет генерация. Подробнее:
Зайти и потыкаться самому можно по ссылке
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🤗17🤯4❤1😎1
Желаем, чтобы графики ваших лоссов всегда выглядели как рынок криптовалют сегодня
😁68👍55❤8🕊5
Тем временем еще двое бывших инженеров Google со своим стартапом строят планы перещеголять Nvidia
Компания занимается разработкой ИИ-чипов, называется Groq (как тебе такое, Илон Маск?) и сейчас оценивается в $2.8 миллиарда. Недавно стало известно, что они привлекли $640 миллионов новых вложений.
Кроме новости про инвестиции также появилась новость о том, что в качестве нового тех.консультанта у Groq выступит Ян Лекун, а в качестве COO – Стюард Панн, бывший директор тех.производства Intel и ex-CIO HP😮
Сейчас компания занимается чипом нового поколения LPU (language processing unit). Как вы понимаете, специально для LLM. Обещают х10 к скорости инференса и выпуск в Q1 2025.
Компания занимается разработкой ИИ-чипов, называется Groq (как тебе такое, Илон Маск?) и сейчас оценивается в $2.8 миллиарда. Недавно стало известно, что они привлекли $640 миллионов новых вложений.
Кроме новости про инвестиции также появилась новость о том, что в качестве нового тех.консультанта у Groq выступит Ян Лекун, а в качестве COO – Стюард Панн, бывший директор тех.производства Intel и ex-CIO HP
Сейчас компания занимается чипом нового поколения LPU (language processing unit). Как вы понимаете, специально для LLM. Обещают х10 к скорости инференса и выпуск в Q1 2025.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42⚡15🫡10❤6🤯2😁1🤔1
Они будут "дарить" сервера с A100 мелким стартапам и разработчикам в рамках новой программы ZeroGPU. Цель состоит в том, чтобы "помочь малому и среднему бизнесу и независимым рисерчерам противостоять централизации ИИ".
Благотворительность, которую мы заслужили
Please open Telegram to view this post
VIEW IN TELEGRAM
❤170🤗60👍24🆒2😁1
Правда, Грег не совсем ушел: он взял длительный отпуск до конца года. В твиттере он написал, что это его первый отпуск за 9 лет в OpenAI. Однако, его мотивы все еще неизвестны.
Кроме него, из компании ушел Питер Денг – Vice President of Product, и Джон Шульман.
Шульман – мега выдающийся исследователь, автор метода PPO, который лежит в основе RLHF, и любитель alignment’a. Не мудрено, что ушел он… в Anthropic
Интересно, как там настроение у Альтмана
Please open Telegram to view this post
VIEW IN TELEGRAM
Кажется, знаменитый Андрей Карпаты скоро дропнет что-то новенькое
На его GitHub появился новый репозиторий nano-llama31. В ридми написано, что этот проект – аналог его nanoGPT (2022 год) для GPT-2. Иными словами, это переписанный официальный код Llama 3.1, который имплементирует облегченную версию модели, содержащую меньше тугих зависимостей и строк кода в целом.
Такое упрощение дает возможность легче запускать, дообучать или файнтюнить модельку. В общем, ждем официального видео (или хотя бы твита) от Андрея.
P.S. За новость спасибо нашему чату❤️
На его GitHub появился новый репозиторий nano-llama31. В ридми написано, что этот проект – аналог его nanoGPT (2022 год) для GPT-2. Иными словами, это переписанный официальный код Llama 3.1, который имплементирует облегченную версию модели, содержащую меньше тугих зависимостей и строк кода в целом.
Такое упрощение дает возможность легче запускать, дообучать или файнтюнить модельку. В общем, ждем официального видео (или хотя бы твита) от Андрея.
P.S. За новость спасибо нашему чату
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73❤22👏8❤🔥5
Что интересного почитать про ИИ?
Обожаем это чувство, как его там... разнообразный экспертный контент с авторским юмором. Особенно если автор – предприниматель и практик с кучей проектов.
В общем, сегодня рекомендуем вам канал про ИИ с изюминкой от Сергея Булаева. Он создатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker и Взахлёб. Когда началась ИИ-революция, Сергей уехал нанеобитаемый остров Самуи познавать происходящее на практике.
В его блоге вы найдете много полезных технических материалов и новостей, которые он откапывает где-то в глубинах интернета, истории об экспериментах с LLM, и еще много-много про ботов, кодинг и индустрию. Вот, например, посты, которые нам особенно приглянулись:
▪️ Пост про фильм, сценарий к которому полностью написал ChatGPT, о сценаристе, который пишет сценарий с помощью ChatGPT 🤯
▪️ Рассказ про проект с правильным балансом творческой LLM и четкого кода
▪️ Интересное про сервильность моделей
И такое выходит в канале каждый день. Подписывайтесь: @sergiobulaev
Обожаем это чувство, как его там... разнообразный экспертный контент с авторским юмором. Особенно если автор – предприниматель и практик с кучей проектов.
В общем, сегодня рекомендуем вам канал про ИИ с изюминкой от Сергея Булаева. Он создатель нескольких успешных IT и контент-проектов, включая Купи Батон, Lifehacker и Взахлёб. Когда началась ИИ-революция, Сергей уехал на
В его блоге вы найдете много полезных технических материалов и новостей, которые он откапывает где-то в глубинах интернета, истории об экспериментах с LLM, и еще много-много про ботов, кодинг и индустрию. Вот, например, посты, которые нам особенно приглянулись:
И такое выходит в канале каждый день. Подписывайтесь: @sergiobulaev
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯12👍5☃3🗿3❤1
В открытый доступ вышла новая книжка «ИИ и игры»
Необычно, но очень интересно. В книге рассматриваются методы машинного обучения для решения всяких игровых задач (от крестиков-ноликов и до шахмат). Много про DL, классическую математику теории игр и, куда же здесь без него, обучение с подкреплением.
При этом если вы с какими-то из рассматриваемых методов не знакомы, в книге достаточно классической теории, чтобы все понять. Так что можно читать даже как классический путеводитель по ML.
Скачать тут
Необычно, но очень интересно. В книге рассматриваются методы машинного обучения для решения всяких игровых задач (от крестиков-ноликов и до шахмат). Много про DL, классическую математику теории игр и, куда же здесь без него, обучение с подкреплением.
При этом если вы с какими-то из рассматриваемых методов не знакомы, в книге достаточно классической теории, чтобы все понять. Так что можно читать даже как классический путеводитель по ML.
Скачать тут
👍55❤12❤🔥6🤓1