Pre-Train Your Loss
Глубокое обучение все больше пользуется парадигмой transfer learning, при которой большие базовые (или как у нас их тут в Стенфорде называют - фундаментальные) модели дообучаются на последующих задачах.
Впечатляющий коллектив авторов, под руководством Вилсона (со-автор таких проектов как loss landscape и SWA) и ЛеКуна, показывает, что можно изучить высокоинформативный posterior исходной задачи с помощью supervised или self-supervised learning, которые затем служат основой для priors, изменяющих всю поверхность потерь в последующей задаче.
Этот простой модульный подход обеспечивает значительный прирост производительности и более эффективное обучение на различных последующих задачах классификации и сегментации, выступая в качестве замены стандартных стратегий предварительного обучения.
📖 статья 🤖 код
Глубокое обучение все больше пользуется парадигмой transfer learning, при которой большие базовые (или как у нас их тут в Стенфорде называют - фундаментальные) модели дообучаются на последующих задачах.
Впечатляющий коллектив авторов, под руководством Вилсона (со-автор таких проектов как loss landscape и SWA) и ЛеКуна, показывает, что можно изучить высокоинформативный posterior исходной задачи с помощью supervised или self-supervised learning, которые затем служат основой для priors, изменяющих всю поверхность потерь в последующей задаче.
Этот простой модульный подход обеспечивает значительный прирост производительности и более эффективное обучение на различных последующих задачах классификации и сегментации, выступая в качестве замены стандартных стратегий предварительного обучения.
📖 статья 🤖 код
🔥26👍4
В качестве небольшого бонуса на мой первый месяц работы в Стэнфорде, меня позвали на конференцию SCEC (про землетрясения) в Palm Springs, CA. Американские конференции мне нравятся намного больше европейских. И мексиканская еда в Южной Калифорнии просто огонь! И тут столько интересных людей и возможностей с ними поговорить!
Постараюсь в следующие пару дней осветить самые интересные работы по DL в сейсмологии.
Постараюсь в следующие пару дней осветить самые интересные работы по DL в сейсмологии.
👍63❤12🎉4🔥1
PyTorch Foundation: Новая эра для фреймворка
Чтобы ускорить прогресс в области ИИ, PyTorch переходит в новый, независимый фонд PyTorch Foundation под эгидой Linux Foundation.
Проект присоединится к Linux Foundation в совет которого входят представители AMD, Amazon Web Services, Google Cloud, Meta, Microsoft Azure и Nvidia. PyTorch Foundation будет поддерживать PyTorch посредством конференций, учебных курсов и других инициатив.
Фонд будет демократизировать современные инструменты, библиотеки и другие компоненты, чтобы сделать эти инновации доступными для всех.
PyTorch Foundation сосредоточится на бизнесе и маркетинге продуктов PyTorch и связанной с ним экосистемы. Переход не повлечет за собой никаких изменений в коде и ядре проекта PyTorch.
Meta продолжит инвестировать в PyTorch и использовать его в качестве основного фреймворка для исследований и производственных приложений ИИ в компании.
Чтобы ускорить прогресс в области ИИ, PyTorch переходит в новый, независимый фонд PyTorch Foundation под эгидой Linux Foundation.
Проект присоединится к Linux Foundation в совет которого входят представители AMD, Amazon Web Services, Google Cloud, Meta, Microsoft Azure и Nvidia. PyTorch Foundation будет поддерживать PyTorch посредством конференций, учебных курсов и других инициатив.
Фонд будет демократизировать современные инструменты, библиотеки и другие компоненты, чтобы сделать эти инновации доступными для всех.
PyTorch Foundation сосредоточится на бизнесе и маркетинге продуктов PyTorch и связанной с ним экосистемы. Переход не повлечет за собой никаких изменений в коде и ядре проекта PyTorch.
Meta продолжит инвестировать в PyTorch и использовать его в качестве основного фреймворка для исследований и производственных приложений ИИ в компании.
🔥69😱4👍1
Multimodal Lecture Presentations (MLP)
Вышел набор данных для тестирования возможностей моделей машинного обучения в мультимодальном понимании образовательного контента. Для проверки понимания мультимодальной информации на слайдах лекций представлены две исследовательские задачи, которые должны стать первым шагом к разработке ИИ, способного объяснять и иллюстрировать слайды лекций: автоматический поиск (1) устных объяснений к рисунку (Figure-to-Text) и (2) иллюстраций, сопровождающих устное объяснение (Text-to-Figure).
Идеально, мне как раз не хватает рук и людей делать лекции, заменим ка мы их нейроночкой через пару лет 😀
📖 Датасет
Вышел набор данных для тестирования возможностей моделей машинного обучения в мультимодальном понимании образовательного контента. Для проверки понимания мультимодальной информации на слайдах лекций представлены две исследовательские задачи, которые должны стать первым шагом к разработке ИИ, способного объяснять и иллюстрировать слайды лекций: автоматический поиск (1) устных объяснений к рисунку (Figure-to-Text) и (2) иллюстраций, сопровождающих устное объяснение (Text-to-Figure).
Идеально, мне как раз не хватает рук и людей делать лекции, заменим ка мы их нейроночкой через пару лет 😀
📖 Датасет
🔥13👍2
Просто взрывной разговор о природе изучения нейробиологии и глубокого обучения.
Даже не буду пытаться пересказать, просто следите за руками:
https://youtu.be/9PMjEOPUTV8
Даже не буду пытаться пересказать, просто следите за руками:
https://youtu.be/9PMjEOPUTV8
👍13
Суперпозиция в нейронных сетях
Очень крутая статья про суперпозицию в нейронных сетях. Оказывается, нейросети могут кодировать больше информации, чем напрямую в эмбеингах. И они достигают это с помощью суперпозиции (которая пока не ясно что именно, но ребята нашли две подходящие теории в математике).
Авторы статьи строят предположение, что возможно наши нейросети на самом деле значительно больше чем мы думали.
Лучше полистайте их картинки и станет яснее.
Статья
Очень крутая статья про суперпозицию в нейронных сетях. Оказывается, нейросети могут кодировать больше информации, чем напрямую в эмбеингах. И они достигают это с помощью суперпозиции (которая пока не ясно что именно, но ребята нашли две подходящие теории в математике).
Авторы статьи строят предположение, что возможно наши нейросети на самом деле значительно больше чем мы думали.
Лучше полистайте их картинки и станет яснее.
Статья
👍33🔥5
*Introducing Whisper*
OpenAI обучили нейронную сеть под названием Whisper, которая по надежности и точности распознавания английской речи приближается к человеческому уровню.
Что удивительно, так это то, что раз в год и OpenAI - open. Они выложили модель в открытый доступ.
Whisper - это система автоматического распознавания речи (ASR), обученная на 680 000 часов многоязычных и многозадачных данных, собранных из Интернета. Исследователи показывают, что использование такого большого и разнообразного набора данных позволяет повысить устойчивость к акцентам и фоновому шуму. Более того, система позволяет осуществлять транскрипцию на нескольких языках, а также перевод с этих языков на английский.
🧑💼 Статья - https://cdn.openai.com/papers/whisper.pdf
👨🏻💻 Код - https://github.com/openai/whisper
👨🏻✈️ Демо - https://huggingface.co/spaces/openai/whisper
P.S.: что-то случилось с кнопками оформления в телеге. Возможно случился iOS 16
OpenAI обучили нейронную сеть под названием Whisper, которая по надежности и точности распознавания английской речи приближается к человеческому уровню.
Что удивительно, так это то, что раз в год и OpenAI - open. Они выложили модель в открытый доступ.
Whisper - это система автоматического распознавания речи (ASR), обученная на 680 000 часов многоязычных и многозадачных данных, собранных из Интернета. Исследователи показывают, что использование такого большого и разнообразного набора данных позволяет повысить устойчивость к акцентам и фоновому шуму. Более того, система позволяет осуществлять транскрипцию на нескольких языках, а также перевод с этих языков на английский.
🧑💼 Статья - https://cdn.openai.com/papers/whisper.pdf
👨🏻💻 Код - https://github.com/openai/whisper
👨🏻✈️ Демо - https://huggingface.co/spaces/openai/whisper
P.S.: что-то случилось с кнопками оформления в телеге. Возможно случился iOS 16
👍28🔥6❤1
Forwarded from DLStories
На ICLR-2022 была, оказывается, такая интересная работа: авторы показали, что принцип работы Transformer’ов (с небольшим дополнением) схож с принципом работы гиппокампа и энторинальной коры головного мозга человека.
(Автор работы, если что, Ph.D. по computational/ theoretical neuroscience из Stanford и Oxford. Понимает, о чем говорит)
Подробнее:
Гиппокамп и энториальная кора мозга вместе отвечают за память, восприятие времени и пространства. Энториальная кора является “шлюзом” для гиппокампа: она обрабатывает поступающую в гиппокамп и исходящую из него информацию. Гиппокамп же обрабатывает и структурирует все виды памяти: краткосрочную, долгосрочную, пространственную.
То есть, связка “гиппокамп + энторинальная кора” (EC-hippocampus) играют важную роль при решении человеком задач, связанных с пространственным восприятием.
Как показали, почему Transformer “похож” на EC-hippocampus: авторы статьи взяли Transformer и обучили его на простую задачу, в которой нужно выдавать ответ, имея в виду текущее пространственно положение. Архитектура Transformer была стандартная с парой небольших отличий в формуле для attention и position encodings. Вычисление position encodings было изменено так, что стало обучаемым.
После обучения модели ученые посмотрели на “пространственную карту весов position encodings”. Карта составляется просто: для каждого пространственного положения из задачи, которую учил Tranformer, вычисляется средняя активация position encodings. Так вот, оказалось, что эта карта структурно схожа с той, что получается из активаций нейронов в EC-hippocampus
Но это еще не все: только такая “похожесть” карт активаций нейронов в мозге и модели недостаточно убедительна. Авторы статьи так же показали следующее: архитектура Transformer эквивалентна математической модели EC-hippocampus, которую нейробиологи построили не так давно и активно используют. Эта матмодель называется TEM (Tolman-Eichenbaum Machine), и она хорошо описывает основные процессы, происходящие в EC-hippocampus. TEM — обучаемся модель, которая при обучении должна имитировать процессы, происходящие в EC-hippocampus.
Так вот, упомянутый выше модифицированный Transformer, оказывается, имеет аналогичное с TEM устройство. Аторы назвали такой трансформер TEM-t. В статье авторы показывают аналогии между отдельными компонентами Transformer и TEM. В частности, “модель памяти” TEM оказывается эквивалентной self-attention из Tranformer.
Более того, авторы заявляют, что TEM-t может служить более эффективной моделью EC-hippocampus, чем существующий TEM: он гораздо быстрее обучается, имеет больший потенциал по памяти (может “запоминать” и “вытаскивать” больше бит памяти). Также плюсом является то, что пространственная карта весов position encodings трансформера похожа на такую карту из мозга (о чем писала выше).
Подробнее об устройстве TEM, TEM-t, экспериментах и о том, какое значение это имеет для нейробиологии — в статье. А еще там есть описание того, как архитектура Transformer может быть реализована на биологических нейронах. Блин, а вдруг какие-то части нашего мозга — это реально transformer’ы?)
Еще ссылка: статья в Quantamagazine об этой работе
P.S. Надеюсь, я нигде сильно не наврала. Все же в вопросах устройства мозга и подобном я дилетант. Feel free поправлять меня в комментариях
#ai_inside
(Автор работы, если что, Ph.D. по computational/ theoretical neuroscience из Stanford и Oxford. Понимает, о чем говорит)
Подробнее:
Гиппокамп и энториальная кора мозга вместе отвечают за память, восприятие времени и пространства. Энториальная кора является “шлюзом” для гиппокампа: она обрабатывает поступающую в гиппокамп и исходящую из него информацию. Гиппокамп же обрабатывает и структурирует все виды памяти: краткосрочную, долгосрочную, пространственную.
То есть, связка “гиппокамп + энторинальная кора” (EC-hippocampus) играют важную роль при решении человеком задач, связанных с пространственным восприятием.
Как показали, почему Transformer “похож” на EC-hippocampus: авторы статьи взяли Transformer и обучили его на простую задачу, в которой нужно выдавать ответ, имея в виду текущее пространственно положение. Архитектура Transformer была стандартная с парой небольших отличий в формуле для attention и position encodings. Вычисление position encodings было изменено так, что стало обучаемым.
После обучения модели ученые посмотрели на “пространственную карту весов position encodings”. Карта составляется просто: для каждого пространственного положения из задачи, которую учил Tranformer, вычисляется средняя активация position encodings. Так вот, оказалось, что эта карта структурно схожа с той, что получается из активаций нейронов в EC-hippocampus
Но это еще не все: только такая “похожесть” карт активаций нейронов в мозге и модели недостаточно убедительна. Авторы статьи так же показали следующее: архитектура Transformer эквивалентна математической модели EC-hippocampus, которую нейробиологи построили не так давно и активно используют. Эта матмодель называется TEM (Tolman-Eichenbaum Machine), и она хорошо описывает основные процессы, происходящие в EC-hippocampus. TEM — обучаемся модель, которая при обучении должна имитировать процессы, происходящие в EC-hippocampus.
Так вот, упомянутый выше модифицированный Transformer, оказывается, имеет аналогичное с TEM устройство. Аторы назвали такой трансформер TEM-t. В статье авторы показывают аналогии между отдельными компонентами Transformer и TEM. В частности, “модель памяти” TEM оказывается эквивалентной self-attention из Tranformer.
Более того, авторы заявляют, что TEM-t может служить более эффективной моделью EC-hippocampus, чем существующий TEM: он гораздо быстрее обучается, имеет больший потенциал по памяти (может “запоминать” и “вытаскивать” больше бит памяти). Также плюсом является то, что пространственная карта весов position encodings трансформера похожа на такую карту из мозга (о чем писала выше).
Подробнее об устройстве TEM, TEM-t, экспериментах и о том, какое значение это имеет для нейробиологии — в статье. А еще там есть описание того, как архитектура Transformer может быть реализована на биологических нейронах. Блин, а вдруг какие-то части нашего мозга — это реально transformer’ы?)
Еще ссылка: статья в Quantamagazine об этой работе
P.S. Надеюсь, я нигде сильно не наврала. Все же в вопросах устройства мозга и подобном я дилетант. Feel free поправлять меня в комментариях
#ai_inside
👍17🤯13❤2😁1
Evolution of cortical neurons supporting human cognition
Моя хорошая @vedernikova96 опубликовала статью.
В процессе эволюции люди выработали способность к большему количеству когнитивных задач - решать уравнения, писать код, рисовать, сочинять музыку.
Почему так случилось?
Этот обзор рассматривает исследования, в которых ученые смотрели на разницу между тем, как единичные клетки мозга человека и грызунов отличаются между собой - во внешности, по функциям, возможности отвечать на стимулы, и по экспресии генов (сколько и какие гены активны в разных типах клеток). Спойлер - работа отдельных клеток коррелирует с вербальным IQ!
1) В процессе эволюция толщина серого вещества мозга у человека увеличилась почти в 3 раза. Это может быть связано с изменениями в свойствах клеток и их связей между собой.
2) Единичные клетки человеческого мозга способны проводить операции, подобные операциям внутри маленькой системы.
3) В человеческом мозге появились типы клеток, которым нет аналогов в мозге грызунов.
Статья
Моя хорошая @vedernikova96 опубликовала статью.
В процессе эволюции люди выработали способность к большему количеству когнитивных задач - решать уравнения, писать код, рисовать, сочинять музыку.
Почему так случилось?
Этот обзор рассматривает исследования, в которых ученые смотрели на разницу между тем, как единичные клетки мозга человека и грызунов отличаются между собой - во внешности, по функциям, возможности отвечать на стимулы, и по экспресии генов (сколько и какие гены активны в разных типах клеток). Спойлер - работа отдельных клеток коррелирует с вербальным IQ!
1) В процессе эволюция толщина серого вещества мозга у человека увеличилась почти в 3 раза. Это может быть связано с изменениями в свойствах клеток и их связей между собой.
2) Единичные клетки человеческого мозга способны проводить операции, подобные операциям внутри маленькой системы.
3) В человеческом мозге появились типы клеток, которым нет аналогов в мозге грызунов.
Статья
❤17👍7🔥2
А вы где сейчас живете?
Anonymous Poll
54%
Россия
3%
Беларусь
8%
Украина
4%
Казахстан
2%
Грузия
3%
Армения
2%
Израиль
2%
США
0%
Канада
22%
Другое (пишите в комментах)
😢15😁5🔥1😱1
Магистратура с релокацией :
Masters of Natural Resources - 1-year program in McCall, ID - Scholarship funding available.
Positions start in August 2023.
Build the skills to change the world. A University of Idaho ? Environmental Education and Science Communication (EESC) graduate student earns a Masters of Natural Resources in 10.5 months. While living at our incredible McCall Field Campus grads develop an array of professional skills and expertise. Applied coursework and targeted study in science communication, leadership, place-based education, and ecology, give our students what they need to earn a degree, make a difference, and get a job. Check out our program at www.uidaho.edu/cnr/gradschool-redefined or contact Gary S Thompson at garyt@uidaho.edu.
EESC graduate students can expect to:
- Experience learning in new ways by taking experiential coursework in<youtu.be/fozqeyxcLp8> ecology, science communication, place-based education, and leadership.
- Gain outreach and instructional skills as a part of a mentored teaching practicum through our award-winning McCall Outdoor Science School<youtu.be/I7OBqOucgEQ> (www.uidaho.edu/moss)
- Build interdisciplinary thinking skills to address complex socio-ecological issues.
- Enjoy a 1:6 faculty to graduate student ratio that ensures a student-centered approach to learning.
- Participate in a supportive, community-based, learning experience that prepares students for a wide range of professions<www.uidaho.edu/cnr/m...ofiles>.
- Take part in a once-in-a-lifetime trip into the Taylor Wilderness Research Station<www.uidaho.edu/cnr/m...ersion> located in the heart of the Frank Church/River of No Return Wilderness.
To inquire about application details, contact Gary S Thompson: garyt@uidaho.edu or call/text 208-315-2058. Applications are accepted on a rolling basis.
Masters of Natural Resources - 1-year program in McCall, ID - Scholarship funding available.
Positions start in August 2023.
Build the skills to change the world. A University of Idaho ? Environmental Education and Science Communication (EESC) graduate student earns a Masters of Natural Resources in 10.5 months. While living at our incredible McCall Field Campus grads develop an array of professional skills and expertise. Applied coursework and targeted study in science communication, leadership, place-based education, and ecology, give our students what they need to earn a degree, make a difference, and get a job. Check out our program at www.uidaho.edu/cnr/gradschool-redefined or contact Gary S Thompson at garyt@uidaho.edu.
EESC graduate students can expect to:
- Experience learning in new ways by taking experiential coursework in<youtu.be/fozqeyxcLp8> ecology, science communication, place-based education, and leadership.
- Gain outreach and instructional skills as a part of a mentored teaching practicum through our award-winning McCall Outdoor Science School<youtu.be/I7OBqOucgEQ> (www.uidaho.edu/moss)
- Build interdisciplinary thinking skills to address complex socio-ecological issues.
- Enjoy a 1:6 faculty to graduate student ratio that ensures a student-centered approach to learning.
- Participate in a supportive, community-based, learning experience that prepares students for a wide range of professions<www.uidaho.edu/cnr/m...ofiles>.
- Take part in a once-in-a-lifetime trip into the Taylor Wilderness Research Station<www.uidaho.edu/cnr/m...ersion> located in the heart of the Frank Church/River of No Return Wilderness.
To inquire about application details, contact Gary S Thompson: garyt@uidaho.edu or call/text 208-315-2058. Applications are accepted on a rolling basis.
www.uidaho.edu
Grad School Redefined | University of Idaho
Rediscover what University of Idaho's graduate programs at MOSS have in store for you.
👍7❤1
Will it run Stabe Diffusion is a new Will it run Doom
В среде программистов уже давно продолжается негласный конкурс на то кто запустит Doom (такая старая компьютерная игрушка) на самом странном устройстве. Так вот, кажется у МЛьщиков только что появилось что-то такое же.
Чувак запустил Stable Diffusion на айфоне
https://twitter.com/zippy731/status/1574036484054691841?s=46&t=Tat3GFtK4i_gytyL-wYuAA
В среде программистов уже давно продолжается негласный конкурс на то кто запустит Doom (такая старая компьютерная игрушка) на самом странном устройстве. Так вот, кажется у МЛьщиков только что появилось что-то такое же.
Чувак запустил Stable Diffusion на айфоне
https://twitter.com/zippy731/status/1574036484054691841?s=46&t=Tat3GFtK4i_gytyL-wYuAA
🔥36
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🪗 Играй, Гармонь, да хуярь, чтоб погромче, руби, топор, да ебашь, чтоб пошире
Не успел мир получить Стебель Диффузии от CompVis, как вдруг откуда ни возьмись, появился Dance Diffusion от Гармоней (Harmonai). Гармони решили сделать диффузионный jukebox и опенсорснуть его миру.
Получится ли что-то кроме семплов, которые можно продавать или использовать для чего-то серьезного — вопрос. Умельцы из любого семпла сделают что угодно, и музыка будет топ. Но вот вопрос даст ли нейросеть новую палитру, как это было с Text2Image в визуальном искусстве?
Кроме заявлений, что «это не просто очередной семпл, а семпл прям из инференса нейросети, слушай этот трек, качай этот трек, там семпл то нейронный», хотелось бы иметь именно контроль над генерацией. Я бы хотел видеть глубокое понимание, низкое количество шума (если это не требуется специально) и возможности модульного синтезатора с огромным количеством крутилок. И пускай это будут не очередные: vcf, lfo и adsr кривые поверх семпла, а именно параметры генерации. Например: «звук извлечённый смычком по нескольким струнам открытого рояля, который ломается в конце семпла и слышит треск дерева» -cfg 9, -seed 42, -time 10s… Ну что, мечтать не вредно..
🔈 примеры семплов в видео к посту
Ждёте ли вы аудио диффузию?
🎥 видоисик с Глав Гармонем
🪗 wandb blog гармоней
Не успел мир получить Стебель Диффузии от CompVis, как вдруг откуда ни возьмись, появился Dance Diffusion от Гармоней (Harmonai). Гармони решили сделать диффузионный jukebox и опенсорснуть его миру.
Получится ли что-то кроме семплов, которые можно продавать или использовать для чего-то серьезного — вопрос. Умельцы из любого семпла сделают что угодно, и музыка будет топ. Но вот вопрос даст ли нейросеть новую палитру, как это было с Text2Image в визуальном искусстве?
Кроме заявлений, что «это не просто очередной семпл, а семпл прям из инференса нейросети, слушай этот трек, качай этот трек, там семпл то нейронный», хотелось бы иметь именно контроль над генерацией. Я бы хотел видеть глубокое понимание, низкое количество шума (если это не требуется специально) и возможности модульного синтезатора с огромным количеством крутилок. И пускай это будут не очередные: vcf, lfo и adsr кривые поверх семпла, а именно параметры генерации. Например: «звук извлечённый смычком по нескольким струнам открытого рояля, который ломается в конце семпла и слышит треск дерева» -cfg 9, -seed 42, -time 10s… Ну что, мечтать не вредно..
🔈 примеры семплов в видео к посту
Ждёте ли вы аудио диффузию?
🎥 видоисик с Глав Гармонем
🪗 wandb blog гармоней
❤12👍3😢1
Dall-E стал доступным для всех
OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
Openai
DALL·E now available without waitlist
New users can start creating straight away. Lessons learned from deployment and improvements to our safety systems make wider availability possible.
🔥15👍2❤1😱1
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🦚 DreamFusion: Text-to-3D using 2D Diffusion от ?Google
Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..
Как работает? Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН
4) После чего Имаген предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..
👉 https://dreamfusionpaper.github.io/
🤖 м и ш и н л е р н и н г
Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..
Как работает? Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН
4) После чего Имаген предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..
👉 https://dreamfusionpaper.github.io/
🤖 м и ш и н л е р н и н г
🔥11👍3❤1😢1