*Introducing Whisper*
OpenAI обучили нейронную сеть под названием Whisper, которая по надежности и точности распознавания английской речи приближается к человеческому уровню.
Что удивительно, так это то, что раз в год и OpenAI - open. Они выложили модель в открытый доступ.
Whisper - это система автоматического распознавания речи (ASR), обученная на 680 000 часов многоязычных и многозадачных данных, собранных из Интернета. Исследователи показывают, что использование такого большого и разнообразного набора данных позволяет повысить устойчивость к акцентам и фоновому шуму. Более того, система позволяет осуществлять транскрипцию на нескольких языках, а также перевод с этих языков на английский.
🧑💼 Статья - https://cdn.openai.com/papers/whisper.pdf
👨🏻💻 Код - https://github.com/openai/whisper
👨🏻✈️ Демо - https://huggingface.co/spaces/openai/whisper
P.S.: что-то случилось с кнопками оформления в телеге. Возможно случился iOS 16
OpenAI обучили нейронную сеть под названием Whisper, которая по надежности и точности распознавания английской речи приближается к человеческому уровню.
Что удивительно, так это то, что раз в год и OpenAI - open. Они выложили модель в открытый доступ.
Whisper - это система автоматического распознавания речи (ASR), обученная на 680 000 часов многоязычных и многозадачных данных, собранных из Интернета. Исследователи показывают, что использование такого большого и разнообразного набора данных позволяет повысить устойчивость к акцентам и фоновому шуму. Более того, система позволяет осуществлять транскрипцию на нескольких языках, а также перевод с этих языков на английский.
🧑💼 Статья - https://cdn.openai.com/papers/whisper.pdf
👨🏻💻 Код - https://github.com/openai/whisper
👨🏻✈️ Демо - https://huggingface.co/spaces/openai/whisper
P.S.: что-то случилось с кнопками оформления в телеге. Возможно случился iOS 16
👍28🔥6❤1
Forwarded from DLStories
На ICLR-2022 была, оказывается, такая интересная работа: авторы показали, что принцип работы Transformer’ов (с небольшим дополнением) схож с принципом работы гиппокампа и энторинальной коры головного мозга человека.
(Автор работы, если что, Ph.D. по computational/ theoretical neuroscience из Stanford и Oxford. Понимает, о чем говорит)
Подробнее:
Гиппокамп и энториальная кора мозга вместе отвечают за память, восприятие времени и пространства. Энториальная кора является “шлюзом” для гиппокампа: она обрабатывает поступающую в гиппокамп и исходящую из него информацию. Гиппокамп же обрабатывает и структурирует все виды памяти: краткосрочную, долгосрочную, пространственную.
То есть, связка “гиппокамп + энторинальная кора” (EC-hippocampus) играют важную роль при решении человеком задач, связанных с пространственным восприятием.
Как показали, почему Transformer “похож” на EC-hippocampus: авторы статьи взяли Transformer и обучили его на простую задачу, в которой нужно выдавать ответ, имея в виду текущее пространственно положение. Архитектура Transformer была стандартная с парой небольших отличий в формуле для attention и position encodings. Вычисление position encodings было изменено так, что стало обучаемым.
После обучения модели ученые посмотрели на “пространственную карту весов position encodings”. Карта составляется просто: для каждого пространственного положения из задачи, которую учил Tranformer, вычисляется средняя активация position encodings. Так вот, оказалось, что эта карта структурно схожа с той, что получается из активаций нейронов в EC-hippocampus
Но это еще не все: только такая “похожесть” карт активаций нейронов в мозге и модели недостаточно убедительна. Авторы статьи так же показали следующее: архитектура Transformer эквивалентна математической модели EC-hippocampus, которую нейробиологи построили не так давно и активно используют. Эта матмодель называется TEM (Tolman-Eichenbaum Machine), и она хорошо описывает основные процессы, происходящие в EC-hippocampus. TEM — обучаемся модель, которая при обучении должна имитировать процессы, происходящие в EC-hippocampus.
Так вот, упомянутый выше модифицированный Transformer, оказывается, имеет аналогичное с TEM устройство. Аторы назвали такой трансформер TEM-t. В статье авторы показывают аналогии между отдельными компонентами Transformer и TEM. В частности, “модель памяти” TEM оказывается эквивалентной self-attention из Tranformer.
Более того, авторы заявляют, что TEM-t может служить более эффективной моделью EC-hippocampus, чем существующий TEM: он гораздо быстрее обучается, имеет больший потенциал по памяти (может “запоминать” и “вытаскивать” больше бит памяти). Также плюсом является то, что пространственная карта весов position encodings трансформера похожа на такую карту из мозга (о чем писала выше).
Подробнее об устройстве TEM, TEM-t, экспериментах и о том, какое значение это имеет для нейробиологии — в статье. А еще там есть описание того, как архитектура Transformer может быть реализована на биологических нейронах. Блин, а вдруг какие-то части нашего мозга — это реально transformer’ы?)
Еще ссылка: статья в Quantamagazine об этой работе
P.S. Надеюсь, я нигде сильно не наврала. Все же в вопросах устройства мозга и подобном я дилетант. Feel free поправлять меня в комментариях
#ai_inside
(Автор работы, если что, Ph.D. по computational/ theoretical neuroscience из Stanford и Oxford. Понимает, о чем говорит)
Подробнее:
Гиппокамп и энториальная кора мозга вместе отвечают за память, восприятие времени и пространства. Энториальная кора является “шлюзом” для гиппокампа: она обрабатывает поступающую в гиппокамп и исходящую из него информацию. Гиппокамп же обрабатывает и структурирует все виды памяти: краткосрочную, долгосрочную, пространственную.
То есть, связка “гиппокамп + энторинальная кора” (EC-hippocampus) играют важную роль при решении человеком задач, связанных с пространственным восприятием.
Как показали, почему Transformer “похож” на EC-hippocampus: авторы статьи взяли Transformer и обучили его на простую задачу, в которой нужно выдавать ответ, имея в виду текущее пространственно положение. Архитектура Transformer была стандартная с парой небольших отличий в формуле для attention и position encodings. Вычисление position encodings было изменено так, что стало обучаемым.
После обучения модели ученые посмотрели на “пространственную карту весов position encodings”. Карта составляется просто: для каждого пространственного положения из задачи, которую учил Tranformer, вычисляется средняя активация position encodings. Так вот, оказалось, что эта карта структурно схожа с той, что получается из активаций нейронов в EC-hippocampus
Но это еще не все: только такая “похожесть” карт активаций нейронов в мозге и модели недостаточно убедительна. Авторы статьи так же показали следующее: архитектура Transformer эквивалентна математической модели EC-hippocampus, которую нейробиологи построили не так давно и активно используют. Эта матмодель называется TEM (Tolman-Eichenbaum Machine), и она хорошо описывает основные процессы, происходящие в EC-hippocampus. TEM — обучаемся модель, которая при обучении должна имитировать процессы, происходящие в EC-hippocampus.
Так вот, упомянутый выше модифицированный Transformer, оказывается, имеет аналогичное с TEM устройство. Аторы назвали такой трансформер TEM-t. В статье авторы показывают аналогии между отдельными компонентами Transformer и TEM. В частности, “модель памяти” TEM оказывается эквивалентной self-attention из Tranformer.
Более того, авторы заявляют, что TEM-t может служить более эффективной моделью EC-hippocampus, чем существующий TEM: он гораздо быстрее обучается, имеет больший потенциал по памяти (может “запоминать” и “вытаскивать” больше бит памяти). Также плюсом является то, что пространственная карта весов position encodings трансформера похожа на такую карту из мозга (о чем писала выше).
Подробнее об устройстве TEM, TEM-t, экспериментах и о том, какое значение это имеет для нейробиологии — в статье. А еще там есть описание того, как архитектура Transformer может быть реализована на биологических нейронах. Блин, а вдруг какие-то части нашего мозга — это реально transformer’ы?)
Еще ссылка: статья в Quantamagazine об этой работе
P.S. Надеюсь, я нигде сильно не наврала. Все же в вопросах устройства мозга и подобном я дилетант. Feel free поправлять меня в комментариях
#ai_inside
👍17🤯13❤2😁1
Evolution of cortical neurons supporting human cognition
Моя хорошая @vedernikova96 опубликовала статью.
В процессе эволюции люди выработали способность к большему количеству когнитивных задач - решать уравнения, писать код, рисовать, сочинять музыку.
Почему так случилось?
Этот обзор рассматривает исследования, в которых ученые смотрели на разницу между тем, как единичные клетки мозга человека и грызунов отличаются между собой - во внешности, по функциям, возможности отвечать на стимулы, и по экспресии генов (сколько и какие гены активны в разных типах клеток). Спойлер - работа отдельных клеток коррелирует с вербальным IQ!
1) В процессе эволюция толщина серого вещества мозга у человека увеличилась почти в 3 раза. Это может быть связано с изменениями в свойствах клеток и их связей между собой.
2) Единичные клетки человеческого мозга способны проводить операции, подобные операциям внутри маленькой системы.
3) В человеческом мозге появились типы клеток, которым нет аналогов в мозге грызунов.
Статья
Моя хорошая @vedernikova96 опубликовала статью.
В процессе эволюции люди выработали способность к большему количеству когнитивных задач - решать уравнения, писать код, рисовать, сочинять музыку.
Почему так случилось?
Этот обзор рассматривает исследования, в которых ученые смотрели на разницу между тем, как единичные клетки мозга человека и грызунов отличаются между собой - во внешности, по функциям, возможности отвечать на стимулы, и по экспресии генов (сколько и какие гены активны в разных типах клеток). Спойлер - работа отдельных клеток коррелирует с вербальным IQ!
1) В процессе эволюция толщина серого вещества мозга у человека увеличилась почти в 3 раза. Это может быть связано с изменениями в свойствах клеток и их связей между собой.
2) Единичные клетки человеческого мозга способны проводить операции, подобные операциям внутри маленькой системы.
3) В человеческом мозге появились типы клеток, которым нет аналогов в мозге грызунов.
Статья
❤17👍7🔥2
А вы где сейчас живете?
Anonymous Poll
54%
Россия
3%
Беларусь
8%
Украина
4%
Казахстан
2%
Грузия
3%
Армения
2%
Израиль
2%
США
0%
Канада
22%
Другое (пишите в комментах)
😢15😁5🔥1😱1
Магистратура с релокацией :
Masters of Natural Resources - 1-year program in McCall, ID - Scholarship funding available.
Positions start in August 2023.
Build the skills to change the world. A University of Idaho ? Environmental Education and Science Communication (EESC) graduate student earns a Masters of Natural Resources in 10.5 months. While living at our incredible McCall Field Campus grads develop an array of professional skills and expertise. Applied coursework and targeted study in science communication, leadership, place-based education, and ecology, give our students what they need to earn a degree, make a difference, and get a job. Check out our program at www.uidaho.edu/cnr/gradschool-redefined or contact Gary S Thompson at garyt@uidaho.edu.
EESC graduate students can expect to:
- Experience learning in new ways by taking experiential coursework in<youtu.be/fozqeyxcLp8> ecology, science communication, place-based education, and leadership.
- Gain outreach and instructional skills as a part of a mentored teaching practicum through our award-winning McCall Outdoor Science School<youtu.be/I7OBqOucgEQ> (www.uidaho.edu/moss)
- Build interdisciplinary thinking skills to address complex socio-ecological issues.
- Enjoy a 1:6 faculty to graduate student ratio that ensures a student-centered approach to learning.
- Participate in a supportive, community-based, learning experience that prepares students for a wide range of professions<www.uidaho.edu/cnr/m...ofiles>.
- Take part in a once-in-a-lifetime trip into the Taylor Wilderness Research Station<www.uidaho.edu/cnr/m...ersion> located in the heart of the Frank Church/River of No Return Wilderness.
To inquire about application details, contact Gary S Thompson: garyt@uidaho.edu or call/text 208-315-2058. Applications are accepted on a rolling basis.
Masters of Natural Resources - 1-year program in McCall, ID - Scholarship funding available.
Positions start in August 2023.
Build the skills to change the world. A University of Idaho ? Environmental Education and Science Communication (EESC) graduate student earns a Masters of Natural Resources in 10.5 months. While living at our incredible McCall Field Campus grads develop an array of professional skills and expertise. Applied coursework and targeted study in science communication, leadership, place-based education, and ecology, give our students what they need to earn a degree, make a difference, and get a job. Check out our program at www.uidaho.edu/cnr/gradschool-redefined or contact Gary S Thompson at garyt@uidaho.edu.
EESC graduate students can expect to:
- Experience learning in new ways by taking experiential coursework in<youtu.be/fozqeyxcLp8> ecology, science communication, place-based education, and leadership.
- Gain outreach and instructional skills as a part of a mentored teaching practicum through our award-winning McCall Outdoor Science School<youtu.be/I7OBqOucgEQ> (www.uidaho.edu/moss)
- Build interdisciplinary thinking skills to address complex socio-ecological issues.
- Enjoy a 1:6 faculty to graduate student ratio that ensures a student-centered approach to learning.
- Participate in a supportive, community-based, learning experience that prepares students for a wide range of professions<www.uidaho.edu/cnr/m...ofiles>.
- Take part in a once-in-a-lifetime trip into the Taylor Wilderness Research Station<www.uidaho.edu/cnr/m...ersion> located in the heart of the Frank Church/River of No Return Wilderness.
To inquire about application details, contact Gary S Thompson: garyt@uidaho.edu or call/text 208-315-2058. Applications are accepted on a rolling basis.
www.uidaho.edu
Grad School Redefined | University of Idaho
Rediscover what University of Idaho's graduate programs at MOSS have in store for you.
👍7❤1
Will it run Stabe Diffusion is a new Will it run Doom
В среде программистов уже давно продолжается негласный конкурс на то кто запустит Doom (такая старая компьютерная игрушка) на самом странном устройстве. Так вот, кажется у МЛьщиков только что появилось что-то такое же.
Чувак запустил Stable Diffusion на айфоне
https://twitter.com/zippy731/status/1574036484054691841?s=46&t=Tat3GFtK4i_gytyL-wYuAA
В среде программистов уже давно продолжается негласный конкурс на то кто запустит Doom (такая старая компьютерная игрушка) на самом странном устройстве. Так вот, кажется у МЛьщиков только что появилось что-то такое же.
Чувак запустил Stable Diffusion на айфоне
https://twitter.com/zippy731/status/1574036484054691841?s=46&t=Tat3GFtK4i_gytyL-wYuAA
🔥36
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🪗 Играй, Гармонь, да хуярь, чтоб погромче, руби, топор, да ебашь, чтоб пошире
Не успел мир получить Стебель Диффузии от CompVis, как вдруг откуда ни возьмись, появился Dance Diffusion от Гармоней (Harmonai). Гармони решили сделать диффузионный jukebox и опенсорснуть его миру.
Получится ли что-то кроме семплов, которые можно продавать или использовать для чего-то серьезного — вопрос. Умельцы из любого семпла сделают что угодно, и музыка будет топ. Но вот вопрос даст ли нейросеть новую палитру, как это было с Text2Image в визуальном искусстве?
Кроме заявлений, что «это не просто очередной семпл, а семпл прям из инференса нейросети, слушай этот трек, качай этот трек, там семпл то нейронный», хотелось бы иметь именно контроль над генерацией. Я бы хотел видеть глубокое понимание, низкое количество шума (если это не требуется специально) и возможности модульного синтезатора с огромным количеством крутилок. И пускай это будут не очередные: vcf, lfo и adsr кривые поверх семпла, а именно параметры генерации. Например: «звук извлечённый смычком по нескольким струнам открытого рояля, который ломается в конце семпла и слышит треск дерева» -cfg 9, -seed 42, -time 10s… Ну что, мечтать не вредно..
🔈 примеры семплов в видео к посту
Ждёте ли вы аудио диффузию?
🎥 видоисик с Глав Гармонем
🪗 wandb blog гармоней
Не успел мир получить Стебель Диффузии от CompVis, как вдруг откуда ни возьмись, появился Dance Diffusion от Гармоней (Harmonai). Гармони решили сделать диффузионный jukebox и опенсорснуть его миру.
Получится ли что-то кроме семплов, которые можно продавать или использовать для чего-то серьезного — вопрос. Умельцы из любого семпла сделают что угодно, и музыка будет топ. Но вот вопрос даст ли нейросеть новую палитру, как это было с Text2Image в визуальном искусстве?
Кроме заявлений, что «это не просто очередной семпл, а семпл прям из инференса нейросети, слушай этот трек, качай этот трек, там семпл то нейронный», хотелось бы иметь именно контроль над генерацией. Я бы хотел видеть глубокое понимание, низкое количество шума (если это не требуется специально) и возможности модульного синтезатора с огромным количеством крутилок. И пускай это будут не очередные: vcf, lfo и adsr кривые поверх семпла, а именно параметры генерации. Например: «звук извлечённый смычком по нескольким струнам открытого рояля, который ломается в конце семпла и слышит треск дерева» -cfg 9, -seed 42, -time 10s… Ну что, мечтать не вредно..
🔈 примеры семплов в видео к посту
Ждёте ли вы аудио диффузию?
🎥 видоисик с Глав Гармонем
🪗 wandb blog гармоней
❤12👍3😢1
Dall-E стал доступным для всех
OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
OpenAI только что отменили waitlist на доступ к Dall-E 2. Просто регаетесь и пользуетесь бесплатными кредитами
Openai
DALL·E now available without waitlist
New users can start creating straight away. Lessons learned from deployment and improvements to our safety systems make wider availability possible.
🔥15👍2❤1😱1
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🦚 DreamFusion: Text-to-3D using 2D Diffusion от ?Google
Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..
Как работает? Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН
4) После чего Имаген предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..
👉 https://dreamfusionpaper.github.io/
🤖 м и ш и н л е р н и н г
Не успели мы насладиться Text2Video от MetaAI как выходит Text-To-3D диффузия.. Что за день..
Как работает? Это градиентный метод, основанный на Loss-функции, такой как DeepDream. По факту происходит оптимизация рандомно инициализированной 3D модельки (a Neural Radiance Field, or NeRF) через градиенты 2D диффузионных генераций.
То есть по факту, проворачивая такой трюк не нужно иметь 3D данных вообще!
Подробнее:
1) Рандомная фигура рендерится через NERF (плотность, освещение, цвет)
2) Этот изначальный бред (так как это начало) рендерится в 2D проекцию
3) Затем к картинке подмешивают шум, и все это подается на!!! внимание!! ИМАГЕН
4) После чего Имаген предсказывает необходимый денойз
5) Затем из пересказанного денойза вычитается подмешанный шум. и ВУАЛЯ! Дальше все дифференцируемо! Можно пускать градиенты обратно на 3D-модель
А то что у ребят был доступ к IMAGEN мне на 99.9999999% кажется, что это Google. Ну, а так, чем Тьюринг не шутит..
👉 https://dreamfusionpaper.github.io/
🤖 м и ш и н л е р н и н г
🔥11👍3❤1😢1
Смотрю трансляцию Tesla AI day 2022. Знакомьтесь - Оптимус, он даже умеет ручками двигать :)
Вы тоже можете посмотреть.
Из интересного, они использовали NeRF для оценки глубины/расстояния объектов
Вы тоже можете посмотреть.
Из интересного, они использовали NeRF для оценки глубины/расстояния объектов
👍6🔥1
Отличное подробное интро, которое объясняет, как случилась революция DL 10 лет назад, и почему она происходит до сих пор
Слайды
Слайды
👍19❤5
Forwarded from Earth&Climate Tech
Stanford Machine Learning Group
В Стэнфорде есть группа студентов-докторантов (в основном) и исследователей под предводительством великого и ужасного Эндрю Энга, которая занимаются решениями прикладных проблем с применением машинного обучения. Например, в области медицины (кто интересуется - посмотрите!) или образования. Все проекты - тут.
Я вот не знал, но оказывается они делают классные проекты в области энергии и климата.
🧑🏻💻 METER-ML (Methane Tracking Emissions Reference database) - база данных с лейблами присутствия/отсутствия шести источников метана: скотофермы, свалки, угольные шахты, нефтегазоперерабатывающие объекты, нефтяные терминалы и очистные сооружения. Статья -> тут, датасет с лейблами -> тут
🧑🏻💻 ForestNet - модель глубокого обучения для классификации причин уменьшения площади лесных массивов по спутниковым снимкам. Статья -> тут, модель и данные -> тут
🧑🏻💻 Solar Forecasting - вероятностные модели для прогноза солнечной радиоактивности. Статья -> тут
🧑🏻💻 OGNet - модель глубокого обучения для автоматического обнаружения нефтегазовых объектов по аэроснимкам. Статья -> тут, модель и данные -> тут
Интересно же! 😀
В Стэнфорде есть группа студентов-докторантов (в основном) и исследователей под предводительством великого и ужасного Эндрю Энга, которая занимаются решениями прикладных проблем с применением машинного обучения. Например, в области медицины (кто интересуется - посмотрите!) или образования. Все проекты - тут.
Я вот не знал, но оказывается они делают классные проекты в области энергии и климата.
🧑🏻💻 METER-ML (Methane Tracking Emissions Reference database) - база данных с лейблами присутствия/отсутствия шести источников метана: скотофермы, свалки, угольные шахты, нефтегазоперерабатывающие объекты, нефтяные терминалы и очистные сооружения. Статья -> тут, датасет с лейблами -> тут
🧑🏻💻 ForestNet - модель глубокого обучения для классификации причин уменьшения площади лесных массивов по спутниковым снимкам. Статья -> тут, модель и данные -> тут
🧑🏻💻 Solar Forecasting - вероятностные модели для прогноза солнечной радиоактивности. Статья -> тут
🧑🏻💻 OGNet - модель глубокого обучения для автоматического обнаружения нефтегазовых объектов по аэроснимкам. Статья -> тут, модель и данные -> тут
Интересно же! 😀
stanfordmlgroup.github.io
Stanford Machine Learning Group
Our mission is to significantly improve people's lives through our work in Artificial Intelligence
❤15👍7🔥3
AlphaZero научился перемножать матрицы
Алгоритмы помогали математикам выполнять фундаментальные операции на протяжении тысячелетий. Древние египтяне создали алгоритм умножения двух чисел, не требующий таблицы умножения, а греческий математик Евклид описал алгоритм вычисления наибольшего общего делителя, который используется и по сей день.
Сегодня в журнале Nature, DeepMind представляет AlphaTensor, первую систему искусственного интеллекта (ИИ) для обнаружения новых, эффективных и доказательно правильных алгоритмов для фундаментальных задач, таких как умножение матриц.
Подробнее читайте в блог-посте, а для самых смелых в статье в Nature
Алгоритмы помогали математикам выполнять фундаментальные операции на протяжении тысячелетий. Древние египтяне создали алгоритм умножения двух чисел, не требующий таблицы умножения, а греческий математик Евклид описал алгоритм вычисления наибольшего общего делителя, который используется и по сей день.
Сегодня в журнале Nature, DeepMind представляет AlphaTensor, первую систему искусственного интеллекта (ИИ) для обнаружения новых, эффективных и доказательно правильных алгоритмов для фундаментальных задач, таких как умножение матриц.
Подробнее читайте в блог-посте, а для самых смелых в статье в Nature
❤27🤩8👍6😁2🤯1
Forwarded from Мишин Лернинг 🇺🇦🇮🇱
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 IMAGEN VIDEO — Диффузии уже не остановить!
tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!
Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖
Ну, а если чуть подробнее:
— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps
Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).
Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!
🚀 Imagen Video
📄 paper
🤖 м и ш и н л е р н и н г
tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!
Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖
Ну, а если чуть подробнее:
— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps
Основной фишкой такого подхода является Video U-Net — архитектура видео-юнет, пространственные операции которого выполняются независимо по кадрам с общими параметрами (батч х время, высота, ширина, каналы), тогда как временные операции работают уже по всему 5-ти мерному тензору (батч, время, высота, ширина, каналы).
Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!
🚀 Imagen Video
📄 paper
🤖 м и ш и н л е р н и н г
❤7👍4🔥1🎉1
Forwarded from эйай ньюз
Диффузия оптимизирует нейронки
А вот тут вышла статья, где с помощью диффузионной модели заменяют традиционные оптимизаторы типа SGD или ADAM.
На вход поступают текущие веса оптимизируемой нейронки, текущий лосс, желаемый лосс, и параметр шага диффузии. А диффузионная модель предсказывает новые веса нейросети. Ускорение по сравнению с традиционной оптимизацией в ≈1000 раз.
@ai_newz
А вот тут вышла статья, где с помощью диффузионной модели заменяют традиционные оптимизаторы типа SGD или ADAM.
На вход поступают текущие веса оптимизируемой нейронки, текущий лосс, желаемый лосс, и параметр шага диффузии. А диффузионная модель предсказывает новые веса нейросети. Ускорение по сравнению с традиционной оптимизацией в ≈1000 раз.
@ai_newz
Telegram
DL in NLP
Learning to Learn with Generative Models of Neural Network Checkpoints
Peebles, Radosavovic, et al. [Berkeley]
Статья: arxiv.org/abs/2209.12892
Код: github.com/wpeebles/G.pt
Блог: тык
Помните про парадигму learning to learn и всякие оптимитзаторы на основе…
Peebles, Radosavovic, et al. [Berkeley]
Статья: arxiv.org/abs/2209.12892
Код: github.com/wpeebles/G.pt
Блог: тык
Помните про парадигму learning to learn и всякие оптимитзаторы на основе…
🔥27🤯20👍3😁1
Открыт набор PhD студентов в New York University
Это там где ЛеКун. Аспирантура в США бесплатная, более того, вам даже будут платить стипендию что-то типа 30к$ в год
Подаваться тут
Это там где ЛеКун. Аспирантура в США бесплатная, более того, вам даже будут платить стипендию что-то типа 30к$ в год
Подаваться тут
😢22👍14❤3🔥2😱2
ИИ-изображения - новый клип-арт.
Microsoft добавляет DALL-E в свой пакет Office, таким образом картинки сгенерированные ИИ скоро появятся в каждой PowerPoint презентации.
Заметка на The Verge
Microsoft добавляет DALL-E в свой пакет Office, таким образом картинки сгенерированные ИИ скоро появятся в каждой PowerPoint презентации.
Заметка на The Verge
🤯34👍4🤩4