Поддержать канал и поставить эмоджи это очень приятно! Но еще приятнее отправить нам донат 🍩
мы на них себе покупаем разные ништяки, например я оплачиваю психотерапевта, @GingerSpacetail покупает хурму в любое время года, а @karray наверняка себя чем то балует, но нам не признается.
Так что непоскупитесь уж вашим спонсорам разговоров у кулера 😀
Поддержите канал по ссылке выше
мы на них себе покупаем разные ништяки, например я оплачиваю психотерапевта, @GingerSpacetail покупает хурму в любое время года, а @karray наверняка себя чем то балует, но нам не признается.
Так что непоскупитесь уж вашим спонсорам разговоров у кулера 😀
Поддержите канал по ссылке выше
Опенсорсный интерфейс Мозг-Компьютер
Интерфейсы мозг-компьютер (BCI) - это системы, обеспечивающие прямую связь между мозгом и компьютером. Эти интерфейсы используют электрофизиологические сигналы мозга, такие как ЭЭГ, для управления внешними устройствами или связи с компьютером.
BCI потенциально могут революционизировать способы взаимодействия с технологиями и имеют широкий спектр применения - от помощи людям с ограниченными возможностями до управления протезами конечностей и даже игр. Они также могут быть использованы в научных исследованиях для лучшего понимания мозга и разработки новых методов лечения неврологических расстройств.
Уникальным аспектом openBCI, является то, что в нем используются недорогие электроды ЭЭГ по цене от $499,99. Это делает его более доступным для использования исследователями и частными лицами и может демократизировать область BCI.
Мне кажется что, OpenBCI может значительно подстегнуть исследования в этой области, кто такой себе не захочет?
Сайт проекта
Интерфейсы мозг-компьютер (BCI) - это системы, обеспечивающие прямую связь между мозгом и компьютером. Эти интерфейсы используют электрофизиологические сигналы мозга, такие как ЭЭГ, для управления внешними устройствами или связи с компьютером.
BCI потенциально могут революционизировать способы взаимодействия с технологиями и имеют широкий спектр применения - от помощи людям с ограниченными возможностями до управления протезами конечностей и даже игр. Они также могут быть использованы в научных исследованиях для лучшего понимания мозга и разработки новых методов лечения неврологических расстройств.
Уникальным аспектом openBCI, является то, что в нем используются недорогие электроды ЭЭГ по цене от $499,99. Это делает его более доступным для использования исследователями и частными лицами и может демократизировать область BCI.
Мне кажется что, OpenBCI может значительно подстегнуть исследования в этой области, кто такой себе не захочет?
Сайт проекта
В Мета разработали "Balance": Python библиотеку для корректировки выборок данных, содержащих смещения (баесы).
В исследованиях и науке о данных мы часто сталкиваемся с необъективными данными (например предвзятые опросники). Обучение ML-моделей на таких данных может привести к ошибочным оценкам или некачественным моделям (баес на входе - баес на выходе).
Balance включает в себя простую структуру для взвешивания данных и оценки их смещения. Он разработан для обеспечения лучших практик подбора весов и предлагает несколько подходов к моделированию. Пакет уже поддерживает текущую автоматизированную обработку данных опросов в Мета и специальный анализ данных опросов, проводимый исследователями каждый месяц.
🌋 Инструмент тут
В исследованиях и науке о данных мы часто сталкиваемся с необъективными данными (например предвзятые опросники). Обучение ML-моделей на таких данных может привести к ошибочным оценкам или некачественным моделям (баес на входе - баес на выходе).
Balance включает в себя простую структуру для взвешивания данных и оценки их смещения. Он разработан для обеспечения лучших практик подбора весов и предлагает несколько подходов к моделированию. Пакет уже поддерживает текущую автоматизированную обработку данных опросов в Мета и специальный анализ данных опросов, проводимый исследователями каждый месяц.
🌋 Инструмент тут
Расшифровка любого видео за минуты!
Нас никто не просил, но мы запили для вас небольшое демо, которое позволяет распознать речь на одном из 99 языков, определить говорящих (говорун 1, говорун 2, говорун 3) и перевести текст на выбранный язык.
Под капотом несколько библиотек:
denoiser - для удаления всего постороннего из аудио, кроме речи;
pyannote - для определения говорящего;
Whisper - то, где происходит вся магия.
Про Whisper мы уже писали - она может не только автоматически распознать язык и речь, но и может перевести текст на один из 99 языков. Интересно, что перевод на любой язык не был заявлен официально - в ходе экспериментов с моделью я случайно наткнулся на эту возможность. В репозитории лишь сказано, что она может переводить один из языков на английский. Качество распознавания и особенно перевода сильно зависит от языка (на этой диаграмме показано сравнение)
📖 Colab Ноутбук
@karray
Нас никто не просил, но мы запили для вас небольшое демо, которое позволяет распознать речь на одном из 99 языков, определить говорящих (говорун 1, говорун 2, говорун 3) и перевести текст на выбранный язык.
Под капотом несколько библиотек:
denoiser - для удаления всего постороннего из аудио, кроме речи;
pyannote - для определения говорящего;
Whisper - то, где происходит вся магия.
Про Whisper мы уже писали - она может не только автоматически распознать язык и речь, но и может перевести текст на один из 99 языков. Интересно, что перевод на любой язык не был заявлен официально - в ходе экспериментов с моделью я случайно наткнулся на эту возможность. В репозитории лишь сказано, что она может переводить один из языков на английский. Качество распознавания и особенно перевода сильно зависит от языка (на этой диаграмме показано сравнение)
📖 Colab Ноутбук
@karray
Forwarded from эйай ньюз
The Artificial Intelligence (AI) Residency Program
У Меты есть годовая программа AI Residency, на которой к вам приставят опытного ментора из числа ресерчеров, вы будете импелементить идеи и работать над научными публикациями и open-source проектами. То есть вас будут учить работе исследователя. Бэкраунгд в AI и Deep Learning не обязателен, но нужно иметь техническое образование.
Колобочки, это, кажется, лучшая возможность для тех, кто закончил бакалавриат или магу и хочет серьезно вкатиться в AI. По сути это своеобразные подготовительные курсы перед поступлением на профильное PhD. Если бы я знал в свое время о существовании таких программ, я бы точно не упустил ни одной возможности.
Подозреваю, что конкурс там будет не маленький, но я все равно рекомендую всем заинтересованным отправлять свои заявки.
Подать на программу в США можно тут до вечера 24 января.
@ai_newz
У Меты есть годовая программа AI Residency, на которой к вам приставят опытного ментора из числа ресерчеров, вы будете импелементить идеи и работать над научными публикациями и open-source проектами. То есть вас будут учить работе исследователя. Бэкраунгд в AI и Deep Learning не обязателен, но нужно иметь техническое образование.
Колобочки, это, кажется, лучшая возможность для тех, кто закончил бакалавриат или магу и хочет серьезно вкатиться в AI. По сути это своеобразные подготовительные курсы перед поступлением на профильное PhD. Если бы я знал в свое время о существовании таких программ, я бы точно не упустил ни одной возможности.
Подозреваю, что конкурс там будет не маленький, но я все равно рекомендую всем заинтересованным отправлять свои заявки.
Подать на программу в США можно тут до вечера 24 января.
@ai_newz
Meta
The Artificial Intelligence (AI) Residency Program - Meta AI
The Artificial Intelligence (AI) Residency Program is a one-year research training position designed to give you hands-on experience with artificial intelligence research while working in Meta AI.
Классный Twitter-тред про то что такое, и как работают эмбеддинги в больших языковых моделях (LLM)
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN-T - ГАН жив!
Пик популярности ГАНов пришелся на 2020 год, а в январе следующего была представлена DALLE-2. С тех пор мы редко слышим о ГАНах, но это не значит, что исследования в этой области не ведутся - у старых (10 лет 😱) добрых ГАНов есть ряд преимуществ:
- менее ресурсоемкие
- быстрее обучить (хотя не без своих проблем)
- быстрый инференс
И главное на, мой взгляд - “распутанное” латентное пространство (об это в следующем посте). Это позволяет, напрмер, делать эффектный морфинг, как на видео.
Но проблема по сравнению с диффузными моделями - ГАНы не могут генерировать объекты из разных доменов. Например, одна и та же модель не сможет нормально генерировать котиков и людей.
На днях вышла новая статья, в которой авторы показывают, что большие ГАНы способны на это. За основу они вязли StyleGAN-XL, а вместо классов использовали ембеддинги из языковой модели, а точнее предварительно обученный CLIP ViT-L/14 в качестве текстового энкодера. Сама идея не нова, но объединив эти два подхода, им удалось добиться генерации разнообразных изображений по текстовому промту.
📜 Статья
👩💻 Код обещают
@karray
Пик популярности ГАНов пришелся на 2020 год, а в январе следующего была представлена DALLE-2. С тех пор мы редко слышим о ГАНах, но это не значит, что исследования в этой области не ведутся - у старых (10 лет 😱) добрых ГАНов есть ряд преимуществ:
- менее ресурсоемкие
- быстрее обучить (хотя не без своих проблем)
- быстрый инференс
И главное на, мой взгляд - “распутанное” латентное пространство (об это в следующем посте). Это позволяет, напрмер, делать эффектный морфинг, как на видео.
Но проблема по сравнению с диффузными моделями - ГАНы не могут генерировать объекты из разных доменов. Например, одна и та же модель не сможет нормально генерировать котиков и людей.
На днях вышла новая статья, в которой авторы показывают, что большие ГАНы способны на это. За основу они вязли StyleGAN-XL, а вместо классов использовали ембеддинги из языковой модели, а точнее предварительно обученный CLIP ViT-L/14 в качестве текстового энкодера. Сама идея не нова, но объединив эти два подхода, им удалось добиться генерации разнообразных изображений по текстовому промту.
📜 Статья
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
StyleGAN для извлечения скрытых признаков
Обучая генеративную модель создавать лица, мы имеем дело с очень большим многомерном пространством. Например, для изображения 16х16x1 (256 оттенков серого🤨 ) размер пространства будет 256 в степени 16х16. Но зачем нам столько пикселей, когда мы можем описать лица несколькими признаками (цвет глаз и волос, угол наклона головы)? Это и есть скрытые признаки, а задача StyleGAN - найти их.
Эти признаки, затем, могут быть использованы для различных задач - от классификации до кластеризации и самое замечательное в этом то, что каждый признак имеет семантическое значение (ноэтонеточно).
Но есть один момент: ГАНы не умеют в инверсию - это когда мы хотим обратить процесс и вместо генерации извлечь скрытые признаки из реальных изображений.
Есть несколько способов добиться этого и про один из них мы уже писали. Но на сколько хороша StyleGAN как экстрактор скрытых признаков? Ответ на этот вопрос вы найдётся в моем блоге.Как всегда - не все так однозначно.
PS: на гифке EditGAN.
📖 Пост
@karray
Обучая генеративную модель создавать лица, мы имеем дело с очень большим многомерном пространством. Например, для изображения 16х16x1 (256 оттенков серого
Эти признаки, затем, могут быть использованы для различных задач - от классификации до кластеризации и самое замечательное в этом то, что каждый признак имеет семантическое значение (ноэтонеточно).
Но есть один момент: ГАНы не умеют в инверсию - это когда мы хотим обратить процесс и вместо генерации извлечь скрытые признаки из реальных изображений.
Есть несколько способов добиться этого и про один из них мы уже писали. Но на сколько хороша StyleGAN как экстрактор скрытых признаков? Ответ на этот вопрос вы найдётся в моем блоге.
📖 Пост
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
ML для NMR spectroscopy
Одна из областей, где есть интересные МЛ задачи - спектроскопия ядерного магнитного резонанса (NMR spectroscopy). Да, физика, как в МРТ.
Зачем NMR в медицине:
⁃ количественная оценка продуктов обмена веществ
⁃ получение структуры белков, ДНК, РНК
⁃ анализ связываемости молекул
А значит, для:
▪️неинвазивной диагностики
▪️понимания патофизиологии заболеваний
▪️разработки лекарств
Где полезен МЛ:
1. Реконструкция полного спектра.
Спектр не непрерывная кривая, а выборка точек, реконструкция может приводить к потере информации
2. Денойзинг.
Идеально, если пики хорошо различимы, но сырые данные часто имеют низкий SND из-за перекрывающихся сигналов
3. Интерпретация спектра.
У опытного специалиста аннотация занимает до нескольких месяцев🥺
4. Объединение частотного и временного домена.
Т.к. дискретное преобразование Фурье может давать искажения
В следующих сериях - пробы, ошибки и достижения
P.S. В мире 300 000 MLE, а нужны миллионы. Велком в МЛ
🧲 Img из статьи
@GingerSpacetail
Одна из областей, где есть интересные МЛ задачи - спектроскопия ядерного магнитного резонанса (NMR spectroscopy). Да, физика, как в МРТ.
Зачем NMR в медицине:
⁃ количественная оценка продуктов обмена веществ
⁃ получение структуры белков, ДНК, РНК
⁃ анализ связываемости молекул
А значит, для:
▪️неинвазивной диагностики
▪️понимания патофизиологии заболеваний
▪️разработки лекарств
Где полезен МЛ:
1. Реконструкция полного спектра.
Спектр не непрерывная кривая, а выборка точек, реконструкция может приводить к потере информации
2. Денойзинг.
Идеально, если пики хорошо различимы, но сырые данные часто имеют низкий SND из-за перекрывающихся сигналов
3. Интерпретация спектра.
У опытного специалиста аннотация занимает до нескольких месяцев🥺
4. Объединение частотного и временного домена.
Т.к. дискретное преобразование Фурье может давать искажения
В следующих сериях - пробы, ошибки и достижения
P.S. В мире 300 000 MLE, а нужны миллионы. Велком в МЛ
🧲 Img из статьи
@GingerSpacetail
Про Dall-E и эстетику
Иглман [Stanford PHD] называет то, как генераторы изображений учатся и создают искусство, "карикатурной версией" того, как это делают люди. Во-первых, утверждает он, недостаточно просто создавать новые вещи. Чтобы быть полностью творческим, человек - или творческая машина - должен уметь фильтровать эти новые вещи и отбирать наиболее резонансные и значимые на основе человеческих критериев, говорит он. "DALL-E не может этого сделать. У него есть новизна, но нет фильтрации, избирательности", - говорит он. "Ему придется узнать, что такое быть человеком, прежде чем он сможет фильтровать на основе человеческих критериев, прежде чем он сможет понять, оценят ли люди тот или иной рисунок или почему".
Что-то подобное мы уже слышали про языковые модели, а оказалось что RLHF (reinforcement Learning with human feedback) это именно то самое недостающее звено. Думаю что Stability уже наняли толпу кенийцев-арт студентов для разметки и ранжирования.
Статья
Иглман [Stanford PHD] называет то, как генераторы изображений учатся и создают искусство, "карикатурной версией" того, как это делают люди. Во-первых, утверждает он, недостаточно просто создавать новые вещи. Чтобы быть полностью творческим, человек - или творческая машина - должен уметь фильтровать эти новые вещи и отбирать наиболее резонансные и значимые на основе человеческих критериев, говорит он. "DALL-E не может этого сделать. У него есть новизна, но нет фильтрации, избирательности", - говорит он. "Ему придется узнать, что такое быть человеком, прежде чем он сможет фильтровать на основе человеческих критериев, прежде чем он сможет понять, оценят ли люди тот или иной рисунок или почему".
Что-то подобное мы уже слышали про языковые модели, а оказалось что RLHF (reinforcement Learning with human feedback) это именно то самое недостающее звено. Думаю что Stability уже наняли толпу кенийцев-арт студентов для разметки и ранжирования.
Статья
You Only Need a Good Embeddings Extractor to Fix Spurious Correlations
Ложные корреляции в обучающих данных часто приводят к потере надежности, поскольку модели учатся использовать их в качестве подсказок при выборе ответа. Например, при предсказании того, является ли объект коровой, модель может научиться полагаться на его зеленый фон, поэтому будет плохо работать с коровой на песчаном фоне.
В этой работе авторы из Meta показывают, что могут достичь точности до 90% без использования какой-либо информации о подгруппах в обучающем наборе, просто используя эмбеддинги из большого предварительно обученного экстрактора модели зрения и обучая линейный классификатор поверх него.
Оказалось, мощность модели предварительного обучения и размер набора данных для предварительного обучения имеют значение. Их эксперименты показывают, что трансформеры работают лучше сверточных сетей, а больший набор данных для предварительного обучения приводит к улучшению точности на наборе данных с ложными корреляциями.
🐄 Статья
Ложные корреляции в обучающих данных часто приводят к потере надежности, поскольку модели учатся использовать их в качестве подсказок при выборе ответа. Например, при предсказании того, является ли объект коровой, модель может научиться полагаться на его зеленый фон, поэтому будет плохо работать с коровой на песчаном фоне.
В этой работе авторы из Meta показывают, что могут достичь точности до 90% без использования какой-либо информации о подгруппах в обучающем наборе, просто используя эмбеддинги из большого предварительно обученного экстрактора модели зрения и обучая линейный классификатор поверх него.
Оказалось, мощность модели предварительного обучения и размер набора данных для предварительного обучения имеют значение. Их эксперименты показывают, что трансформеры работают лучше сверточных сетей, а больший набор данных для предварительного обучения приводит к улучшению точности на наборе данных с ложными корреляциями.
🐄 Статья
С математикой вроде и впрямь стало лучше, с фактами - нет. Модель галлюцинирует как и прежде
👉 Играть тут
👉 Играть тут
Вы наверное слышали, что OpenAI стали добавлять скрытый watermark к своим NLP продуктам (GPT-3, ChatGPT и тд). Если вы думали что они это делают, потому что они добрые и заботливые - подумайте еще.
На самом деле они это делают, что бы не учить свои сети на своем же сгенерированном мусоре.
На самом деле они это делают, что бы не учить свои сети на своем же сгенерированном мусоре.
Forwarded from Бэкдор
Московский студент защитил диплом, написанный ChatGPT. Нейронка одолела десятки запросов с кустарным переводом из Яндекса, отсортировала весь материал с источниками и подбила выводы.
ChatGPT не справился только с методичкой ВУЗа на 100 страниц, но такое и не каждому человеку под силу. Суммарно студент потратил 23 часа.
А теперь внимание, финальный результат: 82% уникальности. Из минусов: на защите комиссия отметила «нетрадиционную» организацию в дипломе, но за это пока не сажают.
Российский государственный гуманитарный университет, передаём вам привет! А студента поздравляем!
@whackdoor
ChatGPT не справился только с методичкой ВУЗа на 100 страниц, но такое и не каждому человеку под силу. Суммарно студент потратил 23 часа.
А теперь внимание, финальный результат: 82% уникальности. Из минусов: на защите комиссия отметила «нетрадиционную» организацию в дипломе, но за это пока не сажают.
Российский государственный гуманитарный университет, передаём вам привет! А студента поздравляем!
@whackdoor
Forwarded from Earth&Climate Tech
Использование цветовой палитры в научных исследованиях
На протяжении многих лет при построении карт и моделей я использовал радужную цветовую палитру 🌈. Несмотря на то, что радужные цветовые палитры могут быть эстетически привлекательными, экстремальные значения в стандартном красно-зелено-синем (RGB) преобладают и, следовательно, могут отвлекать от основного визуального сообщения. На иллюстрациях с такой палитрой желтый цвет является самым ярким и больше всего привлекает внимание, но он не находится ни в конце, ни в центре цветовой карты. Такое расположение цветов может некорректно выделять одну часть пространства и скрывать другую. Кроме того радужные палитры, значительно меняют то, как мы воспринимаем данные. Они добавляют искусственные границы к некоторым частям диапазона данных, скрывая небольшие вариации в других частях. Радужная карта нарушает любой визуальный интуитивный порядок, и делает данные "нечитаемыми" для читателей с нарушениями цветового зрения.
Некоторое время я отвыкал от радужных карт при построении моделей, и сейчас вообще их не использую. По этому поводу есть прекрасная статья в Nature, в которой подробно описывается почему радужные карты это не гуд. Хотя я прекрасно понимаю людей, которым тяжело отвыкнуть от их использования.
На протяжении многих лет при построении карт и моделей я использовал радужную цветовую палитру 🌈. Несмотря на то, что радужные цветовые палитры могут быть эстетически привлекательными, экстремальные значения в стандартном красно-зелено-синем (RGB) преобладают и, следовательно, могут отвлекать от основного визуального сообщения. На иллюстрациях с такой палитрой желтый цвет является самым ярким и больше всего привлекает внимание, но он не находится ни в конце, ни в центре цветовой карты. Такое расположение цветов может некорректно выделять одну часть пространства и скрывать другую. Кроме того радужные палитры, значительно меняют то, как мы воспринимаем данные. Они добавляют искусственные границы к некоторым частям диапазона данных, скрывая небольшие вариации в других частях. Радужная карта нарушает любой визуальный интуитивный порядок, и делает данные "нечитаемыми" для читателей с нарушениями цветового зрения.
Некоторое время я отвыкал от радужных карт при построении моделей, и сейчас вообще их не использую. По этому поводу есть прекрасная статья в Nature, в которой подробно описывается почему радужные карты это не гуд. Хотя я прекрасно понимаю людей, которым тяжело отвыкнуть от их использования.
Nature
The misuse of colour in science communication
Nature Communications - The accurate representation of data is essential in science communication, however, colour maps that visually distort data through uneven colour gradients or are unreadable...
Как Viridis стала палитрой по умолчанию
И ещё про цветовые карты - это важная тема, т.к. правильная палитра позволяет увидеть структуры в сырых данных.
Долгое время в matplotlib палитрой по умолчанию была JET (радуга), но, начиная с версии 2.0, используется Viridis. При её разработке (которая была PhD работой) основными требованиями были:
- перцептивная однородность (даже в ч/б)
- доступность для людей с цветовой слепотой
Viridis была разработан так, чтобы цвета были равномерно распределёнными в цветовом пространстве - схожие значения представлены похожими цветами, но при этом достаточно отчётливыми даже в ч/б и для людей с цветовой слепотой.
JET не соответствует этим требованиям - некоторые цвета превалируют больше других, что может привести к неверной интерпретации данных.
Рекомендую посмотреть видео, которое за 20 минут весело и задорно расскажет о теории цвета, а также полистать пост с более подробной информацией. А в качестве бонуса вот вам инструмент для создания собственной палитры.
🎞 Видео
🌐 Пост
@karray
И ещё про цветовые карты - это важная тема, т.к. правильная палитра позволяет увидеть структуры в сырых данных.
Долгое время в matplotlib палитрой по умолчанию была JET (радуга), но, начиная с версии 2.0, используется Viridis. При её разработке (которая была PhD работой) основными требованиями были:
- перцептивная однородность (даже в ч/б)
- доступность для людей с цветовой слепотой
Viridis была разработан так, чтобы цвета были равномерно распределёнными в цветовом пространстве - схожие значения представлены похожими цветами, но при этом достаточно отчётливыми даже в ч/б и для людей с цветовой слепотой.
JET не соответствует этим требованиям - некоторые цвета превалируют больше других, что может привести к неверной интерпретации данных.
Рекомендую посмотреть видео, которое за 20 минут весело и задорно расскажет о теории цвета, а также полистать пост с более подробной информацией. А в качестве бонуса вот вам инструмент для создания собственной палитры.
@karray
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Dreamix: Video Diffusion Models (VDM) as General Video Editors
Представлен новый метод видеомонтажа на базе предобученной Imagen-Video.
Imagen-Video - это каскадная VDM, которая состоит из текстового энкодера, базовой VDM модели с низким разрешением, 3 spatial super-resolution (SSR) для апскейла и 3 temporal superresolution для создания промежуточных кадров.
Это работает так: оригинальное видео даунсемплится с добавлением шума и скармливается вместе с промтом базовой VDM с низким разрешением для генерации основной темы. Для повышения качества Imagen-Video (базовая модель и первые два SSR) файнтюниться на оригинальном видео с использованием несуществующего слова для промта, а потом на неупорядоченных кадрах (с заморозкой temporal слоев) - это позволяет ей запоминать детали в высоком разрешении из оригинального видео. Далее, видео с низким качеством апскейлить оставшимися моделями.
В качестве бонуса этот метод также можно использовать для анимации статических изображений.
📜 Статья
👩💻 Сайт с примерами
@karray
Представлен новый метод видеомонтажа на базе предобученной Imagen-Video.
Imagen-Video - это каскадная VDM, которая состоит из текстового энкодера, базовой VDM модели с низким разрешением, 3 spatial super-resolution (SSR) для апскейла и 3 temporal superresolution для создания промежуточных кадров.
Это работает так: оригинальное видео даунсемплится с добавлением шума и скармливается вместе с промтом базовой VDM с низким разрешением для генерации основной темы. Для повышения качества Imagen-Video (базовая модель и первые два SSR) файнтюниться на оригинальном видео с использованием несуществующего слова для промта, а потом на неупорядоченных кадрах (с заморозкой temporal слоев) - это позволяет ей запоминать детали в высоком разрешении из оригинального видео. Далее, видео с низким качеством апскейлить оставшимися моделями.
В качестве бонуса этот метод также можно использовать для анимации статических изображений.
📜 Статья
👩💻 Сайт с примерами
@karray
{скромные} успехи в NMR spectroscopy
Опытный специалист может по МР спектру определить, какие химические соединения были в 🧪образце. Но это занимает чудовищное количество времени.
Авторы статьи (в т.ч. разработчики популярной MestreLab) подошли к проблеме как к задаче компьютерного зрения. Взяли несколько классов (липиды, нуклеотиды и тд) и применили четыре подхода:
Image similarities
Гипотеза: изображения спектров внутри классов близки.
Проверили MobileNetV2 с евклидовым расстоянием, ORB feature matching и Structural Similarity Index (SSIM) и ничего не получили.
Image registration
Гипотеза: для спектров из одного класса нужно минимум преобразований, чтобы их совместить.
Использовали VoxelMorph и тоже ничего не получили.
Кластеризация
Гипотеза: горшочек, вари уже.
Применили VGG16 для feature extraction + PCA + k-means для разбивки на 9 кластеров. Тоже не вышло.
Классификация
Натренировали CNN и получили точность ~60%. Это хотя бы proof-of-concept.
Го помогать ученым?
📖Статья
🧑🔬Код
@GingerSpacetail
Опытный специалист может по МР спектру определить, какие химические соединения были в 🧪образце. Но это занимает чудовищное количество времени.
Авторы статьи (в т.ч. разработчики популярной MestreLab) подошли к проблеме как к задаче компьютерного зрения. Взяли несколько классов (липиды, нуклеотиды и тд) и применили четыре подхода:
Image similarities
Гипотеза: изображения спектров внутри классов близки.
Проверили MobileNetV2 с евклидовым расстоянием, ORB feature matching и Structural Similarity Index (SSIM) и ничего не получили.
Image registration
Гипотеза: для спектров из одного класса нужно минимум преобразований, чтобы их совместить.
Использовали VoxelMorph и тоже ничего не получили.
Кластеризация
Гипотеза: горшочек, вари уже.
Применили VGG16 для feature extraction + PCA + k-means для разбивки на 9 кластеров. Тоже не вышло.
Классификация
Натренировали CNN и получили точность ~60%. Это хотя бы proof-of-concept.
Го помогать ученым?
📖Статья
🧑🔬Код
@GingerSpacetail