местный датасасер ☮️
1.92K subscribers
1.01K photos
61 videos
7 files
658 links
Пишу всякое о технологиях и моих проектах, @egorvoron
Download Telegram
"Сталин спросил у метеорологов, какой у них процент точности прогнозов.
– Сорок процентов, товарищ Сталин.
– А вы говорите наоборот, и тогда у вас будет шестьдесят процентов."

data science moment
Мозг человека и обученная нейросеть GPT2-XL (1.5 млрд параметров), если заглянуть им внутрь, вплоть до слоев и нейронов, обрабатывают один и тот же текст схожим образом. Об этом нам сообщают в свежей работе авторы из Принстона, Нью-Йорка и Google Research.

Это не первый результат такого рода, и исследования на эту тему будут множится: мозг человека и DLMs богаты разными данными, и сопоставлять их можно по-всякому. В этот раз показали, что послойные преобразования текста в GPT2-XL соответствуют временной последовательности обработки в языковых областях мозга людей, которые слушали тот же текст (им снимали ЭКоГ). Как пишут авторы, «учитывая явные архитектурные различия на уровне схем между DLM и мозгом, сходство их внутренних вычислительных последовательностей может показаться удивительным».

Полагаю, такие сопоставления станут отдельным направлением исследований. Если оно окажется плодотворным — т.е. если между DLMs и мозгом действительно есть глубокие интересные гомологии — это и повлияет на разработку архитектур нейросетей, и прольет дополнительный свет на работу мозга человека. Впрочем, понравится это не всем.
Forwarded from ЭйАйЛера
Потрясающий тред в твиттере, где DALL-e попросили заняться датавизом и наделать графиков в стиле знаменитых художников.

На картинках инфографика Ротко, Моне, в стиле манускрипта Войнича и Ван Гога.

Другое небольшое исследование с конкретными примерами графиков и стилей в DALL-E можно прочитать тут.
Forwarded from TechSparks
Генерация фотореалистичных картинок — это прекрасно. Но мне иногда по старинке хочется запечатлеть на память те места физического мира, где я побывал телесно. Потому и люблю фото, и не только на телефон. И страдаю от проблем в условиях малой освещенности; сегодняшние ухищрения цифровой фотографии типа очень длинной экспозиции при цифровой стабилизации спасают далеко не всегда: шумы на изображении оказываются неустранимы и портят картинку безобразно.
И вот выясняется, что гугловая технология NeRF, применяемая для рендеринга 3D сцен по набору плоских фоток, замечательно подходит для восстановления зашумленных картинок, полученных в условиях очень слабого освещения. Ждём следующего прорыва в фоторедакторах и в мобильной вычислительной фотографии
https://petapixel.com/2022/08/23/google-researchers-add-powerful-denoise-tool-to-nerf-ai-program/
Forwarded from Loskir's
🛒 Большое обновление Price Monitor!

• Агрегация цен из нескольких магазинов. Теперь показываются цены не только из Глобуса, но и из Ленты! Поддержка других магазинов — в планах
• Редизайн страницы товара. Сравнивайте цены в разных магазинах, смотрите историю цен на графике, узнавайте информацию о сроках действия скидок.
• Обновлённый сканер штрих-кодов. Распознаёт лучше, работает быстрее.
• Новый домен 😏

Попробуйте сами: pricemonit.ru/product/000000000000355946_ST
жду нейронки, способные делать дословные фильмы по рассказам
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 IMAGEN VIDEO — Диффузии уже не остановить!

tl;dr
Помните Make-A-Video от MetaAI? Так вот — забудьте! Команда Google Brain только что создало лучшее Text-to-Video решение!

Если вкратце, то это имагеновый гомолог далишного Make-A-Video 🤖

Ну, а если чуть подробнее:

— Text Prompt подается в T5 энкодер
— Затем Base Model (5.6B ❤️) диффузит 16 кадров 40x24 pix в скромных 3 fps
— Затем темпоральный апсемплер TSR (1.7B) делает 32 кадра 40x24pix уже в 6 fps
— И пространственный апскейлер SSR-1 (1.4B) готовит предыдущие 32 кадра в разрешении 80x48 pix, и сразу второй SSR-2 (1.2B) делает 320x192
— Затем следуют еще два стейджа временного и один каскад пространственного суперреза и в итоге мы получаем 128 кадров в разрешении 1280x768 в 24fps

Основной фишкой такого подхода является Video U-Net — архитектура, пространственные операции которого выполняются независимо
по кадрам с общими параметрами (батч X время, высота, ширина, каналы), тогда как временная операции сработают уже на всему 5D тензору (батч, время, высота, ширина, каналы).

Сделаю потом более подробный пост, а пока рекомендую всем посмотреть результаты на сайте проекта!

🚀 Imagen Video
📄 paper

🤖 мишин лернинг
Forwarded from AI для Всех
Нейрокомпрессия звука

Сжатие является важной частью современного Интернета, поскольку оно позволяет людям легко обмениваться высококачественными фотографиями, прослушивать аудиосообщения, транслировать любимые передачи и многое другое.

Сегодня, исследователи из Мета совершили прорыв в области гиперкомпрессии аудио с помощью ИИ. Представьте себе, что вы слушаете аудиосообщение друга в районе с низким качеством связи, а оно не тормозит и не глючит.

Они создали трехкомпонентную систему и обучили ее сжимать аудиоданные до заданного размера. Затем эти данные могут быть декодированы с помощью нейронной сети.

Они добились примерно 10-кратной степени сжатия по сравнению с MP3 при 64 кбит/с без потери качества. Хотя подобные методы уже применялись для речи, они первыми применили их для стереофонического аудио с частотой дискретизации 48 кГц (т.е. качество CD), которое является стандартом для распространения музыки.

Pied Piper только что стал реальностью, более того - опенсорсной.

🦦 Блог-пост
📖 Статья
🤤 Код
Forwarded from Борис опять
Например, очень интересная параллель: ML сейчас очень похож на телеграф в ~1870 годы.

Сходства:
* Телеграф уже существовал, выполнял важные функции и зарабатывал много денег, но все это не было построенно на какой-то стройной теории. Телеграф был, а науки об электричестве не было. Например, методом тыка догадались, что скрученный провод почему-то хуже проводит сигнал, но про явление интерференции не знали. Весь прогресс был построен на том, что энтузиасты перебирали кучу идей и смотрели, что работает. Во многом у нас в ML так же: в первую очередь эксперименты, а теории нормальной нет. Но у нас есть преимущество: научный метод давно изобрели, нам должно быть легче.
* Многие изобретатели и компании богатели просто адаптируя телеграф под разные запросы. Например, сделали систему автоматического подсчета голосов подключив телеграф к кнопкам на столах конгрессменов. С ML так же: корневая технология известна, вопрос где и как применить.
* Каждые пять минут выходили новые патенты, где в телеграфе что-то немного подкручивали и он становился чуть-чуть лучше. В ML каждые пять минут выходят статьи, где к модели прикрутили новый слой или лосс и она стала на 0.001% лучше. И там, и там почти все эти свистки не меняют ситуации в корне. Однако в случае телеграфа они в конце-концов накопились и произошла смена парадигмы (quadruplex телеграф, а потом и телефон). Наверняка так будет и в ML.
* Вся индустрия контроллировалась двумя-тремя корпорациями-гигантами, потому что строить такие системы и проводить эксперименты требовало больших вложений. Корпорации нанимали лучших ученых-изобретателей совершенствовать свои технологии, а так же выкупали за большие деньги компании изобретателей-фрилансеров. Часто лишь даже ради того, чтобы они не достались конкурентам.