эйай ньюз
82.1K subscribers
1.78K photos
943 videos
7 files
2.11K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Самая мощная LLM в опесорсе, Mixtral 8x7B MoE от Mistral AI, теперь доступна во фреймворке Сandle* - с поддержкой квантизации. За счет квантизации модели могут работать локально на ноутбуке с 32 GB RAM.

Например, 4-битная Mixtral 8x7B MoE занимает всего 26.44GB памяти. Тогда как в bf16 на GPU модель бы заняла 112+ GB VRAM (то есть влезла бы только на H100).

*Candle - это минималистский ML-фреймворк для Rust, сфокусированный на производительности (включая поддержку GPU) и простоте использования.

- Поддерживает 2-bit, 3-bit, 4-bit, 5-bit, 6-bit and 8-bit int квантизованные модели в gguf and ggml форматах.
- SIMD оптимизации для Apple Silicon и x86.

Вот тут можете попробовать демки разных моделей на Candle:
- Whisper, [пост в канале]
- LLaMa-2, [пост в канале]
- T5,
- YOLOv8,
- Segment Anything [пост в канале]

@ai_newz
🔥16228👍20🤯6❤‍🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
🌡Геймификация - наше все! Как же все-таки странно устроен человеческий мозг. Есть куча уловок, заставить его что-то делать с охотой, но не все их знают или не умеют ими пользоваться.

Видос украден отсюда.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16332🔥13👍8🤯5🦄4🫡2🤩1
Поздравляю всех с Новым Годом!

Это был продуктивный 2023 год, а в 2024 году желаю вам всем хороших градиентов, быстрой сходимости и достижения абсолютно всех поставленных целей!

🎆 🥳🍾

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
19240❤‍🔥17👍15🔥12🦄5😁3😍2🫡1
This media is not supported in your browser
VIEW IN TELEGRAM
О важности отдыха "с отключением"

Порой мне сложно разгрузить голову и оставить работу в офисе после того, как я пришел вечером домой. Постоянно крутятся мысли, идеи и хочется доделать задачу либо запустить эксперименты на ночь, чтобы ГПУшки не простаивали. Кроме того, тесная работа с коллегами из Калифорнии тоже поддаёт угля в огонь.

Работать в таком режиме продолжительное время, конечно, утомительно, хоть я и очень люблю то, чем занимаюсь. Поэтому заставляю себя на выходных и во время отпуска отключаться полностью, не проверять рабочую переписку и не читать научные статьи. Ну, либо читать, но только ради удовольствия — каюсь, не могу от них полностью отказаться 🤪.

Вот и сейчас у меня было 2 недели без рабочих вопросов, даже не писал в канал и почти не читал другие каналы, чтобы мозг отдохнул от беспрерывного потока информации.

По себе замечаю, что эффективность такого отдыха гораздо выше, чем когда в отпуске даже по часу в день занимаешься чем-то, связаным с работой. После отдыха "с отключением", приступая к работе, всегда чувствую много энергии и искрюсь новыми идеями. Также это хорошая пилюля против выгорания.

Так что, теперь я опять с вами!
Расскажите в комментариях, как вы отдыхаете от интенсивного умственного труда?


#personal
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥261👍6253💯31🫡5❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding

Кайфовая работа вышла. Позволяет генерить людей в разных стилях и амплуа по заданным фотографиям. Вон смотрите как кайфово ЛеКуна нагенерили.

Но, в отличие от DreamBoth и всяких LORA, в этой работе избавились от надобности файнтюнить модель под каждую новую личность.

Во время тренировки мы выдираем из входных фоток эмбеддинги, кодирующую личность, и учим диффузионную модель использовать их в качестве кондишенинга для генерации желаемых личностей.

А во время инференса, мы можем подать набор фотографий нового юзера и сгенерить для него аватарки без дополнительных тренировок. Это быстро и более эффективно, чем файнтюн под каждого юзера.

Идея простая и изящная, строящаяся на том, что давно существуют сетки, способные выдирать фичи, кодирующие внешность человека. Например, для ре-идентификации.

Сайт проекта
Код

Можно попробовать демки на HF:
1. Демо в реализмем
2. Демо со стилизацией

@ai_newz
95🔥43👍19❤‍🔥5
🚬 Треним веса, тренимся с весами (с) Гигачад Шмидхубер

Всем бы в 60 быть в такой форме! Талантливый человек — талантлив во всем.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥207🤩20👍16🦄14😍831😁1🤯1
Вот так.

Credits: D. Vorotyntsev

@ai_newz
🔥180😁100🦄731
LLaMa 3 уже тренируется

Марк анонсировал сегодня у себя в IG, что уже тренирутся LLaMa 3, и на подходе другие клёвые AI модели.

Чтобы все это добро эффективно тренировать, по ходу строится огромный кластер, в котором будет 350,000 H100 до конца года. Общий размер компьюта будет примерно равен 600,000 H100, если перевести всё в H100 эквивалент.

@ai_newz
🤯245🔥54👍18🦄64😁4❤‍🔥1😱1
Stable LM 2 1.6B от Stability AI

Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.

Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.

В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.

Демка на HF
Базовая модель
Instruction-tuned версия

@ai_newz
👍10023🔥54😍1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.

Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...

А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.

Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.

В общем, what a time to be alive! И ждем новых серий черного зеркала.🤯

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥245🤯37👍22143❤‍🔥3😱2😁1😍1🦄1
Я тут наткнулся на профиль одного паренька. Честно сказать, я в шоке. В 14 лет он закончил бакалавриат, в 19 лет он закончил PhD, а в 20 лет стал Research Director в Stability AI.

Он взломал жизнь?

@ai_newz
🤯486👍56😱25🔥22🦄22😁13🫡753
Нейросети пишут подкаст про нейросети (на русском)

Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.

Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.

Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.

Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.

Внизу прикрепляю один из эпизодов.

Канал c подкастом
Ютуб
Сайт автора

@ai_newz
🔥193🤯5917👍11😁10🫡8❤‍🔥5🤩1
OpenAI проапдейтили API и выкатили новые text-embedding модели

1️⃣ Добавили 2 новые text-embeding модели, которые переводят текст в вектора.

2️⃣ Обновили GPT-3.5 Turbo. Теперь она будет более точно отвечать в формате, который вы запоосили в промпте.

Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.

3️⃣ Обновили GPT-4 Turbo preview. Улучшили генерацию кода и уменьшили "ленивость" модели, когда ей приходилось подкидывать на чай, чтобы она выполняла задачу без халтуры.

Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
116👍40🔥197❤‍🔥5😱1
Кстати, если вы не заметили, новая text-embeding-3-large модель от OpenAI далеко не SOTA (увы).

Немного про бенчмарки и что сейчас SOTA:

1️⃣ MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) - бенчмарк с текстами на 18 разных языках, включая русский. Используется для измерения качества поиска по многоязычному корпусу.

Тут мы видим заметное улучшение у text-embeding-3-large - 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.

2️⃣ MTEB (Massive Text Embedding Benchmark) - крупнейший бенчмарк дял текстовых эмбеддингов. Есть публичнй лидерборд (см. скрин).
a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.

Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61😱16👍106🦄2🫡1
Media is too big
VIEW IN TELEGRAM
😳 Вы только гляньте, как робопёс учится ходить за один час с нуля! Кстати, видео обрывается, потому что робот разозлился и дал ученому отменных трындюлей.


Обучение в симуляции несет за собой ряд проблем связанных с обощением выученного на реальный мир со всеми его несовершенствами. Поэтому, было бы круто если бы робот мог эффективно учиться от взаимодействия с реальным миром.

На эту тему сейчас активно ведутся исследования, и на видосе показан результат работы метода "DayDreamer: World Models for Physical Robot Learning", который позволяет роботам учиться с RL не в симуляции, а сразу в физическом мире и причем довольно быстро. Работа уже не новая (2022), но тем не менее интересная.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥191🤯46👍2918😱5😍3💯2😁1
Вот и новое поколение wearable AR девайсов на подходе - челики из стартапа Blinkenergy разрабатывают AR-линзу!

Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.

Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.

Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.

Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!

Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.

@ai_newz
👍92🔥50🤯32🤩188😁7🦄1
Зарелизили Code Llama-70B топовая модель для геренации кода!

Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.

CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.

Запросить веса можно тут.

@ai_newz
140🔥60🤯18👍131🦄1
Тем временем подъехали полевые тесты шлема Apple Vision Pro за $3500.

@ai_newz
😁15410🤯7🫡4
😁23658🔥15😍11❤‍🔥10💯3😱2