эйай ньюз
82.1K subscribers
1.78K photos
943 videos
7 files
2.11K links
Культурно освещаю самые и не самые важные новости из мира AI, и облагораживаю их своим авторитетным профессиональным мнением.

Ex-Staff Research Scientist в Meta Generative AI. Сейчас CEO&Founder AI стартапа в Швейцарии.

Aвтор: @asanakoy

PR: @ssnowysnow
Download Telegram
Stable LM 2 1.6B от Stability AI

Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.

Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.

В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.

Демка на HF
Базовая модель
Instruction-tuned версия

@ai_newz
👍10023🔥54😍1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.

Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...

А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.

Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.

В общем, what a time to be alive! И ждем новых серий черного зеркала.🤯

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥245🤯37👍22143❤‍🔥3😱2😁1😍1🦄1
Я тут наткнулся на профиль одного паренька. Честно сказать, я в шоке. В 14 лет он закончил бакалавриат, в 19 лет он закончил PhD, а в 20 лет стал Research Director в Stability AI.

Он взломал жизнь?

@ai_newz
🤯486👍56😱25🔥22🦄22😁13🫡753
Нейросети пишут подкаст про нейросети (на русском)

Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.

Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.

Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.

Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.

Внизу прикрепляю один из эпизодов.

Канал c подкастом
Ютуб
Сайт автора

@ai_newz
🔥193🤯5917👍11😁10🫡8❤‍🔥5🤩1
OpenAI проапдейтили API и выкатили новые text-embedding модели

1️⃣ Добавили 2 новые text-embeding модели, которые переводят текст в вектора.

2️⃣ Обновили GPT-3.5 Turbo. Теперь она будет более точно отвечать в формате, который вы запоосили в промпте.

Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.

3️⃣ Обновили GPT-4 Turbo preview. Улучшили генерацию кода и уменьшили "ленивость" модели, когда ей приходилось подкидывать на чай, чтобы она выполняла задачу без халтуры.

Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
116👍40🔥197❤‍🔥5😱1
Кстати, если вы не заметили, новая text-embeding-3-large модель от OpenAI далеко не SOTA (увы).

Немного про бенчмарки и что сейчас SOTA:

1️⃣ MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) - бенчмарк с текстами на 18 разных языках, включая русский. Используется для измерения качества поиска по многоязычному корпусу.

Тут мы видим заметное улучшение у text-embeding-3-large - 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.

2️⃣ MTEB (Massive Text Embedding Benchmark) - крупнейший бенчмарк дял текстовых эмбеддингов. Есть публичнй лидерборд (см. скрин).
a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.

Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61😱16👍106🦄2🫡1
Media is too big
VIEW IN TELEGRAM
😳 Вы только гляньте, как робопёс учится ходить за один час с нуля! Кстати, видео обрывается, потому что робот разозлился и дал ученому отменных трындюлей.


Обучение в симуляции несет за собой ряд проблем связанных с обощением выученного на реальный мир со всеми его несовершенствами. Поэтому, было бы круто если бы робот мог эффективно учиться от взаимодействия с реальным миром.

На эту тему сейчас активно ведутся исследования, и на видосе показан результат работы метода "DayDreamer: World Models for Physical Robot Learning", который позволяет роботам учиться с RL не в симуляции, а сразу в физическом мире и причем довольно быстро. Работа уже не новая (2022), но тем не менее интересная.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥191🤯46👍2918😱5😍3💯2😁1
Вот и новое поколение wearable AR девайсов на подходе - челики из стартапа Blinkenergy разрабатывают AR-линзу!

Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.

Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.

Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.

Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!

Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.

@ai_newz
👍92🔥50🤯32🤩188😁7🦄1
Зарелизили Code Llama-70B топовая модель для геренации кода!

Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.

CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.

Запросить веса можно тут.

@ai_newz
140🔥60🤯18👍131🦄1
Тем временем подъехали полевые тесты шлема Apple Vision Pro за $3500.

@ai_newz
😁15410🤯7🫡4
😁23658🔥15😍11❤‍🔥10💯3😱2
Иногда стоит освежать базу. Я сегодня вечером читаю Линейную Алгебру.

Наверное одна из лучших книг по Линалу - это учебник "Introduction To Linear Algebra" Гилберта Стрэнга, профессора из MIT.

Американские учебники в целом лучше объясняют интуицию за математическими объектами по сравнению с советскими. Тут и мотивация и примеры использования в других областях науки. Очень рекомендую для поднятия или повторения базы по линейной алгебре именно учебник Стрэнга, у него как раз в прошлом году вышло 6-ое издание. #книги

@ai_newz
🔥316👍8448🫡10😍7😁65❤‍🔥2
Media is too big
VIEW IN TELEGRAM
Послушал подкаст про поездку на NeurIPS 2023 c Владом из Tinkoff Research, автором статейки ReBRAC (писал про нее тут).

Интересный отрывок:
Многие реально думают, что ты приходишь на конференцию и занимаешься наукой. Там ты такой ходишь и вот наука, наука, наука...


Действительно, реально наукой на больших конференциях вроде NeurIPS ты не занимаешься, т.к. поток новой информации просто огромный. Основной фокус сейчас для меня все же на знакомствах и поиске взаимных коллабораций.

Я почти никогда не иду полностью по всей программме докладов и по всем постерам. Различных тем так много, что это все невозможно переварить за неделю. Запоминаю основные хайлайты и стараюсь посещать только доклады, близкие к моим научным интересам. То же самое и с постерами — там бродят тысячи людей и висят сотни плакатов. Около самых расхайпованых статей обычно толпа из 10-30 человек. Я люблю выбрать интересные мне работы и прийти за 30 минут до постерной сессии. В это время обычно авторы уже тусуются на месте и вешают постеры — как раз есть время в спокойной обстановке познакомиться и обсудить работу.

Только в свои первые визиты на крупные конференции, когда я был еще PhD студентом, я делал исчерпывающие обходы всех постеров и демо. Например, так было на NIPS 2016, на моей самой первой конференции. Я тогда презентовал свою статью по self-supervised learning — CliqueCNN (видео-обзор). На конфу приехало около 3000 человек и мне это казалось мега-масштабным событием. Столько всего нового и интересного, куча плотных докладов, сотни постеров, огромный экспо-зал со стендами компаний, со всеми из которых нужно было обязательно поговорить. Я тогда едва успевал все охватить, а кроме этого ещё были и вечеринки, которые крупные фирмы устраивали каждый вечер для хайринга и нетворкинга. Каждое утро я совершал маленький подвиг, появляясь на докладах в 8:00 на следующий день после вечеринок. Ну а что говорить про нынешние NeurIPS и CVPR с >10к участников — тут уж точно нужно очень внимательно выбирать, куда ходить и на что смотреть.

@ai_newz
❤‍🔥92👍4218🔥8
Просто оставлю это фото здесь. Ждите инсайтов.

@ai_newz
🔥142🤩3521🤯6😁43
Ну, хватит саспенса.

Сегодня я был в гостях во Фрайбурге у своих кентов из Stability AI, основных авторов Stable Diffusion.

Кто не знает, мы учились в одной лабе в Heidelberg University, впоследствии переехавшей в LMU в Мюнхен.

На фото Фредди печатает для меня их последнюю статью про новую text-to-image модель, которую они засабмитили сегодня на ICML.

@ai_newz
111🔥54👍24🦄15🤩3❤‍🔥2😁1🙏1
Llama2d: 2D Positional Embeddings for Webpage Structural Understanding

Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.

Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.

Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.

Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.

@ai_newz
108🔥64👍38🤯6🤩4