Stable LM 2 1.6B от Stability AI
Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.
Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.
В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.
Демка на HF
Базовая модель
Instruction-tuned версия
@ai_newz
Кажется, Stability AI решили немного улучшить состояние дел в маленьких LLM. Вот выпустили Stable LM 2 со скромными 1.6B. По бенчмаркам она показывает себя более чем достойно и является самой сильной моделью в весовой категории до 2 млрд параметров.
Тренили ее две эпохи на двух триллионах токенов. Датасет использовали мультиязычный - Английский, Испансикй, Немецкий, Итальянский, Французский, Португальский и Голландский. Русского, увы нет.
В целом, мне нравится тренд на создание уменьшенных моделей, не сильно теряя в качестве генерации. Проще и шустрее будет такие модельки запускать у себя на лаптопе либо на мобильниках.
Демка на HF
Базовая модель
Instruction-tuned версия
@ai_newz
👍100❤23🔥5⚡4😍1💯1
This media is not supported in your browser
VIEW IN TELEGRAM
А вот теперь, мы начнем играть в VR по-взрослому! Disney представила свою новую крышесносную разработку HoloTile Floor. Это имено то, что я себе представлял в детстве, когда мы с парнями мечтали о будущих играх виратуальной реальности.
Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...
А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.
Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.
В общем, what a time to be alive! И ждем новых серий черного зеркала.🤯
@ai_newz
Да, я четко помню, что в году 2005 у нас уже были обсуждения и фантазии насчет "виртуальной реалтности", которая вот-вот появится на новых компах, и мы будем играть лесными эльфами, охраной дворца и злодеем. Можно будет грабить корованы...
А с таким полом, кажется, можно действительно испытать полное погружение в виртуальную реальность. HoloTile Floor первым делом будут устанавливать в парках развлечения Disney, но в какой-то момент они могут дойти и до домашних пользователей. Кроме обычных игр, фитнес приложения смогут выйти на совсем иной уровень.
Omni-directional беговые дорожки существовали и ранее (например virtuix), но они как правило выглядели громоздко и на игрока нужно было вешать кучу дополнительных приблуд. Кроме того, в HoloTile Floor, можно еще и перемещать предметы, и двигаться, сидя на предметах.
В общем, what a time to be alive! И ждем новых серий черного зеркала.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥245🤯37👍22❤14⚡3❤🔥3😱2😁1😍1🦄1
Нейросети пишут подкаст про нейросети (на русском)
Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.
Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.
Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.
Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.
Внизу прикрепляю один из эпизодов.
Канал c подкастом
Ютуб
Сайт автора
@ai_newz
Мне в личку постучался подписчик и рассказал про свой проект. Он сделал подкаст про AI на русском языке, который создается автоматически с помощью нейросетей! Это безумие, которое стало реальным благодаря мощному прогрессу в АI за последние пару лет, за которым мы тут и следим 👀.
Причем, нейросетевой подкаст D00M4ACE содержит полноценный пайплан с нейсколькими этапами поиска и обработки актуальной информации по теме подкаста, то есть это не просто озвучка блогпостов из интернета. Со слов автора, весь пайплайн заскриптован, и между шагами нет ручных действий. На вход тема подкаста - на выходе набор wav файлов.
Как это работает вкратце:
1. По заданной теме подкаста парсится реддит и собирается база текстов.
2. Далее эта база пропускается через ряд LLM-ок, которые разбивают ее на отдельные суммаризированные блоки, которые потом еще раз пропускаются через LLM-ки для ранжирования и отбора наиболее высоких по рейтингу кусков информации.
3. Затем это добро пропускается через API gpt-4-turbo, где системный промпт содержит инструкцию написать сценарий подкаста, задает описание ведущих и прочие требования.
4. И, наконец, Text-to-Speach нейронки преобразуют сценарий в аудиозапись и с помощью RVC (real-time voice cloning) голосам придается идентичность. Причем один из виртуальных подкастье имеет голос самого автора, а для со-ведущей автор натренировал нейронку, которая повторяет голос его супруги.
Пайплайн все ещё в процессе улучшения и автор планирует переделать его на базе опенсоурс решений без использоывания OpenAI апишек.
Внизу прикрепляю один из эпизодов.
Канал c подкастом
Ютуб
Сайт автора
@ai_newz
Telegram
D00M4ACE блог ИИ и GAMEDEV
Привет, ребята! Сегодня среда, а это значит, что у нас новый эпизод подкаста D00M4ACE.
#10 Триумф Palworld - как игра на основе искусственного интеллекта достигла успеха
В этом выпуске подкаста ведущие Думфейс и Шахерезада обсуждают удивительный успех игры…
#10 Триумф Palworld - как игра на основе искусственного интеллекта достигла успеха
В этом выпуске подкаста ведущие Думфейс и Шахерезада обсуждают удивительный успех игры…
🔥193🤯59❤17👍11😁10🫡8❤🔥5🤩1
OpenAI проапдейтили API и выкатили новые text-embedding модели
1️⃣ Добавили 2 новые text-embeding модели, которые переводят текст в вектора.
2️⃣ Обновили GPT-3.5 Turbo. Теперь она будет более точно отвечать в формате, который вы запоосили в промпте.
Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.
3️⃣ Обновили GPT-4 Turbo preview. Улучшили генерацию кода и уменьшили "ленивость" модели, когда ей приходилось подкидывать на чай, чтобы она выполняла задачу без халтуры.
Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.
@ai_newz
Цену за входные токены уменьшили на 50%, до $0.0005 /1 KTok. А цену за генерируемые токены снизили на 25%, теперь она $0.0015 /1 KTok.
Еще в ближайшие месяцы пообещали выкатить GPT-4 Turbo со зрением в общий доступ.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
❤116👍40🔥19⚡7❤🔥5😱1
Кстати, если вы не заметили, новая text-embeding-3-large модель от OpenAI далеко не SOTA (увы).
Немного про бенчмарки и что сейчас SOTA:
1️⃣ MIRACL (Multilingual Information Retrieval Across a Continuum of Languages) - бенчмарк с текстами на 18 разных языках, включая русский. Используется для измерения качества поиска по многоязычному корпусу.
Тут мы видим заметное улучшение у
2️⃣ MTEB (Massive Text Embedding Benchmark) - крупнейший бенчмарк дял текстовых эмбеддингов. Есть публичнй лидерборд (см. скрин).
a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.
Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.
@ai_newz
Немного про бенчмарки и что сейчас SOTA:
Тут мы видим заметное улучшение у
text-embeding-3-large
- 54.9 (против 31.4 у `ada v2`). Что тут сейчас актульная SOTA я хз - подскажте в комментах, если знаете.a. SOTA сейчас считается модель voyage-lite-02-instruct от Voyage AI (доступна через API) со скором 67.13.
b. на втором месте - E5-mistral-7b-instruct (в опен соурсе), выбивает скор 66.63.
с. text-embeding-3-large от OpenAI же выдает скромные 64.6, что соответствует 4-му месту на лидерборде.
Кажется, OpenAI потихоньку теряет свои лидерские позиции как SOTA API всего, что связано с текстом.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥61😱16👍10❤6🦄2🫡1
Media is too big
VIEW IN TELEGRAM
Обучение в симуляции несет за собой ряд проблем связанных с обощением выученного на реальный мир со всеми его несовершенствами. Поэтому, было бы круто если бы робот мог эффективно учиться от взаимодействия с реальным миром.
На эту тему сейчас активно ведутся исследования, и на видосе показан результат работы метода "DayDreamer: World Models for Physical Robot Learning", который позволяет роботам учиться с RL не в симуляции, а сразу в физическом мире и причем довольно быстро. Работа уже не новая (2022), но тем не менее интересная.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥191🤯46👍29❤18😱5😍3💯2😁1
Вот и новое поколение wearable AR девайсов на подходе - челики из стартапа Blinkenergy разрабатывают AR-линзу!
Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.
Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.
Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.
Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!
Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.
@ai_newz
Пока это ранний прототип, но выглядит очень круто! На веко лепится тоненький контроллер, который питает линзу энергией и соединяется с телефоном для передачи информации, которую нужно отрендереть на линзе.
Убеждают, что дизайн удобный и глаз от линзы не болит. Думаю, что со временем контроллер станет еще меньше и линзы еще тоньше.
Пока это первый стартап, работающий над AR-линзами. Мне кажется довольно естественным такой подход к AR, где дополненная реальность напрямую накладывается на видимую реальность через глазные линзы.
Это же прям то, что нужно каждому обывателю эпохи киберпанка - листать тиктоки со стеклянным взлядом, сидя в метро, вместо того, чтобы пялиться в телефоны!
Посмотрим, появятся ли конкуренты со своими линзами в ближайшее время.
@ai_newz
👍92🔥50🤯32🤩18❤8😁7🦄1
Зарелизили Code Llama-70B топовая модель для геренации кода!
Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.
CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.
Запросить веса можно тут.
@ai_newz
Есть базовая версия, Instruct, и отдельная версия для Python — CodeLlama-70B-Python.
CodeLlama-70B-Instruct показывает 67.8 на бенчмарке HumanEval. В общем CodeLlama-70B - это самая мощная базовая модель для генерации кода в Open Source.
Запросить веса можно тут.
@ai_newz
❤140🔥60🤯18👍13⚡1🦄1
Иногда стоит освежать базу. Я сегодня вечером читаю Линейную Алгебру.
Наверное одна из лучших книг по Линалу - это учебник "Introduction To Linear Algebra" Гилберта Стрэнга, профессора из MIT.
Американские учебники в целом лучше объясняют интуицию за математическими объектами по сравнению с советскими. Тут и мотивация и примеры использования в других областях науки. Очень рекомендую для поднятия или повторения базы по линейной алгебре именно учебник Стрэнга, у него как раз в прошлом году вышло 6-ое издание. #книги
@ai_newz
Наверное одна из лучших книг по Линалу - это учебник "Introduction To Linear Algebra" Гилберта Стрэнга, профессора из MIT.
Американские учебники в целом лучше объясняют интуицию за математическими объектами по сравнению с советскими. Тут и мотивация и примеры использования в других областях науки. Очень рекомендую для поднятия или повторения базы по линейной алгебре именно учебник Стрэнга, у него как раз в прошлом году вышло 6-ое издание. #книги
@ai_newz
🔥316👍84❤48🫡10😍7😁6⚡5❤🔥2
Media is too big
VIEW IN TELEGRAM
Послушал подкаст про поездку на NeurIPS 2023 c Владом из Tinkoff Research, автором статейки ReBRAC (писал про нее тут).
Интересный отрывок:
Действительно, реально наукой на больших конференциях вроде NeurIPS ты не занимаешься, т.к. поток новой информации просто огромный. Основной фокус сейчас для меня все же на знакомствах и поиске взаимных коллабораций.
Я почти никогда не иду полностью по всей программме докладов и по всем постерам. Различных тем так много, что это все невозможно переварить за неделю. Запоминаю основные хайлайты и стараюсь посещать только доклады, близкие к моим научным интересам. То же самое и с постерами — там бродят тысячи людей и висят сотни плакатов. Около самых расхайпованых статей обычно толпа из 10-30 человек. Я люблю выбрать интересные мне работы и прийти за 30 минут до постерной сессии. В это время обычно авторы уже тусуются на месте и вешают постеры — как раз есть время в спокойной обстановке познакомиться и обсудить работу.
Только в свои первые визиты на крупные конференции, когда я был еще PhD студентом, я делал исчерпывающие обходы всех постеров и демо. Например, так было на NIPS 2016, на моей самой первой конференции. Я тогда презентовал свою статью по self-supervised learning — CliqueCNN (видео-обзор). На конфу приехало около 3000 человек и мне это казалось мега-масштабным событием. Столько всего нового и интересного, куча плотных докладов, сотни постеров, огромный экспо-зал со стендами компаний, со всеми из которых нужно было обязательно поговорить. Я тогда едва успевал все охватить, а кроме этого ещё были и вечеринки, которые крупные фирмы устраивали каждый вечер для хайринга и нетворкинга. Каждое утро я совершал маленький подвиг, появляясь на докладах в 8:00 на следующий день после вечеринок. Ну а что говорить про нынешние NeurIPS и CVPR с >10к участников — тут уж точно нужно очень внимательно выбирать, куда ходить и на что смотреть.
@ai_newz
Интересный отрывок:
Многие реально думают, что ты приходишь на конференцию и занимаешься наукой. Там ты такой ходишь и вот наука, наука, наука...
Действительно, реально наукой на больших конференциях вроде NeurIPS ты не занимаешься, т.к. поток новой информации просто огромный. Основной фокус сейчас для меня все же на знакомствах и поиске взаимных коллабораций.
Я почти никогда не иду полностью по всей программме докладов и по всем постерам. Различных тем так много, что это все невозможно переварить за неделю. Запоминаю основные хайлайты и стараюсь посещать только доклады, близкие к моим научным интересам. То же самое и с постерами — там бродят тысячи людей и висят сотни плакатов. Около самых расхайпованых статей обычно толпа из 10-30 человек. Я люблю выбрать интересные мне работы и прийти за 30 минут до постерной сессии. В это время обычно авторы уже тусуются на месте и вешают постеры — как раз есть время в спокойной обстановке познакомиться и обсудить работу.
Только в свои первые визиты на крупные конференции, когда я был еще PhD студентом, я делал исчерпывающие обходы всех постеров и демо. Например, так было на NIPS 2016, на моей самой первой конференции. Я тогда презентовал свою статью по self-supervised learning — CliqueCNN (видео-обзор). На конфу приехало около 3000 человек и мне это казалось мега-масштабным событием. Столько всего нового и интересного, куча плотных докладов, сотни постеров, огромный экспо-зал со стендами компаний, со всеми из которых нужно было обязательно поговорить. Я тогда едва успевал все охватить, а кроме этого ещё были и вечеринки, которые крупные фирмы устраивали каждый вечер для хайринга и нетворкинга. Каждое утро я совершал маленький подвиг, появляясь на докладах в 8:00 на следующий день после вечеринок. Ну а что говорить про нынешние NeurIPS и CVPR с >10к участников — тут уж точно нужно очень внимательно выбирать, куда ходить и на что смотреть.
@ai_newz
❤🔥92👍42❤18🔥8
Ну, хватит саспенса.
Сегодня я был в гостях во Фрайбурге у своих кентов из Stability AI, основных авторов Stable Diffusion.
Кто не знает, мы учились в одной лабе в Heidelberg University, впоследствии переехавшей в LMU в Мюнхен.
На фото Фредди печатает для меня их последнюю статью про новую text-to-image модель, которую они засабмитили сегодня на ICML.
@ai_newz
Сегодня я был в гостях во Фрайбурге у своих кентов из Stability AI, основных авторов Stable Diffusion.
Кто не знает, мы учились в одной лабе в Heidelberg University, впоследствии переехавшей в LMU в Мюнхен.
На фото Фредди печатает для меня их последнюю статью про новую text-to-image модель, которую они засабмитили сегодня на ICML.
@ai_newz
❤111🔥54👍24🦄15🤩3❤🔥2😁1🙏1
Llama2d: 2D Positional Embeddings for Webpage Structural Understanding
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz
Интересный эксперимент — ребята зафайнтюнили LLaMa на понимание структуры web-страниц. Создали датасет, где из скринов веб-страниц с помощью OCR выдрали видимый текст вместе с его 2D координатами и задетектили, какие элементы на странице являются кликабельными. Затем затюнили LLaMa на этих данных, дополнительно добавив 2d эмбеддинги на вход модели.
Говорят, что так модели гораздо проще понимать страницы, и это более эффективно чем кормить пиксели напрямую в модель, как это можно делать в GPT-V.
Этот новый подход может быть полезен, например, для создания агента который сам сможет бегать по страницам и понимать как с ними взаимодействовать.
Пока ещё Work in progress. Но весь код уже выложили на гитхаб. Будем следить за развитием.
@ai_newz
❤108🔥64👍38🤯6🤩4