Эмад Мостак, отец Stability AI, дал интервью в котором много интересного.
Вот краткая выжимка через плагин Video Insights для ChatGPT:
* Главный герой видео - Emad Mostaque, соучредитель и CEO компании StabilityAI, которая занимается разработкой основ для активации потенциала человечества. Он перешел из мира хедж-фондов в область искусственного интеллекта после того, как у его сына был диагностирован аутизм, и он решил внести свой вклад в поиск лечения и решений.
* Видео обсуждает различные аспекты искусственного интеллекта, включая его применение в медицине, влияние на развивающиеся страны, влияние на традиционные СМИ, бизнес-модели AI компаний (включая Stability AI) и регулирование AI в разных странах.
* В видео также обсуждаются стратегии, связанные с AI, у крупных компаний, таких как Google и Amazon, а также предположение о том, что в ближайшие 12 месяцев будет всего 5 действительно важных компаний AI.
* Видео поделено на темы, вроде: "Почему пузырь AI будет больше, чем пузырь dot com?", "Почему Индия и развивающиеся рынки быстрее всех примут AI?", "Почему мы увидим смерть многих крупных издателей контента и медиакомпаний?" и "Почему компании должны быть open source по умолчанию?".
* В конце видео проводится быстрый раунд вопросов и ответов.
Я лишь пару вещей причесал, с остальным нейронка справилась сама. Как посмотревший видео целиком, могу подтвердить, что выжимка в целом неплоха. Да, дьявол в деталях, но всё же.
Какой у вас любимый плагин или другой софт для выжимок?
Вот краткая выжимка через плагин Video Insights для ChatGPT:
* Главный герой видео - Emad Mostaque, соучредитель и CEO компании StabilityAI, которая занимается разработкой основ для активации потенциала человечества. Он перешел из мира хедж-фондов в область искусственного интеллекта после того, как у его сына был диагностирован аутизм, и он решил внести свой вклад в поиск лечения и решений.
* Видео обсуждает различные аспекты искусственного интеллекта, включая его применение в медицине, влияние на развивающиеся страны, влияние на традиционные СМИ, бизнес-модели AI компаний (включая Stability AI) и регулирование AI в разных странах.
* В видео также обсуждаются стратегии, связанные с AI, у крупных компаний, таких как Google и Amazon, а также предположение о том, что в ближайшие 12 месяцев будет всего 5 действительно важных компаний AI.
* Видео поделено на темы, вроде: "Почему пузырь AI будет больше, чем пузырь dot com?", "Почему Индия и развивающиеся рынки быстрее всех примут AI?", "Почему мы увидим смерть многих крупных издателей контента и медиакомпаний?" и "Почему компании должны быть open source по умолчанию?".
* В конце видео проводится быстрый раунд вопросов и ответов.
Я лишь пару вещей причесал, с остальным нейронка справилась сама. Как посмотревший видео целиком, могу подтвердить, что выжимка в целом неплоха. Да, дьявол в деталях, но всё же.
Какой у вас любимый плагин или другой софт для выжимок?
YouTube
Emad Mostaque: These 5 Companies Will Win the AI War; Why We Need National Data Sets | E1015
Emad Mostaque is the Co-Founder and CEO @ StabilityAI, the parent company of Stable Diffusion. Stability are building the foundation to activate humanity’s potential. To date, Emad has raised over $110M with Stability with the latest round reportedly pricing…
OpenAI недавно выпустили пост с предложением о регулировании AI и создании международной организации по надзору в этой сфере.
Может во мне говорят Web3 взгляды, но я не понимаю желания переложить всё на "папика", который бы всё запрещал / разрешал. Эти динозавры не умеют гуглить, чего уж говорить о контроле над super intelligence. OpenAI может и видят у себя в лабе что-то от чего им не по себе, но всё это больше похоже на желание через регуляторов оставить на пьедестале несколько компаний во главе с OpenAI, а остальные чай пусть голову не поднимают.
В пользу своих доводов они приводят регулирование атомной энергетики и биотехнологий, а в качестве примера такой организации ставят МАГАТЭ. Но одно дело, что-то физическое, к чему есть доступ у весьма ограниченного круга лиц, другое дело нечто цифровое в глобальном информационном пространстве.
Так что с нейронками всё иначе. Каждый может дотянуться до моделей, датасетов или открытых данных, и с помощью сообщества или того же AI, собрать модель под себя. Опенсорс двигает индустрию семимильными шагами, очень быстро догоняя, а где-то и обгоняя закрытый код. Да, дело Stability AI живёт, но не SD единым. Вчера вон вышла модель, которая на тестах даёт результаты а-ля ChatGPT при этом помещается на одной видюхе. Появляются модели, которые запускаются на телефонах, Raspberry Pi, а то и вовсе в браузере через WebGPU. И что-то комьюнити не кипишует по этому поводу — тем самым показывая, что народ вполне может совладать с ситуацией.
В пользу опенсорса говорят и перекрученные фильтры на генерацию контента. Взгляните на топ-250 фильмов Кинопоиска или Imdb и посчитайте по пальцам какие из них могли бы быть сгенерированы. Так мы следующий Breaking Bad не снимем.
А контролировать компьют (вычислительные мощности людей) это вообще мягко говоря так себе идея. Облака не справляются с нагрузкой, те же ChatGPT и Bing постоянно тупят. А так как появляются фреймворки вроде Olive, которые могут дать буст твоему старому железу при генерациях, плюс развивается Stable Horde — опенсорсу будет где разгуляться.
https://openai.com/blog/governance-of-superintelligence
Может во мне говорят Web3 взгляды, но я не понимаю желания переложить всё на "папика", который бы всё запрещал / разрешал. Эти динозавры не умеют гуглить, чего уж говорить о контроле над super intelligence. OpenAI может и видят у себя в лабе что-то от чего им не по себе, но всё это больше похоже на желание через регуляторов оставить на пьедестале несколько компаний во главе с OpenAI, а остальные чай пусть голову не поднимают.
В пользу своих доводов они приводят регулирование атомной энергетики и биотехнологий, а в качестве примера такой организации ставят МАГАТЭ. Но одно дело, что-то физическое, к чему есть доступ у весьма ограниченного круга лиц, другое дело нечто цифровое в глобальном информационном пространстве.
Так что с нейронками всё иначе. Каждый может дотянуться до моделей, датасетов или открытых данных, и с помощью сообщества или того же AI, собрать модель под себя. Опенсорс двигает индустрию семимильными шагами, очень быстро догоняя, а где-то и обгоняя закрытый код. Да, дело Stability AI живёт, но не SD единым. Вчера вон вышла модель, которая на тестах даёт результаты а-ля ChatGPT при этом помещается на одной видюхе. Появляются модели, которые запускаются на телефонах, Raspberry Pi, а то и вовсе в браузере через WebGPU. И что-то комьюнити не кипишует по этому поводу — тем самым показывая, что народ вполне может совладать с ситуацией.
В пользу опенсорса говорят и перекрученные фильтры на генерацию контента. Взгляните на топ-250 фильмов Кинопоиска или Imdb и посчитайте по пальцам какие из них могли бы быть сгенерированы. Так мы следующий Breaking Bad не снимем.
А контролировать компьют (вычислительные мощности людей) это вообще мягко говоря так себе идея. Облака не справляются с нагрузкой, те же ChatGPT и Bing постоянно тупят. А так как появляются фреймворки вроде Olive, которые могут дать буст твоему старому железу при генерациях, плюс развивается Stable Horde — опенсорсу будет где разгуляться.
https://openai.com/blog/governance-of-superintelligence
Openai
Governance of superintelligence
Now is a good time to start thinking about the governance of superintelligence—future AI systems dramatically more capable than even AGI.
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft добавляет AI в сервис техподдержки — Power Virtual Agents.
Он позволяет создавать ботов по текстовому промту за считанные минуты, и указать цепь событий с тригерами. Боты будут отвечать на вопросы даже, на которые ответ не был заготовлен, и коммуницировать на разных языках как с клиентами, так и сотрудниками.
Будет поддержка плагинов для расширения функциональности.
Он позволяет создавать ботов по текстовому промту за считанные минуты, и указать цепь событий с тригерами. Боты будут отвечать на вопросы даже, на которые ответ не был заготовлен, и коммуницировать на разных языках как с клиентами, так и сотрудниками.
Будет поддержка плагинов для расширения функциональности.
Media is too big
VIEW IN TELEGRAM
Luma AI выпустили V2 своего плагина для Unreal Engine.
Что нового:
* Поддержка UE 5.2
* Контроль экспозиции и границ сцены
* Больше семплов
* Создание интерактивных сцен: например, через NeRF делаем 3D ассет тортика, которым можно стрелять из ружья
* Поддержка macOS (Apple Silicon) и Linux (Ubuntu)
https://lumalabs.ai/ue
Что нового:
* Поддержка UE 5.2
* Контроль экспозиции и границ сцены
* Больше семплов
* Создание интерактивных сцен: например, через NeRF делаем 3D ассет тортика, которым можно стрелять из ружья
* Поддержка macOS (Apple Silicon) и Linux (Ubuntu)
https://lumalabs.ai/ue
Дайджест:
📹 ВИДЕО + АРТ 🎨
Luden.io: собрали изометрическую point-&-click игру с помощью Midjourney и ChatGPT за 3 дня.
Microsoft, совместно с Adobe, ARM, Intel и Truepic разработали спецификацию C2PA для маркировки AI-контента.
YouTube: внедрил визуальную языковую модель Flamingo для создания описаний видео в разделе Shorts.
🎸 ЗВУК 🎸
MeLoDy: это модель, использующая языковые модели для генерации аудио высокого качества. Лучше гугловской MusicLM на тестах с музыкой длительностью в 10 или 30 секунд. Также обеспечивает высокую скорость семплирования и неограниченную по длительности. Кода пока нет.
🤖 ЧАТЫ 🤖
На арену чат-ботов вышли PaLM 2, Claude-instant-v1, MosaicML MPT-7B-chat и Vicuna-7B. Из них лучше всех себя показала модель Claude-instant-v1 (но не лучше GPT-4), а Vicuna-13B уделала PaLM 2.
LM Studio: интерфейс для общения с разными языковыми моделеями локально.
TikTok: тестит своего чат-бота Tako, который может отвечать на вопросы о видео и давать рекомендации, что посмотреть.
Dynosaur: новый фреймворк для NLP задач, который обеспечивает эффективную настройку инструкций и генерацию датасетов с высоким качеством данных при низких вычислительных затратах.
Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM.
Slovo: новый датасет для распознавания русского жестового языка (РЖЯ)
📹 ВИДЕО + АРТ 🎨
Luden.io: собрали изометрическую point-&-click игру с помощью Midjourney и ChatGPT за 3 дня.
Microsoft, совместно с Adobe, ARM, Intel и Truepic разработали спецификацию C2PA для маркировки AI-контента.
YouTube: внедрил визуальную языковую модель Flamingo для создания описаний видео в разделе Shorts.
🎸 ЗВУК 🎸
MeLoDy: это модель, использующая языковые модели для генерации аудио высокого качества. Лучше гугловской MusicLM на тестах с музыкой длительностью в 10 или 30 секунд. Также обеспечивает высокую скорость семплирования и неограниченную по длительности. Кода пока нет.
🤖 ЧАТЫ 🤖
На арену чат-ботов вышли PaLM 2, Claude-instant-v1, MosaicML MPT-7B-chat и Vicuna-7B. Из них лучше всех себя показала модель Claude-instant-v1 (но не лучше GPT-4), а Vicuna-13B уделала PaLM 2.
LM Studio: интерфейс для общения с разными языковыми моделеями локально.
TikTok: тестит своего чат-бота Tako, который может отвечать на вопросы о видео и давать рекомендации, что посмотреть.
Dynosaur: новый фреймворк для NLP задач, который обеспечивает эффективную настройку инструкций и генерацию датасетов с высоким качеством данных при низких вычислительных затратах.
Sophia: новый оптимизатор, который 2x быстрее, чем Adam для тренировки LLM.
Slovo: новый датасет для распознавания русского жестового языка (РЖЯ)
This media is not supported in your browser
VIEW IN TELEGRAM
Stability AI выпустили Reimagine XL, который будет работать эксклюзивно на Clipdrop.
Сервис является улучшенной версией инструмента Reimagine для генерации версий картинок в 1 клик. Можно генерить с разным соотношением экрана (например, панорамы), на выходе изображения будут в высоком разрешении, причём без зависимости пикселей от исходной картинки.
P.S. У меня не получилось сгенерить нормальных результатов как в анонсе. Возможно для чего-то абстрактного, небольших иллюстраций на сайт / презу, или по-быстрому убрать водяной знак оно может и зайдёт. Но после разных лор сообщества, включая фотореалистичные, к этому инструменту не тянет. Тем более потестить только 10 раз дают.
Сервис является улучшенной версией инструмента Reimagine для генерации версий картинок в 1 клик. Можно генерить с разным соотношением экрана (например, панорамы), на выходе изображения будут в высоком разрешении, причём без зависимости пикселей от исходной картинки.
P.S. У меня не получилось сгенерить нормальных результатов как в анонсе. Возможно для чего-то абстрактного, небольших иллюстраций на сайт / презу, или по-быстрому убрать водяной знак оно может и зайдёт. Но после разных лор сообщества, включая фотореалистичные, к этому инструменту не тянет. Тем более потестить только 10 раз дают.
This media is not supported in your browser
VIEW IN TELEGRAM
Voyager — первый AI-агент работающий на LLM, который непрерывно исследует мир Minecraft, приобретает различные навыки, выполняет задачи и делает новые открытия без вмешательства человека.
Он состоит из трех ключевых компонентов:
1) автоматический учебный план, который максимизирует исследование
2) постоянно растущая библиотека навыков исполняемого кода для хранения и извлечения сложных моделей поведения
3) новый итеративный механизм подсказок, который включает в себя обратную связь с окружающей средой, ошибки выполнения и самопроверку для улучшения программы.
Voyager взаимодействует с GPT-4 посредством запросов "черного ящика", что позволяет обойти необходимость точной настройки параметров модели. Навыки, развиваемые Voyager, являются временными, интерпретируемыми и композиционными, что быстро расширяет возможности агента и облегчает проблему с забыванием информации.
Модель демонстрирует сильную способность к контекстному обучению и исключительное мастерство в игре Minecraft. Voyager может использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие технологии с трудом поддаются обобщению.
Он состоит из трех ключевых компонентов:
1) автоматический учебный план, который максимизирует исследование
2) постоянно растущая библиотека навыков исполняемого кода для хранения и извлечения сложных моделей поведения
3) новый итеративный механизм подсказок, который включает в себя обратную связь с окружающей средой, ошибки выполнения и самопроверку для улучшения программы.
Voyager взаимодействует с GPT-4 посредством запросов "черного ящика", что позволяет обойти необходимость точной настройки параметров модели. Навыки, развиваемые Voyager, являются временными, интерпретируемыми и композиционными, что быстро расширяет возможности агента и облегчает проблему с забыванием информации.
Модель демонстрирует сильную способность к контекстному обучению и исключительное мастерство в игре Minecraft. Voyager может использовать изученную библиотеку навыков в новом мире Minecraft для решения новых задач с нуля, в то время как другие технологии с трудом поддаются обобщению.
В «Лаборатории Касперского» провели эксперимент насколько хорошо чат-бот ChatGPT умеет распознавать фишинг. Специалисты компании протестировали GPT-3.5-turbo более чем на двух тысячах фишинговых ссылок, смешивая их с обычными.
В рамках эксперимента специалисты компании задавали ChatGPT два вопроса: «Ведет ли эта ссылка на фишинговый сайт?» и «Безопасно ли переходить по этой ссылке?».
Отвечая на первый вопрос, ChatGPT правильно распознал фишинговую ссылку в 87,2% случаев, а на второй вопрос в 93,8%. Коэффициент ложноположительных срабатываний (безопасная ссылка названа фишинговой) 23,2% в первом случае и 64,3% во втором.
В то же время ChatGPT не всегда мог объяснить, почему та или иная ссылка является вредоносной. Многие объяснения включали выдуманные данные, AI «галлюцинировал» и просто давал ответы, несоответствующие действительности.
https://xakep.ru/2023/05/04/gpt-and-phishing/
В рамках эксперимента специалисты компании задавали ChatGPT два вопроса: «Ведет ли эта ссылка на фишинговый сайт?» и «Безопасно ли переходить по этой ссылке?».
Отвечая на первый вопрос, ChatGPT правильно распознал фишинговую ссылку в 87,2% случаев, а на второй вопрос в 93,8%. Коэффициент ложноположительных срабатываний (безопасная ссылка названа фишинговой) 23,2% в первом случае и 64,3% во втором.
В то же время ChatGPT не всегда мог объяснить, почему та или иная ссылка является вредоносной. Многие объяснения включали выдуманные данные, AI «галлюцинировал» и просто давал ответы, несоответствующие действительности.
https://xakep.ru/2023/05/04/gpt-and-phishing/
This media is not supported in your browser
VIEW IN TELEGRAM
Вкратце почему опенсорс победит
This media is not supported in your browser
VIEW IN TELEGRAM
Дайджест:
📹 ВИДЕО + АРТ 🎨
A1111: обновился до v 1.3.0, загрузка расширений теперь идёт параллельно загрузке основной программы, чтобы сэкономить время. И другое по-мелочи.
Phygital+: добавили ControlNet с кастомными стилизованными моделями, Artistic Dream (на базе Kandinsky 2.1), скетчи на готовом изображении, и подсказки промтов прямо в ноде.
ControlVideo: редактирование видео текстовым промтом. Используется ControlNet, карты краёв, и кейфреймы для сохранения консистентности... Пьём до дна за тех, кто сможет не спутать все проекты пытающиеся застолбить за собой ControlNet в названии. Кода пока нет.
NeTI: новый метод редактирования изображения текстовым промтом для персонализации под свои нужды. Кода пока нет.
ProlificDreamer: новый подход к генерации текста в 3D с использованием вариационного дистилляционного оценщика (VSD). Способствует улучшению разнообразия и качества образцов, генерирует высокое разрешение отображения и детализированные фотореалистичные модели. Кода... тоже пока нет. Я обычно проекты без кода стараюсь не подсвечивать, но тут прям какой-то тренд.
🤖 ЧАТЫ 🤖
LATM (LLMs As Tool Makers): фреймворк, который может позволить языковой модели создавать для себя инструменты и использовать их в решении задач.
OlaGPT: фреймворк для языковых моделей, который может помочь им учиться на своих ошибках + мнениях экспертов, для решения задач
Zapier: сделали чат-бота, который по текстовому запросу создаёт автоматизированные цепочки действий (запы) для почты, доков, соцсетей и т.д.
Perplexity: выпустили Copilot (с GPT-4 на борту), который по промту может сёрфить веб и глубже входить в понимание контекста, что ты ищешь, чем обычный поиск. Чтобы включить Copilot в левом верхнем углу откройте новый тред и нажмите на переключатель "Copilot", у вас будет 5 бесплатных попыток
Opera: внедрили чат-бота Aria в свой браузер. Может помочь в поиске, а также написании текста или кода
Видеос с обсуждением как работают плагины в ChatGPT
Google автоматизировала с помощью LLM обновление кода на основе комментов
📹 ВИДЕО + АРТ 🎨
A1111: обновился до v 1.3.0, загрузка расширений теперь идёт параллельно загрузке основной программы, чтобы сэкономить время. И другое по-мелочи.
Phygital+: добавили ControlNet с кастомными стилизованными моделями, Artistic Dream (на базе Kandinsky 2.1), скетчи на готовом изображении, и подсказки промтов прямо в ноде.
ControlVideo: редактирование видео текстовым промтом. Используется ControlNet, карты краёв, и кейфреймы для сохранения консистентности... Пьём до дна за тех, кто сможет не спутать все проекты пытающиеся застолбить за собой ControlNet в названии. Кода пока нет.
NeTI: новый метод редактирования изображения текстовым промтом для персонализации под свои нужды. Кода пока нет.
ProlificDreamer: новый подход к генерации текста в 3D с использованием вариационного дистилляционного оценщика (VSD). Способствует улучшению разнообразия и качества образцов, генерирует высокое разрешение отображения и детализированные фотореалистичные модели. Кода... тоже пока нет. Я обычно проекты без кода стараюсь не подсвечивать, но тут прям какой-то тренд.
🤖 ЧАТЫ 🤖
LATM (LLMs As Tool Makers): фреймворк, который может позволить языковой модели создавать для себя инструменты и использовать их в решении задач.
OlaGPT: фреймворк для языковых моделей, который может помочь им учиться на своих ошибках + мнениях экспертов, для решения задач
Zapier: сделали чат-бота, который по текстовому запросу создаёт автоматизированные цепочки действий (запы) для почты, доков, соцсетей и т.д.
Perplexity: выпустили Copilot (с GPT-4 на борту), который по промту может сёрфить веб и глубже входить в понимание контекста, что ты ищешь, чем обычный поиск. Чтобы включить Copilot в левом верхнем углу откройте новый тред и нажмите на переключатель "Copilot", у вас будет 5 бесплатных попыток
Opera: внедрили чат-бота Aria в свой браузер. Может помочь в поиске, а также написании текста или кода
Видеос с обсуждением как работают плагины в ChatGPT
Google автоматизировала с помощью LLM обновление кода на основе комментов
This media is not supported in your browser
VIEW IN TELEGRAM
Break-a-scene: сегментация объектов в кадре по контекстам, для возможности редактирования каждого изображения по отдельности. Своего рода мульти-Dreambooth.
Можно:
* генерить вариации одной и той же сцены с хорошей консистентностью;
* деконструировать объекты в кадре, вроде собаки в пижаме на фоне красной стены, чтобы одеть в пижаму кота на фоне леса или перенести собаку на фон Стоунхэнджа;
* делать инпейнт по рефу в каждую маску для своего контекста
* удалять/заменять объекты на фронте или вытаскивать чисто бэкграунд
Сайт
Кода пока нет
Можно:
* генерить вариации одной и той же сцены с хорошей консистентностью;
* деконструировать объекты в кадре, вроде собаки в пижаме на фоне красной стены, чтобы одеть в пижаму кота на фоне леса или перенести собаку на фон Стоунхэнджа;
* делать инпейнт по рефу в каждую маску для своего контекста
* удалять/заменять объекты на фронте или вытаскивать чисто бэкграунд
Сайт
Кода пока нет
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia побывала на конфе Computex и показала технологию ACE. С её помощью ответы NPC в диалогах будут обрабатываться языковой моделью и не будут заскриптованы. За лицевые анимации также отвечает нейронка.
Нечто похожее делают Replica.
Ещё в рамках Computex компания представила суперкомпьютер DGX GH200 для генеративного AI, обработки огромных массивов данных и рекомендательных систем. Он объединяет 256 процессоров GH200 с системой NVLink Switch System, что позволяет им работать как один графический процессор. Суммарный объем памяти системы достигает 144 Тб (1 Эфлопс). Это почти в 500 раз больше памяти, чем у предыдущего поколения Nvidia DGX A100.
Нечто похожее делают Replica.
Ещё в рамках Computex компания представила суперкомпьютер DGX GH200 для генеративного AI, обработки огромных массивов данных и рекомендательных систем. Он объединяет 256 процессоров GH200 с системой NVLink Switch System, что позволяет им работать как один графический процессор. Суммарный объем памяти системы достигает 144 Тб (1 Эфлопс). Это почти в 500 раз больше памяти, чем у предыдущего поколения Nvidia DGX A100.
ToolBench — набор данных и инструментарий, который можно использовать для дополнительной настройки и улучшения своей языковой модели (LLM). В инструментарий входят различные функциональные модули или API, которые могут быть использованы для выполнения конкретных задач, таких как автоматизация PowerPoint, выполнения поисковых запросов, или предоставление информации о погоде.
Вот некоторые примеры того, что можно сделать:
* Тонкая настройка модели: можно использовать предоставленные ToolBench данные для тонкой настройки LLM. Это может улучшить её способность обрабатывать специфичные запросы или работать с определенными видами данных.
* Интеграция с API: поддерживается интеграция с различными API, что может позволить вашей модели взаимодействовать с внешними службами и ресурсами, например, получать погодные данные, выполнять поисковые запросы, обновлять данные о акциях и т.д.
* Разработка многокомпонентных сценариев: можно разработать и протестировать более сложные многокомпонентные сценарии, которые могут включать в себя работу с несколькими инструментами или API одновременно.
Гитхаб
Вот некоторые примеры того, что можно сделать:
* Тонкая настройка модели: можно использовать предоставленные ToolBench данные для тонкой настройки LLM. Это может улучшить её способность обрабатывать специфичные запросы или работать с определенными видами данных.
* Интеграция с API: поддерживается интеграция с различными API, что может позволить вашей модели взаимодействовать с внешними службами и ресурсами, например, получать погодные данные, выполнять поисковые запросы, обновлять данные о акциях и т.д.
* Разработка многокомпонентных сценариев: можно разработать и протестировать более сложные многокомпонентные сценарии, которые могут включать в себя работу с несколькими инструментами или API одновременно.
Гитхаб
Дайджест:
📹 ВИДЕО + АРТ 🎨
Mix-of-Show: децентрализованный мердж LoRa моделей с сохранением идентичности каждой из них. Метод использует embedding-decomposed LoRA (ED-LoRA) для настройки отдельных лор и градиентное слияние для сохранения сущности каждой из них. Код будет на гитхабе в течение 2 недель.
TaleCrafter: генерация историй с множеством персонажей по текстовому промту и реф изображениям. На выходе получается озвученное видео, например сказка. Кода пока нет.
Photoswap: замена объектов на фотографиях по реф изображению. Модель учится на основе нескольких картинок нового объекта и заменяет его в целевом изображении, сохраняя оригинальную позу и композицию. Кода пока нет.
🤖 ЧАТЫ 🤖
Фреймворк для использования LLM в качестве чат-бот сервиса. Можно засабмитить свою модель.
DNA-GPT: новый подход к обнаружению текста, сгенерированного моделями GPT, без обучения. Метод заключается в N-gram анализе различий между оригинальной и новой частью текста. DNA-GPT показал отличные результаты на английских и немецких датасетах, превосходя классификатор OpenAI.
Chain-of-Thought Hub: платформа для оценки способности больших языковых моделей (LLM) решать сложные задачи. Сравнивает модели меньше 10B с GPT-3.5. Проект поддерживает такие задачи, как математика (GSM8K), наука (MATH, TheoremQA), символическое представление (BBH), знания (MMLU, C-Eval), кодирование (HumanEval).
BigTrans: это новый способ обучения моделей, которые могут работать сразу с несколькими языками. Сначала модель учится на языках, по которым есть много данных, а потом добавляются языки, по которым данных меньше. Это помогает модели постепенно учиться работать с новыми языками.
MeZO: файнтюнинг LLM, позволяющий обучить 30B модель на одной A100 80GB.
Исследование забывчивости языковых моделей и как её решить.
SwiftSage: фреймворк для создания AI-агентов, вдохновленный двухпроцессной теорией человеческого мышления.
Intel: анонсировали процессоры 14 поколения Meteor Lake с VPU (vision processing units) для ускорения задач AI.
📹 ВИДЕО + АРТ 🎨
Mix-of-Show: децентрализованный мердж LoRa моделей с сохранением идентичности каждой из них. Метод использует embedding-decomposed LoRA (ED-LoRA) для настройки отдельных лор и градиентное слияние для сохранения сущности каждой из них. Код будет на гитхабе в течение 2 недель.
TaleCrafter: генерация историй с множеством персонажей по текстовому промту и реф изображениям. На выходе получается озвученное видео, например сказка. Кода пока нет.
Photoswap: замена объектов на фотографиях по реф изображению. Модель учится на основе нескольких картинок нового объекта и заменяет его в целевом изображении, сохраняя оригинальную позу и композицию. Кода пока нет.
🤖 ЧАТЫ 🤖
Фреймворк для использования LLM в качестве чат-бот сервиса. Можно засабмитить свою модель.
DNA-GPT: новый подход к обнаружению текста, сгенерированного моделями GPT, без обучения. Метод заключается в N-gram анализе различий между оригинальной и новой частью текста. DNA-GPT показал отличные результаты на английских и немецких датасетах, превосходя классификатор OpenAI.
Chain-of-Thought Hub: платформа для оценки способности больших языковых моделей (LLM) решать сложные задачи. Сравнивает модели меньше 10B с GPT-3.5. Проект поддерживает такие задачи, как математика (GSM8K), наука (MATH, TheoremQA), символическое представление (BBH), знания (MMLU, C-Eval), кодирование (HumanEval).
BigTrans: это новый способ обучения моделей, которые могут работать сразу с несколькими языками. Сначала модель учится на языках, по которым есть много данных, а потом добавляются языки, по которым данных меньше. Это помогает модели постепенно учиться работать с новыми языками.
MeZO: файнтюнинг LLM, позволяющий обучить 30B модель на одной A100 80GB.
Исследование забывчивости языковых моделей и как её решить.
SwiftSage: фреймворк для создания AI-агентов, вдохновленный двухпроцессной теорией человеческого мышления.
Intel: анонсировали процессоры 14 поколения Meteor Lake с VPU (vision processing units) для ускорения задач AI.
RAPHAEL — новая text-2-image модель, создающая высокохудожественные изображения, точно следуя промтам (включая существительные, прилагательные и глаголы). При этом текст на генерациях хорошо читается.
RAPHAEL использует смесь экспертных слоев (mixture-of-experts или MoE) для создания миллиардов диффузионных каналов. Каждый такой канал можно представить как "художника", который рисует определенную часть изображения.
Модель RAPHAEL превосходит Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2 по качеству изображения и эстетической привлекательности. И может соперничать с Midjourney.
Кода пока нет.
P.S. как-то мало данных и шума вокруг проекта. Но будем держать руку на пульсе.
RAPHAEL использует смесь экспертных слоев (mixture-of-experts или MoE) для создания миллиардов диффузионных каналов. Каждый такой канал можно представить как "художника", который рисует определенную часть изображения.
Модель RAPHAEL превосходит Stable Diffusion, ERNIE-ViLG 2.0, DeepFloyd и DALL-E 2 по качеству изображения и эстетической привлекательности. И может соперничать с Midjourney.
Кода пока нет.
P.S. как-то мало данных и шума вокруг проекта. Но будем держать руку на пульсе.
This media is not supported in your browser
VIEW IN TELEGRAM
Gen-L-Video: метод создания и редактирования длинных видео на основе множества текстовых промтов без дополнительного обучения и сохранения согласованности контента. Есть схожесть с NUWA-XL, и кода тоже пока нет.