📊 Новые данные от METR о скорости развития ИИ заставляют экспертов корректировать прогнозы
Claude 3.5 вышел на уровень среднего человека-исследователя, показав прирост в 0.2 пункта за 4 месяца. Звучит скромно, но для этой метрики это существенный рост.
Интересные детали из исследования:
- ИИ генерирует и тестирует решения в 10 раз быстрее людей
- В одной из задач o1-preview смог оптимизировать CUDA-ядро лучше, чем лучший человек-эксперт (0.64 мс против 0.67 мс)
- При этом медианный результат ИИ всё еще слабый – модели часто "спотыкаются" на необычных задачах
Эли Лифланд пересмотрел свои ожидания: вероятность появления автономного ИИ-исследователя к концу 2027 повысилась с 20% до 30%.
Даниэль Кокотайло отметил, что o1 и Claude уже способны автономно работать над сложными ML-задачами больше часа – такой результат ожидался только к 2026 году.
Похоже, прогресс в этой области ускоряется быстрее, чем предполагали совсем недавно.
Закон возврата технологий работает.
#METR #AGI
———
@tsingular
Claude 3.5 вышел на уровень среднего человека-исследователя, показав прирост в 0.2 пункта за 4 месяца. Звучит скромно, но для этой метрики это существенный рост.
Интересные детали из исследования:
- ИИ генерирует и тестирует решения в 10 раз быстрее людей
- В одной из задач o1-preview смог оптимизировать CUDA-ядро лучше, чем лучший человек-эксперт (0.64 мс против 0.67 мс)
- При этом медианный результат ИИ всё еще слабый – модели часто "спотыкаются" на необычных задачах
Эли Лифланд пересмотрел свои ожидания: вероятность появления автономного ИИ-исследователя к концу 2027 повысилась с 20% до 30%.
Даниэль Кокотайло отметил, что o1 и Claude уже способны автономно работать над сложными ML-задачами больше часа – такой результат ожидался только к 2026 году.
Похоже, прогресс в этой области ускоряется быстрее, чем предполагали совсем недавно.
Закон возврата технологий работает.
#METR #AGI
———
@tsingular
👌10👍5
Краткий курс по промпт-инжинирингу и вызову ИИ с функциями.
Маруся -ИИ.
Тит Кузьмич и Фрол-Фомич - функции.
А там еще в сказке есть То-Чаво-На-белом-свете-Вообче-Не-может-быть!
Это AGI :)
#ФедотСтрелец #сказки
———
@tsingular
Маруся -ИИ.
Тит Кузьмич и Фрол-Фомич - функции.
А там еще в сказке есть То-Чаво-На-белом-свете-Вообче-Не-может-быть!
Это AGI :)
#ФедотСтрелец #сказки
———
@tsingular
😁10🤯2😐2🆒1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Похоже Minimax превращается в этакий генеративный Хаб.
Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:
Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.
TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!
Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series
Более того, у них уже есть упакованные продукты:
свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828
Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)
А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."
В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.
Весь фарш тут:
https://www.minimaxi.com/en
@cgevent
Мы привыкли, что это прежде всего очень крутой видео-генератор.
Но в закромах у этого стартапа, во-первых, очень много денег, а во-вторых, есть очень много параллельных решений, о которых я лично и не догадывался.
Сейчас они все это упаковали в единый сайт, и, самое главное, сделали API ко всему хозяйству.
Кроме собственно Минимакса у них, оказывается есть:
Генератор Музыки Music-01!
https://www.minimaxi.com/en/news/music-01
Не Суно, конечно, но попытка защитана.
TTS Speech-01 - генератор голоса из текста:
https://www.minimaxi.com/en/news/speech-01
С эмоциональным, как пишут, интеллектом.
Speech-01 can handle up to 10 million characters in a single output!
Своя LLM - ABAB. Версия 7 в бете, а в 6.5 был триллион параметров и 200к контекст.
https://www.minimaxi.com/en/news/abab7-preview-release
https://www.minimaxi.com/en/news/abab65-series
Более того, у них уже есть упакованные продукты:
свой chatGPT:
https://www.hailuo.ai/
Я проверил, прекрасно пишет промпты для картинок.
https://www.hailuo.ai/?type=chat&chatID=317440964656717828
Внимание, у них свой ИИ-дэйтинг!
https://www.talkie-ai.com/
Looking for romance? (тут многие стартапы занервничали)
А еще у них есть Talkie Advanced Creation Center платформа для создания ИИ-ботов.
"Здесь вы можете не только управлять и создавать свои собственные интеллектуальные Talkies, но и выбирать различные модели ответов, настраивать и тестировать эффекты разговора ваших интеллектуальных агентов в реальном времени. В то же время, центр создания также предоставит различные плагины, такие как рисование, пение и т. д., чтобы поддержать более богатое и разнообразное создание интеллектуальных персонажей."
В общем Minimax - это не только ценный Video Gen, но и целый монстр, со своим выводком продуктов.
Для китайского рынка в первую очередь.
Весь фарш тут:
https://www.minimaxi.com/en
@cgevent
❤5
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic показали универсальный способ общения LLM с внешним миром
MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).
Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.
MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.
Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.
Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.
Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.
Примеры интеграций
Туториал по протоколу
@ai_newz
MCP (Model Context Protocol) - открытый протокол, позволяющий любой LLM получать доступ к инструментам и информации. В качестве демо Claude попросили создать веб-страницу, залить её на GitHub, создать issue и PR, что он успешно и сделал (показано на видео).
Вдохновлялись LSP - протоколом, который позволил написать ядро интеграции языка с IDE один раз и использовать её повсюду, чем изменил рынок редакторов кода, дав маленьким проектам конкурировать с большими IDE.
MCP работает по простой клиент-серверной архитектуре - приложения на основе LLM (клиенты) могут запрашивать информацию у серверов, а также пользоваться предоставленными серверами инструментами. Ещё серверы могут задавать ряд промптов. Сделать сервер довольно просто - показанный в видео сервер для GitHub написали меньше чем за час.
Клиент пока что только один - Claude Desktop, а серверы нужно разворачивать своими руками локально. Потом обещают поддержку сторонних серверов - то есть в каком-то Notion будет кнопка "привязать Claude/ChatGPT/Gemini", через которую LLM будет даваться доступ к вашим данным.
Выглядит это куда интереснее, чем то как пытаются сделать интеграции OpenAI и Google в ChatGPT и Gemini. Во-первых, MCP более гибкий - авторы приложений могут встраивать туда MCP-серверы. Во-вторых, открытость протокола позволит более маленьким провайдерам, вроде Mistral или DeepSeek, использовать куда больше тулов, чем если бы они пытались сделать это сами. Ну и, конечно же, это приближает эру агентов.
Взлетит или не взлетит - пока ещё непонятно, но выглядит многообещающе. В качестве примеров для разработчиков Anthropic сделали 9 MCP-серверов - Slack, Google Maps, GitHub и ещё несколько. Несколько компаний уже принялись делать и сторонних клиентов - к примеру, авторы Zed и Codeium.
Примеры интеграций
Туториал по протоколу
@ai_newz
🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA Fugatto превращает слова в невиданные звуки и композиции
NVIDIA представила прототип аудио-трансформера Fugatto с 2.5 млрд параметров.
Нейросеть, обученная на 32 GPU H100, способна синтезировать и модифицировать любые звуковые комбинации из текста.
Технология ComposableART позволяет создавать гибридные звуки вроде мяукающей трубы 🎵🐱 или звука прибывающего поезда плавно переходящего в выступление симфонического оркестра.
Возможная и генерация новых не существующих звуков и бесшовный морфинг существующих.
Можно убрать голос из композиции и наоборот, убрать музыку, оставив голос.
Модель применима в игровой индустрии, рекламе, обучении языкам и музыкальном производстве.
В очень интересном направлении движутся товарищи, - выявление схожих паттернов в не связанных доменах знаний.
А голосовая демка, - это просто наглядный пример.
Посмотреть пока можно анонс, трейлер и документацию.
Саму модель еще не опубликовали.
#NVIDIA #Fugatto #AudioAI
-------
@tsingular
NVIDIA представила прототип аудио-трансформера Fugatto с 2.5 млрд параметров.
Нейросеть, обученная на 32 GPU H100, способна синтезировать и модифицировать любые звуковые комбинации из текста.
Технология ComposableART позволяет создавать гибридные звуки вроде мяукающей трубы 🎵🐱 или звука прибывающего поезда плавно переходящего в выступление симфонического оркестра.
Возможная и генерация новых не существующих звуков и бесшовный морфинг существующих.
Можно убрать голос из композиции и наоборот, убрать музыку, оставив голос.
Модель применима в игровой индустрии, рекламе, обучении языкам и музыкальном производстве.
В очень интересном направлении движутся товарищи, - выявление схожих паттернов в не связанных доменах знаний.
А голосовая демка, - это просто наглядный пример.
Посмотреть пока можно анонс, трейлер и документацию.
Саму модель еще не опубликовали.
#NVIDIA #Fugatto #AudioAI
-------
@tsingular
⚡7
MTS AI выпустили компактную русскоязычную LLM-модель Cotype Nano
Разработаны три модификации малой языковой модели: базовая, квантизированная и CPU-версия.
Датасет сфокусирован на математике, программировании, function-calling, RAG и классификации.
Двухстадийное обучение включало тренировку MLP с LoRa и полное обучение на инструкциях.
Технические оптимизации позволили уменьшить размер до 1.6ГБ видеопамяти через AWQ-квантизацию.
Модель заняла первое место на RuGeneralArena в своей категории, демонстрируя высокую эффективность при минимальных ресурсах.
Если нет видеокарты и не нужен большой контекст,- вполне.
#MTS #Cotype #NLP #МТС
-------
@tsingular
Разработаны три модификации малой языковой модели: базовая, квантизированная и CPU-версия.
Датасет сфокусирован на математике, программировании, function-calling, RAG и классификации.
Двухстадийное обучение включало тренировку MLP с LoRa и полное обучение на инструкциях.
Технические оптимизации позволили уменьшить размер до 1.6ГБ видеопамяти через AWQ-квантизацию.
Модель заняла первое место на RuGeneralArena в своей категории, демонстрируя высокую эффективность при минимальных ресурсах.
Если нет видеокарты и не нужен большой контекст,- вполне.
#MTS #Cotype #NLP #МТС
-------
@tsingular
👍5
Forwarded from эйай ньюз
INTELLECT-1 - первая децентрализованно натренированная LLM
Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.
В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.
Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.
Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.
Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.
@ai_newz
Наконец-то завершилась первая большая распределённая тренировка, продолжавшаяся больше месяца на трёх континентах - в Европе, Азии и Северной Америке. В результате вышла 10B модель, натренированная на одном триллионе токенов, на что ушло около 80к H100-часов.
В тренировке поучавствовало около 30 людей и организаций, компьютом скинулся даже Hugging Face. Большую часть времени тренировки регистрация была закрыта, а поучаствовать можно было только задеплоив готовый образ на машине с 8xH100 80Gb через Prime Intellect, агрегатор GPU-провайдеров, который и организовал тренировку. В следующих трейнинг ранах обещают открыть доступ к тренировке и с другого железа и не через Prime Intellect, ждём.
Но даже когда тренировать смогут все желающие на любом железе, на консьюмерских видеокартах поучаствовать вряд-ли выйдет - сейчас в 24 гига 4090, для тренировки, влезет максимум модель 3B класса. Но через пару прорывов в распределённой тренировке, Training@home может стать реальностью.
Вышла явно не SOTA - современные модели тренируют, используя на порядок больше данных. Если авторы сильно не налажали, результаты должны быть где-то в районе Llama 2 13B. Не идеально, но в качестве proof of concept более чем достаточно.
Сделали такую распределённую тренировку возможной через слегка модифицированный DiLoCo, а код тренировки открыт и лежит на гитхабе. Сейчас модель тюнят, полный релиз будет где-то на этой неделе. Потом обещают и пейпер.
@ai_newz
🔥8👍2
🔥9🕊2🆒1
Открытия с ИИ: учёные форсируют кросс-дисциплинарные направления
В этом году, как известно, Нобелевские премии по физике и химии были присуждены за достижения с ИИ, - Джон Хопфилд и Джеффри Хинтон отмечены за фундаментальные работы по нейронным сетям, а Дэвид Бейкер, Демис Хассабис и Джон Джампер получили награду за решение проблемы фолдинга белка.
Достижения эти произошли благодаря использованию ИИ и компьютерных систем.
В связи с чем исследователи Carnegie Mellon призывают к междисциплинарной интеграции естественных и компьютерных наук.
Необходимо изменить подход к подготовке специалистов широкого профиля (по аналогии с Леонардо да Винчи - специалисты, владеющие знаниями в разных областях ) для комплексных научных прорывов с использованием ИИ.
Ну и, традиционно, - продвигаться к созданию искусственного общего интеллекта (AGI).
#Nobel #DeepMind #Hinton
-------
@tsingular
В этом году, как известно, Нобелевские премии по физике и химии были присуждены за достижения с ИИ, - Джон Хопфилд и Джеффри Хинтон отмечены за фундаментальные работы по нейронным сетям, а Дэвид Бейкер, Демис Хассабис и Джон Джампер получили награду за решение проблемы фолдинга белка.
Достижения эти произошли благодаря использованию ИИ и компьютерных систем.
В связи с чем исследователи Carnegie Mellon призывают к междисциплинарной интеграции естественных и компьютерных наук.
Необходимо изменить подход к подготовке специалистов широкого профиля (по аналогии с Леонардо да Винчи - специалисты, владеющие знаниями в разных областях ) для комплексных научных прорывов с использованием ИИ.
Ну и, традиционно, - продвигаться к созданию искусственного общего интеллекта (AGI).
#Nobel #DeepMind #Hinton
-------
@tsingular
✍2
Media is too big
VIEW IN TELEGRAM
Claude получил персонализацию стиля общения
Антропик представил долгожданное обновление функций персонализации стиля диалога для всех пользователей Claude.ai.
Нейросеть теперь умеет адаптировать тон, структуру и формат ответов под индивидуальные предпочтения каждого собеседника.
Доступны готовые шаблоны для технической документации, маркетинга и проектных требований.
Возможна загрузка собственных примеров текста для обучения предпочтительному стилю коммуникации.
Скопировать стиль любого автора стало еще проще. Перетаскиваете документ в диалог, - и всё.
Надо в бота добавить что-ли...
#Claude #Anthropic #personalization
-------
@tsingular
Антропик представил долгожданное обновление функций персонализации стиля диалога для всех пользователей Claude.ai.
Нейросеть теперь умеет адаптировать тон, структуру и формат ответов под индивидуальные предпочтения каждого собеседника.
Доступны готовые шаблоны для технической документации, маркетинга и проектных требований.
Возможна загрузка собственных примеров текста для обучения предпочтительному стилю коммуникации.
Скопировать стиль любого автора стало еще проще. Перетаскиваете документ в диалог, - и всё.
Надо в бота добавить что-ли...
#Claude #Anthropic #personalization
-------
@tsingular
❤5💯3🆒2
Взлом ИИ роботов превращает их в камикадзе
Специалисты Университета Пенсильвании разработали технологию взлома систем автономных устройств.
RoboPAIR, разработанная учёными, демонстрирует 100% успеха в деактивации защитных механизмов роботизированных систем.
Атакующий модуль использует языковые модели для генерации вредоносных команд, для обхода встроенной защиты.
После обхода защиты, модуль создаёт в API целевого робота возможность исполнять произвольные промпты.
Уязвимыми оказались Go2, Clearpath Jackal и симулятор Nvidia Dolphins.
Взломанные машины способны атаковать пешеходов, устанавливать взрывные устройства и вести скрытое наблюдение.
Получается используют LLM для взлома LLM.
#robotics #security #RoboPAIR #cybersecurity
-------
@tsingular
Специалисты Университета Пенсильвании разработали технологию взлома систем автономных устройств.
RoboPAIR, разработанная учёными, демонстрирует 100% успеха в деактивации защитных механизмов роботизированных систем.
Атакующий модуль использует языковые модели для генерации вредоносных команд, для обхода встроенной защиты.
После обхода защиты, модуль создаёт в API целевого робота возможность исполнять произвольные промпты.
Уязвимыми оказались Go2, Clearpath Jackal и симулятор Nvidia Dolphins.
Взломанные машины способны атаковать пешеходов, устанавливать взрывные устройства и вести скрытое наблюдение.
Получается используют LLM для взлома LLM.
#robotics #security #RoboPAIR #cybersecurity
-------
@tsingular
🎉8👀4🎃2
Коллекция техник RAG, - 15 базовых и 10 экспериментальных вариантов.
Corrective RAG - проверяет факты в реальном времени, валидирует ответы по источникам
Speculative RAG - предугадывает потребности пользователя, готовя ответы заранее
Agenetic RAG - адаптируется к пользователю со временем, учится на взаимодействиях
Self-RAG - самостоятельно оценивает точность своих ответов и улучшается
Adaptive RAG - подстраивается под контекст пользователя в реальном времени
Refeed Feedback RAG - улучшается на основе прямой обратной связи от пользователей
Realm RAG - комбинирует поиск с глубоким пониманием контекста
Raptor RAG - работает с иерархией данных
Replug RAG - интегрируется с внешними источниками
Memo RAG - сохраняет контекст между взаимодействиями с пользователем
Attention-Based RAG - фокусируется на ключевых элементах запроса
RETRO RAG - использует исторический контекст для ответов
Auto RAG - автоматизированная система поиска с минимальным участием человека
Cost-Constrained RAG - оптимизирует поиск с учетом ограничений по бюджету
ECO RAG - экологичный подход, минимизирующий энергопотребление
И еще 10 экзотических экспериментальных вариантов
Т.е. RAG можно вообще как отдельный модуль строить с коллекцией функций. Такой MegaRAG, где на входе будет еще один RAG оркестратор стоять и выбирать какой из RAGов подключить для решения задачи.
А тут еще больше разных техник:
https://github.com/NirDiamant/RAG_Techniques
#RAG #каталог #оркестраторы
-------
@tsingular
Corrective RAG - проверяет факты в реальном времени, валидирует ответы по источникам
Speculative RAG - предугадывает потребности пользователя, готовя ответы заранее
Agenetic RAG - адаптируется к пользователю со временем, учится на взаимодействиях
Self-RAG - самостоятельно оценивает точность своих ответов и улучшается
Adaptive RAG - подстраивается под контекст пользователя в реальном времени
Refeed Feedback RAG - улучшается на основе прямой обратной связи от пользователей
Realm RAG - комбинирует поиск с глубоким пониманием контекста
Raptor RAG - работает с иерархией данных
Replug RAG - интегрируется с внешними источниками
Memo RAG - сохраняет контекст между взаимодействиями с пользователем
Attention-Based RAG - фокусируется на ключевых элементах запроса
RETRO RAG - использует исторический контекст для ответов
Auto RAG - автоматизированная система поиска с минимальным участием человека
Cost-Constrained RAG - оптимизирует поиск с учетом ограничений по бюджету
ECO RAG - экологичный подход, минимизирующий энергопотребление
И еще 10 экзотических экспериментальных вариантов
Т.е. RAG можно вообще как отдельный модуль строить с коллекцией функций. Такой MegaRAG, где на входе будет еще один RAG оркестратор стоять и выбирать какой из RAGов подключить для решения задачи.
А тут еще больше разных техник:
https://github.com/NirDiamant/RAG_Techniques
#RAG #каталог #оркестраторы
-------
@tsingular
❤6🔥1
Forwarded from Анализ данных (Data analysis)
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6
Интересные результаты исследования о том, как форматирование ввода Markdown, YAML, JSON и обычного текста влияет на производительность моделей GPT.
В статье оцениваются только модели GPT, но известно, что это применимо и к другим моделям.
Например, старые версии Claude предпочитали XML (инструкции в <></> как раз отттуда).
Производительность модели может существенно различаться (до 40%) исключительно в зависимости от того, как отформатирована подсказка (см. рисунок).
Влияние одинаково для разных типов задач, от рассуждений до генерации кода.
Более крупные модели (например, GPT-4) обладают большей устойчивостью к изменениям формата по сравнению с более мелкими моделями, такими как GPT-3.5.
GPT-4-turbo имеет наиболее постоянную производительность для разных форматов (хотя все еще со значительным разбросом).
Различные модели показывают различные предпочтения для форматов подсказок, при этом GPT-3.5 работает лучше с JSON, а GPT-4 — с Markdown.
Эти предпочтения плохо переносятся между моделями, даже в пределах одного семейства (вероятно, из-за разных данных обучения).
На практике это означает, что форматы подсказок могут быть интересным параметром для оптимизации.
Исследование:
https://arxiv.org/abs/2411.10541
#JSON #YAML #Markdown #promptengeneering
———
@tsinuglar
В статье оцениваются только модели GPT, но известно, что это применимо и к другим моделям.
Например, старые версии Claude предпочитали XML (инструкции в <></> как раз отттуда).
Производительность модели может существенно различаться (до 40%) исключительно в зависимости от того, как отформатирована подсказка (см. рисунок).
Влияние одинаково для разных типов задач, от рассуждений до генерации кода.
Более крупные модели (например, GPT-4) обладают большей устойчивостью к изменениям формата по сравнению с более мелкими моделями, такими как GPT-3.5.
GPT-4-turbo имеет наиболее постоянную производительность для разных форматов (хотя все еще со значительным разбросом).
Различные модели показывают различные предпочтения для форматов подсказок, при этом GPT-3.5 работает лучше с JSON, а GPT-4 — с Markdown.
Эти предпочтения плохо переносятся между моделями, даже в пределах одного семейства (вероятно, из-за разных данных обучения).
На практике это означает, что форматы подсказок могут быть интересным параметром для оптимизации.
Исследование:
https://arxiv.org/abs/2411.10541
#JSON #YAML #Markdown #promptengeneering
———
@tsinuglar
👍6
AnythingLLM: фреймворк для запуска агентов локально с любым ИИ на выбор
Nvidia RTX анонсирует AnythingLLM, - решение для запуска локальных ИИ-агентов, работающих автономно без облака.
Удобное приложение обеспечивает выполнение многоэтапного планирования и решения задач на домашнем компьютере.
Встроены функции хранения и анализа документов, общение по ним, векторные хранилища любого вида, поддержка всех возможных ИИ провайдеров, - Mistral, Ollama, OpenAI, Anthropic.
Автоматически подтягивает все доступные модели по API ключу.
Интегрируется и общается с SQL базами, можно создавать агентов с разными функциями, вроде:
- поиск по интернету - причем с разными провайдерами на выбор
- сбор информации с сайтов, чтение содержимого
- работа с различными RAGами
- голосовое управление агентом
Ставится как десктопное приложение или можно в докере поднять на сервере и работать через WebUI!
Главное преимущество - полный контроль над данными и независимость от интернета.
Ну тут уж я фобию переборол, установил, - решение огонь.
Проверено, рекомендую!
#NVIDIA #AnythingLLM #RTX
-------
@tsingular
Nvidia RTX анонсирует AnythingLLM, - решение для запуска локальных ИИ-агентов, работающих автономно без облака.
Удобное приложение обеспечивает выполнение многоэтапного планирования и решения задач на домашнем компьютере.
Встроены функции хранения и анализа документов, общение по ним, векторные хранилища любого вида, поддержка всех возможных ИИ провайдеров, - Mistral, Ollama, OpenAI, Anthropic.
Автоматически подтягивает все доступные модели по API ключу.
Интегрируется и общается с SQL базами, можно создавать агентов с разными функциями, вроде:
- поиск по интернету - причем с разными провайдерами на выбор
- сбор информации с сайтов, чтение содержимого
- работа с различными RAGами
- голосовое управление агентом
Ставится как десктопное приложение или можно в докере поднять на сервере и работать через WebUI!
Главное преимущество - полный контроль над данными и независимость от интернета.
Ну тут уж я фобию переборол, установил, - решение огонь.
Проверено, рекомендую!
#NVIDIA #AnythingLLM #RTX
-------
@tsingular
🔥6
Forwarded from Сиолошная
Китай наносить удар! дракон!
Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:
https://huggingface.co/Qwen/QwQ-32B-Preview
Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)
Блогпост
Ниже — картинка с метриками. Для 32B модели результаты очень-очень недурные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает
Вторая китайская команда, на этот раз Qwen-часть AliBaba, разродилась моделью. Тоже превью (все видимо ждут полную о1, чтобы начать релизить?), тоже без технических деталей и статьи, зато сразу с доступными весами:
https://huggingface.co/Qwen/QwQ-32B-Preview
Тем, кому хочется сразу помучить модель вопросами, без возни с GPU, можно поиграться тут: https://huggingface.co/spaces/Qwen/QwQ-32B-preview (пока очередь маленькая)
Блогпост
Ниже — картинка с метриками. Для 32B модели результаты очень-очень недурные — Qwen-2.5 и до этого считался очень сильной моделью (с которой даже иногда избегали сравнение другие авторы моделей, ахахха, чтобы не выглядеть на их фоне вторично), а тут в два раза меньшая моделька такие скачки совершает
🔥6
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
🔥4
Создатели Android запускают ''/dev/agents' - новую ОС для ИИ-агентов
Команда экс-разработчиков Android, включая Хьюго Барра и Дэвида Синглтона, анонсировала амбициозный стартап.
Целью проекта будет создание облачной операционной системы нового поколения для автономных агентов.
Платформа предложит инновационный интерфейс и улучшенную защиту данных.
Разработчики ставят своей задачей упростить создание ИИ-решений, подобно тому как Android демократизировал мобильные технологии.
Похоже, грядёт новая операционная система, в которой ИИ будет не приложением поверх системы, а глубоко встроен в структуру, причем в виде агентов, а не просто модели.
Интересно, будет ли она такой же открытой, как Android? 🤔
Это же получается новый подкласс базовых моделей нужен на уровне ядра?
Причины синих экранов вообще теперь бесполезно будет искать... тупо чёрный ящик.
#Android #DevAgents #CloudOS
Команда экс-разработчиков Android, включая Хьюго Барра и Дэвида Синглтона, анонсировала амбициозный стартап.
Целью проекта будет создание облачной операционной системы нового поколения для автономных агентов.
Платформа предложит инновационный интерфейс и улучшенную защиту данных.
Разработчики ставят своей задачей упростить создание ИИ-решений, подобно тому как Android демократизировал мобильные технологии.
Похоже, грядёт новая операционная система, в которой ИИ будет не приложением поверх системы, а глубоко встроен в структуру, причем в виде агентов, а не просто модели.
Интересно, будет ли она такой же открытой, как Android? 🤔
Это же получается новый подкласс базовых моделей нужен на уровне ядра?
Причины синих экранов вообще теперь бесполезно будет искать... тупо чёрный ящик.
#Android #DevAgents #CloudOS
👌6👀4
Media is too big
VIEW IN TELEGRAM
CAT4D: революция в создании динамических 3D сцен из обычного видео от команды Google Deepmind
Система комбинирует видео-диффузионную модель с многоракурсным преобразованием и оптимизацией через гауссово представление.
Технология не нуждается в синхронизированной мультикамерной съёмке, восстанавливая даже скрытые участки сцены.
Обучение выполнено на смеси синтетических и реальных датасетов: Objaverse, Kubric, CO3D.
Обработка занимает 1 минуту на 16×A100 GPU, оптимизация - 25 минут на одной карте.
Сайт
Paper
#Cat4D #computervision #3Dreconstruction #Google ##Deepmind
———
@tsingular
Система комбинирует видео-диффузионную модель с многоракурсным преобразованием и оптимизацией через гауссово представление.
Технология не нуждается в синхронизированной мультикамерной съёмке, восстанавливая даже скрытые участки сцены.
Обучение выполнено на смеси синтетических и реальных датасетов: Objaverse, Kubric, CO3D.
Обработка занимает 1 минуту на 16×A100 GPU, оптимизация - 25 минут на одной карте.
Сайт
Paper
#Cat4D #computervision #3Dreconstruction #Google ##Deepmind
———
@tsingular
🔥6⚡1👍1
BrainGPT обыграл нейробиологов в предсказании научных результатов
Университетский колледж Лондона создал специализированную нейромодель BrainGPT, которая превзошла учёных в точности предсказания итогов экспериментов.
В масштабном исследовании сравнили 15 различных LLM со 171 экспертом-нейробиологом.
Результаты впечатляют: искусственный разум показал точность 81% против 63% у людей.
А специально обученная на профильной литературе версия достигла рекордных 86% точности.
Методология применима во всех научных и технических областях.
Непонятно кто теперь будет верифицировать прогнозы ИИ, если он становится умнее учёных...
Ну или верификация будет занимать всё больше и больше времени.
Человек, - медленное слабое звено, получается. :)
#BrainGPT #UCL #BrainBench
-------
@tsingular
Университетский колледж Лондона создал специализированную нейромодель BrainGPT, которая превзошла учёных в точности предсказания итогов экспериментов.
В масштабном исследовании сравнили 15 различных LLM со 171 экспертом-нейробиологом.
Результаты впечатляют: искусственный разум показал точность 81% против 63% у людей.
А специально обученная на профильной литературе версия достигла рекордных 86% точности.
Методология применима во всех научных и технических областях.
Непонятно кто теперь будет верифицировать прогнозы ИИ, если он становится умнее учёных...
Ну или верификация будет занимать всё больше и больше времени.
Человек, - медленное слабое звено, получается. :)
#BrainGPT #UCL #BrainBench
-------
@tsingular
✍5🤨2