Вчера открылся доступ к API Grok, и уже сегодня энтузиасты прогнали модель по бенчмаркам и выяснили, что она не так уж и хороша в программировании
На тестах aider она находится где-то на уровне GPT 3.5 Turbo и проигрывает почти всем закрытым моделям.
Это довольно странные результаты, учитывая, что на LMSYS арене модель завоевала на coding лидерборде уверенное второе место. Впрочем, что бенчмарки, что арена не всегда могут отражать реальность (см., например, этот пост про то, насколько обычный маркдаун ответа влияет на мнение пользователей)
На тестах aider она находится где-то на уровне GPT 3.5 Turbo и проигрывает почти всем закрытым моделям.
Это довольно странные результаты, учитывая, что на LMSYS арене модель завоевала на coding лидерборде уверенное второе место. Впрочем, что бенчмарки, что арена не всегда могут отражать реальность (см., например, этот пост про то, насколько обычный маркдаун ответа влияет на мнение пользователей)
👍18🤔14❤6
Вау, это что, новости не о том, что из OpenAI кто-то ушел, а наоборот?
К компании присоединяется Себастьен Бубек – до этого он работал вице-президентом по генеративному ИИ в Microsoft.
Какую именно роль Бубек займет в OpenAI, пока не ясно. В Microsoft он занимался моделями из семейства Phi, для обучения которых, кстати, использовались синтетические данные, сгенерированные GPT-like модельками от OpenAI.
К компании присоединяется Себастьен Бубек – до этого он работал вице-президентом по генеративному ИИ в Microsoft.
Какую именно роль Бубек займет в OpenAI, пока не ясно. В Microsoft он занимался моделями из семейства Phi, для обучения которых, кстати, использовались синтетические данные, сгенерированные GPT-like модельками от OpenAI.
😁52👍14❤7🤔3🐳1
Google подписала со стартапом Kairos Power контракт на строительство 7 ядерных реакторов
Использоваться они будут, само собой, для питания датацентров. Целью корпорация видит дополнительные ядерные мощности примерно в 500 МВт. Сообщается, что первый реактор будет запущен в 2030, остальные созреют к 2035.
Это первая в истории подобная сделка
Использоваться они будут, само собой, для питания датацентров. Целью корпорация видит дополнительные ядерные мощности примерно в 500 МВт. Сообщается, что первый реактор будет запущен в 2030, остальные созреют к 2035.
Это первая в истории подобная сделка
🤯89👏17❤10🔥5🙈5😁3👀2👍1
Что и требовалось доказать: Роботы Optimus на мероприятии Tesla дистанционно управлялись операторами
В компании утверждают, что роботы могут двигаться и самостоятельно, но на мероприятии большинство их действий (включая того самого робота у бара и танцующих роботов) почему-то контролировали операторы. Маск об этом, конечно, не упомянул.
И еще интересный факт: изначально роботы Optimus не должны были присутствовать на меро. Маск потребовал включить их в программу всего за три недели до мероприятия.
В компании утверждают, что роботы могут двигаться и самостоятельно, но на мероприятии большинство их действий (включая того самого робота у бара и танцующих роботов) почему-то контролировали операторы. Маск об этом, конечно, не упомянул.
И еще интересный факт: изначально роботы Optimus не должны были присутствовать на меро. Маск потребовал включить их в программу всего за три недели до мероприятия.
😁81👾12❤4😐4👍2
OpenAI выяснили, влияет ли ваше имя на ответы, которые дает вам ChatGPT
Обычно подобные исследования проверяют, например, насколько ИИ склонен к стереотипам относительно какого-то третьего лица, не участвующего в диалоге (например, скрининг резюме группы людей). А OpenAI решили проверить, есть ли у бота предубеждения, которые он переносит непосредственно на собеседника.
Внезапно оказалось, что (почти) нет: GPT-like модели в среднем в менее чем 1% случаев дают различные стереотипные ответы людям с разными именами. Стереотипными различиями считается, когда, например, юзеру с женским именем в ответ на расплывчатый вопрос без уточнения деталей, такой как "подскажи классное название для моего видео на YouTube", модель заговорит о рецептах или косметике, а на такой же запрос от мужчины предложит что-то про технику.
Самой стереотипной моделью оказалась GPT-3.5, самой честной – GPT-4 Turbo. Больше всего боты проявляли предвзятость в теме искусства и развлечений, а найм, кстати, оказался чуть ли не на последнем месте.
Самое интересное, что для самого анализа и сводки статистики тоже применялась LLM. Н – несмещенные оценки
Обычно подобные исследования проверяют, например, насколько ИИ склонен к стереотипам относительно какого-то третьего лица, не участвующего в диалоге (например, скрининг резюме группы людей). А OpenAI решили проверить, есть ли у бота предубеждения, которые он переносит непосредственно на собеседника.
Внезапно оказалось, что (почти) нет: GPT-like модели в среднем в менее чем 1% случаев дают различные стереотипные ответы людям с разными именами. Стереотипными различиями считается, когда, например, юзеру с женским именем в ответ на расплывчатый вопрос без уточнения деталей, такой как "подскажи классное название для моего видео на YouTube", модель заговорит о рецептах или косметике, а на такой же запрос от мужчины предложит что-то про технику.
Самой стереотипной моделью оказалась GPT-3.5, самой честной – GPT-4 Turbo. Больше всего боты проявляли предвзятость в теме искусства и развлечений, а найм, кстати, оказался чуть ли не на последнем месте.
Самое интересное, что для самого анализа и сводки статистики тоже применялась LLM. Н – несмещенные оценки
💅60👍9👏8❤3🤯2 1
Опубликовали список сабмитов на ICLR 2025! Конференция пройдет в апреле в Сингапуре, но уже сейчас есть возможность ознакомиться с поданными на нее статьями.
Приятного чтения
Приятного чтения
👍28🔥8❤5
Не завидуем сотрудникам Маска: то заставляют за три недели до мероприятия внезапно добавить в программу роботов, то за 19 дней ставишь кластер на 100 000 GPU
Особенно в шоке от ситуации с кластером CEO Nvidia. По словам Хуанга, на сетап системы такого масштаба в среднем необходимо четыре года. Фантастика.
Хотели бы себе такого начальника?
Особенно в шоке от ситуации с кластером CEO Nvidia. По словам Хуанга, на сетап системы такого масштаба в среднем необходимо четыре года. Фантастика.
Хотели бы себе такого начальника?
🌚104❤21😁19😐16👍10🔥8🙈5🤗1
Интересная статья вчера оказалась на первом месте в daily papers: китайские исследователи предложили бенчмарк, в котором LLM нужно показать свою способность отличать сгенерированный контент
Бенчмарк забавно назвали LOKI, и он содержит вообще все возможные модальности: текст, картинки, видео, 3D модели, аудио. При этом все они размечены по доменам, и конечно, помечены как сгенерированные или нет.
По LOKI прогнали 22 LLM. Результат: предсказания большинства моделей близки к случайным. Но вот GPT-4o контент, сгенерированный его ИИ-братьями, различает довольно неплохо, и заметно проседает только на тексте (что немудрено, учитывая, что это модальность, которую модели генерируют лучше всего). Более-менее с текстом справляется только Claude-3.5-Sonnet, и то выбивает не более 61.5% на бинарном выборе.
Код экспериментов лежит здесь. Сам датасет обещают выложить скоро.
Бенчмарк забавно назвали LOKI, и он содержит вообще все возможные модальности: текст, картинки, видео, 3D модели, аудио. При этом все они размечены по доменам, и конечно, помечены как сгенерированные или нет.
По LOKI прогнали 22 LLM. Результат: предсказания большинства моделей близки к случайным. Но вот GPT-4o контент, сгенерированный его ИИ-братьями, различает довольно неплохо, и заметно проседает только на тексте (что немудрено, учитывая, что это модальность, которую модели генерируют лучше всего). Более-менее с текстом справляется только Claude-3.5-Sonnet, и то выбивает не более 61.5% на бинарном выборе.
Код экспериментов лежит здесь. Сам датасет обещают выложить скоро.
👍37❤11😁4🔥3
Контекст обеих – 128к токенов. В Ministral 8B добавлено специальное чередующееся скользящее окно внимания для ускорения инференса (что-то похожее на механику в Gemma-2, о которой мы писали тут). Ориентированы обе модельки, конечно, как и все LM в таких весах, на локальный запуск.
По бенчмаркам (сравнивают с весьма ограниченным количеством моделей) семейство превосходит LLama 3.1 и Gemma в соотвутсвующих размерах.
Весов для 3В не будет
Веса Ministral 8B Instruct (только для ресерча) тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🙈5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
«Мы последнее поколение, которое не готово к тому, что какой-то инструмент, используемый нами, окажется умнее нас» – Сэм Альтман 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
😁89💯29🤪10👍6🔥6🤔2🌚2🙈2
Т-Банк открыл доступ к библиотеке Turbo Alignment для обучения LLM под задачи бизнеса
Инструмент создан для того, чтобы помочь бизнесу, не специализирующемуся на ИИ, создавать готовые продукты на базе LLM с нуля. Это могут быть, например, ассистенты поддержки, суммаризаторы или умные поисковые системы.
Кроме прикладных инструментов, бизнесу доступна собственная LLM банка T-lite (ее технический разбор мы делали здесь, почитайте). Напоминаем, что на бенчмарках она показывает лучшие результаты в решении бизнес-задач на русском языке.
Кажется, что-то такое давно напрашивалось на российский рынок: готовых русскоязычных решений мало, а западные не всегда решают нужную проблему. Не удивительно, что нишу занял Т-Банк: они (и особенно их лаборатория T-Bank AI Research) последнее время постоянно катят что-нибудь в опенсорс и вкладываются в российский ресерч и индустрию в целом. Ранее банк вошел в топ-3 российских игроков в опенсорсе по результатам исследования ИТМО.
Библиотека доступна на GitHub, где также можно найти подробное описание всех методов и примеров использования.
Инструмент создан для того, чтобы помочь бизнесу, не специализирующемуся на ИИ, создавать готовые продукты на базе LLM с нуля. Это могут быть, например, ассистенты поддержки, суммаризаторы или умные поисковые системы.
Кроме прикладных инструментов, бизнесу доступна собственная LLM банка T-lite (ее технический разбор мы делали здесь, почитайте). Напоминаем, что на бенчмарках она показывает лучшие результаты в решении бизнес-задач на русском языке.
Кажется, что-то такое давно напрашивалось на российский рынок: готовых русскоязычных решений мало, а западные не всегда решают нужную проблему. Не удивительно, что нишу занял Т-Банк: они (и особенно их лаборатория T-Bank AI Research) последнее время постоянно катят что-нибудь в опенсорс и вкладываются в российский ресерч и индустрию в целом. Ранее банк вошел в топ-3 российских игроков в опенсорсе по результатам исследования ИТМО.
Библиотека доступна на GitHub, где также можно найти подробное описание всех методов и примеров использования.
👍39🔥17💅10😁4❤3🌭2🐳1
На случай если вы, также как и мы, пропустили, что вышла YOLO 11, сообщаем: вышла YOLO 11!
Как всегда – быстрее выше сильнее предыдущей версии. Меньше параметров, точность выше, улучшенный фиче экстракшен.
Попробовать:
Как всегда – быстрее выше сильнее предыдущей версии. Меньше параметров, точность выше, улучшенный фиче экстракшен.
Попробовать:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the YOLO11n model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
❤42🔥19👍11🗿4🤯2🤩2🤨2
Тем временем все только и говорят, что о новой LLM от Nvidia, которая на метриках бьет GPT-4o и Sonnet 3.5
На самом деле, конечно, бьет она их не на всех бенчмарках, но на Arena Hard, AlpacaEval 2 и MT-Bench – да, а это уже очень хорошо.
Модель опенсорсная (веса), и под капотом у нее Llama-3.1-70B-Instruct под секретным соусом RLHF.
Также релизнули Llama-3.1-Nemotron-70B-Reward, которая заняла второе место на ревард бенче.
На самом деле, конечно, бьет она их не на всех бенчмарках, но на Arena Hard, AlpacaEval 2 и MT-Bench – да, а это уже очень хорошо.
Модель опенсорсная (веса), и под капотом у нее Llama-3.1-70B-Instruct под секретным соусом RLHF.
Также релизнули Llama-3.1-Nemotron-70B-Reward, которая заняла второе место на ревард бенче.
❤36👍12🔥8🤔6
Вышел PyTorch 2.5 🤩
Все основные изменения связаны с flex attention. Теперь оно сможет принимать на вход маски и скейлы, использовать разреженные блоки, а также передавать параметры сразу в ядра triton. Также добавили CuDNN для SDPA и что-то улучшили в torch.compile
Подробности - в блоге
Все основные изменения связаны с flex attention. Теперь оно сможет принимать на вход маски и скейлы, использовать разреженные блоки, а также передавать параметры сразу в ядра triton. Также добавили CuDNN для SDPA и что-то улучшили в torch.compile
Подробности - в блоге
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52🔥14👍11
Data Secrets
Обычный день в команде аналитиков
Обычный день в команде аналитиков v2.0
😁179👍15🔥10💯8🤪6❤🔥3
На выставке GITEX Global 2024 в Дубае ряд спикеров из Сбера, Института AIRI и группы компаний ЦРТ обсудили развитие технологий искусственного интеллекта в России и за рубежом. Выступления прошли в рамках сессии AI Journey.
Специалисты обсудили достижения в области AI, а также ряд смежных вопросов, напрямую касающихся отрасли. Были затронуты темы:
• Синергии больших языковых моделей (LLM) и классических подходов в разработке AI-решений;
• Адаптация образования к новым AI-инструментам;
• Создания суверенной большой языковой модели, учитывающей локальные стандарты и потребности.
В этом году трек AI Journey также включили в программы ведущих конференций в Узбекистане, Индии и ОАЭ.
Специалисты обсудили достижения в области AI, а также ряд смежных вопросов, напрямую касающихся отрасли. Были затронуты темы:
• Синергии больших языковых моделей (LLM) и классических подходов в разработке AI-решений;
• Адаптация образования к новым AI-инструментам;
• Создания суверенной большой языковой модели, учитывающей локальные стандарты и потребности.
В этом году трек AI Journey также включили в программы ведущих конференций в Узбекистане, Индии и ОАЭ.
😁18👍11🔥5🌭2🍌1💘1