Forwarded from Machinelearning
— GPT-OSS-120B — 117B параметров, запускается на одной H100 (80GB)
— GPT-OSS-20B — 21B параметров, работает на 16GB GPU
💡 Оба варианта — MoE-модели (Mixture of Experts) с 4-битной квантизацией (MXFP4)
• Архитектура Token-choice MoE с SwiGLU
• Контекст до 128K токенов с RoPE
• Модель заточена на CoT (chain-of-thought)
• Поддержка instruction-following и tool-use
• Совместима с transformers, vLLM, llama.cpp, ollama
• Используется тот же токенизатор, что и в GPT-4o
Младшая модель может запускаться даже на локальном железе!
https://github.com/huggingface/transformers/releases/tag/v4.55.0
🚀 Попробовать можно тут: https://www.gpt-oss.com/
@ai_machinelearning_big_data
#openai #opensource #chatgpt
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9❤4👍3
Forwarded from Machinelearning
OpenAI опубликовали исследование о причинах галлюцинации LLM.
Галлюцинации - это не мистический сбой в сознании ИИ, а вполне предсказуемый побочный эффект его обучения.
Представьте, что перед моделью стоит задача бинарной классификации - определить, является ли предложенное утверждение корректным или нет. Математическая выкладка в исследовании проста: уровень ошибок генерации как минимум в 2 раза превышает уровень ошибок классификации. Если модель не способна надежно отличить факт от вымысла, она неизбежно будет этот вымысел генерировать.
Даже на идеально чистых данных статистические цели обучения подталкивают модель к генерации ошибок. Особенно это касается фактов, которые редко встречаются в обучающей выборке.
В работе вводится понятие
singleton rate — доля фактов, которые появились в данных лишь один раз. Теоретический расклад показывает, что уровень галлюцинаций модели будет как минимум равен этой доле. Проще говоря, если 20% фактов о днях рождения в датасете встретились единожды, модель будет выдумывать дни рождения как минимум в 20% случаев.
Модель DeepSeek-V3, на просьбу назвать день рождения одного из авторов статьи, трижды выдала неверные даты:
03-07, 15-06 и 01-01. Ни одна из них не была даже близка к правильной (осенью). В другом тесте, где нужно было сосчитать количество букв
D в слове DEEPSEEK, та же DeepSeek-V3 выдавала 2 или 3, а модели компании Марка Цукерберга и Claude 3.7 Sonnet доходили до 6 и 7. При этом базовые модели после претрейна часто показывают отличную калибровку. Например, у предобученной GPT-4 ожидаемая ошибка калибровки составляла всего 0.007, что говорит о высокой статистической адекватности ее предсказаний.
Ответ на этот вопрос - в системе оценки. Большинство современных бенчмарков поощряют угадывание. Модели, по сути, постоянно находятся в режиме сдачи экзамена, где за правильный ответ дают 1 балл, а за пустой бланк или ответ
я не знаю - 0. В такой системе оптимальная стратегия при неуверенности - только угадать. Любой шанс на правильный ответ лучше, чем гарантированный ноль.Эту гипотезу подтвердили анализом популярных оценочных наборов.
В GPQA, MMLU-Pro, Omni-MATH, SWE-bench и HLE используется строго бинарная система оценки (правильно/неправильно). Возможности получить частичный балл за честное признание в незнании там просто нет. Из 10 рассмотренных в исследовании популярных бенчмарков только один, WildBench, присуждает частичные баллы за ответы формата
я не знаю. Остальные же фактически наказывают модель за отказ галлюцинировать, создавая эпидемию штрафов за неуверенность и поощряя ее выдавать правдоподобную ложь.OpenAI предлагает встраивать явные целевые уровни уверенности в рубрики, вводить поведенческую калибровку и оценивать модели по секциям с разными порогами уверенности.
Еще рекомендуют включают мониторинг
singleton-rate на корпусе, измерение вероятности важных ответов, комбинирование RAG с верификацией фактов и изменение лидербордов чтобы ответы я не знаю не штрафовались автоматически.@ai_machinelearning_big_data
#AI #ML #LLM #Research #OpenAI
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤3🔥3
Forwarded from Machinelearning
Это один из крупнейших договоров на облачные вычисления в истории.
Расходы на инфраструктуру для ИИ продолжают расти рекордными темпами, несмотря на опасения «перегрева» рынка.
⚡ Масштаб сделки:
- OpenAI потребуется 4,5 гигаватта мощности - это больше, чем две плотины Гувера, или электричество для 4 миллионов домов.
- Oracle уже демонстрирует рост: акции компании подскочили, а Ларри Эллисон (глава Oracle) за сутки заработал $101 млрд и стал самым богатым человеком на планете, обогнав Илона Маска.
Рынок ИИ-вычислений превращается в арену сделок планетарного масштаба — где стоимость инфраструктуры измеряется сотнями миллиардов долларов и требует энергопотребления на уровне целых стран.
@ai_machinelearning_big_data
#AI #Cloud #OpenAI #Oracle #DataCenters
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥4👍2
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
🌐 OpenAI представила Atlas - свой новый AI-браузер с памятью и режимом агента.
Atlas полностью интегрирован с ChatGPT и работает на базе ChatGPT Search.
Главная фишка - Agent Mode, который может самостоятельно перемещаться по сайтам, открывать страницы и выполнять задачи прямо в браузере.
Можно запускать несколько вкладок с агентами одновременно.
🧠 Браузер также имеет постоянную память (Memory Recall), он запоминает контекст, прошлые действия и может продолжить с того места, где вы остановились.
Atlas уже доступен для всех пользователей: Free, Plus, Pro, Go и Business.
Для Enterprise и Education доступна бета-версия по разрешению администратора.
📱 Доступен для MacOs. Версии для Windows, iOS и Android - в разработке.
Скоро поделюсь результатами тестов и первыми впечатлениями от Agent Mode.
@ai_machinelearning_big_data
https://chatgpt.com/atlas
#OpenAI #Atlas #ChatGPT #AIbrowser #AgentMode
Atlas полностью интегрирован с ChatGPT и работает на базе ChatGPT Search.
Главная фишка - Agent Mode, который может самостоятельно перемещаться по сайтам, открывать страницы и выполнять задачи прямо в браузере.
Можно запускать несколько вкладок с агентами одновременно.
🧠 Браузер также имеет постоянную память (Memory Recall), он запоминает контекст, прошлые действия и может продолжить с того места, где вы остановились.
Atlas уже доступен для всех пользователей: Free, Plus, Pro, Go и Business.
Для Enterprise и Education доступна бета-версия по разрешению администратора.
📱 Доступен для MacOs. Версии для Windows, iOS и Android - в разработке.
Скоро поделюсь результатами тестов и первыми впечатлениями от Agent Mode.
@ai_machinelearning_big_data
https://chatgpt.com/atlas
#OpenAI #Atlas #ChatGPT #AIbrowser #AgentMode
👍4❤3🔥3🤯2🥰1😢1