Кажется, Llama-4 появилась на LMSYS Arena
На арене появились три новые модели под кодовыми названиями Spider, Cybele и Themis. Все они утверждают, что созданы компанией Meta AI и принадлежат к семейству Llama.
Ждем?🔵
На арене появились три новые модели под кодовыми названиями Spider, Cybele и Themis. Все они утверждают, что созданы компанией Meta AI и принадлежат к семейству Llama.
Ждем?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤69🤯19👍12🔥9🗿3🤔1
Gemini 2.5 Pro набрала 118 баллов IQ
Это достаточно большой отрыв от предыдущих результатов: для сравнения, o1-pro набирает 110, Claude 3.7 – 107, o3-mini – 104, GPT-4.5 и o1 – 97. Средний результат человека – 100.
Вопросов из датасета нет в интернете (по крайней мере, так говорит создатель). Все тесты проводит единственный человек – журналист Максим Лотт. Кстати, он также занимается тем, что трекает политические предубеждения моделек. Выходит довольно интересно (картинка 3).
trackingai.org
Это достаточно большой отрыв от предыдущих результатов: для сравнения, o1-pro набирает 110, Claude 3.7 – 107, o3-mini – 104, GPT-4.5 и o1 – 97. Средний результат человека – 100.
Вопросов из датасета нет в интернете (по крайней мере, так говорит создатель). Все тесты проводит единственный человек – журналист Максим Лотт. Кстати, он также занимается тем, что трекает политические предубеждения моделек. Выходит довольно интересно (картинка 3).
trackingai.org
👍77🔥33❤8🤨6😁4🤔3
This media is not supported in your browser
VIEW IN TELEGRAM
Многообещающе: к 2028 Авито планируют сделать из своей платформы монолитного интеллектуального ассистента и заработать на этом 21 миллиард рублей
За три года компания вложит в ИИ-технологии 12 миллиардов и планирует получить с этого более 21 миллиарда выручки. При этом часть денег также пойдет на образовательные программы в коллабе с вузами.
Интересно, что изначально Авито расчитывали на окупаемость 5 лет, но внезапно в 2024 у них уже появился реальный экономический эффект от внедрения первых ИИ-функций – 670 млн рублей. Теперь на 2025 запланирована реализация еще 20 новых сценариев использования.
В том числе в компании уже показали собственное семейство генеративных моделей – текстовую A-Vibe и мультимодальную А-Vision. Они обучены на базе Qwen2.5 7В с использованием более 10 терабайт данных. А еще инженеры прикрутили собственный токенизатор – и это помогло ускорить инференс в 2 раза.
Модельки помогут писать продающие тексты-описания, отвечать на вопросы о товаре, суммаризировать отзывы и многое другое. Потенциал домена действительно огромный.
P.S. Если хотите понять, как именно ИИ работает и приносит деньги в e-comm, почитайте нашу авторскую статью про ML в Авито: там много интересных тех. подробностей про LLM, рекомендашки и монетизацию.
За три года компания вложит в ИИ-технологии 12 миллиардов и планирует получить с этого более 21 миллиарда выручки. При этом часть денег также пойдет на образовательные программы в коллабе с вузами.
Интересно, что изначально Авито расчитывали на окупаемость 5 лет, но внезапно в 2024 у них уже появился реальный экономический эффект от внедрения первых ИИ-функций – 670 млн рублей. Теперь на 2025 запланирована реализация еще 20 новых сценариев использования.
В том числе в компании уже показали собственное семейство генеративных моделей – текстовую A-Vibe и мультимодальную А-Vision. Они обучены на базе Qwen2.5 7В с использованием более 10 терабайт данных. А еще инженеры прикрутили собственный токенизатор – и это помогло ускорить инференс в 2 раза.
Модельки помогут писать продающие тексты-описания, отвечать на вопросы о товаре, суммаризировать отзывы и многое другое. Потенциал домена действительно огромный.
P.S. Если хотите понять, как именно ИИ работает и приносит деньги в e-comm, почитайте нашу авторскую статью про ML в Авито: там много интересных тех. подробностей про LLM, рекомендашки и монетизацию.
👍47😁17☃7🔥5❤4🤯2🐳2🗿1
🍯 Hugging Face совместно с Unsloth AI выпустили гайд по тому, как быстро научить любую модельку ризонить
Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.
А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.
Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
Недавно Hugging Face добавили в свой NLP курс раздел "Build Reasoning Models". Внутри – подробнейшие наглядные объяснения, как работает обучение с подкреплением, ризонинг, GRPO и почему все это так бустит модельки.
А сегодня туда докатили еще и колаб-ноутбуки с практическими туториалами. Это буквально пошаговая end-to-end инструкция по тому, как завезти GRPO для любой модельки и заставить ее думать.
Вот ссылка на тетрадку с примером на gemma-3-1b, а вот теория к ней. Есть еще вариант с SmolLM-135M-Instruct. Для первого знакомства – идеально.
1👍93❤19👏11🔥10👌1
Сегодня ночью основатель OpenAI Сэм Альтман официально объявил о покупке стартапа DeepSeek и написал в своем Твиттере следующее:
«Мы очень ценим вклад DeepSeek в развитие open-source и обещаем сохранить традиции открытости. Поэтому теперь все их модели доступны в ChatGPT по нашей новой подписке Pro++ за 1500$ в месяц»
Также CEO пообещал в скором времени выпустить и другие модели, которые разрабатывались в DeepSeek: R1.5, R2, D2 и ☭2
Please open Telegram to view this post
VIEW IN TELEGRAM
😁778🤯54🗿36❤🔥35🤔13🤨8😎7☃4🤩4❤3👀3
Data Secrets
Сэм Альтман: GPT 4.5 ощущается как AGI В своем твиттере CEO OpenAI внезапно оживился сразу после презентации Grok-3. Сначала он намекнул, что GPT 4.5 уже тестируется и что тестировщики в восторге от модели, а затем произошло что-то совсем волшебное Альтман…
Ладно, друзья, теперь серьезно: OpenAI (о чудо!) планирует выпустить опенсорсную модель
Последним опенсорсным релизом компании была GPT-2, это было 5 лет назад. И вот сейчас Альтман объявил, что стартап вновь выпустит что-то открытое.
Что конкретно это будет – неизвестно, но напоминаем, что чуть больше месяца назад Сэм проводил в X опрос о том, какой опенсорс хотели бы видеть пользователи. Варианты были такие: локальная модель, которую можно запустить на утюге, или модель уровня o3-mini, которая запускается на GPU. С небольшим отрывом тогда победила вторая.
Возвращаясь к новости: сейчас разаботчики могут подать заявку на фидбэк сессии, то есть прийти, попробовать раннюю версию и оставить обратную связь.
Последним опенсорсным релизом компании была GPT-2, это было 5 лет назад. И вот сейчас Альтман объявил, что стартап вновь выпустит что-то открытое.
Что конкретно это будет – неизвестно, но напоминаем, что чуть больше месяца назад Сэм проводил в X опрос о том, какой опенсорс хотели бы видеть пользователи. Варианты были такие: локальная модель, которую можно запустить на утюге, или модель уровня o3-mini, которая запускается на GPU. С небольшим отрывом тогда победила вторая.
Возвращаясь к новости: сейчас разаботчики могут подать заявку на фидбэк сессии, то есть прийти, попробовать раннюю версию и оставить обратную связь.
👍71❤16🔥9🗿5🤨3🤯1
Новая модель вошла в пятерку лучших русскоязычных LLM в бенчмарке MERA. Она адаптирована под более чем 100 бизнес-сценариев по таким направлениям, как взаимодействие с клиентами, поддержка HR-функции, аналитика данных, маркетинг, финансовая отчетность и проверка документации. При этом модель может быть развернута в закрытом контуре компании без внешних API.
Ключевые апгрейды:
+40% к скорости;
+50% к точности при обработке длинных текстов до 128K токенов.
Также Cotype Pro 2 продемонстрировала улучшенные результаты в решении основных задач: генерация идей (+13%), креативное письмо (+4%), суммаризация (+6%), чаты (+9%), извлечение информации (+5%). Точность в задачах классификации остается на высоком уровне - 87%.
Перед релизом модель прошла трехмесячное тестирование в реальных условиях: в банковской сфере она использовалась для категоризации клиентских обращений в службу поддержки, а в сервисе продажи билетов MTS Live — для генерации описаний мероприятий.
"Cotype Pro 2 можно считать первым шагом MTS AI к корпоративному агентскому ИИ. Эта модель станет основой для линейки ИИ-помощников и ИИ-агентов для госсектора, банков, промышленности, ритейла, телекома, медицины и IT", – сообщают разработчики.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42❤11🗿11😁10🔥6🤔1
Еще одна приятная новость от OpenAI: обновленная нативная генерация изображений наконец-то доступна всем бесплатным пользователям
Несмотря на то, что несколько дней к ряду сервера стартапа буквально умирали, фичу все-таки докатили на фри юзеров, как и обещали.
Возможно, так в компании "отпраздновали" закрытие нового раунда инвестиций. Они привлекли рекордные 40 миллиардов долларов при оценке в $300 миллиардов. Теперь OpenAI официально делит второе место в списке единорогов мира с ByteDance (300 млрд). Дороже них остался только SpaceX (350 млрд).
А еще, на секундочку, это крупнейший раунд финансирования за всю историю частных тех.компаний. Однако пока OpenAI получит только 10 миллиардов. Остальное должно поступить к концу года, но только при условии, что к тому моменту стартап все-таки станет коммерческой организацией.
Несмотря на то, что несколько дней к ряду сервера стартапа буквально умирали, фичу все-таки докатили на фри юзеров, как и обещали.
Возможно, так в компании "отпраздновали" закрытие нового раунда инвестиций. Они привлекли рекордные 40 миллиардов долларов при оценке в $300 миллиардов. Теперь OpenAI официально делит второе место в списке единорогов мира с ByteDance (300 млрд). Дороже них остался только SpaceX (350 млрд).
А еще, на секундочку, это крупнейший раунд финансирования за всю историю частных тех.компаний. Однако пока OpenAI получит только 10 миллиардов. Остальное должно поступить к концу года, но только при условии, что к тому моменту стартап все-таки станет коммерческой организацией.
👍67🦄23😎11❤4🔥3
This media is not supported in your browser
VIEW IN TELEGRAM
Amazon показали собственного веб-агента Nova Act
На внутренних бенчмарках компании (?) по показателям управления текстом и визуальными элементами сайтов он обходит Sonnet 3.7 и Computer Use OpenAI. Особенно они подчеркивают свой фокус на надежности использования.
Самим агентом воспользоваться пока нельзя, но Amazon открывают ричерч-превью в виде библиотеки Nova Act SDK, и вот это интересно. Либа дает возможность бить процессы на атомарные команды и именно таким образом выстраивать работу агента.
При этом к каждому этапу можно дописать "заметки" (типа "при входе на сайт не принимай куки"), прикрутить дополнительные APIшки, вставить тесты, распараллеливание и др.
Примеры | Документация | Блогпост
На внутренних бенчмарках компании (?) по показателям управления текстом и визуальными элементами сайтов он обходит Sonnet 3.7 и Computer Use OpenAI. Особенно они подчеркивают свой фокус на надежности использования.
Самим агентом воспользоваться пока нельзя, но Amazon открывают ричерч-превью в виде библиотеки Nova Act SDK, и вот это интересно. Либа дает возможность бить процессы на атомарные команды и именно таким образом выстраивать работу агента.
При этом к каждому этапу можно дописать "заметки" (типа "при входе на сайт не принимай куки"), прикрутить дополнительные APIшки, вставить тесты, распараллеливание и др.
Примеры | Документация | Блогпост
❤34👍15👀9🔥5
Media is too big
VIEW IN TELEGRAM
Figure AI снова показали, как их роботы трудятся на заводе BMW
Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.
Работяги 🧑🏭
Уточняем: это не тестовая среда внутри завода, а реальное производство. Интересно, что гуманоиды работают на BMW уже несколько месяцев, но раньше только таскали железки. А теперь вот уже какое-то подобие взаимодействия со станком.
Работяги 🧑🏭
🔥122😁22👍15❤8🤯5⚡2
Как LLM выучивают факты: новое исследование от Google DeepMind
LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?
В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.
Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:
➖ Сначала модель довольно быстро изучает общие закономерности данных, запоминает, какие даты, слова, названия и имена встречаются чаще. Но при этом она ещё не формирует связь между, например, человеком и его датой рождения, а просто тыкает "наугад" исходя из статистики текстов.
➖ Потом, внезапно, наступает долгий этап плато. Производительность стабилизируется, то есть кажется, что модель все еще не видит связей. Но на самом деле в этом время атеншн аллоцируется, и формируются особые схемы внимания (attention circuits), с помощью которых LMка выделяет ключевые элементы текста и начинает ассоциировать их между собой. Кстати, на этом же этапе начинают возникать галлюцинации.
➖ Ну и, наконец, фаза приобретения знаний. Тут происходит так называемый грокинг. Лосс очень быстро падает, и модель уже не опирается только на общую статистику, а способна воспроизводить точные факты.
И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.
arxiv.org/pdf/2503.21676
LLM обучают на огромных наборах данных и их задача проста – предсказывать следующий токен. Но при этом получается так, что в итоге они каким-то образом извлекают и структурируют фактическую информацию. Так как именно происходит этот процесс "сжатия" датасетов в знания?
В DeepMind написали об этом целую работу. Они взяли для обучения 6 выдуманных биографий и трекали, в какой момент моделька перейдет от простого правдоподобного повторения к приобретению фактических знаний.
Оказалось, что такое выучивание происходит циклично, в три вполне конкретных этапа:
И, кстати, это интересно не просто теоретически. Отсюда можно сделать массу практических выводов: например, теперь понятно, с чем связано катастрофическое забывание при интеграции новой даты.
arxiv.org/pdf/2503.21676
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍113🔥36❤25🤔4✍2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тоже решили пошутить на 1 апреля и добавили в ChatGPT новый голос «Monday»
Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.
Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.
Осторожно, можно случайно заработать депрессию☠️
Звучит он буквально как утро без кофе: разбито, саркастично и немного пассивно-агрессивно.
Чтобы поболтать с понедельником, нужно обновить приложение. Доступно платным юзерам при выборе в сайд-баре, а бесплатным на боковой панели в разделе Explore GPTs.
Осторожно, можно случайно заработать депрессию
Please open Telegram to view this post
VIEW IN TELEGRAM
😁87❤40🔥11👍5✍2🗿2
Заехал новый бенчмарк ArithmeticBench по математике
Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.
Текущие скоры топовых моделей:
🟦 Gemini 2.5 – 8% на умножении
🟦 GPT-4.5 – 5% на сложении, но с делением все плохо
🟦 Claude 3.7 Sonnet – абсолютно мимо 🔤
x.com/EpochAIResearch/status/1907199415678578804
Точнее даже не по математике, а, как понятно из названия, по арифметике. Создатели – Epoch AI – пишут, что работали над ним с экспертами математиками, и в числе задач операции над 50-значными, 100-значными и даже 150-значными числами. Человеку на такое потребовались бы часы или даже дни.
Текущие скоры топовых моделей:
x.com/EpochAIResearch/status/1907199415678578804
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70❤20🫡10😁5🗿4
OpenAI официально запустили свою OpenAI Academy для всех
Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.
В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.
Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.
Стоит заглянуть, в общем: academy.openai.com
Помните, мы рассказывали, что OpenAI открывает OpenAI Academy для помощи ИИ-разработчикам и бизнесу в развивающихся регионах? Так вот теперь они расширились, и их курсы и вебинары стали доступны бесплатно абсолютно всем.
В основном это курсы по промпт-инжинерингу и тому, как использовать продукты OpenAI, но для разработчиков тоже что-то добавили.
Например, вот – курс с практическими уроками по дистилляции, файн-тюнингу, разворачиванию Realtime API и оркестрации мульти-агентных систем. А 8 апреля пройдет стрим про построение GraphRAG.
Стоит заглянуть, в общем: academy.openai.com
3🤯74🔥50👍23❤10😁2🗿2❤🔥1