Как студенты используют ИИ: новое исследование от Anthropic
В лаборатории взяли аккаунты, которые привязаны к почтам учебных заведений, отфильтровали диалоги по привязке к учебе (курсовые, проекты, домашки), а затем проанализировали оставшиеся 574 740 чатов.
Сразу оговорка: все анонимно и все данные юзеров защищены. В Anthropic используют внутреннюю ИИ-систему аналитики Clio. Мы о ней рассказывали подробно вот тут. Если кратко: Clio полностью автономно в несколько этапов чистит чаты от персональных данных и извлекает из них фичи. То есть люди вообще не имеют никакого доступа к текстам: только к финальным статистикам.
Возвращаясь к результатам по студентам, вот самое интересное:
🟦 Первая картинка – это соотношение процентов диалога на определенную тему с долей бакалавров США в этой области. Самые продвинутые юзеры ИИ, конечно же, айтишники: 38.6% диалогов связаны с Computer Science, на котором учатся всего 5,4% студентов 😎
🟦 При этом самый распространенный запрос в области Computer Science – написать и отдебажить скрипт на C++ (сочувствуем). Python на втором месте.
🟦 Списывают ли студенты? Да, массово. Запрос "сделай что-нибудь, чтобы нельзя было отличить плагиат" очень распространен. А на картинке 3 представлена разбивка по паттернам промптов. Примерно в 50% случаев это не "объясни мне" а "сделай за меня".
Впрочем, ничего удивительного. Почитать полностью -> тут
В лаборатории взяли аккаунты, которые привязаны к почтам учебных заведений, отфильтровали диалоги по привязке к учебе (курсовые, проекты, домашки), а затем проанализировали оставшиеся 574 740 чатов.
Сразу оговорка: все анонимно и все данные юзеров защищены. В Anthropic используют внутреннюю ИИ-систему аналитики Clio. Мы о ней рассказывали подробно вот тут. Если кратко: Clio полностью автономно в несколько этапов чистит чаты от персональных данных и извлекает из них фичи. То есть люди вообще не имеют никакого доступа к текстам: только к финальным статистикам.
Возвращаясь к результатам по студентам, вот самое интересное:
Впрочем, ничего удивительного. Почитать полностью -> тут
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80😁63👍18😎7🔥2🤓2
This media is not supported in your browser
VIEW IN TELEGRAM
🍯 Там AlphaXiv выпустили своего бесплатного агента Deep Research
Про проект AlphaXiv мы уже не раз рассказывали. Это arXiv на ИИ-стероидах. То есть хранилище открытых статей, но не простое. Там уже есть:
–> бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям
–> агент для анализа и работы с кодовой базой статьи
–> генератор конспектов
И вот сегодня завезли еще и Deep Research. Работает быстро: буквально за минуту вы получаете комплексный литературный обзор на любую научную тему.
Агент посоветует, что почитать, выделит тренды и емко расскажет о каждом ресурсе. Затем диалог можно продолжить: бот уточнит все нужные детали и ответит на любые вопросы.
Работает бесплатно, нужно только войти в аккаунт: www.alphaxiv.org/assistant
Про проект AlphaXiv мы уже не раз рассказывали. Это arXiv на ИИ-стероидах. То есть хранилище открытых статей, но не простое. Там уже есть:
–> бесплатный встроенный ассистент для разбора статей, имеющий доступ к любым другим исследованиям
–> агент для анализа и работы с кодовой базой статьи
–> генератор конспектов
И вот сегодня завезли еще и Deep Research. Работает быстро: буквально за минуту вы получаете комплексный литературный обзор на любую научную тему.
Агент посоветует, что почитать, выделит тренды и емко расскажет о каждом ресурсе. Затем диалог можно продолжить: бот уточнит все нужные детали и ответит на любые вопросы.
Работает бесплатно, нужно только войти в аккаунт: www.alphaxiv.org/assistant
🔥118👍23❤11👌2
Общедоступная Veo-2, Live API, Gemini в таблицах и еще несколько приятных новостей от Google
Пройдемся по Changelog:
➖ Deep Research внутри Google теперь крутится но новейшей модели Gemini 2.5 Pro. Это та самая, которая сейчас топ-1 на арене и на бенчмарках по математике и кодингу.
➖ В гугл-таблицах Google Gemini теперь можно использовать в виде формулы. Просто пишете
➖ В общий доступ выходит модель veo-2.0 – модель для генерации видео. Примеры генераций мы накидывали тут.
➖ Gemini-2.0-flash появился в Live API. Теперь с ним можно делать всякие мультимодальные штуки в своих проектах. Модель может принимать на вход текст, голос и даже видео в онлайне.
Пройдемся по Changelog:
AI(<промпт>)
, и в ячейку или диапазон вставляется результат (см. пример выше).Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥29❤13
This media is not supported in your browser
VIEW IN TELEGRAM
Вы должны это увидеть: Universal Pictures совместно с Boston Dynamics надели на робопса костюм Беззубика из мультика "Как приручить дракона" и получилось вот это 🙂
Кажется, малыша Blue от Nvidia подвинули в рейтинге самых милых роботов
Кажется, малыша Blue от Nvidia подвинули в рейтинге самых милых роботов
Please open Telegram to view this post
VIEW IN TELEGRAM
❤148🔥32😍15👍9💘8👀5🕊2🗿2⚡1🤯1
Вышел DeepCoder-14B-Preview – окрытая модель для кодинга уровня o3-mini
Ее выпустили Together AI совместно с Agentica. На LiveCodeBench выбивает 60.6%, на AIME 24 – 73.8%, на CodeForces – 1936 (рейтинг). Это полноценный уровень o3-mini (low) и o1.
Моделька с ризонингом. В качестве базовой модели использовали R1-Distill-14B. Ей удлинили контекст, а потом дообучили на кастомном качественно размеченном и покрытом тестами датасете.
Интересно, что обучали только на кодинге и последовательностях длины до 32к токенов, но при этом на бенчах видно, что моделька хорошо обобщается на контекст аж до 64к и очень неплохо себя показывает в математике.
Блогпост | Гитхаб | Веса | Датасет
Ее выпустили Together AI совместно с Agentica. На LiveCodeBench выбивает 60.6%, на AIME 24 – 73.8%, на CodeForces – 1936 (рейтинг). Это полноценный уровень o3-mini (low) и o1.
Моделька с ризонингом. В качестве базовой модели использовали R1-Distill-14B. Ей удлинили контекст, а потом дообучили на кастомном качественно размеченном и покрытом тестами датасете.
Интересно, что обучали только на кодинге и последовательностях длины до 32к токенов, но при этом на бенчах видно, что моделька хорошо обобщается на контекст аж до 64к и очень неплохо себя показывает в математике.
Блогпост | Гитхаб | Веса | Датасет
❤71👍35🔥21🤔4
This media is not supported in your browser
VIEW IN TELEGRAM
Google дропнули Firebase Studio – IDE в браузере для вайб-кодинга 🎹
Это облачная среда агентской разработки приложений. Есть инструменты для прототипирования (включая дизайн), написания кода, тестирования, деплоя и мониторинга.
Получается end-to-end штука для реализации любого проекта в режиме zero code. Ну или, если хотите, авторский гугловский Cursor на максималках.
Пока что Firebase доступен в превью. Попробовать можно бесплатно здесь
Это облачная среда агентской разработки приложений. Есть инструменты для прототипирования (включая дизайн), написания кода, тестирования, деплоя и мониторинга.
Получается end-to-end штука для реализации любого проекта в режиме zero code. Ну или, если хотите, авторский гугловский Cursor на максималках.
Пока что Firebase доступен в превью. Попробовать можно бесплатно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯77🔥27👍14❤1👻1
И еще один релиз от Google: новый чип TPUv7s
Его разрабатывали под кодовым названием Ironwood. В нем 192 гигабайта видеопамяти, и по сравнению с текущим TPUv5 пиковая производительность примерно в 10 раз выше, а энергоэффективность в 2 раз лучше.
При этом пропускную способность HBM заявляют 7.2 TBps на чип. Это в 4.5 раза больше, чем у Trillium.
В целом вполне себе уровень Nvidia
blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
Его разрабатывали под кодовым названием Ironwood. В нем 192 гигабайта видеопамяти, и по сравнению с текущим TPUv5 пиковая производительность примерно в 10 раз выше, а энергоэффективность в 2 раз лучше.
При этом пропускную способность HBM заявляют 7.2 TBps на чип. Это в 4.5 раза больше, чем у Trillium.
В целом вполне себе уровень Nvidia
blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
🤯55👍29❤🔥18❤4🔥4
Anthropic 🤝 OpenAI
подписка за 200 долларов
Anthropic последовали примеру конкурента и тоже сделали для Claude подписки за кучу денег. Новый план Max включает две опции:
➖ За 100 долларов: лимиты в 5 раз больше, чем в Pro
➖ За 200 долларов: лимиты в 20 раз больше, чем в Pro
При этом никаких эксклюзивных моделей в Max нет: в добавок к лимитам обещают просто приоритетную обработку запросов в периоды повышенного трафика и гипотетический ранний доступ к будущим новым фичам.
Желающие есть?
подписка за 200 долларов
Anthropic последовали примеру конкурента и тоже сделали для Claude подписки за кучу денег. Новый план Max включает две опции:
При этом никаких эксклюзивных моделей в Max нет: в добавок к лимитам обещают просто приоритетную обработку запросов в периоды повышенного трафика и гипотетический ранний доступ к будущим новым фичам.
Желающие есть?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁119🤯25🗿14🔥10🤔6🤨3👻3😎3👾2❤1👍1
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥116👍30❤11👾8🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
Раньше система запоминала только избранную информацию из прошлых чатов. Теперь же она помнит все ваши переписки полностью и может на них ссылаться, а также учитывает любые когда-либо высказанные вами предпочтения и интересы. Такой вот RAG на стероидах.
Доступно в Pro и Plus
* Обратите внимание, что если в прошлом вы отказались от Memory, то сейчас функция вам недоступна. Надо перейти в настройки и разрешить референсинг и память.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡124👍56❤18🔥18👾5🤯2
OpenAI готовится выпускать GPT-4.1
(Да, вы все прочитали правильно, 4.1)
Об этом сообщает The Verge. Инсайдеры говорят, что грядет выпуск большой линейки моделей, среди которых будет GPT-4.1 – обновленная GPT-4o. Релиз ожидается уже на следующей неделе.
Нумерация – RIP. Но зато не будет путаницы с 4o и o4
(Да, вы все прочитали правильно, 4.1)
Об этом сообщает The Verge. Инсайдеры говорят, что грядет выпуск большой линейки моделей, среди которых будет GPT-4.1 – обновленная GPT-4o. Релиз ожидается уже на следующей неделе.
Нумерация – RIP. Но зато не будет путаницы с 4o и o4
😁144👍27🤨21🔥10❤2🗿1
Мира Мурати собирается привлечь в свой стартап 2 миллиарда долларов при оценке в $10 миллиардов
Это в два раза больше чем, как сообщалось, она искала буквально два месяца назад.
Если все получится, то это будет крупнейший seed round в истории. Даже Safe Superintelligence Суцкевера привлекли на стадии идеи в два раза меньше.
Пятьсот на дым, пятьсот на трэп, ещё пятьсот на флекс (остальное на GPU) 😎
Это в два раза больше чем, как сообщалось, она искала буквально два месяца назад.
Если все получится, то это будет крупнейший seed round в истории. Даже Safe Superintelligence Суцкевера привлекли на стадии идеи в два раза меньше.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥118👍22❤20😎11🦄2
This media is not supported in your browser
VIEW IN TELEGRAM
Ого: OpenAI выпустили подкаст про то, как они обучали GPT-4.5
Присутствовали 3 инженера из команды разработки: Амин Тутунчян, Алекс Пейно и Дэниел Селсам. Что интересного рассказали:
➖ Планирование выпуска GPT-4.5 началось еще год назад. Целью было создать модель в 10 раз умнее GPT-4. Сначала была куча тестов, а затем под GPT-4.5 пришлось почти полностью переписывать формы матриц, структуры слоёв и др (чтобы подстроиться под инфру).
➖ Основным вызовом оказалось масштабирование GPU-кластера. С увеличением количества карт (например, с 10k до 100k), начинает возникать все больше отказов и ошибок. Так что в начале обучение не задалось, но потом основные проблемы постепенно разрешились.
➖ Из забавного: прямо во время обучения была найдена критичная ошибка в реализации функции torch.sum в PyTorch. Она приводила к систематическим сбоям с доступом к памяти.
➖ Оказывается, основная метрика стартапа – это лосс на их же внутреннем коде. Работает хорошо, потому что таких данных гарантировано никогда не было в паблике, а значит и в трейне.
➖ Раньше модели были compute-bound, то есть ограниченные мощностями. 4.5 впервые стала моделью, ограниченной данными (data-bound). Сейчас это основная пробелма, потому что рост данных намного медленнее роста доступных вычислений.
➖ В целом скейлинг, конечно, замедляется, но все еще работает за счет того, что в дате всегда присутствуют длинные хвосты редких, но важных концепций. Их можно "латать" новыми данными почти бесконечно.
➖ Сейчас по эффективности обучения на тексте нейросети отстают от человека примерно в 100,000 раз. Так что, чтобы масштабироваться дальше, нам понадобятся новые алгоритмы, которые смогут извлекать больше знаний из меньшего объема даты. Да и методы обучения на масштабах миллионов видеокарт должны быть совсем другими.
Выпуск полностью – здесь
Присутствовали 3 инженера из команды разработки: Амин Тутунчян, Алекс Пейно и Дэниел Селсам. Что интересного рассказали:
Выпуск полностью – здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥31❤23👌1👨💻1