ИИ пошел во фриланс
На днях OpenAI выкатили прикольную штуку - взяли с фриланс-биржи тысячу с лишним настоящих заказов и дали их выполнить искусственному интеллекту. Не учебные задачки, а реальные заказы с путаными требованиями и странными хотелками заказчиков. На целый миллион баксов.
Результаты интересные. Claude от Anthropic решил 40% задач, GPT-4 справился с 30%, остальные модели еще меньше. По деньгам это значит, что Claude смог заработать 400 тысяч из миллиона возможных.
Самое забавное - когда ИИ просят не писать код, а выбрать лучшее решение из готовых вариантов, он справляется намного лучше. То есть критиковать чужой код у него получается лучше, чем писать свой. Прямо как у некоторых моих знакомых.
Думаю, главный вывод тут такой: связка "программист + ИИ" уже сейчас может быть очень эффективной. ИИ подсказывает решения и берет на себя рутину, а человек занимается сложными задачами и проверяет результат.
Кому интересно почитать исследование - вот ссылка: arxiv.org/pdf/2502.12115
Интересно, что будет дальше. Судя по тому, как быстро развиваются эти технологии, через годик результаты могут быть совсем другими.
На днях OpenAI выкатили прикольную штуку - взяли с фриланс-биржи тысячу с лишним настоящих заказов и дали их выполнить искусственному интеллекту. Не учебные задачки, а реальные заказы с путаными требованиями и странными хотелками заказчиков. На целый миллион баксов.
Результаты интересные. Claude от Anthropic решил 40% задач, GPT-4 справился с 30%, остальные модели еще меньше. По деньгам это значит, что Claude смог заработать 400 тысяч из миллиона возможных.
Самое забавное - когда ИИ просят не писать код, а выбрать лучшее решение из готовых вариантов, он справляется намного лучше. То есть критиковать чужой код у него получается лучше, чем писать свой. Прямо как у некоторых моих знакомых.
Думаю, главный вывод тут такой: связка "программист + ИИ" уже сейчас может быть очень эффективной. ИИ подсказывает решения и берет на себя рутину, а человек занимается сложными задачами и проверяет результат.
Кому интересно почитать исследование - вот ссылка: arxiv.org/pdf/2502.12115
Интересно, что будет дальше. Судя по тому, как быстро развиваются эти технологии, через годик результаты могут быть совсем другими.
Помните я говорил на своих выступлениях, что важно мониторить новинки в ИИ. Вот один из таких моментов. Вышел новый Grok 3, и он сейчас бесплатный для всех, говорят, что будет таким пока их сервера не упадут =) Так что подключаемся, все тут по ссылочке: https://x.com/i/grok
Обновился таки мой любимый Клод. https://claude.ai/
Много постов про это вижу, но не вижу восторга от того, что теперь туда можно в качестве контекста добавлять репозиторий GitHub. Раньше это можно было только на супер крутом тарифе делать, который еще и оплатить нельзя было, потому что только для бизнеса нерусского. А теперь всем выкатили.
Ну и конечно же всем полюбившийся режим размышления. Но тут по-своему сделали, можно задавать количество токенов на размышление. И они пишут, что для размышления не используется какая-то другая модель, что бы это не значило.
Короче тестим со всей силы =) Как минимум сейчас буду проверять на скорость ответа.
Много постов про это вижу, но не вижу восторга от того, что теперь туда можно в качестве контекста добавлять репозиторий GitHub. Раньше это можно было только на супер крутом тарифе делать, который еще и оплатить нельзя было, потому что только для бизнеса нерусского. А теперь всем выкатили.
Ну и конечно же всем полюбившийся режим размышления. Но тут по-своему сделали, можно задавать количество токенов на размышление. И они пишут, что для размышления не используется какая-то другая модель, что бы это не значило.
Короче тестим со всей силы =) Как минимум сейчас буду проверять на скорость ответа.
GPT-4.5: новая нейронка - текстовый психолог
OpenAI выкатил GPT-4.5, и снова мы должны впечатлиться новой цифровой игрушкой для современных людей. Как iPhone, только вместо дисплея — окошко чата, а вместо чипа — нейросеть размером с Эверест.
Создатели обещают, что эта штуковина стала "умнее, эмоциональнее и естественнее". Теперь она якобы реже галлюцинирует — то есть вместо трёх небылиц на страницу выдаёт всего одну. Прогресс!
Главная фишка нового GPT — повышенный эмоциональный интеллект. Теперь нейронка реагирует на ваши проблемы не как автоответчик на почте России, а как подруга после третьего бокала вина — с пониманием и без занудных советов. Разговоры обещают быть более естественными и тёплыми, словно с человеком, только без возможности перебить и сказать "да ладно, я это уже знаю".
Интересный момент — GPT-4.5 пока не работает с голосом и видео. То есть супер-интеллект, который может рассказать о квантовой физике, но видеоролик с котиками осилить не в состоянии. Как профессор, который знает пять языков, но не может настроить будильник на телефоне.
Для разработчиков эта модель будет дороже предыдущей, потому что "очень большая и требовательная к вычислениям". Жрёт ресурсы как голодный студент в столовой после сессии.
А самое забавное — OpenAI даже не уверены, будут ли поддерживать эту модель долго. Выпустили, как экспериментальный шар-зонд — полетит хорошо, будем развивать, а нет — спишем на неудачный эксперимент.
В общем, очередной шаг к будущему, где искусственный интеллект понимает нас лучше, чем мы сами себя. Или не очередной. Или не к будущему. А вы как думаете — это реальный прорыв или просто новая версия старого софта с красивым описанием?
OpenAI выкатил GPT-4.5, и снова мы должны впечатлиться новой цифровой игрушкой для современных людей. Как iPhone, только вместо дисплея — окошко чата, а вместо чипа — нейросеть размером с Эверест.
Создатели обещают, что эта штуковина стала "умнее, эмоциональнее и естественнее". Теперь она якобы реже галлюцинирует — то есть вместо трёх небылиц на страницу выдаёт всего одну. Прогресс!
Главная фишка нового GPT — повышенный эмоциональный интеллект. Теперь нейронка реагирует на ваши проблемы не как автоответчик на почте России, а как подруга после третьего бокала вина — с пониманием и без занудных советов. Разговоры обещают быть более естественными и тёплыми, словно с человеком, только без возможности перебить и сказать "да ладно, я это уже знаю".
Интересный момент — GPT-4.5 пока не работает с голосом и видео. То есть супер-интеллект, который может рассказать о квантовой физике, но видеоролик с котиками осилить не в состоянии. Как профессор, который знает пять языков, но не может настроить будильник на телефоне.
Для разработчиков эта модель будет дороже предыдущей, потому что "очень большая и требовательная к вычислениям". Жрёт ресурсы как голодный студент в столовой после сессии.
А самое забавное — OpenAI даже не уверены, будут ли поддерживать эту модель долго. Выпустили, как экспериментальный шар-зонд — полетит хорошо, будем развивать, а нет — спишем на неудачный эксперимент.
В общем, очередной шаг к будущему, где искусственный интеллект понимает нас лучше, чем мы сами себя. Или не очередной. Или не к будущему. А вы как думаете — это реальный прорыв или просто новая версия старого софта с красивым описанием?
This media is not supported in your browser
VIEW IN TELEGRAM
Как ИИ научился думать целыми кусками
Ккак мы привыкли представлять работу искусственного интеллекта? Вот сидит такой электронный мозг и подбирает слова одно за другим, как первоклассник, складывающий предложение.
А тут компания Inception Labs выкатила совершенно новую модель — Mercury. И это как переход от первоклассника к профессору литературы, который не мучительно подбирает слова, а мыслит сразу целыми концепциями.
Суть в том, что обычные модели ИИ, как ChatGPT или Gemini, работают последовательно — слово за словом, как мы, когда медленно что-то обдумываем. А новая модель Mercury работает иначе — она похожа на то, как мы схватываем суть, когда у нас случается озарение. Помните, как иногда решение приходит сразу целиком?
Вот представьте: вы размышляете над сложным вопросом и вместо того, чтобы строить логическую цепочку, вдруг — бам! — и вся картина сразу перед глазами.
Именно так работает Mercury. Она не лепит текст из кирпичиков-слов, а как будто сначала набрасывает эскиз всего текста, а потом шлифует его до совершенства.
И делает это она БЫСТРО. Представьте, что вы молниеносно схватываете суть вопроса и так же молниеносно формулируете ответ, не подбирая слова. Примерно в 10 раз быстрее, чем другие модели!
Что самое интересное — для изображений такой подход уже давно используется (все эти Midjourney, DALL-E). Они тоже не рисуют картинку пиксель за пикселем, а сразу набрасывают общую идею и постепенно уточняют. Но с текстом почему-то до сих пор не получалось.
Когда смотришь, как Mercury генерирует код, это похоже на то, как постепенно проясняется мысль в голове. Сначала смутно, а потом все чётче и чётче, пока не станет кристально ясно. Гипнотизирует!
Почему это важно? Да потому что мы, возможно, наблюдаем рождение совершенно нового типа ИИ. Это как сравнить человека, который решает задачу, медленно проговаривая каждый шаг, и того, кто сразу видит ответ, еще не успев толком прочитать условие.
А теперь представьте: что если такой ИИ научится одновременно так же быстро "думать" и текстом, и картинками? Это же почти как наше правое и левое полушарие начнут работать вместе!
Технологии не стоят на месте, и самое интересное происходит, когда кажется, что все уже придумано. Как думаете, это будущее ИИ или просто любопытный эксперимент? Лично у меня сейчас куча задач по ускорению ИИ, и это выглядит очень круто.
Ккак мы привыкли представлять работу искусственного интеллекта? Вот сидит такой электронный мозг и подбирает слова одно за другим, как первоклассник, складывающий предложение.
А тут компания Inception Labs выкатила совершенно новую модель — Mercury. И это как переход от первоклассника к профессору литературы, который не мучительно подбирает слова, а мыслит сразу целыми концепциями.
Суть в том, что обычные модели ИИ, как ChatGPT или Gemini, работают последовательно — слово за словом, как мы, когда медленно что-то обдумываем. А новая модель Mercury работает иначе — она похожа на то, как мы схватываем суть, когда у нас случается озарение. Помните, как иногда решение приходит сразу целиком?
Вот представьте: вы размышляете над сложным вопросом и вместо того, чтобы строить логическую цепочку, вдруг — бам! — и вся картина сразу перед глазами.
Именно так работает Mercury. Она не лепит текст из кирпичиков-слов, а как будто сначала набрасывает эскиз всего текста, а потом шлифует его до совершенства.
И делает это она БЫСТРО. Представьте, что вы молниеносно схватываете суть вопроса и так же молниеносно формулируете ответ, не подбирая слова. Примерно в 10 раз быстрее, чем другие модели!
Что самое интересное — для изображений такой подход уже давно используется (все эти Midjourney, DALL-E). Они тоже не рисуют картинку пиксель за пикселем, а сразу набрасывают общую идею и постепенно уточняют. Но с текстом почему-то до сих пор не получалось.
Когда смотришь, как Mercury генерирует код, это похоже на то, как постепенно проясняется мысль в голове. Сначала смутно, а потом все чётче и чётче, пока не станет кристально ясно. Гипнотизирует!
Почему это важно? Да потому что мы, возможно, наблюдаем рождение совершенно нового типа ИИ. Это как сравнить человека, который решает задачу, медленно проговаривая каждый шаг, и того, кто сразу видит ответ, еще не успев толком прочитать условие.
А теперь представьте: что если такой ИИ научится одновременно так же быстро "думать" и текстом, и картинками? Это же почти как наше правое и левое полушарие начнут работать вместе!
Технологии не стоят на месте, и самое интересное происходит, когда кажется, что все уже придумано. Как думаете, это будущее ИИ или просто любопытный эксперимент? Лично у меня сейчас куча задач по ускорению ИИ, и это выглядит очень круто.