Число дня: 1 084 800
За такую сумму в долларах на аукционе Sotheby's в Нью-Йорк была продана картина робота-художника Ai-Da. На картине изображен Алан Тьюринг.
За такую сумму в долларах на аукционе Sotheby's в Нью-Йорк была продана картина робота-художника Ai-Da. На картине изображен Алан Тьюринг.
👍38🤯22🔥6🤨6
Интересные слайды с лекции про LLM
Ее буквально на днях провел известный французский исследователь и предприниматель Пьер-Карл Лангле в международном европейском центре физики. Речь в презентации шла тоже про некоторую "физику" LLM: токенизацию.
Токенизация – одна из самых недооцененных и серьезных проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число.
При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry. Кроме того, пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце. А еще токенайзеры восприимчивы к регистру и плохо переносятся на новые языки. Все это сильно сказывается на качестве ответов модели.
Так вот: эти слайды, в частности, интересны тем, что в них проблема токенизации рассмотрена под микроскопом, с примерами и краткими разборами современных исследований, предлагающих какие-то решения.
От себя добавим еще несколько ресурсов, с которыми можно познакомиться, чтобы понять проблему токенизации глубже:
➡️ Наш мини-разбор статьи про LLM без токенизации на основе Mamba
➡️ Ссылка на ноутбук от Андрея Карпаты, в котором можно поиграться с песочнице токенизации смайликами
➡️ Большая лекция про токенизацию и BPE, тоже от Андрея
Ее буквально на днях провел известный французский исследователь и предприниматель Пьер-Карл Лангле в международном европейском центре физики. Речь в презентации шла тоже про некоторую "физику" LLM: токенизацию.
Токенизация – одна из самых недооцененных и серьезных проблем LLM. Именно из-за токенизации модели плохо справляются с математикой. Токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число.
При этом токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Отсюда проблемы с элементарными фонетическими задачами вроде подсчета количества букв r в слове strawberry. Кроме того, пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце. А еще токенайзеры восприимчивы к регистру и плохо переносятся на новые языки. Все это сильно сказывается на качестве ответов модели.
Так вот: эти слайды, в частности, интересны тем, что в них проблема токенизации рассмотрена под микроскопом, с примерами и краткими разборами современных исследований, предлагающих какие-то решения.
От себя добавим еще несколько ресурсов, с которыми можно познакомиться, чтобы понять проблему токенизации глубже:
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50⚡15❤9❤🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Еще одно интересное интервью на вечер субботы: гость — Франсуа Шолле
Шолле – создатель Keras, ведущий исследователь Google DeepMind и автор популярной книги "Deep Learning with Python". Он также один из учредителей премии ARC Prize, того самого ML-соревнования с призом в $1 млн (о нем тоже есть подробности в видео).
Это интервью – полная противоположность интервью Альтмана, потому что Франсуа представить совсем другой стороны ИИ. Вот, например, что он говорит про коллег из Сан-Франциско:
Интервью полностью – здесь
Шолле – создатель Keras, ведущий исследователь Google DeepMind и автор популярной книги "Deep Learning with Python". Он также один из учредителей премии ARC Prize, того самого ML-соревнования с призом в $1 млн (о нем тоже есть подробности в видео).
Это интервью – полная противоположность интервью Альтмана, потому что Франсуа представить совсем другой стороны ИИ. Вот, например, что он говорит про коллег из Сан-Франциско:
«У некоторых людей в Сан-Франциско есть комплекс Мессии, заключающийся в их убеждениях о том, что людям нужно построить ИИ и стать богами. Это похоже на поиски вечной жизни»
Интервью полностью – здесь
👍85🔥17❤13👻5
The Information поделились новым материалом про Orion. Они пишут, что скачок метрик модели Orion относительно GPT-4 гораздо меньше, чем при переходе от GPT-3 к GPT-4
С одной стороны, это объяснимо: у распределения ошибок длинный хвост, и поэтому последний квартиль бороть достаточно непросто. Следовательно, слова про скачок метрик могут просто звучать разочаровывающе, а на деле не означать, что модель плоха.
С другой стороны, в статье упоминается, что Orion не может пробить метрики GPT-4 в кодинге. Вот это уже совсем странно и грустно. Известно, что для обучения ориона используется синтетика из GPT-4 и o1, и журналисты предполагают, что из-за этого новая модель может воспроизводить ошибки старых (сомнительный вывод).
Как бы там ни было, скоро мы все увидим сами: по словам авторов, OpenAI завершает тестирование Orion и готовиться к релизу в начале 2025. Кстати, Orion может стать уже второй моделью, название которой будет начинаться не с GPT.
С одной стороны, это объяснимо: у распределения ошибок длинный хвост, и поэтому последний квартиль бороть достаточно непросто. Следовательно, слова про скачок метрик могут просто звучать разочаровывающе, а на деле не означать, что модель плоха.
С другой стороны, в статье упоминается, что Orion не может пробить метрики GPT-4 в кодинге. Вот это уже совсем странно и грустно. Известно, что для обучения ориона используется синтетика из GPT-4 и o1, и журналисты предполагают, что из-за этого новая модель может воспроизводить ошибки старых (сомнительный вывод).
Как бы там ни было, скоро мы все увидим сами: по словам авторов, OpenAI завершает тестирование Orion и готовиться к релизу в начале 2025. Кстати, Orion может стать уже второй моделью, название которой будет начинаться не с GPT.
👍34🔥11❤6😁3🤔1
Исследователи из EpochAI запустили новый математический бенчмарк FrontierMath, на котором ведущие модели решают 1-2% задач
Для формирования FrontierMath ученые работали с более чем 60 математиками. Бенчмарк получился далеко не простой: он состоит из сотен исключительно сложных задач, на решение которых у экспертов (людей) уходят часы и даже дни. Примеры задач можно посмотреть здесь, они охватывают все области современной математики.
Модели с FrontierMath справляются ну очень плохо. По сравнению с известными GSM8K и MATH, на которых LLM набирают более 90%, на этом тесте они выбивают менее 2%. Даже o1 с максимальным возможным лимитом токенов ризонинга. Даже с доступом к питону.
Все настолько печально, что нельзя сказать, какая модель хуже, а какая лучше: кажется, что те минимальные разрывы в долях процента, которые видны на графике, просто не статзначимы. Кажется, это чуть ли не единственный из появившихся в последнее время бенчей, который ставит LLM в настолько глубокий тупик.
Для формирования FrontierMath ученые работали с более чем 60 математиками. Бенчмарк получился далеко не простой: он состоит из сотен исключительно сложных задач, на решение которых у экспертов (людей) уходят часы и даже дни. Примеры задач можно посмотреть здесь, они охватывают все области современной математики.
Модели с FrontierMath справляются ну очень плохо. По сравнению с известными GSM8K и MATH, на которых LLM набирают более 90%, на этом тесте они выбивают менее 2%. Даже o1 с максимальным возможным лимитом токенов ризонинга. Даже с доступом к питону.
Все настолько печально, что нельзя сказать, какая модель хуже, а какая лучше: кажется, что те минимальные разрывы в долях процента, которые видны на графике, просто не статзначимы. Кажется, это чуть ли не единственный из появившихся в последнее время бенчей, который ставит LLM в настолько глубокий тупик.
❤89👍34🔥15🤯4
This media is not supported in your browser
VIEW IN TELEGRAM
В Китае сняли забавные кадры: на них стая робо-собак высаживается из грузовика и начинает «обследовать» территорию
Видео выглядит так, как будто снято в постапокапсисе после восстания машин. Многие пользователи даже заметили, что собаки якобы вооружены.
Конечно, никакого оружия у песиков нет, и их прогулка, на самом деле, – просто один из элементов международной выставки авиации и космонавтики. Но страшно все равно😧
Видео выглядит так, как будто снято в постапокапсисе после восстания машин. Многие пользователи даже заметили, что собаки якобы вооружены.
Конечно, никакого оружия у песиков нет, и их прогулка, на самом деле, – просто один из элементов международной выставки авиации и космонавтики. Но страшно все равно
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85😁23❤11👍3🌚2🙈2🍌1😎1
Почему слишком много регуляции ИИ – это плохо
На днях прошел TechCrunch Disrupt 2024, и на нем выступал Мартин Касадо. Он лидер одного из самых крупных инвестиционных фондов в мире – а16z. Фонд инвестировал во множество ИИ-стартапов, из последнего – в Cursor и World Labs. В общем, Мартин – очень осведомленный и влиятельный гость. Вот его интересная и едкая позиция по поводу регуляции ИИ, которой он поделился на выступлении:
➡️ Проблема большинства попыток регулирования ИИ на данный момент заключается в том, что законодатели сосредотачиваются на каком-то мифическом будущем опыте ИИ вместо того, чтобы по-настоящему понять риски, которые ИИ на самом деле представляет.
➡️ Правила создаются «из воздуха», а не на основе того, что действительно представляет из себя ИИ и как он развивался. «В этих законах даже нет определения ИИ. Как можно регулировать то, что мы не можем определить?» – говорит Мартин.
➡️ Чтобы создать нормальную систему регулирования, достаточно формально определить, чем ИИ отличается от человека, у которого есть доступ в Интернет. От человека, который умеет пользоваться Google. Тогда мы сможем найти слабые места и регулировать именно то, что надо, а не выдумывать себе терминатора.
Главная мысль спикера: «все слишком сильно носятся с регуляцией ИИ, чего делать не стоит. У нас уже есть устойчивые рабочие системы безопасности, которых на сегодняшний день достаточно. Остальное должно быть плодами глубоких исследований, а не выдумками политиков».
На днях прошел TechCrunch Disrupt 2024, и на нем выступал Мартин Касадо. Он лидер одного из самых крупных инвестиционных фондов в мире – а16z. Фонд инвестировал во множество ИИ-стартапов, из последнего – в Cursor и World Labs. В общем, Мартин – очень осведомленный и влиятельный гость. Вот его интересная и едкая позиция по поводу регуляции ИИ, которой он поделился на выступлении:
Главная мысль спикера: «все слишком сильно носятся с регуляцией ИИ, чего делать не стоит. У нас уже есть устойчивые рабочие системы безопасности, которых на сегодняшний день достаточно. Остальное должно быть плодами глубоких исследований, а не выдумками политиков».
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76❤12🔥10 8🕊3
Data Secrets
Исследователи из Google запустили конкурс на $1 млн. Цель – новые идеи, выходящие за рамки современных LLM, которые могут стать шагом к AGI. Называется конкурс ARC Prize – в честь бенчмарка ARC AGI. Бенчмарк создан одним из учредителей конкурса, и нацелен…
Поразительно: исследователи из MIT выбили 62% на бенчмарке ARC
Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).
Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.
До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.
Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.
Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.
Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.
Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.
Помните, мы рассказывали про премию ARC Prize? Это конкурс от Google на 1 миллион долларов, который нацелен на поиск новых идей, выходящих на рамки современных LLM. Называется конкурс в честь бенчмарка ARC AGI. Он создан одним из учредителей конкурса, и нацелен именно на сравнение общих способностей интеллекта машины с человеческим разумом (а это собственно и есть проверка на AGI).
Ведущие модели выбивают на ARC AGI менее 40%. Рекорд у GPT-4o: она выбила 50%. Сам конкурс идет уже 5 месяцев, но по-настоящему хороших результатов ни у кого не было.
До этого дня. Сегодня ресерчеры из MIT опубликовали препринт статьи, в котором объявили, что достигли со своей моделью 62%. Это средний уровень человека.
Успеха помогла добиться идея test-time training’а (TTT): это когда модель обновляет веса не только во время трейна, но и во время теста. Для этого из инпутов требуется как-то формировать новые данные.
Ученые делали это в формате leave-one-out (см.схему), как это принято в In-Context Learning. Еще пробовали формат end-to-end, когда каждая пара «вопрос-ответ» – это отдельная задача, но ICL работал лучше. Затем применяли аугментацию и обновляли веса с помощью LoRA (про то, как работает LoRA, мы недавно писали тут). При этом для каждой тестовой задачи обучают новую лору. Звучит страшно, но оказывается, что много данных модельке не надо, поэтому скейлится подход нормально.
Во время инференса ученые применили что-то вроде искусственного Chain of Thoughts с иерархическим голосованием. «Искусственного» – потому что бенчмарк в оригинале не предполагает CoT, он заточен под zero shot.
Что в итоге? В итоге 61.9% на ARC. Пока неизвестно, засчитают ли решение организаторы, и получат ли ученые свой приз. Пока ждем новостей, можно прочитать оригинальный препринт тут.
❤51🔥25👍16🤯15
Зачем нам новые бенчмарки?
Последнее время появляется все больше свежих бенчмарков. Только за последний месяц: от китайцев, от OpenAI, от Meta, и самый свежий – громкий FrontierMath от EpochAI.
Зачем исследователи уделяют эвалу моделей столько внимания? Все потому что без хороших бенчмарков мы остается в неведении относительно того, на что на самом деле способны наши модели, в значит, и развиваем их «на ощупь».
Конечно, существует множество классических тестов, но бенчмарки имеют свойство устаревать. Со временем закрадываются лики, да и сами задачи становятся уже не репрезентативными. Например, про новый бенч FrontierMath один ресерчер сказал так: «Отличный и невероятно сложный бенчмарк! Надеюсь, он продержится хотя бы пару лет». Вот это – правильный подход, а не оценивать модели на тестах, которым 7-8 лет.
Есть и еще одна причина: старые бенчмарки построены для слабых моделей, и для сегодняшних целей «создать AGI» не подходят даже структурно. Это сегодня в твиттере удачно прокомментировал Андрей Карпаты:
Кстати, если вы все-таки знаете, какими должны быть вопросы в хорошем бенчмарке, то можете предложить свой: у лабораторий CAIS и ScaleAI все еще идет конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают от 500 до 5000 долларов, а также соавторство в статье.
Последнее время появляется все больше свежих бенчмарков. Только за последний месяц: от китайцев, от OpenAI, от Meta, и самый свежий – громкий FrontierMath от EpochAI.
Зачем исследователи уделяют эвалу моделей столько внимания? Все потому что без хороших бенчмарков мы остается в неведении относительно того, на что на самом деле способны наши модели, в значит, и развиваем их «на ощупь».
Конечно, существует множество классических тестов, но бенчмарки имеют свойство устаревать. Со временем закрадываются лики, да и сами задачи становятся уже не репрезентативными. Например, про новый бенч FrontierMath один ресерчер сказал так: «Отличный и невероятно сложный бенчмарк! Надеюсь, он продержится хотя бы пару лет». Вот это – правильный подход, а не оценивать модели на тестах, которым 7-8 лет.
Есть и еще одна причина: старые бенчмарки построены для слабых моделей, и для сегодняшних целей «создать AGI» не подходят даже структурно. Это сегодня в твиттере удачно прокомментировал Андрей Карпаты:
«Интересная проблема заключается в том, что, хотя по многим оценкам LLM постепенно продвигаются на топ-экспертную территорию (например, в математике и кодинге и т. д.), вы бы не наняли их вместо человека даже для самой простой работы.
Это замаскированный парадокс Моравека, который заметил более 30 лет назад, что то, что легко/сложно для людей, может неинтуитивно сильно отличаться от того, что легко/сложно для компьютеров. Например, люди очень впечатлены игрой компьютеров в шахматы, но шахматы легки для компьютеров, поскольку это закрытая, детерминированная система с дискретным пространством действий, полной наблюдаемостью и т. д. и т. п. И наоборот, люди могут завязать шнурки или сложить рубашку и вообще не думать об этом, но это чрезвычайно сложная сенсомоторная задача, которая бросает вызов даже современному уровню техники и софта.
Я думаю, что это интересная задача: создавать оценки для всех "легких" вещей, которые на самом деле сложные. Очень длинные контекстные окна, связность, автономность, здравый смысл, работающий мультимодальный ввод-вывод – это хорошо. Но как нам создать хорошие оценки для настоящей "человеческой работы"?»
Кстати, если вы все-таки знаете, какими должны быть вопросы в хорошем бенчмарке, то можете предложить свой: у лабораторий CAIS и ScaleAI все еще идет конкурс вопросов для сложнейшего в мире бенчмарка для LLM. За каждый подходящий вопрос они обещают от 500 до 5000 долларов, а также соавторство в статье.
👍36❤10🔥10🤯3 1
RL-разработчик из Sony AI, который занимается обучением с подкреплением в гейме, создал сайт с ликбезными статьями по RL
Сайт замечательно называется Decisions & Dragons, и построен по принципу «вопрос-ответ». Это своеобразный FAQ по неочевидным вопросам в обучении с подкреплением, только ответы там очень развернутые: с формулами, схемами и иногда даже псевдокодом. Вот какие статьи там уже можно найти:
➡️ Чем отличается on-policy от off-policy learning?
➡️ Что такое горизонт?
➡️ В чем различие между model-based и model-free RL?
Сайт создан только вчера, и на данный момент там всего восемь статей, но автор обещает, что будет постоянно пополнять список. Так что если вы – новичок в RL, то обязательно сохраняйте в закладки.
Сайт замечательно называется Decisions & Dragons, и построен по принципу «вопрос-ответ». Это своеобразный FAQ по неочевидным вопросам в обучении с подкреплением, только ответы там очень развернутые: с формулами, схемами и иногда даже псевдокодом. Вот какие статьи там уже можно найти:
Сайт создан только вчера, и на данный момент там всего восемь статей, но автор обещает, что будет постоянно пополнять список. Так что если вы – новичок в RL, то обязательно сохраняйте в закладки.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52🔥15❤🔥10👍4 2
Илон Маск тем временем уже имеет реальные шансы стать лидером ИИ-политики США
Оказалось, что некая некоммерческая группа Americans for Responsible Innovation (ARI) в пятницу (то есть уже через три дня после выборов) запустила петицию с просьбой назначить Маска главным советником Трампа по ИИ. Выдержка:
Сейчас организация пытается собрать 10000 подписей🔵
Оказалось, что некая некоммерческая группа Americans for Responsible Innovation (ARI) в пятницу (то есть уже через три дня после выборов) запустила петицию с просьбой назначить Маска главным советником Трампа по ИИ. Выдержка:
«Илон Маск имеет хорошие возможности для защиты лидерства США в этой технологии, обеспечивая при этом ее безопасное внедрение».
Сейчас организация пытается собрать 10000 подписей
Please open Telegram to view this post
VIEW IN TELEGRAM
Илья Суцкевер прокомментировал замедление скейлинга моделей
Недавняя статья The Information, о которой мы писали здесь, наделала в сообществе много шума. Суть материала в том, что модели OpenAI больше не масштабируются с ростом количества обучающих данных так, как это работало раньше. Возможно, это связано с тем, что из-за недостатка данных в датасеты добавляют много синтетики от других моделей; возможно, с чем-то еще. Известно, что в OpenAI даже создали новую команду, которая будет работать над решением проблемы.
Ну а пока суть да дело, ситуацию активно обсуждают в том числе крупные исследователи. Даже Илья Суцкевер подключился. Вот какой комментарий он дал Reuters (свободный перевод):
Размыто, конечно, но, видимо, имеется в виду, что скейлинг в претрейне (то есть тот самый скейлинг на обучающих данных) сейчас действительно выжат на максимум, и нам стоит сконцентрироваться на чем-то другом.
OpenAI, вероятно, те самые "правильные вещи" видят в ризонинге в стиле o1 и в чем-то вроде test-time training, статью о котором мы разбирали буквально вчера. Хотя сама компания комментариев не дает, об этом напрямую заявил GTM OpenAI в твиттере. Он написал, что "Масштабирование просто нашло другой набор шестеренок в виде inference time обучения".
Недавняя статья The Information, о которой мы писали здесь, наделала в сообществе много шума. Суть материала в том, что модели OpenAI больше не масштабируются с ростом количества обучающих данных так, как это работало раньше. Возможно, это связано с тем, что из-за недостатка данных в датасеты добавляют много синтетики от других моделей; возможно, с чем-то еще. Известно, что в OpenAI даже создали новую команду, которая будет работать над решением проблемы.
Ну а пока суть да дело, ситуацию активно обсуждают в том числе крупные исследователи. Даже Илья Суцкевер подключился. Вот какой комментарий он дал Reuters (свободный перевод):
«2010-е годы были эпохой масштабирования, а теперь мы снова вернулись в эпоху открытий. Все ищут что-то новое. Масштабировать правильно правильные вещи сейчас важнее, чем когда-либо».
Размыто, конечно, но, видимо, имеется в виду, что скейлинг в претрейне (то есть тот самый скейлинг на обучающих данных) сейчас действительно выжат на максимум, и нам стоит сконцентрироваться на чем-то другом.
OpenAI, вероятно, те самые "правильные вещи" видят в ризонинге в стиле o1 и в чем-то вроде test-time training, статью о котором мы разбирали буквально вчера. Хотя сама компания комментариев не дает, об этом напрямую заявил GTM OpenAI в твиттере. Он написал, что "Масштабирование просто нашло другой набор шестеренок в виде inference time обучения".
👌34❤10🕊5👍2
Конкуренция на рынке труда крепчает: на YouTube обнаружили канал семилетнего мальчика Сережи, который записывает обучающие видео по машинному обучению
Судя по каналу, опыт работы Сережи – уже два года. Тут и нейросети на PyTorch, и модели классификации, а бонусом еще и геймдев😜
Твой будущий лид
Судя по каналу, опыт работы Сережи – уже два года. Тут и нейросети на PyTorch, и модели классификации, а бонусом еще и геймдев
Твой будущий лид
Please open Telegram to view this post
VIEW IN TELEGRAM
😁195 44👍17❤10🔥8🫡6🗿6🤪1
Вышел Qwen2.5-Coder
Там целое семейство: 0.5B / 1.5B / 3B / 7B / 14B / 32В, базовые и инстракт модели. Радует, что есть малышки и можно запустить локально. Все веса уже в опенсорс вот тут 🤗
По бечмаркам: среди представленных в тех.отчете 32В на всем превосходит открытых соперников (главный из которых – DeepSeek-Coder-2), а также на многих тестах обгоняет GPT-4o, включая, между прочим, HumanEval и EvalPlus. По CodeArena, правда, немного не дотянули: не хватило двух десятых процента.
Отчет | Демо | Гитхаб | Блог
Там целое семейство: 0.5B / 1.5B / 3B / 7B / 14B / 32В, базовые и инстракт модели. Радует, что есть малышки и можно запустить локально. Все веса уже в опенсорс вот тут 🤗
По бечмаркам: среди представленных в тех.отчете 32В на всем превосходит открытых соперников (главный из которых – DeepSeek-Coder-2), а также на многих тестах обгоняет GPT-4o, включая, между прочим, HumanEval и EvalPlus. По CodeArena, правда, немного не дотянули: не хватило двух десятых процента.
Отчет | Демо | Гитхаб | Блог
❤31🔥18👍11🤔2
This media is not supported in your browser
VIEW IN TELEGRAM
Вышло пятичасовое интервью CEO Anthropic Дарио Амодеи с Лексом Фридманом. Пройдемся по самому яркому:
➡️ На вопрос об AGI Дарио ответил, что если просто экстраполировать графики (а это ненаучно), то можно предсказать, что AGI появится в 2026 или 2027. Но точно сказать нельзя, потому что никто не знает, смогут ли модели масштабироваться дальше.
➡️ Тем не менее, Дарио настроен оптимистично и верит в то, что скоро у нас будет ИИ уровня человека. При этом ближайшие несколько лет все больше и больше денег будет тратиться на разработку и обучение: к 2027 люди, вероятно, будут строить кластеры стоимостью $100 млрд, тогда как сейчас самые крупные суперкомпьютеры стоят $1 млрд.
➡️ Амодеи говорит, что масштабирование моделей продолжится, и что в этом есть некая магия, которую мы пока не можем объяснить на теоретической основе. Возможно, масштабирование будет не таким, как мы привыкли, но «оно найдет путь».
➡️ Человеческий интеллект – это не предел. Мы можем сделать модели гораздо умнее нас, особенно в определенных областях, таких как биология.
➡️ Сейчас модели продолжают улучшаться невероятно быстро, особенно в кодинге, физике и математике. На SWE-bench в начале года LLM достигали 2-3%, а сейчас это около 50%. То, о чем действительно стоит переживать в этих условиях – это монополия на ИИ и сосредоточение власти над ИИ в руках всего нескольких крупных игроков. Это может быть опасно.
Само интервью можно посмотреть здесь, а вот тут лежит полная текстовая расшифровка
Само интервью можно посмотреть здесь, а вот тут лежит полная текстовая расшифровка
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46👍22❤7⚡3🎉2