Arslan's Insights
1.81K subscribers
66 photos
16 videos
53 links
Я Арслан. В этом канале делюсь своими интересными наблюдениями в мире технологий и не только.

Наблюдения не только технические, но и социальные. Стараюсь писать коротко.

Мой контакт: @arslanurt
Download Telegram
Маск показал как роботы танцуют. Всего лишь танцуют, да? Я недавно чуть чуть, на капельку, приоткрыл ящик пандорры про антропоморфных роботов, пробежался глазами по паре статей.

То, что здесь показано - не тривиальная задача. Во время танца внутри робота решается задача - а как не упасть. Система буквально воздействует на каждый электромотор внутри робота, чтобы робот удерживал равновесие.

Даже для таких движений должен был случиться большой прогресс в том, как математика, AI и железо взаимодействуют друг с другом.

Ну если только ноги робота не приколочены к полу)

Если же приколочены, то через motion capture (gif 2, костюм такой, который движения захватывает) переносим на робота танец человека. Проще примерно в миллион раз, чем если не приколочены.

Интересно, приколочены или нет?
6😁5🤔3
#state_of_ai_report_2024

Ребята из AIR STREET CAPITAL (инвестирует в AI стартапы на ранней стадии) выпустили любопытный обзор происходящего с AI в 2024 году, давайте почитаем. Там 200 слайдов, поэтому буду писать постепенно. Если что ссылка: https://www.stateof.ai

Слайды [1-12] вступление, пропускаем.

Слайды [13-15] про мощь OpenAI, пропускаем, все и так знают. Единственное на что обратил внимание, что привели контраст про крутость o1 и слабость o1. В качестве крутости взяли https://www.youtube.com/watch?v=M9YOO7N5jF8 - тут PhD студент скормил свою научную статью (про черные дыры) и попросил написать код, воспроизводящий ее. o1 за несколько промптов справилась за час. Студент говорит, что потратил на код заметную часть года работы. В качестве слабости приводится неумение o1 играть в шахматы. Правда на слайде ребята добавляют, что не умеет играть "пока..."

Слайд [15] про то, что llama3 закрывает разницу между open и closed моелями. Приводят side-by-side сравнение людьми, что разница между llama3 и GPT-4o или Cloude 3.5 Sonnet небольшая.

Слайд [16] про то, что большинство open-source моделей на самом деле не совсем open.

Слайд [17] меня заинтересовал больше. Про то, что модели во время обучения обучаются в том числе на бенчмарках, на которых потом модели тестируют. Есть такой бенчмарк для оценки моделей GSM8k (Grade School Math 8000). Это 8000 задач по математике уровня начальной школы. Появился новый-свежий бенчмарк GSM1k (примерно то же самое, но задачи другие и их 1000). И вот большинство моделей показывают себя заметно хуже на нем. Еще модели проверили на свежем венгерском экзамене по математике, который модели не могли видеть во время обучения. Так же качество многих моделей сильно хуже на нем, чем на GSM8k. Самая большая разница в качестве у моделей Mixtral, Phi, Mistral, llama, code-llama. С высокой вероятностью модели, на которых качество на свежих бенчмарках сильно хуже, обучились на бенчмарках. Сравнение прикрепил картинками.

Продолжение следует...
👍166🔥3
Arslan's Insights
#state_of_ai_report_2024
#state_of_ai_report_2024

Продолжаем обзор AIR STREET CAPITAL на AI в 2024 году.

Слайд [18] выделю прям отдельно и дополнительно подробно прокомментирую, поэтому текста много, в несколько раз больше, чем на слайде. Слайд про ошибки в бенчмарках.

Даже в самых распространенных бенчмарках сейчас не мало ошибок. Есть, например, бенчмарк MMLU (Measuring Massive Multitask language Understanding) - это топ-1 бенчмарк для больших языковых моделей де факто. Все на него смотрят, это главный бенчмарк. Напомню, что в нем просиходит. В этом бенчмарке модели задается вопрос и дается 4 варианта ответа. Модель должна выбрать ответ из предложенных. Вопросы широкие, по 57 разным тематикам.

И вот в университете Эдинбурга решили проанализовать этот бенчмарк поглубже. Выяснилось, что в бенчмарке есть вопросы с неправильными ответами, непонятные вопросы, вопросы с фактически несколькими корректными ответами или вовсе без корректных ответов среди возможных вариантов. В большинстве тематик в этом бенчмарке ошибок мало, но есть ряд тематик с огромными проблемами. Например, 57% вопросов по вирусологии некорректны.

MMLU очень широко распространен и полностью вычистить его из датасета само по себе проблема. Поэтому модели могут выучивать неправильные ответы прям из бенчмарка, на котором их еще и потом тестируют. Такой цикл ложно-позитивной обратной связи получается. Делаем улучшение, смотрим рост на MMLU, радуемся. А вот не всегда и не для всех тематик это стоит делать.

Я когда-то писал про Congnition Labs. Они делают AI Sowftware Engineer и где-то в мае показывали лучшие результаты на бенчмарке SWE-bench. Супер-хайп стартап с оценкой более 2млрд$. Супер-хайп, потому что продукта нет никакого вообще пока у ребят, только демки. SWE-bench - это бенчмарк для проверки способности моделей решать задачи программиста. Каждая задача из бенчмарка состоит из репозитория с кодом и фичреквестов или реквестов на багфиксы к ним. Так же приложены тесты к коду, которые должны успешно проходить, если модель справилась с задачей. Забавно, что Cognition Labs уже не в топе на SWE-bench. Успели раньше всех просто хайпануть получается)))

Так вот OpenAI заявляет, что SWE-bench сделан так, что содержит излишне сложные или вовсе невозможные задачи, поэтому показатели моделей на этом бенчмарке приводят к недооценке способностей моделей. OpenAI в итоге запартнерился с авторами SWE-bench, чтобы сделать SWE-bench Verified, который более показателен.

Поэтому бенчмарк поделился на три категрии: lite, verified и full.

lite - подмножество бенчмарка, который состоит из задач, которые дешево тестировать.
verified - подмножество бенчмарка, который состоит из задач, проверенных людьми, что задачи норм для оценки способностей модели решать задачи программиста.
full - весь бенчмарк, понятно.

Сейчас лучший результат в lite категории, например, у codestory.ai, они умеют решать 43% задач из бенчмарка. Занятно, что стартап, кажется, состоит из всего двух человек, судя по их страничке на workatastartup, но может это не актуальная информация. В прошлом, кстати, ребята побывали ACM ICPC финалистами!

В verified лучший результат у Gru, 45%. Ребята тоже делают AI программиста.

На full лучший результат у Honeycomb, 22%.

Вообще прогресс на SWE-bench впечатляет. Еще в апреле лучший показатель исчислялся единицами процентов. Либо прогресс огромный, либо бенчмарк легко накручивается. Я, как скептик по этой теме, пока буду считать, что скорее бенчмарк легко накрчивается.

Продолжение следует...
👍102
#state_of_ai_report_2024

Слайд [19] снова про мощь OpenAI. За год по прежнему никто не обогнал модели от OpenAI.

Слайд [20] про то, что LLM плохи в математике и геометрии. Но есть решения. DeepMind нагенерили много синтетики на специальном языке для движка формальных доказательств и сделали AlphaGeometry, который чередует специальную языковую модель и движок для формальных диказательств. Такая конструкция решает 25 из 30 олимпиадных задач по геометрии.

Слайд [21] мне очень интересен. В нем информация про уменьшение размера моделей. Берется модель, из нее выкидывается половина слоев, модель дообучается на небольшом датасете и в итоге обладает качеством, не сильно хуже, чем качество исходной модели. И у nvidia, и у meta, и у MIT есть те или иные исследования, как урезать уже готовую модель, практически не теряя в качестве, но сильно выигрывая в производительности.

Слайд [22] логичное продолжение слайда 21. Андрей Карпатый и прочие уважаемые люди говорят, что текущий размер моделей слишком большой. Они говорят, что мы просто не умеем пока достаточно хорошо обучать модели. Когда научимся - размер будет меньше. Сейчас есть хороший способ тренировки маленьких моделей из больших - дистилляция. Фишка дистилляции, что модель обучается копировать предсказание болшой, а это дает сильно болше информации для обучения, чем просто попытка предсказать следующее слово. Например, так делал google для тренировки своих маленьких моделей семейства gemma. Еще слухи ходят, что Claude 3 haiku тоже сдистиллирована на самом деле, но Anthropic этого не подтверждал. Так же появилась либа на питоне для дистилляции: https://github.com/arcee-ai/DistillKit

Слайд [23] замечательный. Появляются LLM-ки, которые можно запускать на телефонах, которые по качеству весьма неплохи. Например, phi-3.5-mini имеет 3.8 млрд параметров, а работает не хуже, чем llama 3.1 8 млрд. Apple выпустил MobileCLIP модель iamge-text, которая тоже достаточно быстра для телефонов.

Слайд [24] продолжение по сути про производительность. Квантизация - когда вес модели занимает меньше бит, чем 16. Майкрософт, например, научился сжимать веса в 1 бит. В презентации утверждают, что квантизация все равно показывает очень хорошее качество. Тем не менее по моему опыту все же качество заметно теряется, если сжимать сильнее, чем в 4-8 бит.
🔥8👍3
Про квантизацию добавка размышлений.

Вот есть выбор, взять модель 7b или же взять модель 14b, но квантизованную два раза до 8 бит. Какая будет лучше?

Есть статейка: https://arxiv.org/html/2402.16775v1

Показывают на примере qwen модели и mmlu бенчмарка, что лучше взять 14b квантизованную. 14b квантизованная по памяти занимает столько же, сколько и 7b обычная, но имеет лучше метрики при этом.

Так же подтверждают, что квантизация до 4 бит норм, а ниже уже хуже работает. Хотя на 3 битах и неплохо. На 2 битах падение качества колоссальное.

Но вообще как обычно всегда надо тестить и сравнивать самостоятельно на нужных задачах.
👍4🔥2
Arslan's Insights
Про квантизацию добавка размышлений. Вот есть выбор, взять модель 7b или же взять модель 14b, но квантизованную два раза до 8 бит. Какая будет лучше? Есть статейка: https://arxiv.org/html/2402.16775v1 Показывают на примере qwen модели и mmlu бенчмарка,…
В общем в сумме что получается на основе статей и комментариев уважаемых людей? Можно выкидывать половину слоев в нейросети, веса сжимать в четыре раза, а по качеству это не сильно бьет. Это значит, что стоимость инференса (при эквивалентном качестве модели) будет и дальше падать, причем существенно. И обратное - качество больших моделей будет расти. Америку не открыл, но подкрепил себе свою интуицию)
👍4
#state_of_ai_report_2024

Слайд [25] про yet another способ дообучать модели, не особо интересно.

Слайд [26-27] про альтернаивные архитектуры, которые должны быть лучше, чем архитектура трансформер. Типа mamba-transformer. Сами авторы утверждают, что классная штука. Работает в пять раз быстрее и по качеству лучше. Но я не вижу повсеместного использования mamba вокруг, значит видимо не работает тема. Все обучают/дообучают llama-like модели.

Слайд [28] подтверждение того, что трансформеры рулят. Картинку приложил.

Слайды [29-30] про синтетические данные. Из них можно сделать вывод, что синтетические данные полезны, хотя и не просто их генерировать. И надо использовать и настоящие данные, и синтетические. Только синтетики пока недостаточно.

Продолжение следует...
👍32🔥2
Вау, как я пропустил, а вчера еще была новость!

> For example, we are investing to expand Rust usage at Google beyond Android and other mobile use cases and into our server, application, and embedded ecosystems.

https://security.googleblog.com/2024/10/safer-with-google-advancing-memory.html?m=1

Это тектоническая подвижка. Все-таки google - это компания, на которую ориентируются многие в плане процессов и культуры разработки. И эта новость снимает любые вопросы по поводу будущего и перспектив rust.

Это особенно интересно в контексте того, что вообще-то google пытается сделать свою замену C++ - язык Carbon. Но видимо лобби Carbon таки проиграло)
👍65👎2🔥2🤔2
#state_of_ai_report_2024

Слайд [31] про то, что чем чище данные, тем лучше. Чище - меньше мусора, вранья и тд.

Слайд [32-34] про RAG. RAG - Retrieval Augmented Genration. В контекст модели передаешь дополнительную информацию и модель должна ее использовать для ответа. Интересно, что по прежнему не существует нормального открытого бенчмарка, который нормально учитывает способность модели цитировать информацию, на основе которой происходит генерация. Но внутри яндекса, например, есть соответствующие метрики. Например, есть статья про нейро: https://habr.com/ru/companies/yandex/articles/807801/. Там пишут, что замеряют качество по четырем аспектам: полезность, безопасность, подтвержденность (как раз, что ответ взят из источника) и компетентность. Разметка делается, конечно, вручную, используют 1500-2000 человек для разметки.

Слайд [35] огонь! Про него чуть подробнее:

Для обучения сейчас нужно все больше и больше ресурсов. Кластера для обучения очень требовательны к хорошей сети между серверами. Сеть должна иметь высокую пропускную способность и низкую задержку передачи данных. Так же проессы обучения сильно требовательны к тому, чтобы оборудование было как можно более гомогенным. И вот слайд про исследования, которые призваны бороться с этой проблемой.

В Google DeepMind придумали DiLoCo (Distributed Low-Communication) алгоритм обучения. Который умеет обучать модели на "островах" (группа серверов) с хорошей сетью внутри них и не очень хорошей между ними. Каждый "остров" внутри себя прогоняет много шагов обучения перед взаимодействием с другими "островами". Говорят, что взаимодействие между "островами" меньше в 500 раз. Prime Intellect закодили опенсурсную версию DiLoCo: https://github.com/PrimeIntellect-ai/OpenDiloco. Демонстрируют профит на 1B модели. Как демонстрируют? Тренируют модель на ресурсах на двух континентах, в трех разных странах. Показывают, что эффективно утилизуют при этом вычислительные мощности на 90-95%.
👍84🔥3👀2
#state_of_ai_report_2024

Слайд [36] про то, что если не просто по всему обучающему датасету идти, а прямо во время обучения подбирать данные для следующей итерации на основе их полезности для обучения, то модель обучается быстрее. Полезность определяется другой моделью.

Слайд [37-38], в котором авторы замечают, что китайские компании показывают крутые LLM не смотря на санкции. В нем же говорят, что вот мол есть 01.AI, которые фокусируются именно на китайском языке. А где про YandexGPT слайд тогда уж скажите мне?)

Слайд [39] прикольный. Говорят, что вот в 2018 году куча народу пытались сделать модель, которая сможет по картинке описать, что на ней находится. А сейчас в 2024 году это просто сопутствующая задача, которую умеют решать мультимодальные модели даже небольшого размера, таков прогресс. Картинки приложил.

Кажется, слайды про LLM более-менее закончились, следующие слайды вижу про картинки и видео, так что продолжение следует!
1🔥8👍5
Снова загружен работой, не до разбора отчета( А пока шутка с внутреннего ресурса:

Сложный код создает сильных инженеров,
сильные инженеры создают простой код,
простой код создает слабых инженеров,
а слабые инженеры создают сложный код.
😁47👍6💯4👎1
https://techcrunch.com/2024/10/30/aurora-innovation-delays-commercial-autonomous-truck-launch-to-2025

Есть такая компания - Aurora. Делают автономные грузовики в штатах. Хотели запустить перевозки без водителя к концу 2024 года. Сейчас пишут, что откладывают на квартал.

В качестве аргумента пишут, что сейчас у них грузовик может ехать 80% времени без наблюдения и помощи удаленного оператора, а они хотят достигнуть 90%, чтобы начать коммерческие перевозки без водителя.

Давайте посчитаем математику.

Aurora хочет запустить 10 грузовиков. Представим, что грузовики будут ездить круглые сутки, что на самом деле нонсенс и это невозможно, но пусть.

За грузовиками нужно следить 20% времени (так как пишут, что сейчас 80% не требует наблюдения). Значит два человека должны всегда следить за одним из 10 грузовиков. Окееееей, пусть будет 5 человек, чтобы всплески потребности переживать. И пусть один человек может только за одним грузовиком следить, что тоже вообще-то глупость, но пусть.

Пусть они работают по графику 1-3 по 12 часов, хотя вообще-то для 12 часов обычно это график 2-2. Делаем существенное допущение.

То есть в сутках две смены по 5 человек на 4 дня. Получается 40 человек. Пусть есть отпуска и болезни, умножим на полтора. Нужно 60 удаленных операторов.

Пусть оплата удаленного оператора в штатах будет 200к$, что вообще-то нонсенс и это намного больше, чем на самом деле. Делаем допущения.

Итого, нужно заплатить 12млн$ в год, чтобы стать первыми в мире. И это с существенными допущениями, а в реальности в несколько раз меньше.

Ну может денег нет? Вот только 3 августа они подняли раунд 483млн$.

Просто смешно. Думаю через квартал они тоже не запустят. Ну посмотрим.
👍183
Удивительный perplexity

Сделать компанию, которая просто берет ответ google (по слухам именно google) и прогоняет через GPT API от OpenAI, да еще и делает еще один поиск - это звучит как истинное безумие.

То есть у ребят на старте не было ни одной своей технологии, кроме пачки файлов с клеем между API. Сейчас это несколько поменялось и в качестве LLM теперь они берут mistral и llama и дообучают под свои задачи. И еще они теперь делают свой поиск. Поиск сделать - огромные траты, но google им не даст свое API использовать для победы над самим собой, конечно, поэтому тут нет выбора. Да еще и OpenAI выкатили поиск в ChatGPT, что не добавляет уверенности в будущем perplexity.

Штука классная у ребят получается, конечно. Но все же очень много, кто вообще-то способен сделать то же, что и они. Особенно с тем качеством, которое у них было на старте. Я помню я открывал тогда perplexity и думал, что они умрут через полгода, так как такие плохие ответы читать невозможно, а интерфейс безбожно лагает.

И тем не менее им удалось зажечь. Почему - не знаю) Но уже понятно, что в ближайшие пару лет они точно уже не умрут. Но что будет дальше? По прежнему непонятно. Но, надеюсь, у них получится вырасти сильнее и потеснить google, потому что продукт действительно делают свежий и прикольный.
👍164🔥3
ISO 3103

Открытие дня. Оказывается существует международный стандарт про то, как нужно заваривать чай.

"В сосуд, содержащий пробу чая, добавляют кипящую воду до уровня от 4 до 6 мм от края (т. е. приблизительно 285 см3 при использовании большого сосуда для заваривания, 140 см3 при использовании малого сосуда для заваривания, описанных в приложении А) и закрывают крышкой. Дают чаю настояться в течение 6 мин, затем, удерживая крышку так, чтобы разваренный чайный лист оставался в сосуде, переливают настой через зазубренный край в чашу (см. 5.2), вместимость которой соответствует вместимости сосуда для заваривания. Переворачивают крышку, перемещают на нее разваренный чайный лист и помещают ее на опорожненный сосуд для органолептического анализа разваренного чайного листа. При анализе мелкого чая необходима особая тщательность, и может потребоваться применение сита."

В стандарте 6 страниц. Напомню, чтобы принять стандарт в ISO собирается технический комитет и процесс разработки стандарта устроен так, что документ редактируется до тех пор, пока не станет удовлетворять всех участников комитета.

На русском стандарт можно почитать тут: https://rosgosts.ru/file/gost/67/140/gost_iso_3103-2013.pdf
😁328👍1
Оказывается, intel практически в одну калитку проигрывает рынок серверного железа.
🤯11😢31
Media is too big
VIEW IN TELEGRAM
Сегодня вышел YaC 2024 - ежегодный рассказ про технологии и сервисы Яндекса и людей, которые их создают. В серии про нейросети я рассказал про развитие нашего автономного транспорта и применение нейросетей в нём.

А еще у нас есть классная новость - мы стали еще на шаг ближе к тому, чтобы наши авто вели себя на дороге так же, как хорошие и опытные водители.

Для этого мы начали использовать нейросеть-трансформер - теперь она помогает планировать траекторию движения автономного транспорта, то есть решать, как нужно ехать в сложившейся обстановке. Наша нейросеть обучается на данных о действиях первоклассных водителей в самых разных ситуациях, которые могут возникнуть на дороге. Она обобщает эти знания и учится реагировать даже в таких ситуациях, которых пока еще не было в реальности, но которые гипотетически могут случиться.

На видео видно несколько трудных ситуаций, с которыми приходится сталкиваться на дорогах)
4🔥2623🤩4
Киберпанк уже наступил!
😁23😱7😢3🔥2🤩2👍1🌚1👾1
Сделали подкаст про автономные грузовики. Получилось интересно, приглашаю послушать)
10
Forwarded from Яндекс
This media is not supported in your browser
VIEW IN TELEGRAM
🫶 Зачем Яндексу свой автономный грузовик, когда машины поедут без водителей и как на это отреагируют окружающие? В новом yet another podcast говорим об этом и многом другом.

🅰️ Ситуация в мире автономного транспорта. Кто из лидеров уже готов к поездкам без водителя в салоне?

🅰️ В поля с дальнобойщиками. Каково это — впервые оказаться в кабине автономного грузовика?

🅰️ Нейросети учатся у водителей. Означает ли это, что роботы будут заезжать в шашлычку и останавливаться на перекур?

🅰️ Грузовики — уже есть. А что со всем остальным: инфраструктурой и безопасностью окружающих?

↗️ Смотрите на YouTube и в VK Видео, слушайте в Яндекс Музыке.

Подписывайтесь 〰️ @yandex
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥286👍3🤮2