Arslan's Insights

Opensource LLM от Google Продолжает сбываться мой прогноз, что корпорации будут выкладывать LLM в opensource. https://ai.google.dev/gemma Зачем платить какому-то там OpenAI, если можно просто взять хорошую модель в opensource, да? По качеству gemma 7b…

Хе-хе

👏7🔥4👍2🤯2

1.64K views12:35

Arslan's Insights

Сколько ног у лошади?

У меня есть хобби - спрашивать у AI сколько ног у лошади. GPT-4 давно уже нет смысла спрашивать об этом, поэтому я решил немного еще ее почелленджить, но не удалось)

😁41👍7🤣1

1.74K views09:22

Arslan's Insights

Devin

Cognition AI опубликовали интересное видео: https://www.youtube.com/watch?v=fjHtjT7GO1c

Devin - AI замена разработчику (хотят отобрать у нас работу!)

На видео у Девина просят побенчмаркать llama2 на нескольких провайдерах моделей по API - replicate, together, perplexity. Девина просят разобраться в API и написать скрипт, который задаст запросы в API из одинакового датасета во все провайдеры.

Сначала Девин пишет план, по которому он будет действовать, затем начинает использовать те же инструменты, что и обычный разработчик, чтобы выполнить задачу. Ищет документацию в браузере, использует терминал и редактор кода. Генерирует код, пробует его запустить, дебажит ошибки. Во время дебага Девин добавляет print-ы для дебага кода, затем перезапускает код и использует вывод для того, чтобы починить код. Затем Девин решает создать сайт для простенькой визуализации того, что получилось по результатам бенчмарка.

Оказывается, для таких задач есть свой рейтинг на SWE bench и Devin достиг 13.86%, тогда как второе место занимает Cloude2 с результатом 4.80%.

Задача из видео очень простая, в реальности зазор между этой задачей и даже средней задачей, которую приходится решать разработчикам огромен, однако скорость прогресса поражает.

Интересно до куда это все может дойти!

😱13👍3❤1🤔1🤡1

2.4K viewsedited 11:01

Arslan's Insights

Симуляция мира

Если хотите сделать беспилотное такси или антропоморфных роботов, то у вас есть интересная проблема. Вам очень сложно нормально тестироваться в реальности. И еще вам сложно собирать обучающую выборку в реальности. Вам сложно валидировать гипотезы, проводить много экспериментов. Работа исследователя AI состоит из можества экспериментов, из которых очень многие - неудачные!

Идея - давайте симулировать мир, чтобы в симуляции уметь тестировать ваш AI, собирать выборки и тд и тп.

За последний месяц я наткнулся на два проекта.

https://www.archetypeai.io/blog/what-is-physical-ai - пробуют сделать что-то типа LLM, но для физического мира. Вход для модели - информация с самых разных сенсоров. Камеры, микрофоны, данные лидара, датчики температуры, химические сенсоры и тд и тп. Модель назвали свою Newton! По сайту плохо понятно какой выход у модели. Однако понятно, что для симуляции сложно моделировать математически физический мир (мы ведь и сами не знаем до конца как физика работает), но вдруг мы сможем это делать с помощью AI?

https://waabi.ai/waabi-world/ - делают SefDriving trucks (автономные фуры). Говорят, что в симуляции делают цифровых двойников для всех участников движения. Делают AI, который симулирует естественное поведение участников движения. Добавляют вариативности, что позволяет в симуляции проверять тысячи и тысячи разных ситуаций на дороге. Называют свой симулятор Waabi World.

P.S. Когда я впервые услышал гипотезу, что мы живем в симуляции, я подумал, что гипотеза - бред, но теперь я ее бредом уже не считаю :D

🔥14❤1

2.56K viewsedited 09:20

Arslan's Insights

Странные совпадения с GPT-4o

https://habr.com/ru/companies/bothub/news/815801/ - OpenAI хотели голос Скарлетт Йоханссон, но не получили. В итоге сделали похожий голос. Я думаю там нет вранья и действительно подобрали похожий голос, а не взяли тот, который было нельзя. Подобрать похожий голос - реальная задача.

У OpenAI точно много контакта с майкрософтом. Более того, вот тут можно глянуть в раздел special thanks: https://openai.com/index/dall-e-3/

Там перечислены фамилии, кому особенно был благодарен OpenAI в тот момент, а среди них Misha Bilenko, Mikhail Parakhin.

Кто эти люди? Оба работали в Яндексе, оба много сделали для того, чтобы Алиса появилась и стала в результате такой, какой она стала. Оба в итоге ушли в майкрософт и стали плотно работать с OpenAI.

А дальше следите за руками.

В чем пара важных фишек GPT-4o? Эмоции и голос Скарлетт Йоханссон.

В чем пара важных фишек Алисы? Эмоции и голос Скарлетт Йоханссон (Алисе дала голос та же актриса озвучки, которая озвучивает Скарлетт Йоханссон в русском дубляже в фильмах).

Совпадение или Алиса повлияла на GPT-4o?

🤔45🔥13😱8🤨3💩2🤡2👎1🖕1

2.49K views16:13

Arslan's Insights

Симуляция мира Если хотите сделать беспилотное такси или антропоморфных роботов, то у вас есть интересная проблема. Вам очень сложно нормально тестироваться в реальности. И еще вам сложно собирать обучающую выборку в реальности. Вам сложно валидировать гипотезы…

Автономные грузовики от waabi

Писал уже про компанию waabi, они делают автономные грузовики и их главная особенность в том, что ребята вкладываются в симулятор мира.

Waabi подняли раунд-B инвестиций в размере 200m$, хотят выпустить полностью автономный грузовик в 2025 году. Так же они вчера выпустили очень любопытное видео про свой прогресс и планы: https://youtu.be/vaJqvYm-gK8

Я раньше не обратил внимание, но waabi умеют в своем симуляторе симулировать сенсоры (камеры, лидары). Мне в прошлый раз казалось, что симуляция на уровне коробочек в виртуальном мире (картинка номер 1).

Однако они пишут, что умеют симулировать сенсоры: «Performs near real-time high fidelity sensor simulation enabling testing of the entire software stack in an immersive and reactive manner».

И действительно, это же не sora, а проще. Не нужна полная генерация с нуля.

Если у тебя есть реальный проезд по какой-то дороге, то ты можешь вырезать из него другие машины и прочие объекты, а потом подставлять другие. А так же можешь научиться переставлять себя по дороге и добавлять реакции других водителей. Вырезать, подставлять и передвигать - это более простая задача для AI, чем генерация видео-потока полностью с нуля. Во вчерашнем видео есть кадры применения изменений к видео (картинка 2).

Waabi говорят, что чтобы построить большой бизнес не нужно даже быть первым, кто высадил водителя на какой-то отдельной дороге, а нужно уметь быстро масштабировать количество дорог, по которым ездишь без водителя. И ответ на вопрос «как» от waabi - реалистичный симулятор.

👍19❤1

1.94K views06:39

Arslan's Insights

This media is not supported in your browser

VIEW IN TELEGRAM

Спекулятивный декодинг в LLM (p.1)

Все знают, что LLM запускать дорого и работают они долго. Поэтому пробуют разные способы как сделать запуск дешевле, желательно в разы. Достаточно быстро в голову приходит идея следующая:
1. Вот есть запрос и нужно сгенерировать ответ.
2. Берем две нейросети: одну большую, а вторую маленькую. Маленькую запускать дешевле, но она хуже отвечает.
3. Давайте по запросу натренируем классификатор, который сможет понимать, что на этот запрос маленькая нейросеть сможет нормально ответить.
4. Во время ответа на запрос запускаем сначала классификатор, а потом запускаем маленькую или большую модель.
5. PROFIT! Рантайм стал дешевле, возможно сильно.

Какие проблемы такого подхода?
- Классификатор такой не так уж легко получить.
- Классификатор все равно будет иногда ошибаться и качество будет ниже.

Однако очень уж хочется развить эту идею. И вот ее развили в "спекулятивный декодинг". Это одна из тех идей, про которую мне прям жаль, что я сам до такого же не догадался. Надеюсь, что просто недостаточно подумал) Но идея гениальная и при этом простая.

👍6

1.46K views09:18

Arslan's Insights

Спекулятивный декодинг в LLM (p.2)

Начало в предыдущем посте.

LLM генерируют ответ итеративно по токенам. Токен - это часть слова. Слова могут состоять из 1, 2 или более токенов. То есть чтобы получить ответ из 100 токенов, нужно запустить нейросеть 100 раз. Для удобства дальнейших рассуждений скажем, что генерация происходит по словам.

Обучение и запуск LLM устроены так, что LLM не может заглядывать в будущее в тексте. То есть для обучения предсказания слова под номером K, LLM не может заглянуть в те слова, которые были в обучении после слова с номером K. Если бы это было не так, то невозможно было бы использовать LLM в реальности, потому что не было бы "будущего" текста во время ответа на запросы. А при таком подходе можно итеративно генерировать слова.

Идея такая:
1. Вот есть запрос и нужно сгенерировать ответ.
2. Берем две нейросети, одну большую, а вторую маленькую.
3. Генерируем 10 слов с помощью маленькой нейросети.
4. Подаем эти 10 слов в большую нейросеть. Для каждого слова под номером K среди этих 10 мы имеем независимый прогноз.
5. Поэтому мы можем просто пройти и проверить прогнозы маленькой LLM.
7. Допустим для первых 7 слов прогноз совпал. Отлично, тогда их берем.
8. PROFIT! У нас получилось сгенерировать 7 слов за запуск маленькой модели 10 раз и большой всего 1 раз. Возвращаемся к пункту 3.

Понятно, что дальше нужно подобрать сколько генерировать маленькой моделью, чтобы действительно был профит. Но на практике получается удешевить запуск на десятки процентов.

Иллюстрация на видео в первом посте.

Можно почитать подробнее тут: https://huggingface.co/blog/whisper-speculative-decoding

👍11

1.96K views09:18

Arslan's Insights

Multi-Token-Prediction

В комментариях к предыдущему посту уже упомянули эту идею. Хотел позже написать, но напишу уже сейчас)

В Meta придумали вот что: а давайте теперь после токена номер K генерировать прогноз не только для токена номер K+1, но и для K+1, K+2, K+3, K+4.

То есть по факту к выходу LLM добавилась еще одна размерность.

Пишут, что это не влияет на скорость обучения, но:
1. Лучше качество.
2. В 3 раза быстрее инференс.

Ускорение инференса берется как раз из спекулятивного декодинга. Только берется не две модели, а одна. Но на самом деле это не обязательно, идеи прекрасно объединяются как матрешка.

Можно делать спекулятивный декодинг внутри спекулятивного декодинга!

Тут можно почитать подробнее: https://arxiv.org/abs/2404.19737

🔥7👍3

2.19K views15:33

Arslan's Insights

Какие ключи хочет добыть Франция?

Кликбейт заголовок, но тема интересная. В телеграмме есть секретные чаты, которые по идее сам телеграмм видеть не может. Обеспечивается это через end2end шифрование, когда только два клиента знают как расшифровывать сообщения, а сервер посередине не знает. В то, какой конкретно алгоритм в телеграмме используется я не вникал, но общие идеи можно подчерпнуть из классического протокола Диффи-Хеллмана.

Протокол Диффи-Хеллмана построен на том, что две стороны могут сделать некоторые вычисления, обменявшись частью информации, в результате которых у обоих сторон будет секретное число, которые можно использовать для шифрования и дешефрования сообщений. Хорош протокол тем, что он прост для понимания, поэтому его удобно использовать в образовательных целях.

Пусть есть два клиента: Алиса и Боб. Так же есть два общеизвестных числа g и p. К этим числам Алиса придумывает число a, а Боб придумывает число b.

Затем Алиса вычисляет A = g^a % p (% - остаток от деления), а Боб вычисляет B = g^b % p. После чего Алиса шлет A Бобу, а Боб шлет B Алисе.

После чего нетрудно заметить, что в результате оба обладают секретным числом K, где:

K = B^a % p = A^b % p = g^(a*b) % p

Причем тот, кто прослушивал, что передают Алиса и Боб знает только A и B, из которых число K вычислить около нереально. Чтобы из A узнать число a, например, нужно сделать дискретное логарифмирование. Не существует быстрого решения задачи дискретного логарифмирования.

Олимпиадники по программированию почти все так или иначе изучают алгоритм baby-step-giant-step для дискретного логарифмирования, который работает за O(sqrt(p) * log(p)). Если взять p ~ 10^300, то понятно, что решение не найдется до тепловой смерти вселенной. Есть более быстрые алгоритмы, но они не кардинально лучше с точки зрения решения задачи. Задача не становится решаемой в разумные сроки.

Конечно, алгоритм Диффи-Хеллмана подвержен атаке, когда сервер для Алисы притворяется Бобом и наоброт, а посередине перешифровывает сообщения. Эта атака называется man-in-the-middle. Проверить, что это не происходит, можно встретившись и сравнив число K. Если K одинаковое, то серверу в теории можно доверять.

Что-то аналогичное, но более сложное используется и в телеграмме. Клиент в телеграмме opensource, что в теории дает возможность убедиться, что телеграмм не перешифровывает сообщения.

Вывод - Франция не сможет узнать содержание секретных чатов даже теперь.

🔥27❤3

1.85K viewsedited 09:33

Arslan's Insights

решение не найдется до тепловой смерти вселенной

Решил глянуть когда же она наступит.

Во-первых sqrt(p) * log(p) при p = 10^300 - это примерно 10^150 * 150 ~= 10^150

Пусть одна итерация длится 1ms, тогда это примерно 10^140 лет.

Говорят, что есть развилка, которая зависит от того стабильны ли протоны. Стабильны - не распадаются сами по себе.

Если протоны не стабильны и распадаются сами по себе, то предполагается, что период полураспада равен 10^34 лет. Тогда через 10^40 лет останутся только черные дыры во вселенной и больше ничего. Черные дыры испаряются через излучение Хокинга. Все черные дыры испарятся через 10^100. Получается в этом сценарии решение не найдется до тепловой смерти вселенной.

Если же протоны не распадаются, то ситуация более непрогнозируемая (лол) и есть вероятность, что материя полностью не исчезнет. Но, возможно, через 10^10^10^56 будет новый большой взрыв.

Получается, что если протоны стабильны, то есть шанс найти решение, особенно если начать сейчас!

😁20👍5🔥3

2.17K viewsedited 13:58

Yasmina again

На прошлой неделе наконец начались продажи колонок с Ясминой в ОАЭ. Много воды утекло с начала проекта, я уже ушел из Алисы, но это точно проект, который я запомню навсегда.

Мы предоставили технологии Yango и теперь очень здорово видеть, как блоггер на арабском делает обзор колонки, а в комментариях люди пишут шутки про то, как заставить Ясмину болтать с Алексой 🤣

Обязательно посмотрите видео. В чем фишка в видео, кроме просто забавного сюжета, который поймет любой? В том, что Ясмина говорит на диалекте, из-за чего ее можно спутать с настоящим человеком. В арабском много разных диалектов, формализованных правил нигде нет, нам приходилось по крупицам понимать как сделать круто! Некоторых других голосовых помощников, например, спутать с человеком невозможно.

Поздравляю команду Ясмины с запуском!

1❤47🔥18👏6🍾3💅3

2.69K views10:31

Arslan's Insights

Фуф, пока еще расслабляемся, ребята, не умеет o1-preview нормально олимпиадные задачки решать)

https://codeforces.com/contest/2009/submission/280945928 - решила написать на python, не уложилась в лимит.

https://codeforces.com/contest/2009/submission/280946338 - я попросил написать то же самое на C++, неправильный ответ.

Задача если что по уровню заметно ниже, чем должна уметь решать новая модель. Ну это если то, что говорят OpenAI про умения решать задачи на codeforces - правда. Тест в трейн положили видимо)

UPD. Без залогина по ссылкам не пускает теперь оказывается. В комментариях скриншот посылок.

UPD2. В комментариях человеку удалось с первого раза сгенерировать рабочее решение. Получается все-таки не до конца можно расслабляться)

😁13🔥7👍2

1.77K viewsedited 06:57

Arslan's Insights

На codeforces уже появился пост про анализ o1-mini: https://codeforces.com/blog/entry/133887

o1-mini по идее не отличается от o1-preview в плане умения решать задачи на codeforces, так как заточена на такие вещи.

Короткий вывод: моделька неплохо решает простые задачи, но плохо решает задачи среднего уровня.

Для тех, кто не знает как устроены соревнования на codeforces. Есть 4 дивизиона, для каждого есть диапазон рейтинга, по которому осуществляется доступ к соревнованиям в дивизионе. Классическое соревнование состоит из 6 задач с возрастающей сложностью. Рейтинг человеку прибавляется или убавляется в завимости от места в соревновании. Место зависит от количества и скорости решения задач.

В посте говорят, что первые две задачи Div2 по сложности o1 решает весьма неплохо. Но начиная с третьей задачи Div2 модель справляется уже не очень. При этом четвертая задача Div2 - это эквивалент первой задачи Div1. Все, кто занимается олимпиадным программированием более менее серьезно - это Div1 уровень. То есть модель не дотягивает до Div1.

С нуля докачка до выхода в Div1 занимает около двух-трех лет, если уделять среднее количество времени тренировкам. Что значит выйти в Div1 - это стабильно решать 4 задачи Div2 и иногда решать 5 задач Div2. То есть на 2-3 задачи больше, чем умеет модель.

😱3🫡2❤1

4.04K views10:24

Arslan's Insights

Само по себе очень смешно, что мы такие «а, ну всего лишь div2 решает парочку, фигня»!

А ведь всего лишь несколько лет назад предположение, что нейросетки будут решать задачи на codeforces, казалось бредом)

Но теперь нейросетка сравнялась с человеком, который тренируется в спортивном программировании около года…

❤15😱3

4.05K views10:46

Arslan's Insights

Yandex Cup 24

https://habr.com/ru/companies/yandex/news/843974/

Открыли регистрацию на чемпионат по программированию, залетайте!

В отличии от обычного ACM ICPC или codeforces, есть много треков. А если точно, то шесть: аналитика, фронтенд‑ и бэкенд‑разработка, мобильная разработка, машинное обучение и "Алгоритм", посвящённый спортивному программированию. Есть люди, которые считают, что спортивное программирование оторвано от реальности. Но решать задачи в формате соревнования очень фаново! И спасибо Yandex Cup за то, что можно в этом веселье поучаствовать не только в треке "Алгоритм"!

👍13✍6❤4👎1🔥1🥱1

2.15K views18:02

About

Blog

Apps

Platform