Arslan's Insights
1.81K subscribers
66 photos
16 videos
53 links
Я Арслан. В этом канале делюсь своими интересными наблюдениями в мире технологий и не только.

Наблюдения не только технические, но и социальные. Стараюсь писать коротко.

Мой контакт: @arslanurt
Download Telegram
The hard things about hard things

В заголовке название книги Бена Хоровица.

Долго не добирался до этой книги, потому что она про то, как быть CEO, а не CTO. И очень зря, потому что в книге много мыслей про то, как быть хорошим руководителем, не важно с каким названием. Поэтому рекомендую.

Сегодня наткнулся в книге на мысль про взаимотношения между руководителем и сотрудником, до которой когда-то дошел сам, а потом стал неоднократно сталкиваться с подтверждениями от других людей.

Руководитель и сотрудник, конечно, могут быть друзьями, но для руководителя критически важно отделять эффективность от хороших отношений. На работе вы не друзья в классическом понимании этого слова. Звучит довольно печально, да. Классическими друзьями можно быть после работы, сходив вместе поужинать.

В книге приводится в пример ситуация:


Если приятель рассказывает вам забавную историю, то с вашей стороны будет странно оценивать его исполнительское мастерство. Неуместно будет заявить ему «Ты недостаточно увлекательно изложил ее начало, да и совершенно испортил кульминационный момент. Предлагаю пойти тебе и поработать над исполением дополнительно и представить мне эту историю завтра.»


Но в работе так сказать будет не просто не неуместно, руководитель обязан это сказать, если видит проблему в рассказе сотрудника. Рассказ — аналогия.

Не всем удается перестроиться, но это очень важно. Причем в обе стороны. В хороших компаниях (люблю за это Яндекс!) необходимо и так же, чтобы сотрудник говорил руководителю, что руководитель делает что-то не так. Иначе компания превратится в болото.

Ключевое в этом следующее — вы делаете общее дело. Ради этого дела вы собрались в это время и в этом месте, нужно про это помнить.

Более того, все крутые люди, которых я знаю, рады слышать не только позитивную обратную связь, но и негативную (даже если в моменте раздражаются от этого). Потому что негативная обратная связь помогает развиваться.

Значит ли это, что руководитель не должен заботиться о людях и должен выжимать из людей все соки? Нет, не значит. Не редко даже все обстоит ровно наоборот. Баланс найти тяжело, но необходимо.
21👍16
https://openai.com/sora

OpenAI релизнули text2video (пишешь текст, по нему генерируется видео).

Обычно новости не публикую, но тут демки невероятные, ничего даже близкого я еще не видел.
🔥8🤯5
Arslan's Insights
https://openai.com/sora OpenAI релизнули text2video (пишешь текст, по нему генерируется видео). Обычно новости не публикую, но тут демки невероятные, ничего даже близкого я еще не видел.
Media is too big
VIEW IN TELEGRAM
Например, генерация трейлера к фильму про космические путешествия!

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors. more
🔥13
Дилемма инноватора

Сегодняшний день — хороший пример дилеммы инноватора. Вот две новости:

1. https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024

Google Gemini 1.5. Еще один чатбот, но с улучшенными метриками. Токенов побольше, лучше объяснение и тд и тп. Но все это мы уже видели не раз!

2. https://openai.com/sora

OpenAI сделал генерацию видео по тексту. Взрывает мозг, ничего даже близкого мы еще не видели.

В чем дилемма?

На столько большим компаниям, как google, сложно по настоящему вкладываться в безумные инновации. Это огромная ставка без каких бы то ни было гарантий. Эта ставка практически обречена раствориться в текущих более понятных целях и в текущей организационной структуре.

Если продукт устоявшийся, то всегда можно улучшать понятные показатели продукта. Это безопасно и за это понятно как получить премии. Но прорывные инновации так сделать не получится.

Однако может появиться в 10 раз более крутой продукт, который появился из-за рискованной инвестиции в инновацию, что приведет к победе нового продукта над старым.

Руководителям очень важно помнить про эту дилемму и явным образом периодически идти на контролируемый риск.
💯14👍6🔥1
Кулстори про Андрея Карпаты (ex исследователь в OpenAI)

Куча data science телеграм каналов сейчас постят/репостят про то, что Андрей выпустил лекцию по BPE (https://www.youtube.com/watch?v=zduSFxRajkE). Это алгоритм преобразования текста в набор чисел, чтобы было что подавать на вход в LLM. Информации про BPE вагон и маленькая тележка на самом деле. На русском языке тоже полно информации, можно поискать в Яндексе (!). Мой пост не об этом.

Из олимпиадного прошлого у меня сложилось твердое мнение, что невозможно досконально понять алгоритм, не запрограммировав его. Потому что теоретизировать можно долго, но если код не работает, то он не работает и все тут.

Поэтому на новогодних каникулах я засел программировать инференс LLM. Без какой-то цели, просто for fun. Я тогда не дописал инференс до рабочего состояния, потому что слишком долго парсил pickle из rust (rust выбрал тоже просто for fun). В итоге у меня в канале родился пост про то, что сложно писать код будучи руководителем.

Однако в какой-то момент мне потребовалось тогда взять другой готовый инференс, погрузиться в него и залоггировать числа по слоям нейросети, чтобы сверять реализацию.

Очень многие знают про llama.cpp (https://github.com/ggerganov/llama.cpp), но код там абсолютно дикий. Хотя и написано якобы на C++, но по факту это почти чистый C со всеми его проблемами. Поэтому я решил поискать еще.

Иии… я наткнулся тогда еще на llama2.c - https://github.com/karpathy/llama2.c

Это реализация инференса и дообучения LLM модели llama2 от Андрея Карпаты (на уже совсем чистом C). Там он пишет, что запрограммировал это for fun и для образовательных целей. Прям так и пишет «this repo started recently as a fun weekend project». Weekend project! Впрочем, Андрей пишет, что у него тогда была его реализация GPT-2 на C (называется nanoGPT), которую он взял и расширил до архитектуры llama2. Так же Андрей пишет, что на это его вдохновил проект llama.cpp.

И помимо работы с моделью там еще и реализация BPE есть! Вот, наверное, где корни текущей лекции про BPE.

Я думаю, что можем ожидать следующие лекции от Андрея про устройство LLM, потому что Андрей буквально закодил ее с нуля, без использования сторонних библиотек, и поэтому очень глубоко понимает что там внутри.
👍22🔥52
Opensource LLM от Google

Продолжает сбываться мой прогноз, что корпорации будут выкладывать LLM в opensource.

https://ai.google.dev/gemma

Зачем платить какому-то там OpenAI, если можно просто взять хорошую модель в opensource, да?

По качеству gemma 7b плюс-минус равна mistral 7b. Но что поразительно? А поразительно то, что gemma 2b модель не сильно отстает. 2b модель сильно дешевле, чем 7b, 2b можно запускать даже на современном смартфоне без особых проблем.
🔥124👍2
Власти Индии рекомендуют получать у них одобрение на запуск ИИ моделей

Появляются такие новости. Я их читаю и мне сразу вспоминается Red Flag Acts. Что это такое?

В конце 19 века в UK приняли ряд законов, регулирующих использование автомобилей на дорогах общего пользования.

В результате принятых законов если вы хотели ехать на автомобиле, то вам нужно было 3 человека: водитель, кочегар (что?) и человек с красным флагом. Ехать можно было со скоростью не выше 3 километров в час, а человек с красным флагом должен был идти перед автомобилем и громко оповещать окружающих о том, что едет автомобиль, размахивая красным флагом.

Так безопаснее же!

Привело это к тому, что автомобильная промышленность в UK сильно отстала от других стран на 30-40 лет.

У Индии есть шанс повторить этот успех, но уже в сфере ИИ!

UPD. В комментариях указали, что нет убедительных доказательств, что red flag acts замедлили развитие автомобилестроения в UK. Спасибо, что читаете мой канал!
😁15🔥3🤔2
Media is too big
VIEW IN TELEGRAM
Yasmina отжигает на LEAP (конференция в Эр-Рияде)
🔥45👍75❤‍🔥1
alphasignal.ai

Опросил коллег на тему того какие они читают места, чтобы быть в курсе последних новостей в сфере AI. Все читают целую кучу источников, от tg-каналов, твиттера (Илон Маск бы сказал, что не знает что это, но зато знает «X») и до отслеживания конкретных людей в linkedin.

Среди источников мне понравился: https://alphasignal.ai

В нем AI суммаризирует новости про AI за неделю из самых разных мест и присылает результат на почту, я подписался.

Присылайте свои источники в комментариях!
Сколько ног у лошади?

У меня есть хобби - спрашивать у AI сколько ног у лошади. GPT-4 давно уже нет смысла спрашивать об этом, поэтому я решил немного еще ее почелленджить, но не удалось)
😁41👍7🤣1
Devin

Cognition AI опубликовали интересное видео: https://www.youtube.com/watch?v=fjHtjT7GO1c

Devin - AI замена разработчику (хотят отобрать у нас работу!)

На видео у Девина просят побенчмаркать llama2 на нескольких провайдерах моделей по API - replicate, together, perplexity. Девина просят разобраться в API и написать скрипт, который задаст запросы в API из одинакового датасета во все провайдеры.

Сначала Девин пишет план, по которому он будет действовать, затем начинает использовать те же инструменты, что и обычный разработчик, чтобы выполнить задачу. Ищет документацию в браузере, использует терминал и редактор кода. Генерирует код, пробует его запустить, дебажит ошибки. Во время дебага Девин добавляет print-ы для дебага кода, затем перезапускает код и использует вывод для того, чтобы починить код. Затем Девин решает создать сайт для простенькой визуализации того, что получилось по результатам бенчмарка.

Оказывается, для таких задач есть свой рейтинг на SWE bench и Devin достиг 13.86%, тогда как второе место занимает Cloude2 с результатом 4.80%.

Задача из видео очень простая, в реальности зазор между этой задачей и даже средней задачей, которую приходится решать разработчикам огромен, однако скорость прогресса поражает.

Интересно до куда это все может дойти!
😱13👍31🤔1🤡1
Симуляция мира

Если хотите сделать беспилотное такси или антропоморфных роботов, то у вас есть интересная проблема. Вам очень сложно нормально тестироваться в реальности. И еще вам сложно собирать обучающую выборку в реальности. Вам сложно валидировать гипотезы, проводить много экспериментов. Работа исследователя AI состоит из можества экспериментов, из которых очень многие - неудачные!

Идея - давайте симулировать мир, чтобы в симуляции уметь тестировать ваш AI, собирать выборки и тд и тп.

За последний месяц я наткнулся на два проекта.

https://www.archetypeai.io/blog/what-is-physical-ai - пробуют сделать что-то типа LLM, но для физического мира. Вход для модели - информация с самых разных сенсоров. Камеры, микрофоны, данные лидара, датчики температуры, химические сенсоры и тд и тп. Модель назвали свою Newton! По сайту плохо понятно какой выход у модели. Однако понятно, что для симуляции сложно моделировать математически физический мир (мы ведь и сами не знаем до конца как физика работает), но вдруг мы сможем это делать с помощью AI?

https://waabi.ai/waabi-world/ - делают SefDriving trucks (автономные фуры). Говорят, что в симуляции делают цифровых двойников для всех участников движения. Делают AI, который симулирует естественное поведение участников движения. Добавляют вариативности, что позволяет в симуляции проверять тысячи и тысячи разных ситуаций на дороге. Называют свой симулятор Waabi World.

P.S. Когда я впервые услышал гипотезу, что мы живем в симуляции, я подумал, что гипотеза - бред, но теперь я ее бредом уже не считаю :D
🔥141
Странные совпадения с GPT-4o

https://habr.com/ru/companies/bothub/news/815801/ - OpenAI хотели голос Скарлетт Йоханссон, но не получили. В итоге сделали похожий голос. Я думаю там нет вранья и действительно подобрали похожий голос, а не взяли тот, который было нельзя. Подобрать похожий голос - реальная задача.

У OpenAI точно много контакта с майкрософтом. Более того, вот тут можно глянуть в раздел special thanks: https://openai.com/index/dall-e-3/

Там перечислены фамилии, кому особенно был благодарен OpenAI в тот момент, а среди них Misha Bilenko, Mikhail Parakhin.

Кто эти люди? Оба работали в Яндексе, оба много сделали для того, чтобы Алиса появилась и стала в результате такой, какой она стала. Оба в итоге ушли в майкрософт и стали плотно работать с OpenAI.

А дальше следите за руками.

В чем пара важных фишек GPT-4o? Эмоции и голос Скарлетт Йоханссон.

В чем пара важных фишек Алисы? Эмоции и голос Скарлетт Йоханссон (Алисе дала голос та же актриса озвучки, которая озвучивает Скарлетт Йоханссон в русском дубляже в фильмах).

Совпадение или Алиса повлияла на GPT-4o?
🤔45🔥13😱8🤨3💩2🤡2👎1🖕1
Arslan's Insights
Симуляция мира Если хотите сделать беспилотное такси или антропоморфных роботов, то у вас есть интересная проблема. Вам очень сложно нормально тестироваться в реальности. И еще вам сложно собирать обучающую выборку в реальности. Вам сложно валидировать гипотезы…
Автономные грузовики от waabi

Писал уже про компанию waabi, они делают автономные грузовики и их главная особенность в том, что ребята вкладываются в симулятор мира.

Waabi подняли раунд-B инвестиций в размере 200m$, хотят выпустить полностью автономный грузовик в 2025 году. Так же они вчера выпустили очень любопытное видео про свой прогресс и планы: https://youtu.be/vaJqvYm-gK8

Я раньше не обратил внимание, но waabi умеют в своем симуляторе симулировать сенсоры (камеры, лидары). Мне в прошлый раз казалось, что симуляция на уровне коробочек в виртуальном мире (картинка номер 1).

Однако они пишут, что умеют симулировать сенсоры: «Performs near real-time high fidelity sensor simulation enabling testing of the entire software stack in an immersive and reactive manner».

И действительно, это же не sora, а проще. Не нужна полная генерация с нуля.

Если у тебя есть реальный проезд по какой-то дороге, то ты можешь вырезать из него другие машины и прочие объекты, а потом подставлять другие. А так же можешь научиться переставлять себя по дороге и добавлять реакции других водителей. Вырезать, подставлять и передвигать - это более простая задача для AI, чем генерация видео-потока полностью с нуля. Во вчерашнем видео есть кадры применения изменений к видео (картинка 2).

Waabi говорят, что чтобы построить большой бизнес не нужно даже быть первым, кто высадил водителя на какой-то отдельной дороге, а нужно уметь быстро масштабировать количество дорог, по которым ездишь без водителя. И ответ на вопрос «как» от waabi - реалистичный симулятор.
👍191
This media is not supported in your browser
VIEW IN TELEGRAM
Спекулятивный декодинг в LLM (p.1)

Все знают, что LLM запускать дорого и работают они долго. Поэтому пробуют разные способы как сделать запуск дешевле, желательно в разы. Достаточно быстро в голову приходит идея следующая:
1. Вот есть запрос и нужно сгенерировать ответ.
2. Берем две нейросети: одну большую, а вторую маленькую. Маленькую запускать дешевле, но она хуже отвечает.
3. Давайте по запросу натренируем классификатор, который сможет понимать, что на этот запрос маленькая нейросеть сможет нормально ответить.
4. Во время ответа на запрос запускаем сначала классификатор, а потом запускаем маленькую или большую модель.
5. PROFIT! Рантайм стал дешевле, возможно сильно.

Какие проблемы такого подхода?
- Классификатор такой не так уж легко получить.
- Классификатор все равно будет иногда ошибаться и качество будет ниже.

Однако очень уж хочется развить эту идею. И вот ее развили в "спекулятивный декодинг". Это одна из тех идей, про которую мне прям жаль, что я сам до такого же не догадался. Надеюсь, что просто недостаточно подумал) Но идея гениальная и при этом простая.
👍6
Спекулятивный декодинг в LLM (p.2)

Начало в предыдущем посте.

LLM генерируют ответ итеративно по токенам. Токен - это часть слова. Слова могут состоять из 1, 2 или более токенов. То есть чтобы получить ответ из 100 токенов, нужно запустить нейросеть 100 раз. Для удобства дальнейших рассуждений скажем, что генерация происходит по словам.

Обучение и запуск LLM устроены так, что LLM не может заглядывать в будущее в тексте. То есть для обучения предсказания слова под номером K, LLM не может заглянуть в те слова, которые были в обучении после слова с номером K. Если бы это было не так, то невозможно было бы использовать LLM в реальности, потому что не было бы "будущего" текста во время ответа на запросы. А при таком подходе можно итеративно генерировать слова.

Идея такая:
1. Вот есть запрос и нужно сгенерировать ответ.
2. Берем две нейросети, одну большую, а вторую маленькую.
3. Генерируем 10 слов с помощью маленькой нейросети.
4. Подаем эти 10 слов в большую нейросеть. Для каждого слова под номером K среди этих 10 мы имеем независимый прогноз.
5. Поэтому мы можем просто пройти и проверить прогнозы маленькой LLM.
7. Допустим для первых 7 слов прогноз совпал. Отлично, тогда их берем.
8. PROFIT! У нас получилось сгенерировать 7 слов за запуск маленькой модели 10 раз и большой всего 1 раз. Возвращаемся к пункту 3.

Понятно, что дальше нужно подобрать сколько генерировать маленькой моделью, чтобы действительно был профит. Но на практике получается удешевить запуск на десятки процентов.

Иллюстрация на видео в первом посте.

Можно почитать подробнее тут: https://huggingface.co/blog/whisper-speculative-decoding
👍11
Multi-Token-Prediction

В комментариях к предыдущему посту уже упомянули эту идею. Хотел позже написать, но напишу уже сейчас)

В Meta придумали вот что: а давайте теперь после токена номер K генерировать прогноз не только для токена номер K+1, но и для K+1, K+2, K+3, K+4.

То есть по факту к выходу LLM добавилась еще одна размерность.

Пишут, что это не влияет на скорость обучения, но:
1. Лучше качество.
2. В 3 раза быстрее инференс.

Ускорение инференса берется как раз из спекулятивного декодинга. Только берется не две модели, а одна. Но на самом деле это не обязательно, идеи прекрасно объединяются как матрешка.

Можно делать спекулятивный декодинг внутри спекулятивного декодинга!

Тут можно почитать подробнее: https://arxiv.org/abs/2404.19737
🔥7👍3