Valuable AI / Валентин Малых
1.89K subscribers
449 photos
55 videos
2 files
440 links
личный канал про ИИ
Download Telegram
лично мне близка вот эта цитата из статьи:
Соучредитель, председатель правления и гендиректор интернет-компании Baidu Ли Яньхун: "В будущем естественные языки станут новыми языками программирования. Для разработки достаточно будет уметь говорить, чтобы своей креативностью менять мир"

я такой подход разделяю, только формулирую чуть по-другому: я думаю, что люди через несколько лет будут больше программировать и меньше кодить

но в целом статья скорее про то, что в Китае есть целая отдельная экосистема ИИ, очень интересно наблюдать, как она будет конкурировать с экосистемой, созданной в США
https://russian.cgtn.com/news/2024-04-18/1780816616634871810/index.html
👍3
Один мой знакомый data scientist, Федор Шабашев, написал следующий текст на своей странице в LinkedIn:
If you keep prices artificially low in order to force your competitors out of the business it is considered a crime - "predatory pricing".
However in the software world if you release your product "for free" in order to drive competitors out of business, it isn't called a crime, it is called open-source.
We can see that some Big Tech companies are actively executing the scorched earth strategy by releasing open source LLMs to the public for free in order to undermine potential competitors.
Big companies are driven by economic incentives, not open source idealism.


Я не согласен с такой постановкой вопроса. На мой взгляд большие компании путем выпуска открытых языковых моделей борются между собой, т.к. они фактически дают бесплатное демо своих технологий. Как я понимаю Федора, он имеет в виду, что такая стратегия не дает развиваться более мелким компаниям, которые бы иначе делали свои языковые модели. Но на мой взгляд - наоборот, это дает возможность подняться большому числу мелких компаний, которые каждая может использовать открытую LLM для своей узкой задачи. Из этих компаний со временем выделятся более крупные, которые, быть может, составят конкуренцию гигантам.

Можно провести аналогию с открытыми реляционными базами данных (SQL) и привести в пример компанию Postgres Professional, которая является крупным игроком на российском рынке баз данных, построив свой бизнес на доработке и сервисах вокруг БД PostgreSQL.
💯4🤔31
людишки еще не поняли, к чему все идет

утащил у Дмитрия Колодезева
7😁7👍3😈2🥰1🐳1
интересную опасность подсветили коллеги: на основе LLM можно сделать автономного бота, который будет заниматься взломом сайтов, пока вы спите или заняты другими делами; уровень успеха в 53% говорит о том, что большинство владельцев сайтов до сих пор не озабочены кибер-безопасностью; я ожидаю, что массовый взлом сайтов приведет к распространению помощников по кибер-безопасности, вероятно, также на LLM, эта технология стала сейчас базовой для многих задач по ИИ https://newatlas.com/technology/gpt4-autonomously-hack-zero-day-security-flaws/
получился бы интересный альянс; Apple явно опаздывает в современной гонке крупных технологических компаний; может быть, это связано с политикой закрытости, свойственной всем компаниям, занимающимся производством «железа»; кажется, что ИИ сейчас принципиально требует открытости https://ria.ru/20240623/meta-1954866067.html
👍1
как вам шрифт, который также - LLM? (да, да, «Ленин - гриб и, следовательно, радиоволна») люблю такое, фактически - это стеганография на максималках

https://fuglede.github.io/llama.ttf/
🤯3🔥1
для меня выглядит, как легкий «звездеж»; в том плане, что в 20 раз быстрее топового тензорного ускорителя от nVIDIA - это как-то очень круто; тем более, что заявляется, что это ASIC, то бишь программируемая логика;

отдельно хочу отметить, что название ускорителя Sohu - подозрительно похоже на китайское, что неудивительно, учитывая, что в сооснователях - этнические китайцы, но все равно наводит на мысли, что разработки там китайские

https://www.ixbt.com/news/2024/06/26/20-nvidia-h100-sohu.html
я пропустил эту работу в феврале, а сейчас прочел и нашел много интересного; из самого на мой взгляд важного: (i) коллеги нашли, что более глубокие модели дают лучшее качество, чем широкие с тем же количеством параметров (для полносвязных сетей это давно было известно, теперь подтвердилось и для трансформеров); (ii) Grouped-Query Attention снова оказался более эффективным для небольших размеров, чем классический механизм внимания; (iii) можно повторно прогонять блоки транформера, чтобы улучшить качество модели (было известно для рекуррентных сетей, но теперь актуально и для трансформеров); в целом крайне интересная работа, рекомендую; что немаловажно, доступен код, не все нынче таким грешат

https://arxiv.org/abs/2402.14905
https://github.com/facebookresearch/MobileLLM
5
просторы Интернета принесли довольно интересный патент от Tesla; он меня заинтересовал как в отдаленном прошлом сетевого специалиста, а в настоящем - специалиста по ИИ; в этом патенте инженеры Tesla предлагают в общем-то не что-то гипер-инновационное, а фактически предлагают на аппаратном уровне реализовать аналог TCP/UDP; стоит отметить, что TCP и UDP на аппаратном на аппаратном уровне уже были реализованы уже как минимум 4 года назад (это открытая реализация, есть еще проприетарная от Cast Inc.); возможно, этот протокол лучше оптимизирован и в целом позволит уменьшить задержки, интересно было бы посмотреть сравнение, так как все три разработки предлагаются для реализации на FPGA (ПЛИС); кстати, именно минимальные задержки указаны в мотивационной части патента, как преимущество для тренировки ИИ; собственно, на этом связь с ИИ исчерпывается
🔥4
коллеги подсказали вот такую статью; это повод поговорить о фундаментальных основаниях оценки моделей машинного обучения: мы, повторяя за гуманистами 18-го столетия (а они в свою очередь вслед древнегреческому Протагору), считаем, что "человек есть мера всех вещей"; или применительно к нашей области "человеческое суждение является самым объективным способом оценки результатов работы моделей"

последний примерно год стала широко распространена практика, когда в качестве оценщика используется GPT4; были статьи, которые показывают очень высокую корреляцию оценок GPT4 и оценок людей, однако же, эти корреляции были получены на тех данных, на которых GPT4 обучалась, а используется она как правило на новых данных, которых не видела при обучении; и тут всплывает проблема, описанная в статье ставшей причиной данного поста - GPT4 предпочитает ответам людей свои ответы (и ответы моделей, обученных на ее ответах); я думаю, что тут есть некоторая симметрия: люди предпочитают ответы людей, потому что учатся именно на ответах людей, посмотрим, что будет, когда вырастет поколение, для которого LLM "были всегда"

сама статья, если кому интересно: https://arxiv.org/abs/2407.12856
👍2🔥2
небольшой анонс мероприятия с моим участием, приходите, кому интересно послушать про RAG

детали мероприятия можно посмотреть здесь (нужна регистрация): https://xn--r1a.website/compressaai/6
👍13🔥4
наткнулся на интересную статью от немецких коллег: они решили переизобрести токенизацию, больше всего их подход похож на fasttext; если в двух словах, то они разбивают слова на триграммы, а потом суммируют векторные представления триграмм для получения векторного представления токена; интересно тут то, что коллеги предложили способ генерации слова из набора триграмм - они отбирают для генерации те слова, которые содержат предсказанные триграммы; остается вопросом, как разрешать коллизии, если в словах совпал набор триграмм, ведь предсказывается распределение по словарю тригамм, а сравнение распределений - штука не совсем тривиальная

польза от этой разработки в том, что можно уменьшить размер выучиваемой матрицы векторных представлений (в их экспериментах - до 8 тысяч триграмм) без потери качества, но засчет чуть более сложной процедуры генерации; ссылка на статью: https://arxiv.org/abs/2406.19223
🔥3
многие в курсе, что мы с командой занимаемся разработкой аналога GitHub CoPilot; меня часто спрашивают, не выгонят ли с работы программистов, когда его внедрят? вот ответ
😁17🤣5👾31🐳1
проект wordfreq по сбору статистики использования слов в интернете прекращает свою работу; в прощальном письме приведена причина: что больше нет достоверной информации об использовании языка людьми после 2021 года; https://github.com/rspeer/wordfreq/blob/master/SUNSET.md

надо начать чуть издалека, язык - это средство передачи информации посредством речи; речь делится на устную и письменную; принципиальным отличием первой от второй является то, что письменная речь изначально фиксируется, и поэтому письменные тексты постоянно накапливаются; а устная речь, как правило, не фиксируется, поэтому про нее мы знаем гораздо меньше; корпусная лингвистика (и wordfreq, как ее часть) работает именно с письменными текстами; это означает, что все результаты этой науки применимы практически исключительно к письменным текстам, но не ко всему языку

и вот тут мы подходим к интересной точке: дело в том, что в конце 2021 года появились (как массовое явление) большие языковые модели или LLM; на LLM можно смотреть по-разному, но я предлагаю посмотреть на них, как на третий вид речи (способ передачи информации); дело в том, что LLM - это не книга, где текст фиксирован, это - принципиально новая сущность, которая способна ответить на вопросы, то есть передать заключенную в ней информацию в виде ответа на прямой вопрос; до 2021 года люди могли получить ответ на вопрос только от других людей, а человек обладает свободой воли и может не отвечать, искажать информацию намеренно и т.п.; LLM не обладает свободой воли, она всегда отвечает на вопрос, поэтому я и говорю об LLM, как о третьем типе речи, если хотите о "консервированном знании", "говорящей книге", но не о стороне диалога

теперь необходимо отличать две сущности, собственно письменные тексты (написанные человеком) и сгенерированные; на мой взгляд проблема их отличения не настолько сложная, но требуется пересмотр подходов корпусной лингвистики, выход из привычной парадигмы фиксации текста, теперь для текста необходимо фиксировать его источник; современные технлологии это позволяют, и я думаю в течение этого десятилетия мы именно к этому и придем
👍7😭5😍21🤔1