лично мне близка вот эта цитата из статьи:
я такой подход разделяю, только формулирую чуть по-другому:я думаю, что люди через несколько лет будут больше программировать и меньше кодить
но в целом статья скорее про то, что в Китае есть целая отдельная экосистема ИИ, очень интересно наблюдать, как она будет конкурировать с экосистемой, созданной в США
https://russian.cgtn.com/news/2024-04-18/1780816616634871810/index.html
Соучредитель, председатель правления и гендиректор интернет-компании Baidu Ли Яньхун: "В будущем естественные языки станут новыми языками программирования. Для разработки достаточно будет уметь говорить, чтобы своей креативностью менять мир"
я такой подход разделяю, только формулирую чуть по-другому:
но в целом статья скорее про то, что в Китае есть целая отдельная экосистема ИИ, очень интересно наблюдать, как она будет конкурировать с экосистемой, созданной в США
https://russian.cgtn.com/news/2024-04-18/1780816616634871810/index.html
Cgtn
Baidu представил набор инструментов для создания программ и приложений без навыков кодирования
👍3
Один мой знакомый data scientist, Федор Шабашев, написал следующий текст на своей странице в LinkedIn:
Я не согласен с такой постановкой вопроса. На мой взгляд большие компании путем выпуска открытых языковых моделей борются между собой, т.к. они фактически дают бесплатное демо своих технологий. Как я понимаю Федора, он имеет в виду, что такая стратегия не дает развиваться более мелким компаниям, которые бы иначе делали свои языковые модели. Но на мой взгляд - наоборот, это дает возможность подняться большому числу мелких компаний, которые каждая может использовать открытую LLM для своей узкой задачи. Из этих компаний со временем выделятся более крупные, которые, быть может, составят конкуренцию гигантам.
Можно провести аналогию с открытыми реляционными базами данных (SQL) и привести в пример компанию Postgres Professional, которая является крупным игроком на российском рынке баз данных, построив свой бизнес на доработке и сервисах вокруг БД PostgreSQL.
If you keep prices artificially low in order to force your competitors out of the business it is considered a crime - "predatory pricing".
However in the software world if you release your product "for free" in order to drive competitors out of business, it isn't called a crime, it is called open-source.
We can see that some Big Tech companies are actively executing the scorched earth strategy by releasing open source LLMs to the public for free in order to undermine potential competitors.
Big companies are driven by economic incentives, not open source idealism.
Я не согласен с такой постановкой вопроса. На мой взгляд большие компании путем выпуска открытых языковых моделей борются между собой, т.к. они фактически дают бесплатное демо своих технологий. Как я понимаю Федора, он имеет в виду, что такая стратегия не дает развиваться более мелким компаниям, которые бы иначе делали свои языковые модели. Но на мой взгляд - наоборот, это дает возможность подняться большому числу мелких компаний, которые каждая может использовать открытую LLM для своей узкой задачи. Из этих компаний со временем выделятся более крупные, которые, быть может, составят конкуренцию гигантам.
Можно провести аналогию с открытыми реляционными базами данных (SQL) и привести в пример компанию Postgres Professional, которая является крупным игроком на российском рынке баз данных, построив свой бизнес на доработке и сервисах вокруг БД PostgreSQL.
Linkedin
If you keep prices artificially low in order to force your competitors out of the business it is considered a crime - "predatory…
If you keep prices artificially low in order to force your competitors out of the business it is considered a crime - "predatory pricing".
However in the software world if you release your product "for free" in order to drive competitors out of business…
However in the software world if you release your product "for free" in order to drive competitors out of business…
💯4🤔3❤1
на прошлой неделе была конференция COLING, на которую у нас приняли работу про поиск по коду; видео, где я про нее рассказываю: https://youtu.be/kY73CCaNfJU
ссылка на саму статью: https://arxiv.org/abs/2305.11625
ссылка на саму статью: https://arxiv.org/abs/2305.11625
YouTube
Searching by Code: a New SearchBySnippet Dataset and SnippeR Retrieval Model for Searching Snippets
Code search is an important and well-studied task, but it usually means searching for code by a text query. We argue that using a code snippet (and possibly an error traceback) as a query while looking for bugfixing instructions and code samples is a natural…
🔥7
коллеги молча выложили мое выступление на True Tech Day, спасибо рекомендациям ютуба, что подсказали https://www.youtube.com/watch?v=FY1eau7kyRI
YouTube
Как мы делаем помощника программиста | True Tech Day 2.0
Подписывайтесь на True Tech в Telegram: https://xn--r1a.website/truetechcommunity
Можно применять анализ текстов к текстам программ и, как оказалось, добиваться при этом очень интересных результатов. Расскажем о том, какие есть задачи в области NLP4Code и какие подходы…
Можно применять анализ текстов к текстам программ и, как оказалось, добиваться при этом очень интересных результатов. Расскажем о том, какие есть задачи в области NLP4Code и какие подходы…
🔥4❤2❤🔥1👍1🍓1
интересную опасность подсветили коллеги: на основе LLM можно сделать автономного бота, который будет заниматься взломом сайтов, пока вы спите или заняты другими делами; уровень успеха в 53% говорит о том, что большинство владельцев сайтов до сих пор не озабочены кибер-безопасностью; я ожидаю, что массовый взлом сайтов приведет к распространению помощников по кибер-безопасности, вероятно, также на LLM, эта технология стала сейчас базовой для многих задач по ИИ https://newatlas.com/technology/gpt4-autonomously-hack-zero-day-security-flaws/
New Atlas
GPT-4 autonomously hacks zero-day security flaws with 53% success rate
Researchers were able to successfully hack into more than half their test websites using autonomous teams of GPT-4 bots, co-ordinating their efforts and spawning new bots at will. And this was using previously-unknown, real-world 'zero day' exploits.
получился бы интересный альянс; Apple явно опаздывает в современной гонке крупных технологических компаний; может быть, это связано с политикой закрытости, свойственной всем компаниям, занимающимся производством «железа»; кажется, что ИИ сейчас принципиально требует открытости https://ria.ru/20240623/meta-1954866067.html
РИА Новости
Meta* ведет переговоры с Apple об интеграции ИИ, пишут СМИ
Компания Meta* ведет переговоры с компанией Apple об интеграции своей модели искусственного интеллекта (ИИ) в модель ИИ Apple Intelligence, сообщает газета Wall РИА Новости, 23.06.2024
👍1
как вам шрифт, который также - LLM? (да, да, «Ленин - гриб и, следовательно, радиоволна») люблю такое, фактически - это стеганография на максималках
https://fuglede.github.io/llama.ttf/
https://fuglede.github.io/llama.ttf/
fuglede.github.io
llama.ttf
llama.ttf is a font file which is also a large language model and an inference engine for that model.
🤯3🔥1
для меня выглядит, как легкий «звездеж»; в том плане, что в 20 раз быстрее топового тензорного ускорителя от nVIDIA - это как-то очень круто; тем более, что заявляется, что это ASIC, то бишь программируемая логика;
отдельно хочу отметить, что название ускорителя Sohu - подозрительно похоже на китайское, что неудивительно, учитывая, что в сооснователях - этнические китайцы, но все равно наводит на мысли, что разработки там китайские
https://www.ixbt.com/news/2024/06/26/20-nvidia-h100-sohu.html
отдельно хочу отметить, что название ускорителя Sohu - подозрительно похоже на китайское, что неудивительно, учитывая, что в сооснователях - этнические китайцы, но все равно наводит на мысли, что разработки там китайские
https://www.ixbt.com/news/2024/06/26/20-nvidia-h100-sohu.html
iXBT.com
В 20 раз быстрее Nvidia H100 и на порядок дешевле. Представлен Sohu — «самый быстрый ИИ-чип всех времён»
Молодая компания Etched представила то, что она называет самым быстрым ИИ-чипом всех времён. Решение называется Sohu. По заявлению создателей, один сервер с восемью ускорителями на основе Sohu сопоставим по производительности со 160 ускорителями Nvidia H100!…
я пропустил эту работу в феврале, а сейчас прочел и нашел много интересного; из самого на мой взгляд важного: (i) коллеги нашли, что более глубокие модели дают лучшее качество, чем широкие с тем же количеством параметров (для полносвязных сетей это давно было известно, теперь подтвердилось и для трансформеров); (ii) Grouped-Query Attention снова оказался более эффективным для небольших размеров, чем классический механизм внимания; (iii) можно повторно прогонять блоки транформера, чтобы улучшить качество модели (было известно для рекуррентных сетей, но теперь актуально и для трансформеров); в целом крайне интересная работа, рекомендую; что немаловажно, доступен код, не все нынче таким грешат
https://arxiv.org/abs/2402.14905
https://github.com/facebookresearch/MobileLLM
https://arxiv.org/abs/2402.14905
https://github.com/facebookresearch/MobileLLM
arXiv.org
MobileLLM: Optimizing Sub-billion Parameter Language Models for...
This paper addresses the growing need for efficient large language models (LLMs) on mobile devices, driven by increasing cloud costs and latency concerns. We focus on designing top-quality LLMs...
❤5
просторы Интернета принесли довольно интересный патент от Tesla; он меня заинтересовал как в отдаленном прошлом сетевого специалиста, а в настоящем - специалиста по ИИ; в этом патенте инженеры Tesla предлагают в общем-то не что-то гипер-инновационное, а фактически предлагают на аппаратном уровне реализовать аналог TCP/UDP; стоит отметить, что TCP и UDP на аппаратном на аппаратном уровне уже были реализованы уже как минимум 4 года назад (это открытая реализация, есть еще проприетарная от Cast Inc.); возможно, этот протокол лучше оптимизирован и в целом позволит уменьшить задержки, интересно было бы посмотреть сравнение, так как все три разработки предлагаются для реализации на FPGA (ПЛИС); кстати, именно минимальные задержки указаны в мотивационной части патента, как преимущество для тренировки ИИ; собственно, на этом связь с ИИ исчерпывается
🔥4
коллеги подсказали вот такую статью; это повод поговорить о фундаментальных основаниях оценки моделей машинного обучения: мы, повторяя за гуманистами 18-го столетия (а они в свою очередь вслед древнегреческому Протагору), считаем, что "человек есть мера всех вещей"; или применительно к нашей области "человеческое суждение является самым объективным способом оценки результатов работы моделей"
последний примерно год стала широко распространена практика, когда в качестве оценщика используется GPT4; были статьи, которые показывают очень высокую корреляцию оценок GPT4 и оценок людей, однако же, эти корреляции были получены на тех данных, на которых GPT4 обучалась, а используется она как правило на новых данных, которых не видела при обучении; и тут всплывает проблема, описанная в статье ставшей причиной данного поста - GPT4 предпочитает ответам людей свои ответы (и ответы моделей, обученных на ее ответах); я думаю, что тут есть некоторая симметрия: люди предпочитают ответы людей, потому что учатся именно на ответах людей, посмотрим, что будет, когда вырастет поколение, для которого LLM "были всегда"
сама статья, если кому интересно: https://arxiv.org/abs/2407.12856
последний примерно год стала широко распространена практика, когда в качестве оценщика используется GPT4; были статьи, которые показывают очень высокую корреляцию оценок GPT4 и оценок людей, однако же, эти корреляции были получены на тех данных, на которых GPT4 обучалась, а используется она как правило на новых данных, которых не видела при обучении; и тут всплывает проблема, описанная в статье ставшей причиной данного поста - GPT4 предпочитает ответам людей свои ответы (и ответы моделей, обученных на ее ответах); я думаю, что тут есть некоторая симметрия: люди предпочитают ответы людей, потому что учатся именно на ответах людей, посмотрим, что будет, когда вырастет поколение, для которого LLM "были всегда"
сама статья, если кому интересно: https://arxiv.org/abs/2407.12856
arXiv.org
AI-AI Bias: large language models favor communications generated...
Are large language models (LLMs) biased in favor of communications produced by LLMs, leading to possible antihuman discrimination? Using a classical experimental design inspired by employment...
👍2🔥2
небольшой анонс мероприятия с моим участием, приходите, кому интересно послушать про RAG
детали мероприятия можно посмотреть здесь (нужна регистрация): https://xn--r1a.website/compressaai/6
детали мероприятия можно посмотреть здесь (нужна регистрация): https://xn--r1a.website/compressaai/6
👍13🔥4
кто не успел зарегистрироваться, будет трансляция: https://vk.com/video-171750876_456239052
можно задавать вопросы тут, постараемся ответить
UPD. По ссылке осталась запись.
можно задавать вопросы тут, постараемся ответить
UPD. По ссылке осталась запись.
VK Видео
Научный семинар «Перспективные подходы к построению RAG»
Watch Научный семинар «Перспективные подходы к построению.. 2 hr. 12 min 42 s from 30 August 2024 online in HD for free in the VK catalog without signing up! Views: 862. Likes: 11.
❤5👍1🔥1
наткнулся на интересную статью от немецких коллег: они решили переизобрести токенизацию, больше всего их подход похож на fasttext; если в двух словах, то они разбивают слова на триграммы, а потом суммируют векторные представления триграмм для получения векторного представления токена; интересно тут то, что коллеги предложили способ генерации слова из набора триграмм - они отбирают для генерации те слова, которые содержат предсказанные триграммы; остается вопросом, как разрешать коллизии, если в словах совпал набор триграмм, ведь предсказывается распределение по словарю тригамм, а сравнение распределений - штука не совсем тривиальная
польза от этой разработки в том, что можно уменьшить размер выучиваемой матрицы векторных представлений (в их экспериментах - до 8 тысяч триграмм) без потери качества, но засчет чуть более сложной процедуры генерации; ссылка на статью: https://arxiv.org/abs/2406.19223
польза от этой разработки в том, что можно уменьшить размер выучиваемой матрицы векторных представлений (в их экспериментах - до 8 тысяч триграмм) без потери качества, но засчет чуть более сложной процедуры генерации; ссылка на статью: https://arxiv.org/abs/2406.19223
🔥3
Valuable AI / Валентин Малых
наткнулся на интересную статью от немецких коллег: они решили переизобрести токенизацию, больше всего их подход похож на fasttext; если в двух словах, то они разбивают слова на триграммы, а потом суммируют векторные представления триграмм для получения векторного…
также, пользуясь случаем, прорекламирую свою диссертацию, она посвящена исследованию той же проблемы: https://www.ispras.ru/dcouncil/docs/diss/2019/malyh/malyh.php
🔥7😘3
проект wordfreq по сбору статистики использования слов в интернете прекращает свою работу; в прощальном письме приведена причина: что больше нет достоверной информации об использовании языка людьми после 2021 года; https://github.com/rspeer/wordfreq/blob/master/SUNSET.md
надо начать чуть издалека, язык - это средство передачи информации посредством речи; речь делится на устную и письменную; принципиальным отличием первой от второй является то, что письменная речь изначально фиксируется, и поэтому письменные тексты постоянно накапливаются; а устная речь, как правило, не фиксируется, поэтому про нее мы знаем гораздо меньше; корпусная лингвистика (и wordfreq, как ее часть) работает именно с письменными текстами; это означает, что все результаты этой науки применимы практически исключительно к письменным текстам, но не ко всему языку
и вот тут мы подходим к интересной точке: дело в том, что в конце 2021 года появились (как массовое явление) большие языковые модели или LLM; на LLM можно смотреть по-разному, но я предлагаю посмотреть на них, как на третий вид речи (способ передачи информации); дело в том, что LLM - это не книга, где текст фиксирован, это - принципиально новая сущность, которая способна ответить на вопросы, то есть передать заключенную в ней информацию в виде ответа на прямой вопрос; до 2021 года люди могли получить ответ на вопрос только от других людей, а человек обладает свободой воли и может не отвечать, искажать информацию намеренно и т.п.; LLM не обладает свободой воли, она всегда отвечает на вопрос, поэтому я и говорю об LLM, как о третьем типе речи, если хотите о "консервированном знании", "говорящей книге", но не о стороне диалога
теперь необходимо отличать две сущности, собственно письменные тексты (написанные человеком) и сгенерированные; на мой взгляд проблема их отличения не настолько сложная, но требуется пересмотр подходов корпусной лингвистики, выход из привычной парадигмы фиксации текста, теперь для текста необходимо фиксировать его источник; современные технлологии это позволяют, и я думаю в течение этого десятилетия мы именно к этому и придем
надо начать чуть издалека, язык - это средство передачи информации посредством речи; речь делится на устную и письменную; принципиальным отличием первой от второй является то, что письменная речь изначально фиксируется, и поэтому письменные тексты постоянно накапливаются; а устная речь, как правило, не фиксируется, поэтому про нее мы знаем гораздо меньше; корпусная лингвистика (и wordfreq, как ее часть) работает именно с письменными текстами; это означает, что все результаты этой науки применимы практически исключительно к письменным текстам, но не ко всему языку
и вот тут мы подходим к интересной точке: дело в том, что в конце 2021 года появились (как массовое явление) большие языковые модели или LLM; на LLM можно смотреть по-разному, но я предлагаю посмотреть на них, как на третий вид речи (способ передачи информации); дело в том, что LLM - это не книга, где текст фиксирован, это - принципиально новая сущность, которая способна ответить на вопросы, то есть передать заключенную в ней информацию в виде ответа на прямой вопрос; до 2021 года люди могли получить ответ на вопрос только от других людей, а человек обладает свободой воли и может не отвечать, искажать информацию намеренно и т.п.; LLM не обладает свободой воли, она всегда отвечает на вопрос, поэтому я и говорю об LLM, как о третьем типе речи, если хотите о "консервированном знании", "говорящей книге", но не о стороне диалога
теперь необходимо отличать две сущности, собственно письменные тексты (написанные человеком) и сгенерированные; на мой взгляд проблема их отличения не настолько сложная, но требуется пересмотр подходов корпусной лингвистики, выход из привычной парадигмы фиксации текста, теперь для текста необходимо фиксировать его источник; современные технлологии это позволяют, и я думаю в течение этого десятилетия мы именно к этому и придем
GitHub
wordfreq/SUNSET.md at master · rspeer/wordfreq
Access a database of word frequencies, in various natural languages. - rspeer/wordfreq
👍7😭5😍2❤1🤔1