Техножрица 👩‍💻👩‍🏫👩‍🔧
14.1K subscribers
1.45K photos
66 videos
28 files
768 links
Люблю высокие технологии и кушать.

Добро пожаловать, если в сферу твоих интересов тоже входят математика, DL, NLP, программирование на Python, или тебе просто любопытно, о чем на досуге размышляют люди, занимающиеся разработкой и исследованиями в ML.
Download Telegram
Разбираю сейчас различные статьи с анализом размерности внутренних представлений трансформеров и вижу, что целый ряд работ проводит такой анализ в контексте файнтюнинга, показывая, что для успешного файнтюнинга достаточно вносить изменение лишь в небольшом подпространстве параметров (например, вот одна из наиболее свежих на данную тему, содержащая множество ссылок на другие работы: https://aclanthology.org/2023.acl-long.95/ ).

Посмотрела я на это и подумала: не подобными ли аналитическими статьями вдохновились и создатели крайне популярного сейчас подхода LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS ( https://openreview.net/forum?id=nZeVKeeFYf9 )?

И в самом деле, заглянув в статью про LoRA, я обнаружила, что авторов привело к их замечательному изобретению в том числе чтение статей на данную тему, таких, как: 1) Measuring the Intrinsic Dimension of Objective Landscapes, 2018 ( https://openreview.net/pdf?id=ryup8-WCW ); 2) Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning ( https://aclanthology.org/2021.acl-long.568/ ) - см. Рис. 1 (интересно, что первая статья выглядит процентов на 90 как аналитическая-описательная, да и вторая тоже).

Вот так вот статьи с тщательным анализом внутренних представлений и процесса обучения моделей могут привести к большому прорыву и в чисто практических вещах, после того, как их прочитают и намотают на ус умные люди.

#объяснения_статей
🔥246👍6🤮21
Тем временем паблик "КРИНЖ", посвященный мемам и рассказам про сомнительные, либо не относящиеся к науке, либо просто забавные статьи/монографии из РИНЦ, опубликовал мини-расследование с использованием некоторых моих старых постов про генетическую музыку (таких, как https://xn--r1a.website/tech_priestess/719 и 4 поста ниже). ⬇️

#научная_поллюция
👏81👎1
Минобрнауки и ИМАШ РАН: 158 миллионов на лженаучное госзадание

Что там было в прошлый раз? Гранты РФФИ на биорезонанс на 14 миллионов рублей? Детский лепет. Пристегните ремни, сегодня будет даже что-то покруче.

Сегодня мы поиграем в генетический бисер и узнаем, как Минобрнауки поддерживает талантливых музыкантов, играющих на спирали ДНК. Талантливые музыканты, кстати, по знакомству публикуют свои опусы в журналах, издаваемых Elsevier и MDPI.

Музыка, похоже, успела стать приоритетным направлением в нашей стране, поэтому на коллективы музыкантов и идеи можно брать особенно большие гранты и госзадания. Берите на заметку, господа научные руководители.

https://telegra.ph/MINOBR-i-IMASH-RAN-158-millionov-na-lzhenauchnye-goszadaniya-07-17
🤯22🔥7👍3😁1💊1
Что-то день у меня сегодняшний не заладился: всю ночь болел желудок, а когда пошла чистить зубы, так вообще вырвало. Стоит ли говорить, что после этого я весь день чувствовала себя как зомби.

Хорошо, что на глаза попалась реклама очередных нелепых ИИнфобизов (рис. 1), которая сумела взбодрить меня и вернуть к жизни! Сама фраза "аналог ChatGPT на русском" уже сходу удивила своей бесмысленностью: ведь оригинальный ChatGPT и так может генерировать на русском, так что же это за "аналог", который делает точно то же самое?
Перейдя по рекламе на сайт https://turbotext.pro/ai , я начала смотреть, что же из себя представляет данное творение. Бесплатно оказались доступны лишь две попытки генерации, но обойти это ограничение оказалось легко, переключая ip-шники в VPN-приложении (по две генерации можно делать с каждого ip).
Быстро выяснились следующие факты:
а) большая часть знаний модели о событиях ограничена осенью 2021-го;
б) при генерации на английском всплывает фраза "as an AI language model".
в) на прямой вопрос о том, что из себя представляет данная модель, она также подтвердила, что основана на ChatGPT (рис. 2).
Но больше всего меня удивило в данной генерации не это (это как раз было ожидаемо), а то, какой компании было приписано создание ChatGPT 🤔
Начав расспрашивать модель подробнее (рис. 3-6), я проорала в голос. 😂
Между прочим, напомню, что файн-тюнить ChatGPT пользователям OpenAI в данный момент не дает ( https://platform.openai.com/docs/guides/fine-tuning ), а значит фраза "базирована на ChatGPT" на деле означает, что это даже не дообученная версия, а буквально ChatGPT, только с дополнительными промптами и/или постпроцессингом, которые срывают ему кукуху и заставляют верить в то, что его создал TurboText, а не OpenAI. 🤣

Просит же turbotext за использование того же ChatGPT под другим названием 150р в день с ограничением в 200 генераций (рис. 7), что, конечно, во много раз дороже, чем использование ChatGPT через API. 🤡 Ох уж эти ИИнфобизы, каждый раз находят, чем рассмешить.

#ИИнфобизнес
🤡31😁97👍2💩2🙈2👎1🥱1
Между тем, я напомню, что оригинальный ChatGPT через веб, то есть, в браузере, можно использовать, заплатив около 50 рублей всего один раз за аренду иностранной симки (а не отстегивать 150 рублей каждый день ИИнфобизам). Очень подробную и доступную инструкцию, как это делать, см., например, здесь: https://journal.tinkoff.ru/chatgpt-in-russia/ . Проблема здесь разве что в том, что OpenAI время от времени банит популярные бесплатные VPN-сервисы, да и симок остается все меньше доступных (плюс использовать общественные симки, очевидно, в целом не безопасно).

Но есть и другой способ пользоваться последними достижениями OpenAI - вообще за ноль рублей (как мы любим) и без виртуальных симок. Для этого можно обратиться к Bing AI - напомню, что там есть чат с какой-то версией GPT-4 с прикрученным веб-поиском и DALLE для генерации картинок. Для доступа к Bing AI достаточно только установить браузер Edge, VPN-плагин и зарегистрировать Microsoft аккаунт. Подробная и доступная для не-специалистов инструкция, как получить доступ: https://hi-news.ru/technology/kak-pri-pomoshhi-nejroseti-bing-sozdavat-tekst-i-kartinki-rasskazyvaem-na-lichnom-primere.html

Само собой разумеется, что не только ChatGPT, но и Bing AI (a.k.a. измененный GPT-4) могут делать и рерайт, и перевод, и продолжение текста, и новости генерировать, и все что угодно, не только на английском, но и на русском (понимаю, что большинство читателей в курсе, проговариваю на всякий случай для тех, кто недавно в теме, чтобы не платили за всякие кекусы 😅 ).

P.S. Также напомню настоящий прайсинг за API: https://openai.com/pricing

#ИИнфобизнес
👏19👍8🙏6👌1
В продолжение постов https://xn--r1a.website/tech_priestess/791 и https://xn--r1a.website/tech_priestess/792 .

Короче, я пошерстила материалы turbotext и поняла, что это не просто случайно проскользнувший кекус. Они реально везде позиционируют "Всезнайку" как "свою нейросеть", которую они "выпустили" и "обновляют" 😳

Меня всегда удивляло, зачем люди пишут настолько очевидную ложь. Ложь, которая не является ни шуткой (смешного ничего нет), ни художественным приемом (художественной ценности тоже нет), просто тупейшую очевиднейшую ложь, который за пять минут каждый может раскрыть.

Так, на рис.1 (источник: https://telegra.ph/Pomoshchnik-po-lyubomu-voprosu-CHto-umeet-Vseznajka-ot-Turbotext-03-14 ) turbotext пишет, что "выпустил обновленную версию нейросети". Но ведь очевидно, что Turbotext физически не мог этого сделать. Он мог обновить только промпт и постпроцессинг выхода нейросети. Саму НЕЙРОСЕТЬ (а именно, chatGPT), очевидно, может обновлять только OpenAI 😂
Что мешало написать, например, что они обновили СЕРВИС "всезнайка", что было бы, видимо, правдой? Зачем писать, что обновили саму нейросеть? Народ смешить? 😂😂😂

На рис. 2-3 можно увидеть ещё пример того, как "Всезнайку" в канале turbotext ai ( https://xn--r1a.website/turbotext_ai ) называют "нашей нейросетью", а chatGPT вообще ни разу не упоминают.
Я уже молчу про фразу "first text generator with artificial intelligence" на рис. 4... 😂
Какой смысл так позориться, если можно было просто написать, что "всезнайка" - не "НАША НЕЙРОСЕТЬ", а, например, "НАШ СЕРВИС на основе нейросети от OpenAI"? И тогда этого поста бы не было 😅

#ИИнфобизнес
👍22🤡21🔥1😁1🥱1