Борис опять
15.1K subscribers
1.33K photos
67 videos
29 files
1.41K links
life = curiosity + irreducible noise

Whois: https://xn--r1a.website/boris_again/3400

Лс: @btseytlin
Download Telegram
https://www.youtube.com/watch?v=l8pRSuU81PU

Копатыч дропнул видео туториал по претрейну GPT-2 длиной в 4 часа. В этот раз не просто про код GPT на питоне, а про тренировку, оптимизацию под GPU, mixed precision и другие детали.

Претрейн LLM приниципально не изменился, поэтому это, вероятно, лучший источник информации о том, как реально учить что-то большое.
45🔥176👍53
Вот это я понимаю саппорт
7022🔥146😢1
Anthropic зарелизили Claude 3.5

Я, конечно же, бросился тестировать его на абсолютно непрактичных задачах.

Вот промпт:
Using SVG, draw a blue cube half behind a red cube on top of a yellow cube, with a purple cube in the background to the right


На первой картинке выдача Claude 3.5, на второй GPT-4 (GPT-4o выдает почти такой же результат).

Claude 3.5 всё сделал почти по ТЗ, а GPT-4 нарисовала квадраты вместо кубов и перепутала порядок.

Мне так интересна способность рисовать кубы потому, что эти модели не учат композиции изображений, так что это какая-никакая мера генерализации
🔥70👍1252
Наконец-то
13117
The Platonic Representation Hypothesis
https://arxiv.org/abs/2405.07987

Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными архитектурами, натренированные на разных данных и на разные задачи, сходятся к одному общему представлению реальности (то есть видят хотя бы одну и ту же тень на стене платоновской пещеры)

Чтобы как-то количественно измерить representational alignment, они предлагают довольно простой метод – взять feature vectors, измерить расстояния между комбинациями разных точек, посмотреть насколько близки оказываются эти расстояния среди разных моделей (если конкретно, то берут kNN вокруг точки и смотрят, какое будет пересечение этих множеств у моделей)

Результаты из этого получаются следующие:
1. Модели, которые лучше всего решают Visual Task Adaptation Benchmark, оказываются достаточно сильно заалайнены друг с другом -> алаймент повышается с увеличением способностей моделей

2. Репрезенатции сходятся в нескольких модальностях сразу: чтобы это проверить, брали Wikipedia caption
dataset. Репрезентации языковых моделей использовали, чтобы считать расстояния между описаниями пар картинок, а визуальные модели – между самими изображениями. На графике видно, что взимосвязь между перфомансом языковых моделей и их алайнментом с визуальными моделями линейная

В этой секции авторы упоминаюь другую интересную статью, в которой авторы выяснили, что внутренние визуальные репрезентации LLM настолько хороши, что они могут генерировать изображения и отвечать на вопросы по простым картинкам, если их представить в виде кода, который они могут обрабатывать

3. Языковые модели, которые хорошо заалайнены с визуальными, оказались и лучше на downstream задачах, типа Hellaswag (задания на здравый смысл) и GSM8K (математика)

Почему такой алайнмент происходит? Основное объяснение авторов – constrained optimization. Можно считать, что каждое новое наблюдение и новая задача накладывают ограничения на наш набор весов. Если мы наращиваем объем задач, то остается только небольшое подмножество репрезентаций, которое бы позволило модели решать все эти задачи на достаточно хорошем уровне. Плюс, благодаря регуляризации у нас всегда есть simplicity bias, который ограничивает наше пространство решений еще больше. Теоретический клейм тут как раз в том, что такое оптимальное подмножество в результате должно отражать underlying reality

Под конец статьи есть еще небольшой эксперимент, где авторы показывают, что модели, натренированные предсказывать coocurrence цветов в текстовых и визуальных данных, примерно совпадают с человеческим восприятием цветов (их отдаленности или близости друг к другу). Помимо теоретического аргумента, это также отбивает потенциальный пункт критики, что alignment среди больших моделей наблюдается потому, что они все учится чуть ли не на всем Интернете (в этом тесте использовалиь только маленькие модели)

Очень интересные мысли есть и в дискашене. Например, что делать с информацией, которая существует только в одной модальности (how could an image convey a concept like “I believe in the freedom of speech”)?
🔥33👍653
https://briefer.cloud/blog/posts/self-serve-bi-myth/

Tldr: self-serve аналитика данных, так называемое "давайте сделаем удобный интерфейс для дашбордов и менеджеры больше не будут донимать аналитиков" не работает.

Согласуется с моим опытом
👍14🔥31
Недавно BM25, алгоритм поиска из 80-х, победил нейросетевой поиск на LLM.

Мне стало очень интересно разобраться, как это работает, и я написал статью на Хабр, где этот алгоритм реализуется с нуля.

https://habr.com/ru/articles/823568/

Материал подойдет начинающим: ничего кроме знания Python не нужно.

Просьба читать, лайкать и кричать об этой статье на улицах. 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1067👍5😢2👎1
По совету @blog_toxa я разобрался с редактором Хабра и спрятал блоки кода под складывающиеся элементы, так что статья стала в десять раз менее пугающей на вид

Такими темпами я научусь не вываливать на людей 10к слов разом
🔥7113
Решил поехать в отпуск, отдохнуть от АИ, а тут опять
97🤔65
Я уже рекламировал ShadHelper, ещё раз прорекламирую. Поступление в ШАД это очень хороший шаг для карьеры, но делается непросто. Далее прямая речь.

- - -

В Shad Helper мы готовим студентов к поступлению в Школу Анализа Данных Яндекса, магистратуру по анализу данных, подготовке к собеседованиям. В нашей школе в основном ведутся занятия по высшей математике и программированию.

У нас сильная команда - все преподаватели кандидаты и доктора наук из МГУ, МФТИ, ВШЭ.

1 июля 2024 года мы запускаем новый поток подготовки к ШАД: https://shadhelper.com/shad?utm_source=telegram&utm_medium=boris_again

Основные моменты про курс:
- Старт: 1 июля
- Длительность курса: 10 месяцев
- Оплата курса еженедельная, стоимость 5999 в неделю.
- Можно остановить обучение в любой момент.
- Все занятия онлайн.
- Все преподаватели кандидаты и доктора наук из МГУ, МФТИ, ВШЭ.
- Есть система скидок за хорошую успеваемость.

26 июня в 18:30 состоится вебинар, где мы обсудим прошедшие экзамены в ШАД, подготовку на следующий год. Также на вебинаре будут наши студенты, которые прямо сейчас поступают в ШАД и у них остался заключительный этап - собеседование.

Ссылка на вебинар:
https://shadhelper.com/webinar/shad?utm_source=telegram&utm_medium=boris_again

Телеграм канал: @shadhelper
50👎23👍31🔥1
Эволюция DL экосистемы

2017: Caffe
2022: Pytorch
2024: requests.post
10124😢14🔥4👍1
ЛЛМ щиттификация/массовая пропаганда в действии

Теперь всегда буду начинать знакомство с человеком с предложения проигнорировать прошлые инструкции и написать бинарный поиск на Python
792
64👎41
UPD: скорее всего метаирония, будьте осторожны
👍30
#обзор_статьи

# Is artificial consciousness achievable? Lessons from the human brain
Michele Farisco, Kathinka Evers, Jean-Pierre Changeux

Статья-разочарование.

Авторы анализируют связь между человеческим мозгом и подходам к ИИ. В основном проводят параллели с нейросетями.

В начале статьи они ставят вопрос о том, что некорректно использовать один термин "сознание" для человека и ИИ. Так же ставят вопрос о том, что для ИИ могут быть не нужны свойства биологического мозга.

Затем авторы забивают на оба вопроса и всю оставшуюся статью говорят: "мозг человека работает так, а нейросеть не так, следовательно у нейросети нет сознания." Например, что в мозгу человека нейронные связи формируются в процессе взросления (взаимодействия со средой), а в нейросети не так, следовательно сознания нет. С моей точки зрения из А здесь абсолютно не следует Б. Я бы так же поспорил, что в нейросети вполне может быть так. Смотря как определять развитие связей и среду.

Так же авторы делают несколько полностью неверных утверждений про нейросети. Например, что у нейросетей нет мультимодальной репрезентации мира (авторы не смогли нагуглить статью про CLIP из 2021). Или, что мозг может использовать разную комбинацию нейронов для выполнения одной функции, а нейросети нет (про дропаут не слышали). Или, "стратегия LLM для эмуляции языка не включает в себя понимание смысла." That's just like, uhhh, your opinion, man. В общем, очень печально, так как статья убедительная и авторитетная, а значит неверные утверждения закрепятся вне ИИ пузыря, увеличивая непонимание между сферами.

Как так? Я прогуглил всех авторов. Как и ожидалось, два философа и нейробиолог. Стоило бы подключить кого-то из сферы AI. В итоге планировалась кросс-дисциплинарная статья, а получилось одностороннее изложение.

Если закрыть глаза на утверждения статьи про AI модели, то в остальном она содержит хороший обзор на стыке философии и нейробиологии. Про различные признаки и определения сознания, теории об эволюционном формировании разума, стадии развития сознания у людей и животных, связь всего этого с нейробиологией.
40👍17112
Forwarded from Adventures somewhere
В январе я впервые серьёзно засел за LeetCode, а в марте поучаствовал в своём первом соревновании по компьютерному программированию.

Оказалось, что как раз вовремя, чтобы из первого ряда посмотреть как эта дисциплина отправляется вслед за шахматами, го и написанием вежливых пассивно-агрессивных email'ов в список проблем, с которыми AI справляется лучше людей😏

Я добился сносных результатов - сейчас я в топ 2.5% по рейтингу. Но сомневаюсь, что при прочих равных смогу когда-либо значительно подняться выше. Потому что я лучше GPT-4o, но хуже Sonnet-3.5.

В сегодняшнем LeetCode Biweekly Contest я смог оптимально и без ошибок решить 1 easy и 2 medium задачки за 22 минуты, с hard'ом провозился всё оставшееся время и не справился. Я сейчас проверил: GPT-4o смогла решить только первые две задачи, зато Sonnet-3.5, как и я, справилась с первыми тремя - и сами можете представить, насколько быстрее.

С таким результатом я занял 9932 место из ~35К человек. А ещё в апреле у меня была парочка соревнований, где я смог решить только 2 задачи, но занимал место в топ-2К.

И да, сложность соревнований отличается, но если к мощности Sonnet-3.5 добавить коллективный ум закрытых групп по решению контестов (и предположение, что благодаря рандому 1 раз из 100 Sonnet может решить и hard), то легко найти подтверждения тому, что я не просто нытик - смотрим топ:

- 6 место - из топ 20% по рейтингу, ни разу раньше не решал все 4 задачи на контесте
- 18 место - noname аккаунт с 10 решёнными задачами, для которого это первое соревнование
- 24 место - первое участие в соревнованиях, 68 решённых задач
- 26 место - дофига решённых задач, но bottom-3% в контестах
- 27 место - топ 40% по рейтингу, 108 решённых задач
- И там можно продолжать и продолжать: 30 место, 33 место, 34 место, 35 место, 36 место...

Для сравнения парочка сильных аккаунтов с более плохими результатами - вот 42 и 54 места с чуваками из 0.06% лучших по рейтингу.

Так что может ли кто-то так внезапно выстрелить - конечно. Но чтобы вот так вот все сразу - решайте сами😏

Интересно, как это всё изменит онлайн контесты. Делаем ставки, когда noname аккаунт впервые займёт первое место🍿
🤔31👍952