Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Data Secrets
Привет всем тем, кто хотел поглубже познакомиться с новым хайповым KAN, но осилить статью на 50 страниц с формулами не сумел Для вас, любимые подписчики, мы менее чем за сутки с момента выхода статьи написали на нее обзор! В нем вы найдете: – Легкое и…
Инженеры и исследователи продолжают активно изучать возможности KAN. Самое интересное:

Оптимизированный код для KAN. Авторы статьи сами признавались, что не занимались оптимизацией кода. Работу подхватили разработчики, которые подшаманили имплементацию и сделали ее более эффективной. Получилось в 2 раза быстрее, чем в оригинале.

Трансформер с KAN слоями. Тут и Mixture-of-Experts, и RoPE, и Multihead-attention. Правда, автор код не запускал, но скорее всего скоро найдется кто-то, кто сделает красивый тех.репорт на эту тему.

А если вы еще не разобрались с KAN, то скорее читайте наш разбор, не пожалеете: https://datasecrets.ru/articles/9
👍56🔥1552😁1
За 300
61😁32🔥8🤨4🤔3👍2🗿2😨1
Новые попытки OpenAI создать модель, которая будет распознавать то, что сделала другая их модель

В прошлый раз их исследователи долго боролись с классификатором, распознающим текст, который написал GPT, но тот так и не поддался. True positive завис на 26%, и проект закрыли.

Теперь компания переключилась на картинки. Вчера они анонсировали инструмент, который 98 % cлучаев может верно распознать изображение, сгенерированное DALL-E, даже если оно было аугментировано.

Да-да, именно DALL-E. С другими моделями пока все плохо. Например, для Midjourney true positive уже скатывается до 5-10%.
29👍1511🔥1😁1
Исследователи, которые изобрели LSTM, выкатили «обновление»

Называется архитектура xLSTM и содержит в себе два главных нововведения:

1. Экспоненциальный гейтинг (прочитать про это больше можно тут ) с нормализацией и стабилизацией

2. Измененная структура памяти. Вообще, xLSTM состоит из mLSTM и sLSTM.
– В mLSTM память это больше не скаляр, а матрица, что расширяет возможности сетки хранить информацию и позволяет параллелить обучение.
– В sLSTM не параллелим, зато зашиваем туда новый метод смешивания памяти.

По временной сложности и памяти получается даже эффективнее, чем pure трансформер. Перформанс тоже не подвел (см. график).

С нетерпением ждем код. Оригинал статьи читать тут.
👍41🔥169
Ну, во-первых, это красиво: разработчик создал prettygraph – конструктор text-to-knowledge графов.

Внутри почти ничего интересного: 69 строк бэка на основе одного изящного промпта к gpt-4, да 132 строки фронта.

Проект на вечер, но как же мило выглядит!
🥰75😍19👍131🔥1
На гитхаб завезли kan_gpt и сравнили его с классическим mlp_gpt

We observe that the KAN-GPT performs slightly better than the MLP-GPT.


Можно натренить и популять промпты локально. Какова красота 😍
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥71👍117
Щупаем LLM с сайтом LLM Visualisation

Чтобы хорошо что-то понять, нужно увидеть это на примере, а лучше на нескольких. И тут авторы этого сайта попали в яблочко.

Здесь подробно, с формулами, слой за слоем, разобрано строение популярных LLM-архитектур, и все это с очень прикольной 3D визуализацией.

Годная игрушка для длинных выходных
69🔥15👍9😍3👻2
This media is not supported in your browser
VIEW IN TELEGRAM
В DeepMind разработали инновационную модель AlphaFold 3, способную предсказывать структуру любых живых молекул

Сюда относятся белки, ДНК, РНК и многое другое. Вообще говоря, предсказания структуры белка – одна из самых сложных задач биоинформатики. Кто бы мог подумать, что решить ее с ниабольшей на сегодняшний день точностью помогут диффузионные модели, которые обычно используются в генерации картинок.

Представьте, какой импакт это может внести в разработку новых лекарств!
👍82🔥346😁1
Маркетологи в бигтехе би лайк:
90😁19👍4🤗3
This media is not supported in your browser
VIEW IN TELEGRAM
Фаундер крупного приложения для знакомств Bumble – Уитни Херд, про AI:

«В будущем наши ИИ-двойники смогут не только давать нам советы по общению с другими людьми, но и ходить за нас на свидания с другими ИИ-двойниками, чтобы выбрать для нас лучшего кандидата для отношений»


👀
Please open Telegram to view this post
VIEW IN TELEGRAM
😁93🤪27🔥1510🤨10👍7🫡4🤔2
Те самые 30+ легендарных статей

Недавно более чем известный геймдейвер Джон Кармак давал небольшое Q&A интервью. В нем он упомянул:

"Чтобы понять, что к чему в AI, я попросил Илью Суцкевера, главного научного сотрудника OpenAI, составить мне список для чтения. Он дал мне список примерно из 40 статей и сказал: «Если ты действительно изучишь их все, то будешь знать 90% того, что важно в ИИ сегодня». И я это сделал. Я перерыл все эти труды, и все начало складываться в моей голове."


Всех сразу страшно заинтересовало, что это за список. Ждать пришлось недолго: очень скоро инсайдеры его опубликовали. И вот мы показываем этот спискок вам: тык.

❤️ - если читал больше половины
👍 - если знаешь, чем займешься на выходных
👍11418🤯13🔥8😁1
Forwarded from XOR
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Пескову показали дипфейк с его участием. На записи он выражает признательность Дурову за то, что дал интервью Такеру Карлсону вместо «е*учего Дудя». Реакция Пескова:
С ними бороться полностью невозможно. Но главное понимать, что это дипфейк. А то, что так или иначе нам всем придется сталкиваться с этим, это понятно… Поэтому мы все должны быть начеку обязательно.


@xor_journal
Please open Telegram to view this post
VIEW IN TELEGRAM
😁82🔥109🤨42🎃1
"Это будет не GPT-5 и не поисковик, но это выглядит как чудо для меня"

Так отозвался Альтман о том, что собирается показать OpenAI на презентации в понедельник в 20:00 по мск. Из анонсов по крайней мере понятно, что будут какие-то новые примочки для GPT-4.

Кстати, изначально презентация должна была состояться 9 мая, однако ее перенесли на 13. Случайность ли это, учитывая, что 14 мая состоится конференция Google I/O, на которой корпорация обычно показывает новые технологии?
55👍10🤯4🙈2🔥1😁1🍌1
Data Secrets
Исследователи, которые изобрели LSTM, выкатили «обновление» Называется архитектура xLSTM и содержит в себе два главных нововведения: 1. Экспоненциальный гейтинг (прочитать про это больше можно тут ) с нормализацией и стабилизацией 2. Измененная структура…
В комьюнити все не смолкают разговоры про новенькую xLSTM, вышедшую несколько дней назад. Некоторые утверждают, что эта модель может стать достойной альтернативой трансформеру.

По крайней мере, модель показывает классный скейлинг и не уступает трансформерам в perplexity на 15B и 300B. Код, кстати, исследователи так и не выкатили, но эстузиасты уже успели что-то наимплементировать (github).

Интересно, как исследователи добились такого буста LSTM? Хотели бы прочитать понятный обзор и во всем разобраться? Накидайте 🔥, и мы выложим его уже сегодня!
🔥355👍123🤩2
Итак, разбор статьи про xLSTM уже можно найти на нашем сайте! В тексте вы найдете:

➡️ Пошаговое объяснение того, как работает ванильная LSTM. Разберетесь, даже если вы ничего не слышали про эту архитектуру до этого.

➡️ Структурированный разбор каждого улучшения, которое предложили ученые в xLSTM.

➡️ Множество схем и примеров.

➡️ Сравнение xLSTM с трансформерами.

➡️ Рассуждение на тему "имеют ли xLSTM шансы стать будущим LLM?"

Сохраняйте и читайте, не пожалеете: https://datasecrets.ru/articles/10
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥72👍1810❤‍🔥1