Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
У нас для вас большой анонс!

Все вы знаете, что недавно мы запустили сайт datasecrets.ru с новостями и статьями из мира ML. Мы продолжаем его развивать и совершенствовать, и теперь хотим рассказать кое о чем большом, что мы так упорно делали последние месяцы…

И это… платформа для хакатонов. Да-да, теперь на нашем сайте можно будет участвовать в соревнованиях, практиковаться на продуктовых задачах и выигрывать призы!

Первый хакатон от нас стартует уже в ближайшее время. Приглашаем вас протестировать платформу и попробовать свои силы.

Поддержать наш энтузиазм можно по традиции реакцией — 🚀

А если вы или ваша компания давно хотели запустить свое соревнование, чтобы быстро прототипировать решение или получить свежие идеи для развития продукта, то напишите нам: @v2r8n
Please open Telegram to view this post
VIEW IN TELEGRAM
13622🔥144👍4🤪32👾1
Лучшая новость за сегодня: твиттерский спроектировал шаблон мемов в Glif

Claude 3.5 генерирует мем в виде json, с помощью Wojak Lora создается подходящее изображение, а потом все схлопывается вместе.

Получаются истинные шедевры. Пробуйте сами здесь.
🔥46😁1492👍2🤯2
В стиле OpenAI: на LMSYS арене снова появляются какие-то загадочные модели

На этот раз late-June-chatbot и im-also-a-late-June-chatbot. В ответ на вопрос «кто ты?» отвечает, что он Gemma (модель от Google).

Если это правда, Google тролят OpenAI за майские выходки с «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Если нет, то наоборот 😁

Так или иначе, в прошлый раз загадочный чатбот оказался в итоге GPT-4o. Возможно, в этот раз нам тоже стоит ожидать что-то новенькое.

Как думаете, кто бы это мог быть? 🖥 🖥
Please open Telegram to view this post
VIEW IN TELEGRAM
10125🤔8😁7👻3👍21🎉1🕊1🤝1
- Как вы стали таким успешным математиком?
- Я просто хотел побеждать в монополию
👏101😁87🔥12👍5🙈1
Ученые из Калифорнийского университета показали способ учить LLM без перемножения матриц

Перемножение матриц – основная операция в LLM из-за механизма внимания. Именно она тянет на себя большинство вычислительных затрат, и чем больше контекст и количество параметров – тем больше и больше перемножение матриц ест.

Чтобы это побороть, авторы (вдохновшись BitNet) внесли в архитекуру LLM три основных изменения:

– вместо традиционных чисел с плавающей запятой веса представляют из себя только числа из набора (-1, 0, 1)
– перепроектирован self-attention: теперь на его месте рекуррентный блок, в котором используются только базовые операции
– использован Gated Linear Unit (GLU) из LSTM – его адаптировали под триплетные веса.

В итоге получилось, что такие модели могут достигать перформанса привычных трансформеров, при этом мощно сокращая память и компьют. Кроме того, авторы показывают, что архитектура хорошо скейлится.

Доступен код, так что можно поиграться своими руками. Кроме того, советуем прочитать статью.
👍94🔥34🤔118❤‍🔥2
Если это три кита теории ML, то кто черепаха?
😁93👍5👏4
Научитесь решать end-to-end задачи в CV

Быть хорошим ML-инжененером != уметь пилить модельки в ноутбуках. Вот что нужно уметь, чтобы быть конкурентноспособным и действительно хорошо решать задачи CV:

➡️собирать чистые данные
➡️быстрее обучать модели
➡️ускорять нейросети
➡️создавать веб-сервисы
➡️автоматизировать их деплой
➡️настраивать мониторинг приложений
➡️хорошо разбираться в распознавании лиц и текстов, генерации изрбражений и многом другом.

Уже настроились все это освоить? Тогда имейте в виду: изучать все лучше системно и на практике, и чтобы не потерять много времени, лучше сразу перенимать проверенные знания у профессионалов.

Наши друзья из DeepSchool прямо сейчас предлагают такую мега-возможность и зовут учиться на программу CV Rocket. Если хотите закрыть пробелы в CV и освоить весь цикл решения таких задач, это место точно для вас:

⚙️ 12 спикеров из разных отраслей и компаний (подробнее тут)
⚙️ много фидбека и общения со спикерами: на zoom-лекциях, в рамках code review, на семинарах и в чате
⚙️ сложные задачи: 2 больших end-to-end проекта, которые с гордостью можно добавить в резюме

Курс стартует 4 июля и длится 5 месяцев. А еще ребята подарили вам специальный промокод DataSecrets на дополнительную скидку в 10.000 рублей, который действует до 30 июня включительно!

Не упустите шанс стать гуру CV и регистрируйтесь прямо сейчас!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥96😁53😐1
В этом году Россия получит собственную среду разработки и исполнения Java-приложений – SberJDK.

Об этом сообщил старший вице-президент Сбера Андрей Белевцев, отвечающий за блок «Технологическое развитие», на конференции GigaConf. Отечественное решение представляет собой альтернативу зарубежным платформам, созданную для противодействия технологической изоляции России.

В команду Сбера собрали ведущих инженеров отрасли с богатым опытом и уникальными знаниями, чтобы разработать эту платформу. Данная инициатив станет не только новым шагом в достижении поставленных целей, но и сохранит российские таланты на территории нашей страны.
55😁37🙈22😐10🗿103👍2😎2🌚1👀1
Data Secrets
В стиле OpenAI: на LMSYS арене снова появляются какие-то загадочные модели На этот раз late-June-chatbot и im-also-a-late-June-chatbot. В ответ на вопрос «кто ты?» отвечает, что он Gemma (модель от Google). Если это правда, Google тролят OpenAI за майские…
Google выпустили опенсорс LLM Gemma-2

Те, кто на нашем вчерашнем посте про загадочные модели на арене проголосовал за Google, были правы. Модель im-also-a-late-June-chatbot оказалась новой Gemma-2.

Доступна в размерах 9В и 27В. Запускать можно на утюге всего одной H100. 9B превосходит на тестах Llama 3 8B, а 27В подбирается к Llama 3 70В.

Самое приятное в этом всем – открытые веса. Кроме того, есть тех.отчет и новый кукбук для разработчиков с кучей практических примеров использования и тюнинга модели.
💘30🔥15👍82
Завозим анализ архитектуры новой Gemma 2, пройдемся по интересному:

➡️В два раза больше layernorms, используется pre LN и post LN.

➡️Используется soft capping – метод для предотвращения взрыва логитов без усечения, путем деления на трешхолд. В данном случае логиты аттеншена делятся на 30, а финальные на 50.

➡️Размер словаря 256 128 для всех вариантов модели.

➡️Скользящее окно внимания (метод для сокращения памяти) применяется к каждому второму слою. На остальных слоях все еще global attention.

Кроме того, оказывается, позже моделька выйдет еще и в размере 2.6В. Вот ее точно можно будет затюнить на утюге.

А пока что вот код для запуска модели через transformers:


import torch

pipe = pipeline(
"text-generation",
model="google/gemma-2-9b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)

messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
messages,
max_new_tokens=256,
do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4113🔥10
Meta представила LLM Compiler, но у OpenAI в ответ как всегда нашелся туз в рукаве

По порядку: LLM Compiler от Meta – это модель на основе Code Llama, которая заточена специально под оптимизацию кода. Обучена на 546 миллиардов токенов LLVM-IR и ассемблерного кода, и зафайнтюнена для интерпретации поведения компилятора. Доступна в размерах 7B и 13В, есть статья.

А OpenAI как будто только этого релиза и ждали. Буквально тут же они выпустили CriticGPT – модель, которая "критикует" код, написанный ChatGPT, тем самым помогая ему становится лучше. Это частично заменяет RLHF. В тестах при таком подходе перформанс взлетел на 60%. Пока еще есть баги, но все обещали исправить. Кстати, если вы поймали флэшбек на GAN'ы – знайте: мы тоже, идея действительно очень похожая.

И все же, что за любовь у OpenAI к релизам в один день с конкурентами?
👍59🤯15🔥91
This media is not supported in your browser
VIEW IN TELEGRAM
Тоже залетаем в тренды последних новостей
😁138🤨7🔥5🗿32🤯2
Gemma специально натаскана на то, чтобы выбить больший скор на LMSYS арене?

В Твиттере заметили, что в тех.отчете упоминается, что модель тюнилась специально на датасете LMSYS-chat-1M. Твит набрал кучу просмотров и комментариев, пользователи шутят, что это "тестирование на трейне".

Однако на самом деле все не так, как выглядит. Во-первых, в отчете явно указано, что из датасета использовались только вопросы, но не ответы, так что это похоже скорее на выравнивание распределения, а не на попытку во что бы то ни стало выбить скор побольше.

Ну и наконец в мире борьбы за ЛЮБЫЕ данные очевидно, что Google не последние, и уж тем более не первые, кто воспользовались LMSYS-chat-1M. К тому же, датасет публичный, для чего же еще он нужен, как не для обучения моделей?

В общем, наезд не засчитан
👍3611🔥3🆒2