А вы тоже часто видите новости про «в ходе опроса айтишников выяснилось, что каждый третий…», но сами никогда в таких опросах не участвовали? 😑
Если да, этот пост для вас. Наши друзья из Центра научной коммуникации ИТМО проводят анализ профессионального сообщества ML- и DS-специалистов в России.
Наконец-то можно приложить руку к честной статистике и высказать свое мнение о состоянии индустрии, лидерах рынка и в целом ML-карьере в России.
Чтобы поучаствовать, нужно просто пройти опрос (это займет примерно 5 минут). Конфиденциальность гарантируется. Именно ваше участие поможет сформировать полную картину, так что скорее тыкайте сюда и делитесь мнением.
Если да, этот пост для вас. Наши друзья из Центра научной коммуникации ИТМО проводят анализ профессионального сообщества ML- и DS-специалистов в России.
Наконец-то можно приложить руку к честной статистике и высказать свое мнение о состоянии индустрии, лидерах рынка и в целом ML-карьере в России.
Чтобы поучаствовать, нужно просто пройти опрос (это займет примерно 5 минут). Конфиденциальность гарантируется. Именно ваше участие поможет сформировать полную картину, так что скорее тыкайте сюда и делитесь мнением.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤8🔥8🤪6🎉2🌚2🗿2😁1 1
Продолжается тренд на пихание в LLM логических задач. Пока все плохо.
Помните детскую задачку про козла, капусту и волка? Там нужно выяснить, как перевезти всех их через реку, чтобы никто никого не съел. Так вот, в твиттере коллективно выяснили, что LLM не справляются даже с мега-упрощенной версией задачи.
Вместо минимального количества переездов модели предлагают запутанные нелогичные варианты, игнорируя даже очень прозрачные подсказки.
Короче, все эти эксперименты усиливают непрекращающиеся дебаты об AGI и увеличивают количество сторонников мнения Яна Лекуна. Но с другой стороны это напоминает...👆
Помните детскую задачку про козла, капусту и волка? Там нужно выяснить, как перевезти всех их через реку, чтобы никто никого не съел. Так вот, в твиттере коллективно выяснили, что LLM не справляются даже с мега-упрощенной версией задачи.
Вместо минимального количества переездов модели предлагают запутанные нелогичные варианты, игнорируя даже очень прозрачные подсказки.
Короче, все эти эксперименты усиливают непрекращающиеся дебаты об AGI и увеличивают количество сторонников мнения Яна Лекуна. Но с другой стороны это напоминает...👆
😁68👍15🔥9❤5
This media is not supported in your browser
VIEW IN TELEGRAM
У нас для вас большой анонс!
Все вы знаете, что недавно мы запустили сайт datasecrets.ru с новостями и статьями из мира ML. Мы продолжаем его развивать и совершенствовать, и теперь хотим рассказать кое о чем большом, что мы так упорно делали последние месяцы…
И это…платформа для хакатонов . Да-да, теперь на нашем сайте можно будет участвовать в соревнованиях, практиковаться на продуктовых задачах и выигрывать призы!
Первый хакатон от нас стартует уже в ближайшее время. Приглашаем вас протестировать платформу и попробовать свои силы.
Поддержать наш энтузиазм можно по традиции реакцией —🚀
А если вы или ваша компания давно хотели запустить свое соревнование, чтобы быстро прототипировать решение или получить свежие идеи для развития продукта, то напишите нам: @v2r8n
Все вы знаете, что недавно мы запустили сайт datasecrets.ru с новостями и статьями из мира ML. Мы продолжаем его развивать и совершенствовать, и теперь хотим рассказать кое о чем большом, что мы так упорно делали последние месяцы…
И это…
Первый хакатон от нас стартует уже в ближайшее время. Приглашаем вас протестировать платформу и попробовать свои силы.
Поддержать наш энтузиазм можно по традиции реакцией —
А если вы или ваша компания давно хотели запустить свое соревнование, чтобы быстро прототипировать решение или получить свежие идеи для развития продукта, то напишите нам: @v2r8n
Please open Telegram to view this post
VIEW IN TELEGRAM
Лучшая новость за сегодня: твиттерский спроектировал шаблон мемов в Glif
Claude 3.5 генерирует мем в виде json, с помощью Wojak Lora создается подходящее изображение, а потом все схлопывается вместе.
Получаются истинные шедевры. Пробуйте сами здесь.
Claude 3.5 генерирует мем в виде json, с помощью Wojak Lora создается подходящее изображение, а потом все схлопывается вместе.
Получаются истинные шедевры. Пробуйте сами здесь.
🔥46😁14❤9⚡2👍2🤯2
В стиле OpenAI: на LMSYS арене снова появляются какие-то загадочные модели
На этот раз late-June-chatbot и im-also-a-late-June-chatbot. В ответ на вопрос «кто ты?» отвечает, что он Gemma (модель от Google).
Если это правда, Google тролят OpenAI за майские выходки с «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Если нет, то наоборот😁
Так или иначе, в прошлый раз загадочный чатбот оказался в итоге GPT-4o. Возможно, в этот раз нам тоже стоит ожидать что-то новенькое.
Как думаете, кто бы это мог быть?🖥 🖥
На этот раз late-June-chatbot и im-also-a-late-June-chatbot. В ответ на вопрос «кто ты?» отвечает, что он Gemma (модель от Google).
Если это правда, Google тролят OpenAI за майские выходки с «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Если нет, то наоборот
Так или иначе, в прошлый раз загадочный чатбот оказался в итоге GPT-4o. Возможно, в этот раз нам тоже стоит ожидать что-то новенькое.
Как думаете, кто бы это мог быть?
Please open Telegram to view this post
VIEW IN TELEGRAM
- Как вы стали таким успешным математиком?
- Я просто хотел побеждать в монополию
- Я просто хотел побеждать в монополию
👏101😁87🔥12👍5🙈1
Ученые из Калифорнийского университета показали способ учить LLM без перемножения матриц
Перемножение матриц – основная операция в LLM из-за механизма внимания. Именно она тянет на себя большинство вычислительных затрат, и чем больше контекст и количество параметров – тем больше и больше перемножение матриц ест.
Чтобы это побороть, авторы (вдохновшись BitNet) внесли в архитекуру LLM три основных изменения:
– вместо традиционных чисел с плавающей запятой веса представляют из себя только числа из набора (-1, 0, 1)
– перепроектирован self-attention: теперь на его месте рекуррентный блок, в котором используются только базовые операции
– использован Gated Linear Unit (GLU) из LSTM – его адаптировали под триплетные веса.
В итоге получилось, что такие модели могут достигать перформанса привычных трансформеров, при этом мощно сокращая память и компьют. Кроме того, авторы показывают, что архитектура хорошо скейлится.
Доступен код, так что можно поиграться своими руками. Кроме того, советуем прочитать статью.
Перемножение матриц – основная операция в LLM из-за механизма внимания. Именно она тянет на себя большинство вычислительных затрат, и чем больше контекст и количество параметров – тем больше и больше перемножение матриц ест.
Чтобы это побороть, авторы (вдохновшись BitNet) внесли в архитекуру LLM три основных изменения:
– вместо традиционных чисел с плавающей запятой веса представляют из себя только числа из набора (-1, 0, 1)
– перепроектирован self-attention: теперь на его месте рекуррентный блок, в котором используются только базовые операции
– использован Gated Linear Unit (GLU) из LSTM – его адаптировали под триплетные веса.
В итоге получилось, что такие модели могут достигать перформанса привычных трансформеров, при этом мощно сокращая память и компьют. Кроме того, авторы показывают, что архитектура хорошо скейлится.
Доступен код, так что можно поиграться своими руками. Кроме того, советуем прочитать статью.
👍94🔥34🤔11❤8❤🔥2
Научитесь решать end-to-end задачи в CV
Быть хорошим ML-инжененером != уметь пилить модельки в ноутбуках. Вот что нужно уметь, чтобы быть конкурентноспособным и действительно хорошо решать задачи CV:
➡️ собирать чистые данные
➡️ быстрее обучать модели
➡️ ускорять нейросети
➡️ создавать веб-сервисы
➡️ автоматизировать их деплой
➡️ настраивать мониторинг приложений
➡️ хорошо разбираться в распознавании лиц и текстов, генерации изрбражений и многом другом.
Уже настроились все это освоить? Тогда имейте в виду: изучать все лучше системно и на практике, и чтобы не потерять много времени, лучше сразу перенимать проверенные знания у профессионалов.
Наши друзья из DeepSchool прямо сейчас предлагают такую мега-возможность и зовут учиться на программу CV Rocket. Если хотите закрыть пробелы в CV и освоить весь цикл решения таких задач, это место точно для вас:
⚙️ 12 спикеров из разных отраслей и компаний (подробнее тут)
⚙️ много фидбека и общения со спикерами: на zoom-лекциях, в рамках code review, на семинарах и в чате
⚙️ сложные задачи: 2 больших end-to-end проекта, которые с гордостью можно добавить в резюме
Курс стартует 4 июля и длится 5 месяцев. А еще ребята подарили вам специальный промокод DataSecrets на дополнительную скидку в 10.000 рублей, который действует до 30 июня включительно!
Не упустите шанс стать гуру CV и регистрируйтесь прямо сейчас!
Быть хорошим ML-инжененером != уметь пилить модельки в ноутбуках. Вот что нужно уметь, чтобы быть конкурентноспособным и действительно хорошо решать задачи CV:
Уже настроились все это освоить? Тогда имейте в виду: изучать все лучше системно и на практике, и чтобы не потерять много времени, лучше сразу перенимать проверенные знания у профессионалов.
Наши друзья из DeepSchool прямо сейчас предлагают такую мега-возможность и зовут учиться на программу CV Rocket. Если хотите закрыть пробелы в CV и освоить весь цикл решения таких задач, это место точно для вас:
Курс стартует 4 июля и длится 5 месяцев. А еще ребята подарили вам специальный промокод DataSecrets на дополнительную скидку в 10.000 рублей, который действует до 30 июня включительно!
Не упустите шанс стать гуру CV и регистрируйтесь прямо сейчас!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥9⚡6😁5❤3😐1
В этом году Россия получит собственную среду разработки и исполнения Java-приложений – SberJDK.
Об этом сообщил старший вице-президент Сбера Андрей Белевцев, отвечающий за блок «Технологическое развитие», на конференции GigaConf. Отечественное решение представляет собой альтернативу зарубежным платформам, созданную для противодействия технологической изоляции России.
В команду Сбера собрали ведущих инженеров отрасли с богатым опытом и уникальными знаниями, чтобы разработать эту платформу. Данная инициатив станет не только новым шагом в достижении поставленных целей, но и сохранит российские таланты на территории нашей страны.
Об этом сообщил старший вице-президент Сбера Андрей Белевцев, отвечающий за блок «Технологическое развитие», на конференции GigaConf. Отечественное решение представляет собой альтернативу зарубежным платформам, созданную для противодействия технологической изоляции России.
В команду Сбера собрали ведущих инженеров отрасли с богатым опытом и уникальными знаниями, чтобы разработать эту платформу. Данная инициатив станет не только новым шагом в достижении поставленных целей, но и сохранит российские таланты на территории нашей страны.
❤55😁37🙈22😐10🗿10⚡3👍2😎2🌚1👀1
Data Secrets
В стиле OpenAI: на LMSYS арене снова появляются какие-то загадочные модели На этот раз late-June-chatbot и im-also-a-late-June-chatbot. В ответ на вопрос «кто ты?» отвечает, что он Gemma (модель от Google). Если это правда, Google тролят OpenAI за майские…
Google выпустили опенсорс LLM Gemma-2
Те, кто на нашем вчерашнем посте про загадочные модели на арене проголосовал за Google, были правы. Модель im-also-a-late-June-chatbot оказалась новой Gemma-2.
Доступна в размерах 9В и 27В. Запускать можно наутюге всего одной H100. 9B превосходит на тестах Llama 3 8B, а 27В подбирается к Llama 3 70В.
Самое приятное в этом всем – открытые веса. Кроме того, есть тех.отчет и новый кукбук для разработчиков с кучей практических примеров использования и тюнинга модели.
Те, кто на нашем вчерашнем посте про загадочные модели на арене проголосовал за Google, были правы. Модель im-also-a-late-June-chatbot оказалась новой Gemma-2.
Доступна в размерах 9В и 27В. Запускать можно на
Самое приятное в этом всем – открытые веса. Кроме того, есть тех.отчет и новый кукбук для разработчиков с кучей практических примеров использования и тюнинга модели.
💘30🔥15👍8 2
Завозим анализ архитектуры новой Gemma 2, пройдемся по интересному:
➡️ В два раза больше layernorms, используется pre LN и post LN.
➡️ Используется soft capping – метод для предотвращения взрыва логитов без усечения, путем деления на трешхолд. В данном случае логиты аттеншена делятся на 30, а финальные на 50.
➡️ Размер словаря 256 128 для всех вариантов модели.
➡️ Скользящее окно внимания (метод для сокращения памяти) применяется к каждому второму слою. На остальных слоях все еще global attention.
Кроме того, оказывается, позже моделька выйдет еще и в размере 2.6В. Вот ее точно можно будет затюнить на утюге.
А пока что вот код для запуска модели через transformers:
Кроме того, оказывается, позже моделька выйдет еще и в размере 2.6В. Вот ее точно можно будет затюнить на утюге.
А пока что вот код для запуска модели через transformers:
import torch
pipe = pipeline(
"text-generation",
model="google/gemma-2-9b-it",
model_kwargs={"torch_dtype": torch.bfloat16},
device="cuda",
)
messages = [
{"role": "user", "content": "Who are you? Please, answer in pirate-speak."},
]
outputs = pipe(
messages,
max_new_tokens=256,
do_sample=False,
)
assistant_response = outputs[0]["generated_text"][-1]["content"]
print(assistant_response)
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41❤13🔥10