Как делать (не) нужно
Осторожно! Принесли вам вредные советы по настройке ML-модели. С ними у вас точно получится самая лучшая модель на свете (нет).
Осторожно! Принесли вам вредные советы по настройке ML-модели. С ними у вас точно получится самая лучшая модель на свете (нет).
😁81🤓10❤6👍6✍4🕊1
Простая задача с собеседования аналитика
Поезд состоит из шести вагонов. В среднем, в каждом вагоне едет 18 пассажиров. После того, как один вагон отцепили, среднее число пассажиров в оставшихся вагонах сократилось до 15. Сколько пассажиров находилось в отцепленном вагоне?
😻 #задачи
Поезд состоит из шести вагонов. В среднем, в каждом вагоне едет 18 пассажиров. После того, как один вагон отцепили, среднее число пассажиров в оставшихся вагонах сократилось до 15. Сколько пассажиров находилось в отцепленном вагоне?
Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻33👍16🔥9😁5
Еще одна мотивирующая биография в вашу коллекцию: Эндрю Ын
Просто основатель Coursera, DeepLearningAI, Google Brain и большой любитель кошек.
Просто основатель Coursera, DeepLearningAI, Google Brain и большой любитель кошек.
🔥89👍15❤🔥12🤩3
Историческая новость – вышла новая опенсурсная LLM Mistral
– Вышла в трех вариантах: mistral-tiny, mistral-small, mistral-medium
– Качество >= LLama2, GPT 3.5. При этом на инференсе в 6 раз быстрее Ламы.
– Бесплатная и открытая
– Умеет на английском, французском, итальянском, немецком и испанском
– Контекст - 32К токенов
– Уже добавили в HuggingFace:
😻 #news
– Вышла в трех вариантах: mistral-tiny, mistral-small, mistral-medium
– Качество >= LLama2, GPT 3.5. При этом на инференсе в 6 раз быстрее Ламы.
– Бесплатная и открытая
– Умеет на английском, французском, итальянском, немецком и испанском
– Контекст - 32К токенов
– Уже добавили в HuggingFace:
model = AutoModelForCausalLM.from_pretrained("mistralai/Mixtral-8x7B-v0.1")Юзер-гайды | Блогпост | Регистрация для раннего доступа
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38🔥14❤8🤔1
Топ-10 самых цитируемых AI-статей 2023
Пару дней назад вышел новый arXiv Report, в котором собраны все наиболее важные статьи по AI за Q1-Q3 2023 года. Папиры отфильтрованы по z-score of Newman. Показываем самое важное, а за деталями – сюда.
Пару дней назад вышел новый arXiv Report, в котором собраны все наиболее важные статьи по AI за Q1-Q3 2023 года. Папиры отфильтрованы по z-score of Newman. Показываем самое важное, а за деталями – сюда.
🔥28❤8👍6
Новая LLM Mixtral-8x-7B произвела фурор и ввела в моду Mixture of Expert
Эта архитектура отличается тем, что использует нескольких "экспертов" (каждый из которых представляет из себя нейросеть) для решения разных задач. От ансамблей она отличается тем, что эксперты не объединяются, то есть в решении участвует только один.
Какой токен какому эксперту отправить решает так называемый роутер – это тоже обучаемая сеть. В общем, вот вам список литературы, который поможет быстро разобраться (и не отстать от тренда):
❤️ Отличный разбор на HuggingFace
❤️ Ёмкий видео-разбор архитектуры от Trelis Research
❤️ Первая статья по применению MoE в NLP (в авторах Джефф Дин и Джеффри Хинтон)
❤️ Про MoE для LLM
Кстати, по слухам, GPT-4 тоже представляет из себя MoE.
😻 #advice #news
Эта архитектура отличается тем, что использует нескольких "экспертов" (каждый из которых представляет из себя нейросеть) для решения разных задач. От ансамблей она отличается тем, что эксперты не объединяются, то есть в решении участвует только один.
Какой токен какому эксперту отправить решает так называемый роутер – это тоже обучаемая сеть. В общем, вот вам список литературы, который поможет быстро разобраться (и не отстать от тренда):
Кстати, по слухам, GPT-4 тоже представляет из себя MoE.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35😁1
Ох уж этот конец года: даже у GPT-4 падает продуктивность
Выяснилось, что если модель думает, что сейчас май, то отвечает в среднем подробнее, чем «в декабре». Статистическая значимость на месте: t-test p < 2.28e-07. Среди экспертов уже родилось предположение, что в ходе обучения модель учла тот факт, что люди перед празниками ленятся и пишут тексты меньшего объема 🎄
Эксперимент проводился с помощью изменения параметра current date. Опыт, кстати, можно воспроизвести: вот код.
😻 #news
Выяснилось, что если модель думает, что сейчас май, то отвечает в среднем подробнее, чем «в декабре». Статистическая значимость на месте: t-test p < 2.28e-07. Среди экспертов уже родилось предположение, что в ходе обучения модель учла тот факт, что люди перед празниками ленятся и пишут тексты меньшего объема 🎄
Эксперимент проводился с помощью изменения параметра current date. Опыт, кстати, можно воспроизвести: вот код.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40😁20❤7🤯4🔥2
Пет-проект на любой вкус
Нет-нет, мы не собираемся в очередной раз душнить про важность пет-проектов. Просто поможем вам вдохновиться и выбрать работу, которую искренне захочется сделать.
В комплекте проект по LLM, CV, NLP, RecSys и классическому ML.
😻 #advice
Нет-нет, мы не собираемся в очередной раз душнить про важность пет-проектов. Просто поможем вам вдохновиться и выбрать работу, которую искренне захочется сделать.
В комплекте проект по LLM, CV, NLP, RecSys и классическому ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79❤10🔥9🫡2👏1🌭1