Machine learning Interview

Google Research представили ATLAS — Practical scaling laws for multilingual models 🌍📈

Это практическая методика масштабирования многоязычных моделей, которая помогает понять, как правильно сочетать размер модели, объём данных и набор языков при обучении — не только для английского, а для сотен языков сразу.

Что сделали исследователи
• Провели 774 тренировки моделей от 10M до 8B параметров
• Охватили 400+ языков
• Тестировали качество на 48 языках

ATLAS вводит адаптивные scaling laws, которые учитывают не только размер модели и данные, но и количество языков в обучении. Это важно, потому что в мультилингвистических моделях появляется эффект «curse of multilinguality» — когда слишком много языков начинают конкурировать за ограниченную ёмкость модели.

Чем это ценно на практике

— Помогает понять, когда добавление языков даёт положительный трансфер, а когда начинает вредить
— Показывает, как распределять данные между языками для лучшего качества на целевых
— Дает ориентиры, когда выгоднее обучать модель с нуля, а когда дообучать уже существующую

Также вводится кросс-языковая матрица трансфера, показывающая, какие языки усиливают друг друга, а какие — конфликтуют при совместном обучении.

По сути ATLAS — это data-driven фундамент для проектирования многоязычных LLM:
сколько параметров нужно, сколько данных давать и какие языки смешивать, чтобы получить максимум качества без лишних затрат.

Шаг в сторону более эффективного и менее англоцентричного AI.

https://research.google/blog/atlas-practical-scaling-laws-for-multilingual-models/

👍9❤5👏2🔥1

2.69K views13:01

Machine learning Interview

🚀 Масштабируем эмбеддинги, а не только экспертов - новый путь к более эффективным LLM

Главная идея: в режимах высокой разреженности (sparsity) использование N-граммных эмбеддингов дает более выгодный Pareto-баланс, чем простое наращивание числа MoE-экспертов.

На этом инсайте построена LongCat-Flash-Lite - первая open-source модель такого типа.

⚙️ 68.5B параметров всего (из них 37.13B не эмбеддинги)
Активно на токен: ~2.9B–4.5B
📊 Бенчмарки:
SWE-Bench - 54.4
τ²-Bench - 72.8
TerminalBench - 33.75

📃 Контекстное окно - 256K (на базе YARN)
✨ Оптимизирована под агентные задачи и кодинг, сильна и в общем рассуждении
⚡ Пиковая скорость инференса - около 700 токенов/с

Итог - модель достигает конкурентного качества в своем классе при заметно меньших затратах и задержках.

▪Hugging Face: huggingface.co/meituan-longcat/LongCat-Flash-Lite
▪Технический отчёт: huggingface.co/meituan-longcat/LongCat-Flash-Lite/blob/main/tech_report.pdf

🔥5🤔3❤2

2.23K views13:04

Machine learning Interview

Forwarded from ML Underhood

Назад в 2016: ты помнишь, как всё начиналось…

Судя по соцсетям, 2016-й был золотым годом. ML активно набирал обороты: TensorFlow в опенсорсе, Jupyter-ноутбуки, scikit-learn и матч AlphaGo — Ли Седоль (свело олдскулы?). Присоединяемся к тренду и вспоминаем ML-проекты Яндекса десятилетней выдержки.

Поисковый алгоритм «Палех»

Раньше поисковые системы работали по большей части как инвертированный индекс: запрос сопоставлялся со страницами, где встречались те же слова. Со временем в поиск начали добавлять клики, поведение пользователей и ссылочные факторы — всё это объединили в алгоритме ранжирования MatrixNet. А «Палех» стал следующим шагом: в поиске использовали нейросеть на базе DSSM, чтобы учитывать смысл запроса, а не только совпадение слов. Подробнее о том, как всё работало, можно почитать на Хабре.

Перевод текста с изображения в Переводчике

Яндекс Переводчик научился распознавать текст прямо на картинках. Можно было загрузить изображение — комикс, график с подписями или скан документа — и сразу получить перевод. Функция работала даже в неидеальных условиях: если текст был под углом, растянут или снят «на бегу». Распознавание поддерживало 12 языков, а перевод — любой из 74 языков, доступных на тот момент. В основе лежали технологии компьютерного зрения Яндекса — те же, что использовались в поиске похожих картинок и определении марки автомобиля по фото. А о том, как в Яндексе в 2016 году решали задачу машинного перевода для редких языков, — тут.

Первая нейросеть для прогноза осадков с точностью до минут

В Яндекс Погоду добавили нейросетевой «наукастинг» осадков — краткосрочный прогноз дождя и снега с высокой точностью. Модель использовала данные метеорадаров и свёрточные нейросети, чтобы предсказывать движение осадков на ближайшие пару часов с детализацией до отдельных районов. На коротких интервалах подход оказался точнее классических методов и улучшил прогноз «здесь и сейчас». О том, как далеко шагнуло прогнозирование погоды с помощью нейросетей в 2026-м — писали здесь, а вспомнить, что было в 2016-м, можно тут.

Определение фишинга в Браузере с помощью ML

Традиционная защита браузеров от фишинга была основана на чёрных списках опасных сайтов. Но с автоматизированными атаками, где фишинг-страницы появляются быстрее, чем их вносят в списки, в 2016-м она уже не справлялась.

Стали прямо на устройстве пользователя анализировать самые разные признаки страницы — от технических параметров до визуального оформления — и оценивать её подозрительность. А компьютерное зрение использовали, чтобы сравнивать внешний вид сайтов с известными сервисами — так подделки находились даже без обращения к внешним спискам. Подробнее рассказали в хабростатье.

Вот такие технологии из дохайповых времён. Делитесь в комментариях своими воспоминаниями об ML в 2016 году.

ML Underhood

❤8🔥3👏3😐2🤔1

1.96K views16:51

Machine learning Interview

Tencent YouTu Research открыли Youtu-VL-4B-Instruct*- компактную VLM, которая серьёзно прокачивает визуальное понимание через подход VLUAS 👁️⚡

Это не просто “ещё одна vision-модель”, а попытка объединить кучу задач в одной архитектуре без зоопарка отдельных голов.

🌟 Что здесь особенно выделяется

✅ All-in-One Vision
SOTA-уровень в детекции объектов, сегментации, оценке глубины и поз — без task-specific голов под каждую задачу.

✅ OCR и мультимодальное рассуждение
Сильная в сложном разборе документов и задачах, где нужно одновременно видеть и “думать” (например, математика по изображениям).

✅ Готовность к GUI-агентам
Оптимизирована под понимание окружающей среды и навигацию по интерфейсам — важная часть будущих AI-агентов.

✅ Эффективность
Всего 4B параметров — хорошо подходит для edge-деплоя и быстрого инференса.

🔧 По результатам
Модель обгоняет многие более крупные системы на OmniDocBench и vision-centric задачах, оставаясь при этом компактной.

Это интересный шаг к универсальным vision-моделям, которые могут стать базой для агентов, работающих с экранами, документами и реальным миром.

🔗 Модель
https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct
https://modelscope.cn/models/Tencent-YouTu-Research/Youtu-VL-4B-Instruct-GGUF

📄 Статья
https://modelscope.cn/papers/2601.19798

👍5🔥5❤3

2.17K views11:53

Machine learning Interview

🧠 Бесплатные курсы по нейросетям собрали в одном месте - на удобном сайте с подборкой материалов от OpenAI, Microsoft и других топовых компаний.

Проект Learn AI Go Where - это десятки проверенных курсов, гайдов и полезных ссылок по ИИ, которые реально стоит пройти. Без мусора и бесконечного поиска по всему интернету.

https://www.learnaigowhere.com/

❤7🔥2🥰1

2.12K views14:01

Machine learning Interview

🖥

Большинство “парсеров” умирают через 2 дня.
Ты научишься делать те, которые живут в проде.

Это не про BeautifulSoup ради галочки.
Это про системы сбора данных, которые:

• не падают от мелких правок на сайте
• собирают данные в разы быстрее
• обновляют всё сами по расписанию
• обходят ограничения и баны
• выглядят как сервис, а не хаос из файлов

Ты начнёшь видеть сайты не как страницы, а как источники данных, к которым можно подключиться.

В итоге ты сможешь:

• забирать данные для своих проектов
• автоматизировать чужую рутину
• делать инструменты для аналитики
• брать коммерческие заказы на сбор данных

Это навык, который напрямую превращается в деньги.
Не “знаю Python”, а умею добывать данные из интернета профессионально.

🎁 48 часов скидка 50% на Stepik: https://stepik.org/a/269942/

Please open Telegram to view this post

VIEW IN TELEGRAM

😁6👍3❤2🥰2

1.78K views11:03

Machine learning Interview

🧬 AlphaGenome от Google DeepMind - ИИ, который читает код жизни

Это один из тех релизов, которые реально двигают медицину, а не просто "ещё одна модель".

Что делает AlphaGenome?
Модель анализирует, как изменения в ДНК влияют на регуляцию генов - ключевой механизм за множеством наследственных болезней и рака.

Вот где магия:

- читает до 1 миллиона букв ДНК за раз
- замечает изменение в одной букве
- видит дальнодействующие эффекты, когда мутация находится далеко от гена, но всё равно на него влияет

Раньше инструменты обычно умели либо анализировать длинные участки ДНК, либо делать очень точные предсказания.
AlphaGenome делает и то и другое одновременно.

Он обрабатывает до 1 мегабазы (1 Mb) ДНК за один проход и выдаёт предсказания на уровне отдельной буквы ДНК по тысячам биологических сигналов.

Почему это big deal

Сегодня учёные перебирают миллионы различий в ДНК, чтобы найти несколько реально важных.
С такой моделью:

- изменения можно оценивать за минуты, а не месяцы
- лабораторное время уходит только на самые перспективные варианты

Это означает:

- ускорение диагностики редких заболеваний - особенно когда проблема вне самих генов
- более точные исследования рака - модель помогает понять, какие "скрытые переключатели" включают гены
- помощь в разработке лекарств - связывает изменения в ДНК с активностью генов в нужных тканях

Команда выложила код и веса для некоммерческого использования, плюс доступен API, чтобы больницы и лаборатории могли тестировать модель в исследованиях.

ИИ всё глубже заходит на уровень биологии, где одна буква может решать судьбу человека - и теперь у нас есть инструмент, который это реально видит.

https://github.com/google-deepmind/alphagenome_research

👍16❤2🔥2

1.62K views13:03

About

Blog

Apps

Platform