296K subscribers
5.07K photos
1.15K videos
17 files
5.43K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
Tiny Aya: семейство мультиязычных SLM.

Cohere Labs выкатили семейство моделей Tiny Aya на 3 млрд. параметров с контекстным окном 8К, которое поддерживает 70+ языков.

Семейство заявляется как достойный кандидат для локальных переводчиков, чат-ботов и образовательных тулзов в оффлайн-режиме. Если необходимо, чтобы было быстро, локально и переводить суахили или кхмерский лучше, чем Llama - это вот оно.

🟡Фишка релиза в дата-инжиниринге.

Tiny Aya учили на 6 трлн. токенов, а проблему нехватки данных для редких языков решали через синтетику от моделей-учителей (своя Command R + DeepSeek-V3).

Вместо того чтобы учить одну модель всему сразу, разбили данные на языковые кластеры (Европа, Азия, Африка и т.д.) и дотюнивали отдельные ветки, после чего смержили эти региональные чекпоинты в глобальную модель Tiny Aya Global.

🟡Состав семейства

Tiny Aya Global: Универсальный чекпоинт для всех языков.

Tiny Aya Earth: Африка и Западная Азия.

Tiny Aya Fire: Южная Азия.

Tiny Aya Water: Азиатско-Тихоокеанский регион и Европа. Мы тут

GGUF: Есть к каждой версии в 4, 8 и 16-бит.

iOS и Android: модели доступны в PocketPal

🟡Результаты тестов

Global-версия бьет Gemma 3-4B в 46 языках из 61 на бенче WMT24++.

На iPhone 17 Pro выдает 32 токена/сек, на стареньком iPhone 13 - около 10 токенов/сек в квантовании Q4_k_m.

Самый высокий показатель безопасности (91.1%) среди конкурентов (Qwen3-4B, Ministral-3-3B).

🟡Капля реализма

Это 3B модель. В сложных задачах она очевидно хуже или где-то рядом с одноклассниками, чудес ждать не стоит.

Несмотря на заявленное разнообразие, английский язык занимает львиную долю датасета во всех кластерах.

При сильном сжатии (ниже Q4) качество начинает заметно страдать, особенно на редких языках.



📌Лицензирование: CC-BY-NC-4.0 License.


🟡Блогпост
🟡Набор моделей
🟡Техотчет
🟡Demo


@ai_machinelearning_big_data

#AI #ML #SLM #TinyAya #Cohere
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓66💯36🥱3428🤩27🔥20🦄20😴17🙈16😇15👍14
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI и Paradigm представили инструмент для оценки навыков ИИ в защите смарт-контрактов.

EVMbench - специализированный фреймворк, который проверяет, насколько хорошо языковые модели справляются с 3 задачами: находят баги в коде смарт-контрактов, эксплуатируют их в контролируемой среде и исправляют без нарушения логики контракта.

Тестовая база построена на реальных примерах багов, найденных ранее в ходе аудитов и профильных соревнований.

Авторы рассчитывают, что EVMbench станет отраслевым стандартом, что важно для защиты активов в секторе децентрализованных финансов, где исправить ошибку после деплоя уже невозможно.
openai.com

✔️ Google обновила NotebookLM.

Теперь в NotebookLM сгенерированные презентации можно дорабатывать прямо в диалоге с ИИ, без ручной правки каждого слайда. Достаточно написать, что изменить, и модель перестроит контент сама.

Второе обновление - экспорт в PPTX. Готовую презентацию можно скачать и открыть в Microsoft PowerPoint. Поддержка Google Slides анонсирована, но пока не запущена.
NotebookLM в сети Х

✔️ Perplexity полностью отказывается от рекламы.

ИИ-поисковик прекратил эксперименты с рекламной монетизацией, посчитав, что она фундаментально противоречит миссии сервиса. Несмотря на то, что стартап одним из первых начал тестировать спонсорские ответы в 2024 году, сейчас руководство решило свернуть эту инициативу.

Представители компании пояснили, что их главная ценность - это точность и объективность информации. Даже если промо-блоки четко маркированы и технически не влияли на генерацию текста, сам факт их наличия заставляет людей сомневаться в честности ответов.

В Perplexity пришли к выводу, что для удержания платных подписчиков пользователь должен быть уверен, что получает лучший возможный ответ, не искаженный коммерческими интересами рекламодателей.
ft.com

✔️ Gemini теперь может генерировать музыку.

В чат-бот добавили модель Lyria 3 от DeepMind. На вход она принимает текст, картинку или видео, а если указать в запросе имя исполнителя, Gemini создаст трек в похожем стиле (но скопировать артиста напрямую не получится).

Инструмент в бете, но уже пишет полноценные треки на английском, немецком, испанском, французском, хинди, японском, корейском и португальском языках. Вся музыка, созданная через Lyria 3, получает метку SynthID.
blog.google

✔️ В MIT приспособили языковую модель для удешевления производства лекарств.

Команда инженеров-химиков института адаптировала архитектуру LLM для нужд биотехнологий. Созданный алгоритм помогает промышленным дрожжам Komagataella phaffii эффективнее производить сложные белки, используемые в вакцинах и препаратах от рака.

Суть разработки - решении проблемы генетических синонимов. Одна и та же аминокислота может кодироваться разными триплетами ДНК (кодонами), но на классических методах оптимизации выбор самых часто встречающихся вариантов нередко приводит к дефициту ресурсов клетки и снижению выработки.

Инженеры обучили модель на геноме дрожжей, заставив ее воспринимать ДНК как текст. ИИ не просто запомнил частоту кодонов, но и усвоил скрытый контекст — «синтаксис» их взаимодействия. В тестах на реальных белках, включая человеческий гормон роста и моноклональные антитела, последовательности от ИИ превзошли результаты лучших коммерческих инструментов в 5 случаях из 6.
Технология обещает сократить расходы на разработку новых лекарств, которые на этапе подготовки производства сейчас составляют до 20% от общего бюджета.
news.mit.edu


@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
47👏40👍18🔥11🤩8🤔5😎5🎉3🤝1🆒1
✔️ Яндекс сократил затраты на обучение LLM на 4,8 млрд рублей в год без потери качества и темпов разработки

Компания сообщила о масштабной оптимизации инфраструктуры обучения больших языковых моделей: качество и объёмы разработки сохранены, а годовая экономия составила 4,8 млрд ₽ (≈ 400 млн ₽ в месяц).

🟡Ключевое решение — библиотека YCCL
YCCL (Yet Another Collective Communication Library) — собственная разработка Яндекса для ускорения коллективных операций и межпроцессорного взаимодействия в кластерах.

С её помощью удалось:
- в 2 раза ускорить обмен данными между GPU,
- сократить объём передаваемой информации
- перенести часть управляющей логики с GPU на CPU, снизив нагрузку на графические процессоры.

Сопоставимые по уровню решения есть только у крупнейших игроков рынка (Meta, AMD и ряд китайских бигтех-компаний).

🟡 Переход на FP8
Компания внедрила вычисления в формате FP8, что дало:
ускорение обучения до 30%, двукратное снижение коммуникаций между GPU.

🟡 Масштабирование и эффективность кластеров
Размер батча увеличен до 16–32 млн токенов, что уменьшило простой GPU и повысило загрузку и эффективность использования кластеров.

Дополнительно улучшили стабильность инфраструктуры и сократили затраты, связанные с перезапусками обучения.

@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍116🤣79🔥3022👏8🤩7😁6🤬3😢2🤔1🎉1
📌Большое интервью создателя Claude Code.

Y Combinator выложил на Youtube почти часовой выпуск подкаста Lightcone Podcast с Борисом Черным, создателем Claude Code в Anthropic. Мы собрали для вас ключевые темы, цитаты и утверждения.

🟡Философия разработки

Стратегия Anthropic при создании инструментов заключается в опережении текущих возможностей ИИ.

Главный совет фаундерам: не подстраивайте продукт под ограничения сегодняшних моделей. Стройте его для модели, которая выйдет через полгода. Если сегодня модель глупая, через 6 месяцев она поумнеет, и ваш продукт должен быть к этому готов.

Принцип "Scaffolding" : обвязка вокруг модели может улучшить производительность на 10-20%, но следующая версия модели часто нивелирует этот выигрыш. Либо вы строите обвязку для временного прироста, либо ждете новую модель и получаете прирост бесплатно.

CLAUDE.md часто переусложняют. Борис рекомендует удалять его и начинать заново, так как с каждой новой моделью требуется меньше инструкций.

🟡Продуктивность

Внутренняя статистика Anthropic показывает радикальное изменение в процессах разработки.

Инженер Anthropic сейчас в 1000 раз продуктивнее инженера Google на пике их формы.

После внедрения Claude Code продуктивность внутри Anthropic выросла на 150% (измеряется по количеству PR, коммитов и их жизненному циклу). Ранее годовой рост на 2% считался успехом (личный опыт Бориса у Цукерберга).

CEO Anthropic предсказывал, что 90% кода будет писать ИИ. Борис утверждает, что с выходом Opus 4.5 эта цифра достигла 100%.

Борис удалил свою IDE. Он не редактирует ни одной строчки кода вручную. Весь процесс идет через Claude Code в терминале.

🟡Технические возможности и кейсы Claude Code

Первый инструмент, который дали модели был bash.

Инженер Anthropic Крис нашел утечку памяти, просто попросив Claude Code: "Найди утечку". Агент снял heap dump, написал инструмент для анализа дампа, нашел утечку и предложил фикс быстрее человека.

Рекурсивная отладка: можно загрузить транскрипт сессии кодинга обратно в Claude, чтобы отладить самого агента.

🟡CLAUDE.md и контекст проекта

Идея CLAUDE.md родилась из наблюдения скрытого спроса: инженеры сами писали markdown-файлы с контекстом для скармливания модели.

Личный CLAUDE.md Бориса содержит всего две строки:
1. При создании PR включать auto-merge.
2. Постить ссылку на PR во внутренний канал Slack.

Если Claude совершает ошибку, команда тегает его в PR (командой /add claude), чтобы он исправил код и обновил правила в CLAUDE.md для предотвращения рецидивов.


🟡Агенты, Plan Mode и мультиагентность

Эволюция идет от простого выполнения команд к сложному планированию и роям агентов.

Plan Mode: Режим, где модель сначала расписывает шаги, а потом выполняет.

Промпт для Plan Mode технически прост: к запросу добавляется фраза "Пожалуйста, не пиши код, а сначала спланируй".

Функция "Plugins" была написана роем агентов за выходные без участия человека: инженеры дали спецификацию и доступ к Asana. Главный агент спавнил субагентов, раздавал задачи из доски, а те писали код.

Стратегия "Mama Claude": основной инстанс Claude Code рекурсивно вызывает субагентов (другие инстансы Claude Code) для решения подзадач.

🟡Инсайты о найме и типах инженеров

Биомодальное распределение эффективных сотрудников:

Гипер-специалисты: кандидаты с глубоким знанием devtools, runtime, оптимизаций.

Гипер-дженералисты: люди, совмещающие роли Product, Infra, Design.


Product Engineer исчезает как термин, все становятся "Builders".

В Anthropic код пишут все: дизайнеры, финансисты и менеджеры.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7642👍29🤓9😁7💯7🔥5🤣4🎉3🤬1
Генеральный директор OpenAI Сэм Альтман и генеральный директор Anthropic Дарио Амодей показательно отказались взяться за руки во время группового фото на саммите India AI Impact Summit, в то время как другие участники на сцене сцепили руки для символического снимка.
😁133🤔4312🤬11🤝11🤨9👾8👍6😐5🥱3🙈2
Forwarded from Rust
🦀 Strand-Rust-Coder-14B - модель, заточенная специально под генерациию Rust кода.

Это не универсальный «кодинг-ассистент».
Модель дообучена именно на экосистеме Rust и пишет код на уровне опытного разработчика:
- идиоматичный Rust
- безопасная работа с памятью
- корректные async и ownership-паттерны
- акцент на производительность и системные задачи

Большинство моделей хорошо знают Python и JavaScript, но часто «путаются» в borrow checker, lifetimes и сложных Rust-конструкциях.

Strand-Rust-Coder решает именно эту проблему - фокус на системном программировании, low-level задачах и performance-critical приложениях.

https://huggingface.co/Fortytwo-Network/Strand-Rust-Coder-14B-v1

@rust_code
1👍89🔥2213👏11💯5😁3🤔3
⚡️ VK внедряет VLM в поиск VK Видео

VK начала внедрение визуально-языковых моделей в поисковые системы своих продуктов. Технология уже работает в VK Видео. Теперь система анализирует не только название и описание ролика, но и сами кадры, звук и видеоряд.

Тестирование гипотез ускорилось в 5 раз, новые улучшения внедряются заметно быстрее, а поиск будет развиваться динамичнее.

Технология также усилит векторный поиск. Система будет опираться не только на семантическое совпадение слов, но и на реальное содержание видео через анализ аудио и визуальных признаков.
Подобные мультимодальные подходы развивают Microsoft, Google и TikTok. Обновление поэтапно появится и в других сервисах VK.

@ai_machinelearning_big_data

#news #ai #ml #VK
1🤣110👍74🔥21👏8🥱7🤷‍♂6🗿5😁2🤔2🌚2😴1
⚡️ Релиз Gemini 3.1 Pro - новый уровень интеллекта моделей

Google официально представила Gemini 3.1 Pro, и результаты выглядят серьёзно: модель показала 77,1% в одном из самых сложных тестов на абстрактное мышление — ARC-AGI-2.

- Резкий скачок качества
Результат почти в 2 раза выше, чем у предыдущей версии

- Обгоняет конкурентов
Gemini 3.1 Pro опережает Opus 4.6 и GPT-5.2 в задачах на обобщение и логическое мышление

- Сильнее в реальных сценариях
- программирование
- агентные задачи
- работа с новыми паттернами без примеров

- Новые возможности
Модель может генерировать анимированные SVG из текста и решать логические задачи, которых не было в обучающей выборке — это важный шаг к более универсальному AI.

Попробовать Gemini 3.1 Pro уже можно в Google AI Studio: blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-pro/

@ai_machinelearning_big_data
1🔥1294338👍13🤩11🙊10😴9🤷‍♂6👏6🌭5🙈5
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI поглотила команду поискового стартапа Nerve.

Команда Nerve переходит в OpenAI в рамках сделки формата acqui-hire. Технологии стартапа будут интегрированы в существующие продукты OpenAI для улучшения механизмов поиска на рабочих местах.

До поглощения Nerve работала как единый хаб. Система умела извлекать данные из корпоративных документов, электронной почты, Google Drive и Slack, заменяя рутинный ручной поиск автоматизированными сценариями.

Наработки Nerve станут инфраструктурным компонентом для создания будущих ИИ-агентов, способных самостоятельно оперировать корпоративной информацией и выполнять сложные многошаговые задачи.
usenerve.com

✔️ ByteDance открыла около 100 вакансий в США.

Китайская корпорация активно нанимает инженеров и исследователей в Сан-Хосе, Лос-Анджелесе и Сиэтле для лаборатории Seed.Перед кандидатами ставятся задачи по подготовке датасетов для LLM, улучшению алгоритмов генерации видео и изображений, а также разработка научных моделей для дизайна лекарственных препаратов.

Отдельный фокус сделан на проекте Seed Edge Research, цель которого в создании систем с человекоподобными способностями к обучению.

Агрессивный наем происходит на фоне многолетнего давления американских регуляторов. Несмотря на это, ByteDance явно не планирует уступать технологическую гонку и усиливает свои R&D-центры на территории конкурентов.
bloomberg.com

✔️ Microsoft научилась записывать данные в боросиликатное стекло.

В рамках проекта Project Silica инженеры решили фундаментальную проблему деградации носителей в дата-центрах. В Nature вышла статья о важном сдвиге: команда отказалась от дорогого чистого кварца в пользу доступного боросиликатного стекла. Фемтосекундные лазеры "прожигают" в пластине толщиной 2 мм сотни слоев информации

Фишка исследования — изобретение «фазовых вокселей». Раньше методы опирались на поляризацию, а новый подход изменяет фазу стекла и требует лишь одного лазерного импульса на воксель. Чтобы разобрать эту плотную трехмерную структуру и убрать искажения, Microsoft подключила нейросети. Скорость записи подняли, запустив несколько лучей параллельно, а само устройство упростили: теперь для чтения хватает одной камеры вместо четырех.

Стеклянный носитель не боится воды, высоких температур и пыли. Тесты на старение подтвердили, что записанная информация останется неизменной минимум несколько тысячелетий. На этом исследовательская часть Project Silica закончена. Технология готова, теперь на ее основе можно строить хранилища.
microsoft.com

✔️ Google запустила генератор продуктового фото.

Новая функция Photoshoot - часть маркетинговой платформы Pomelli. Инструмент ориентирован на малый и средний бизнес, он превращает через Nano Banana фотографии товаров в качественные студийные и лайфстайл-кадры без затрат на продакшен.

Платформа автоматически парсит сайт компании, извлекает фирменные цвета, шрифты и общую эстетику бренда для применения к генерируемому контенту. Сервис предлагает готовые визуальные пресеты, замену фона по текстовому запросу и перенос стиля с референсов. Пока это бесплатная бета, но только для США, Канады, Австралии и Новой Зеландии.
blog.google

✔️ Tavus сделала модель реалистичного рендеринга лица в реальном времени.

Phoenix-4 покадрово генерирует каждый пиксель лица и головы виртуального собеседника, опираясь на датасет из тысяч часов реальных диалогов.

Киллер-фича Phoenix-4 в способности анализировать контекст беседы и демонстрировать эмпатию. Модель знает более 10 эмоций и умеет плавно переключаться между ними в реальном времени. Разработчики заверяют, что тем самым победили эффект «зловещей долины».

Технически все серьезно: HD-видео, 40 кадров в секунду. Tavus предлагает использовать это в продажах, обучении и медицине - там, где человеку важно внимание.
tavus.io

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
768👍56🔥18👏5🌚4🥰2
📌 Аnthropic измерил, как люди на самом деле используют ИИ-агентов.

Создатели Claude проанализировали миллионы взаимодействий в Claude Code и через публичный API с помощью их инструмента Clio, чтобы понять, сколько автономии люди реально дают агентам, в каких доменах те работают и насколько рискованны их действия.

🟡 Агенты работают все дольше без участия человека.

За 3 месяца медианная длина самых долгих сессий в Claude Code почти удвоилась - с 25 до более чем 45 минут непрерывной работы. Причем рост плавный и не коррелирует с релизами новых моделей.

Это значит, что дело не только в возможностях модели, а в том, как пользователи выстраивают взаимодействие с агентом.

🟡Опытные пользователи ведут себя иначе, чем новички.

Среди тех, кто только начинает пользоваться Claude Code, около 20% сессий запускают с полным авто-апрувом, это когда агент выполняет все действия без подтверждений.

У опытных пользователей эта доля больше 40%. Плюс они чаще прерывают агента вручную.
Аnthropic предполагает, что это не потому, что теряется доверие, а потому что они берутся за более сложные задачи и лучше понимают, когда нужно вмешаться.

🟡Неочевидный факт: агент сам ограничивает свою автономию чаще, чем это делает человек.

На самых сложных задачах Claude Code останавливается и задает уточняющий вопрос вдвое чаще, чем по принудительному прерыванию человеком.

🟡Картина по доменам

Почти половина всей агентной активности через API - за разработкой ПО.

Есть прирост использования в медицине, финансах и кибербезопасности, но пока в небольших объемах.

По итогу исследования, Аnthropic пришла к выводу, что эффективный надзор за агентами требует не только технических ограничений, но и новой инфраструктуры пост-деплойного мониторинга и новых паттернов взаимодействия - где и человек, и агент совместно управляют автономией и рисками.

Текущие модели, по данным компании, технически способны на большую самостоятельность, чем им позволяют на практике.

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍76🤔70👏46💋40😎31😢2724🤣23🎉22🫡16👨‍💻15
📌Насколько Skills реально помогают LLM-агентам.

SkillsBench — исследование и первый бенчмарк, где Agent Skills тестируются как самостоятельный артефакт.

Авторы из 15+ топовых университетов взяли 84 задачи из 11 доменов, запустили 7 конфигураций моделей (Claude Code с Opus/Sonnet/Haiku 4.5 и 4.6, Gemini CLI с Gemini 3 Pro/Flash, Codex с GPT-5.2) и проверили 3 условия: без Skills, с готовыми Skills и с самостоятельно сгенерированными Skills. Итого: 7 308 траекторий с детерминированными верификаторами на pytest.

Готовые Skills в среднем поднимают pass rate на 16,2 процентных пункта: с 24,3% до 40,6%. Но картина неоднородная: в медицине прирост составил +51,9%, для производства — +41,9%, тогда как в разработке ПО всего +4,5%.

Это объяснимо: там, где модели плохо покрыты обучением (клинические протоколы, промышленные воркфлоу), Skills дают максимальный эффект. Там, где модель и так знает домен - почти ничего.

🟡Главный и неожиданный результат: самогенерация Skills не работает.

Когда моделям предлагали сначала написать нужные гайды, а потом решать задачу, средний результат упал на 1,3% по сравнению с работой вообще без Skills. Только Claude Opus 4.6 показал скромный плюс (+1,4%), а GPT-5.2 просел на 5,6%.

Иными словами - модели не умеют надежно создавать то знание, которым умеют пользоваться.


🟡Еще один интересный момент - это объем Skills.

Оптимальный вариант: 2–3 модуля, прирост +18,6%. При 4 и более - всего +5,9%. Подробная документация вообще дает отрицательный эффект: –2,9%, с ней агент буквально тонет в контексте.

Показательна и стоимость решения задач: Haiku 4.5 со Skills обходит Opus 4.5 без Skills — меньшая и более дешевая модель с готовыми Skills бьет старшую модель без них.

Gemini 3 Flash при этом показал лучший абсолютный результат среди всех конфигураций - 48,7% со Skills при цене $0,57 за одну задачу против $1,06 у Gemini 3 Pro.


🟡Страница проекта
🟡Arxiv


@ai_machinelearning_big_data

#AI #ML #LLM #Benchmark #Skills
Please open Telegram to view this post
VIEW IN TELEGRAM
👍77🤓4623🤔10👏8❤‍🔥6👌5🐳2🔥1🥰1