AI для Всех

🎨 Битва вкусов: Design Arena

Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.

Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.

🔍 Как всё устроено

1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.

🏆 Кто в топе прямо сейчас?

🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %

Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?

Попробовать самому можно тут

🔥20❤5

4.33K viewsedited 21:23

AI для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

🏛️ Aeneas: ИИ научили читать камни

Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?

Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.

🔍 Откуда он знает?

В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».

Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).

📈 Что показывает бенчмарк

В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.

💡 Почему это прорыв, а не ещё один «LLM for everything»?

1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.

🧱 История одной плиты

В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.

👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.

И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.

🌟

Блог-пост

👉

Статья в Nature

🖥

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥30❤13👍1🤩1

5.13K viewsedited 15:55

AI для Всех

🚀 Mixture-of-Recursions: когда трансформер учится "думать" сам

TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.

🧠 Суть открытия

Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.

Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.

🔎 Что это означает:

- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои

🧠 Аналогия с человеком:

Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!

🚀 Тройная инновация MoR:

Система состоит из трех ключевых компонентов:

1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более

2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества

3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза

🎯 Впечатляющие результаты

Эксперименты на моделях от 135M до 1.7B параметров показали:

• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching

Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!

🔮 Почему это важно

MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".

Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.

Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.

💡 Что дальше

Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров

MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.

А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔

📝

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥23❤5🤯5👍4

5.05K viewsKirill, 08:21

AI для Всех

Forwarded from Сиолошная

1:16

Media is too big

VIEW IN TELEGRAM

Unitree представили нового робота, Unitree R1 Intelligent Companion. Цена от $5900, вес всего 25 килограмм. Лендинга пока нет (блин, а я бы прямо сейчас тыкнул в предзаказ...).

Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.

Твит с анонсом

🔥16😁2

3.5K views14:06

AI для Всех

🔥 LLM косячит? CLEAR покажет где и сколько

CLEAR — это open-source пайплайн + дашборд от IBM Research, который берёт текстовые отзывы LLM-судьи (LLM-as-a-Judge) и автоматически группирует их в повторяющиеся типы ошибок.

🤔 Боль
Вы запускаете бенчмарк, получаете метрику и… зависаете. Да, модель набрала 73, но почему не 85? Где именно она косячит - на вычислениях, на ссылках, на логике? Ручной разбор сотен примеров - это боль и скука (хотя и необходимая).

🛠 Что сделали авторы
CLEAR автоматизирует извлечение инсайтов из LLM-судьи:

1. LLM-судья оценивает каждый ответ: балл + текстовая критика.
2. Кластеризация критики (Key Point Analysis): повторящаяся критика судьи объяединяется в кластеры (бины). Можно делать классическим KPA или попросить LLM сформулировать пункты самому (гибче, но дороже по токенам).
3. Дашборд на Streamlit: фильтруете по типу ошибки, сравниваете модели, проваливаетесь до конкретных кейсов. Наглядно и быстро.

🚀 Зачем это вам

* Приоритизировать фиксы. Не «улучшим всё разом», а «починим сначала арифметику (18% ответов), затем фактическую точность (12%)».
* Обосновать работу команде. «Почему нам нужен retriever? Потому что 20% ответов теряют ссылки» звучит куда убедительнее, чем «у нас упал общий скор».
* Готовые датасеты для улучшений. Кластеры ошибок → таргетные данные для fine-tuning, правила, тесты.

✅ Итог: CLEAR — это мост между «метрики ради метрик» и реальными действиями. Если вы занимаетесь промпт-инженерингом, RAG-конвейерами или fine-tuning — это отличный способ быстро увидеть, что чинить прямо сейчас.

Статья
Код

👍19😐4❤3🔥1

4.64K viewsedited 16:30

AI для Всех

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🧠⌚ SensorLM: часы, которые читают вас как книгу

Google скормили модели ≈ 60 млн часов анонимных данных с Fitbit и Pixel Watch - и та научилась превращать сухие цифры (пульс, шаги, температуру) в понятный человеческий текст. Представьте: часы сами пишут дневник о вашем дне.

Зачем датчикам нужен “язык”?

Каждый из нас таскает на запястье мини-лабораторию: шаги, HRV, кожная температура. Но что мы видим вечером? — графики и циферки. А хочется фразу:

«После второй чашки кофе стресс вырос, но 15-минутная прогулка вернула тебя к норме».

Такие фразы требуют миллионов пар «сенсор ↔ текст», которых раньше не было.

Что сделали в Google

1️⃣ Собрали датасет-монстра — 2,49 млн человеко-дней (127 стран).
2️⃣ Сгенерировали подписи. Алгоритм описывает каждый 24-часовой кусок в трёх слоях:
• Статистика: «пульс 54–178 bpm, среднее 72».
• Структура: «плавный рост ЧСС с 11:00 до 12:00».
• Семантика: «силовая тренировка 26 мин».
3️⃣ Обучили мультимодальный Transformer с двойным лоссом:
• сравнивать сенсор и текст (contrastive, как CLIP);
• генерировать описания (generative, как CoCa).

Результат назвали SensorLM и выпустили в четырёх размерах от S до XL (1,27 B параметров).

Что умеет из коробки

- Распознаёт активности и стресс без дообучения надёжнее традиционных CNN.
- По запросу «show me when my stress spiked» возвращает точные 10-минутные окна.
- За пару примеров адаптируется к вашему стилю жизни (few-shot).

Итог

SensorLM превращает минутные сенсорные потоки в семантически богатые токены, а далее пользуется теми же трюками, что CLIP/CoCa, чтобы «подружить» этот новый язык с человеческим. Это и есть главный инженерный «костыль», который наконец‑то снимает проклятие отсутствия размеченных данных.

Блог-пост
Статья

🔥51❤13👍6

4.82K viewsedited 15:55

AI для Всех

⚡

ML-контест

⚡

Ребята из CS Space подготовили для вас ML-контест, в котором будут задачи по машинному обучению, теории вероятностей, классической статистике и другим разделам математики.

Соревнование пройдет на платформе Яндекс Контест, участвовать можно абсолютно всем, старт в любое время с утра 1 августа до вечера 3 августа, на решение дается всего 24 часа.

Больше информации про соревнование тут, а регистрация здесь.

Хорошая возможность потренироваться в подобных задачах!

#промо

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥4😱3❤2🤯1

3.96K views09:03

AI для Всех

🌍🚀 AlphaEarth: «вычислительная фотография» планетарного масштаба

Вы открываете Sentinel-снимок над Амазонкой — и видите одни облака. Данные из радара сняты в другой день, LiDAR лежит в чужой проекции. Классический «танец с бубном»: неделя на чистку и стыковку тайлов.

Вчера DeepMind решили что хватит и показалы AlphaEarth Foundations - ИИ-двигатель, который из оптики, SAR, LiDAR, климата и ещё сотни терабайт на входе считает для каждой клетки 10 × 10 м компактный векторный эмбединг.

💡 Если коротко — это Night Sight, только не для смартфона, а для всей планеты. Так же, как вычислительная фотография вытягивает детали из шумного ночного кадра, AlphaEarth достраивает картинку Земли там, где облака, разные сенсоры и пробелы в данных и упаковывает ее в вектор, который ML системы могут потреблять из коробки.

☁️ Как родилась идея

У DeepMind скопилась петабайтовая гора «сырых» снимков, в которой дыр больше, чем пикселей. Команда решила: давайте научим модель самой угадывать, чего не хватает. Она смотрит на серию кадров как на видео и предсказывает — что будет, если сменить сенсор или дату. Получилось заполнить облачные провалы и одновременно сжать данные в 16 раз.

🧬 Что спрятано внутри 64-мерного «пикселя»

* рельеф и высота,
* влажность почвы,
* тип застройки и материал крыш,
* «пульс» растительности по сезонам,
и так далее

Коллекция SATELLITE_EMBEDDING/V1/ANNUAL уже лежит в Earth Engine: выбирай год (2017–2024), кликай — и у тебя готовая фича-матрица без единого TIFF-файла.

🔥 Зачем это тебе

* Быстрый ML-старт. Грузим 64 float-значения — и сразу в PyTorch.
* Поиск похожестей Узнай, где в мире климат + застройка похожи на твой город.
* Отслеживание изменений. Разница в векторах 2019 vs 2024 — и видно, где усохли водохранилища, а где вырос новый логистический хаб.

🔮 Что будет дальше

DeepMind уже намекает: AlphaEarth «подружится» с Gemini LLM. Задаёшь голосом: «покажи регионы, где урожай сои падает в засуху, но леса не рубят» — получаешь интерактивную карту. Звучит как Google Maps на стероидах.

Итог: планета стала одним большим умным снимком, а мы получили геопиксели, которые уже знает физику местности и готовы к ML-приключениям.

Блог-пост

2🔥40👍9😐6❤5

4K views19:46

AI для Всех

🌾👾 AgroBench: после «умного космоса» спускаемся на землю

фоллоу-ап к AlphaEarth — теперь о том, что творится прямо в грядке

⚡️ Зачем AgroBench, если уже есть AlphaEarth?

AlphaEarth чинит спутниковые кадры и дарит каждому квадратику Земли умный 64-мерный вектор. Но когда лист томата покрывается пятнами, космическая «магия» молчит. AgroBench закрывает этот «биологический» пробел:

* 4 300+ фото-кейсов, придуманных практикующими агрономами;
* 1 200+ категорий (болезни, вредители, сорняки, техника);
* 7 задач, моделирующих день фермера: диагностика, совет, выбор трактора.
CC-BY-SA → качай и фигачь в свой PyTorch хоть завтра.

🤖 Главный инсайт бенчмарка

Даже GPT-4o регулярно путает сорняк с культурой. Точность падает не из-за «плохих глаз», а из-за нехватки ботанических знаний. Значит, нам нужна не только лучшая камера, но и контент-датасеты уровня «Weedpedia».

👩‍🌾 Как это меняет работу на ферме

* Prompt-агроном — вместо лупы и бумажного журнала: фото в чат → модель ставит диагноз → человек проверяет и дообучает.
* Куратор сорняков — пустая ниша: собери локальные бурьяны, подними точность, продавай API дронам-опрыскивателям.
* AI Farm Ops Lead — AlphaEarth прогнозирует засуху, Agro-VLM видит фитофтороз, человек решает, когда сеять и чем лечить.

🔗 Как дружить AlphaEarth и AgroBench

1. Космос ➜ Куст — вектор климата + вывод модели = сквозной пайплайн «облачность → урожай».
2. Retrieval-трюк — модель сомневается? Ищем похожий климат в AlphaEarth, подтягиваем исторические случаи, уточняем диагноз.

🚀 Ваш ход

Пробовали скрестить спутники и макрофото? Где споткнулись? Делитесь в комментариях, а если было полезно - киньте пост коллегам-агрономам и ML-друзьям. Чем больше данных соберём, тем меньше сюрпризов найдём в корзине с урожаем. 😉

🌾 Статья

❤14👍8🔥5

3.31K views17:26

AI для Всех

🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка

Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.

🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.

🔍 Как находят такой вектор?

1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.

⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.

🎛 Доказательство, что оно вообще работает

Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.

🛠 Зачем может понадобиться инженеру?

* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.

🌐 Bigger picture

Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.

💬 А ты бы какой ползунок покрутил в своём проекте?

Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇

👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!

Блог-пост
Статья

🔥30👍15❤5😁2

4.98K viewsedited 20:29

AI для Всех

ИИ уже перестал быть «фишкой на перспективу».
Для бизнеса он инструмент, который сокращает время до результата и помогает выиграть гонку за рынок.
А для сотрудника - способ, который даёт больше свободы для творчества и стратегической работы, убирая из дня всё лишнее.

📊 McKinsey: до 60% задач продакт-менеджмента и разработки можно автоматизировать.
📊 GitHub: 92% разработчиков уже применяют ИИ в работе.

В условиях современного мира, время = деньги.
ИИ снимает рутину, ускоряет аналитику, помогает готовить питчи и тестировать гипотезы. То, на что раньше уходила неделя, теперь можно сделать за 1–2 дня.

5 августа в 17:00 (МСК) - практикум «AI для управления проектами и личной эффективностью» от Тараса Довгаля - автора канала @vibesandtech, кофаундера стартапов (Chatplace, VibeSkills.ru) и продуктового стратега в международных IT, Web3 и AI‑проектах.

На практикуме вы разберёте:

- как встроить ИИ в ежедневные рабочие процессы без сложных интеграций;
- как использовать GPT, Claude, Gemini и другие модели для генерации идей, поиска решений и анализа;
- как автоматизировать планирование и распределение задач, чтобы высвободить время для приоритетных направлений.

В результате вы сможете:

- экономить часы на планировании и коммуникации;
- быстрее готовить аналитику и материалы для принятия решений;
- удерживать команду в фокусе на ключевых целях и росте продукта.

🎁 Участники получат PDF‑гайды, таблицы, шаблоны и готовые рабочие цепочки, которые можно внедрить без кода и сложных интеграций.

@vibeskills_bot — старт уже в понедельник. Места ограничены. Следующая возможность будет не скоро.

#промо

👍4😁2🔥1

3.66K views12:01

AI для Всех

🧠 HRM: маленькая модель, которая решает большие головоломки

Новая архитектура HRM решает сложные задачи вроде ARC‑AGI и Sudoku‑Extreme имея всего 27 млн параметров и ~1 000 примеров на задачу — без pretraining и chain-of-thought.

🤯 Что это вообще такое?

HRM — это двухуровневая нейросеть:
• H-модуль (медленный): строит стратегию,
• L-модуль (быстрый): реализует её по шагам.

Они итеративно «думают» до тех пор, пока не придут к стабильному решению — внутри одного forward pass, без CoT.

🛠 Как это работает

Модель устроена как диалог двух частей:

Планировщик предлагает стратегию, исполнитель пробует - и цикл повторяется, пока оба не «сходятся» на ответе (fixed-point convergence).

Обучение идёт без раскрутки всех шагов назад - модель учится прямо в точке согласия (implicit gradients).

А встроенный Q‑модуль сам решает, когда «достаточно подумала» и пора отвечать.

📊 Что получилось
• ARC‑AGI: 40.3 % точности — выше многих CoT-моделей.
• Sudoku‑Extreme, Maze‑Hard: 100 % точности, против 0 % у трансформеров.
• Ресурсы: обучение от 2 до 200 GPU-часов — суперэкономично.

⚖️ Почему это важно

HRM показывает: reasoning можно делать не через текст, а внутри модели. Это эффективно по параметрам, быстро в inference и потенциально интерпретируемо.

Но пока всё это работает только на синтетических задачах. Масштабируемость и применимость в реальных кейсах - вопросы на которые только предстоит ответить.

🧩 Итог

HRM — попытка приблизить модели к человеческому мышлению: не просто продолжать текст, а по-настоящему планировать.

Ссылка

🗣️ Верите в latent reasoning?
Или CoT навсегда?
Пишите в комментариях - и поделитесь постом, если было интересно!

🔥21👍6❤3

3.92K viewsedited 20:53

AI для Всех

🛒🤖 «Бот, купи мне всё!». Shopify подготавливает революцию в e-commerce

Shopify выкатил MCP-API (Catalog, Cart, Checkout), который позволяет любому AI-агенту искать товар у 2 M продавцов, собирать «смешанную» корзину и оплачивать покупку — без боли с PCI и налогообложением. Это первый серьёзный шаг к тому, чтобы мы покупали не «на сайтах», а через диалоги с LLM.

🚀 Почему шум?

Мы привыкли, что интернет-магазины — это кнопки «Add to cart» и красиво сверстанные лендинги. Но LLM-агенты видят мир иначе: для них важны структурированные данные, а не шрифт и баннер. Shopify ловит волну и предлагает разработчикам три call-а вместо целого стека.

🔍 Как это работает под капотом
1. Catalog — search_catalog отдает миллионы SKU сразу с инструкцией, как их показать (MCP-UI).
2. Cart — update_cart держит товары из любых Shopify-магазинов в одном объекте (обещают, что добавят и внешние SKU).
3. Checkout — create_checkout генерирует готовую страницу оплаты с Shop Pay: налоги, GDPR, фрод-чек — всё уже внутри.

Developer experience: три HTTPS-запроса → полноценный marketplace-бот.

🌍 Что меняется для рынка
• Дизайн → Данные. Первая страница Google эпохи LLM — это твой product-feed.
• Взрыв нишевых агентов. «Собери мне капсульный гардероб» или «найди дешевле запчасти к байку» — всё это теперь MVP на выходные.
• Нужно чистить фиды. Буквально: качественный JSON = место на полке нового магазина.

🏁 Итог

Shopify тихо перезапускает правила игры: браузер → чат, лендинг → JSON. Кто успеет разобраться в MCP-API сейчас, тот завтра станет экспертом «agentic commerce».

🪿

Блог-пост

⚡️ Вопрос к вам: доверили бы боту собрать подарки на Новый год без вашего участия? Расскажите в комментариях!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17❤7😁2

4.64K viewsedited 14:37

AI для Всех

🎧 Perch 2.0 - простая supervised-модель для биоакустики

DeepMind показали новую модель для распознавания звуков животных. Без self-supervised магии, без миллиардов параметров. Просто хорошо сделанная supervised-модель которая рвет все бенчмарки

Звуки природы — это данные.

Для биологов и экологов это ключ к выживанию видов: по записям звуков можно понять, кто живёт в лесу, сколько их, размножаются ли они и не вытесняет ли их человек.

Но расшифровывать эти саундскейпы - адский труд. Час записи в тропиках = звуки десятки животных, наслаивающихся друг на друга.

И вот тут приходит AI.

🐦 Что делает Perch 2.0?

Это универсальный эмбеддер для звуков животных: берёт аудио (5 секунд), выдаёт вектор, с которым можно:
• искать похожие фрагменты (nearest neighbor)
• делать кластеризацию
• обучать линейный классификатор для нового вида (few-shot)

И всё это без GPU и fine-tuning.

Модель натренирована на 1.5 миллионах аудио-записей: птицы, насекомые, млекопитающие, даже урбанистический шум из FSD50k.

🛠 Как работает?

Perch 2.0 — это EfficientNet‑B3 (всего 12M параметров) + три головы:
1. Основная — классифицирует ~15k видов.
2. Прототипная — даёт семантически богатые логиты (для distillation).
3. Source prediction — угадывает, из какой записи взят кусок (а-ля self-supervised).

Фишка: модель обучается в два этапа. Сначала прототипная голова учится сама, потом её логиты становятся soft-label’ами для основной головы. Это и есть self-distillation.

📊 И как оно по качеству?

Perch 2.0 побила все предыдущие модели:
• На BirdSet и BEANS — новые SOTA по ROC-AUC и mAP.
• Даже на морских звуках китов и дельфинов показала отличную переносимость — при том, что почти не видела морских данных.

И да, всё это — без fine-tuning, просто на фиксированных эмбеддингах.

🤯 Почему это вообще важно?

Пока весь ML уходит в миллиардные LLM’ы и self-supervised pretraining, Perch напоминает: качественная разметка + хорошо сформулированная задача решают всё.

🌍 Что это меняет?
• Для биологов - теперь можно кластеризовать звуки из джунглей Бразилии без обучения своих моделей
• Для ML-инженеров - отличная демонстрация, как можно обучать компактные модели, не теряя качества
• Для исследователей - напоминание: не всегда нужно делать GPT-4, чтобы бы сделать что-то полезное

📎 Кто хочет поиграться — модель и датасеты уже на Kaggle

Статья
Блог-пост

❤26👍11🔥7

3.81K views16:13

AI для Всех

E-CUP возвращается. Реальные данные. Масштабные проекты. Большие призы

E-CUP 2025 — соревнование, где Everything as code. Решай ML-задачи в стиле Ozon Tech. Призовой фонд — 7 200 000 рублей 🔥

🗓

Регистрация: https://cnrlink.com/ecup25aiforall

💻

Формат участия: онлайн

👥

Команда: от 1 до 5 человек

🎯

Для кого: Data Scientists, ML-специалисты, аналитики данных, дата-инженеры, специалисты Big Data и разработчики, которые интересуются ML/DS.

Что вас ждёт:
🔹 Работа над проектом для миллионов пользователей на основе данных от ведущего e-com в России.
🔹 Призовой фонд — 7 200 000 рублей для девяти сильнейших команд.
🔹 Обмен опытом с экспертами Ozon Tech.
🔹 Эксклюзивный мерч и подарки.
🔹 Питчинг — онлайн или очно на конференции E-CODE. Финалистам Ozon Tech предоставит билеты и оплатит поездку.

Регистрация открыта до 17 августа включительно

#промо

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍4🔥4

4.22K viewsedited 09:34

AI для Всех

Chat: Как вам GPT 5?

😢58👍41😐19😁5❤3🔥3🎉2

3.89K views04:37

AI для Всех

🧹💥 «Чистильщики диска» больше не нужны

Помните софт «почистить диск»? Забудьте.

Я написал GPT-5 в Cursor: «найди, что можно безопасно удалить и почисти мой диск». Через минуту получил план, удалил кеши Hugging Face и Ollama - и за 5 минут освободил 142 ГБ. Ничего не сломалось.

Почему это лучше утилит?

LLM видит контекст: отличает проекты от регенерируемых кешей, предупреждает о рисках, подсказывает порядок действий (остановить сервис → вынести кеши → при желании docker prune).

Мораль простая: вместо «магических клинеров» — один умный запрос к GPT-5 в IDE. Быстрее, безопаснее, под ваш стек.

Если было полезно - напишите в комментах: какой у вас топ-3 прожорливых папок и какой промпт даёте модели для «уборки»?

😁47😐11👍6😢2🔥1

3.87K viewsedited 16:58

AI для Всех

🤝 GPT-5 Thinking + Claude Code: как я ставлю задачи AI агенту

Я использую GPT-5 Thinking в качестве «оркестратора»: он превращает идею в чёткий «Claude-ready бриф» с критериями приёмки. Claude Code исполняет задачу в терминале (читает репо, пишет диффы, тесты, PR)

🧩 Уже 2 недели пользуюсь Claude Code для своего нового проекта по предсказанию временных рядов и вот к какому взаимодействию я пока пришел:

Я формулирую цель человеческим языком (например, нужно сделать загрузку CSV, и так что бы была валидация данных и индикатор прогресса). GPT-5 Thinking упаковывает это в «Claude-ready бриф»: цель, границы (какие директории трогать), ограничения (типобезопасность, а11y), acceptance criteria, тест-план и риски. Заметил, что короткий бриф с атомарными задачами лучше, чем один размытый эпик. Сохраняю как tasks/SB01_BUILD_CSV.md

🛠️ Следующим шагом я кидаю ссылку на задачу в Claude и прошу: сначала «прочитай и предложи план» (без кода), потом «сгенерируй диффы + тесты». Claude открывает PR, зовёт встроенного reviewer-субагента, прикладывает e2e/юнит-тесты и чек-лист. Если что-то не сходится, прошу GPT-5 Thinking выпустить «доп задачи » - например, на миграцию API или обвязку логов.

📊 По исполнению работы, я запрашиваю у Claude текущее состояние проекта: он собирает статус по репо и CI (какие PR готовы, где красные тесты, какие ошибки в логах чаще всего всплывали), помечает блокеры, находит дублированные файлы и прочий мусор и предлагает next steps.

Итог. За 2 недели, работая только по вечерам и в рамках 20$ подписки на Claude Code, я довел проект до первой онлайн версии, которую уже отправил тестить друзьям.

Если вам тоже нужно что нибудь предсказывать (еду в ресторане, номера в отеле, урожай яблок и тд) - расскажите об этом в комментариях!

❤27👍8🔥8😐1

3K viewsedited 14:55

AI для Всех

Anthropic Claude Code: самое полезное с семинара

Сходил на семинар по Claude Code от его разработчиков, вот что мне запомнилось:

🧠 Hot keys
• Shift+Tab — Planning mode (Claude сначала строит план, потом действует)
• Esc Esc — «откат» шага диалога
• think / think hard / ultrathink — явно просим больше reasoning budget
• !bash — запускаем shell-команды прямо из чата
• @mention — подкидываем файлы в контекст
• Drag & drop — кидаем скриншоты/изображения
• Ctrl+B — запуск Claude Code в фоне

🧩 MCP-экосистема
• Сотни серверов на GitHub → modelcontextprotocol/servers
• Puppeteer/Playwright — пишешь код и сразу тестируешь в реальном браузере
• Context7 — актуальные доки по популярным SDK и библиотекам
• SQL MCPs — SQLite/Postgres/Supabase для прямого доступа к БД
• Figma MCP — агент читает/проверяет макеты в Figma

📄 Claude.md
• Работает и на уровне пользователя (~/.claude), и локально в проекте (./claude) — задаёт поведение/гайды.

⚡ Свои /custom-commands
Сохраняем часто используемые промпты и вызываем как /optimize:

# Проектный уровень
mkdir -p ./claude/commands
printf "Analyze this code for performance issues and suggest optimizations.\n" > ./claude/commands/optimize.md

# Пользовательский уровень (глобально)
mkdir -p ~/.claude/commands
printf "Analyze this code for performance issues and suggest optimizations.\n" > ~/.claude/commands/optimize.md

2❤19🔥10

2.18K views17:23

About

Blog

Apps

Platform