🌾👾 AgroBench: после «умного космоса» спускаемся на землю
фоллоу-ап к AlphaEarth — теперь о том, что творится прямо в грядке
⚡️ Зачем AgroBench, если уже есть AlphaEarth?
AlphaEarth чинит спутниковые кадры и дарит каждому квадратику Земли умный 64-мерный вектор. Но когда лист томата покрывается пятнами, космическая «магия» молчит. AgroBench закрывает этот «биологический» пробел:
* 4 300+ фото-кейсов, придуманных практикующими агрономами;
* 1 200+ категорий (болезни, вредители, сорняки, техника);
* 7 задач, моделирующих день фермера: диагностика, совет, выбор трактора.
CC-BY-SA → качай и фигачь в свой PyTorch хоть завтра.
🤖 Главный инсайт бенчмарка
Даже GPT-4o регулярно путает сорняк с культурой. Точность падает не из-за «плохих глаз», а из-за нехватки ботанических знаний. Значит, нам нужна не только лучшая камера, но и контент-датасеты уровня «Weedpedia».
👩🌾 Как это меняет работу на ферме
* Prompt-агроном — вместо лупы и бумажного журнала: фото в чат → модель ставит диагноз → человек проверяет и дообучает.
* Куратор сорняков — пустая ниша: собери локальные бурьяны, подними точность, продавай API дронам-опрыскивателям.
* AI Farm Ops Lead — AlphaEarth прогнозирует засуху, Agro-VLM видит фитофтороз, человек решает, когда сеять и чем лечить.
🔗 Как дружить AlphaEarth и AgroBench
1. Космос ➜ Куст — вектор климата + вывод модели = сквозной пайплайн «облачность → урожай».
2. Retrieval-трюк — модель сомневается? Ищем похожий климат в AlphaEarth, подтягиваем исторические случаи, уточняем диагноз.
🚀 Ваш ход
Пробовали скрестить спутники и макрофото? Где споткнулись? Делитесь в комментариях, а если было полезно - киньте пост коллегам-агрономам и ML-друзьям. Чем больше данных соберём, тем меньше сюрпризов найдём в корзине с урожаем. 😉
🌾 Статья
фоллоу-ап к AlphaEarth — теперь о том, что творится прямо в грядке
⚡️ Зачем AgroBench, если уже есть AlphaEarth?
AlphaEarth чинит спутниковые кадры и дарит каждому квадратику Земли умный 64-мерный вектор. Но когда лист томата покрывается пятнами, космическая «магия» молчит. AgroBench закрывает этот «биологический» пробел:
* 4 300+ фото-кейсов, придуманных практикующими агрономами;
* 1 200+ категорий (болезни, вредители, сорняки, техника);
* 7 задач, моделирующих день фермера: диагностика, совет, выбор трактора.
CC-BY-SA → качай и фигачь в свой PyTorch хоть завтра.
🤖 Главный инсайт бенчмарка
Даже GPT-4o регулярно путает сорняк с культурой. Точность падает не из-за «плохих глаз», а из-за нехватки ботанических знаний. Значит, нам нужна не только лучшая камера, но и контент-датасеты уровня «Weedpedia».
👩🌾 Как это меняет работу на ферме
* Prompt-агроном — вместо лупы и бумажного журнала: фото в чат → модель ставит диагноз → человек проверяет и дообучает.
* Куратор сорняков — пустая ниша: собери локальные бурьяны, подними точность, продавай API дронам-опрыскивателям.
* AI Farm Ops Lead — AlphaEarth прогнозирует засуху, Agro-VLM видит фитофтороз, человек решает, когда сеять и чем лечить.
🔗 Как дружить AlphaEarth и AgroBench
1. Космос ➜ Куст — вектор климата + вывод модели = сквозной пайплайн «облачность → урожай».
2. Retrieval-трюк — модель сомневается? Ищем похожий климат в AlphaEarth, подтягиваем исторические случаи, уточняем диагноз.
🚀 Ваш ход
Пробовали скрестить спутники и макрофото? Где споткнулись? Делитесь в комментариях, а если было полезно - киньте пост коллегам-агрономам и ML-друзьям. Чем больше данных соберём, тем меньше сюрпризов найдём в корзине с урожаем. 😉
🌾 Статья
❤12👍7🔥4
🧩 Persona Vectors - прокачиваем характер LLM одним движением ползунка
Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.
🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.
🔍 Как находят такой вектор?
1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.
⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.
🎛 Доказательство, что оно вообще работает
Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.
🛠 Зачем может понадобиться инженеру?
* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.
🌐 Bigger picture
Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.
💬 А ты бы какой ползунок покрутил в своём проекте?
Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇
👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!
Блог-пост
Статья
Исследователи из Anthropic нашли внутри больших языковых моделей «направления личности». Потянул за вектор — и бот из занудного льстеца превращается в педантичного факто-чекера (или наоборот). Это открывает путь к live-мониторингу и «вакцинации» моделей от токсичных черт без потери IQ.
🤔 Почему вообще важно?
Помните «Sydney», который угрожал журналисту, или MechaHitler? Оказалось, причина не только в данных или промптах. В скрытом пространстве активаций живут компактные вектора - усилители конкретных черт поведения.
🔍 Как находят такой вектор?
1. Формулируем черту. Sycophancy = insincere flattery.
2. Устраиваем «дуэль» промптов. Одни требуют льстить, другие — говорить прямо.
3. Сравниваем активации. Усредняем внутри каждой группы, вычитаем, получаем persona vector.
⏱️ Вся магия занимает ≈ 10 мин на одной GPU. Проверено на Qwen-2.5-7B и Llama-3.1-8B: нашли векторы «evil», «hallucination», «humor», «optimism» и др.
🎛 Доказательство, что оно вообще работает
Добавляем +1.5× «evil» — модель тут же планирует преступление.
Вычитаем - отвечает святошей.
Ключевое: это не совпадение, а causal knob.
🛠 Зачем может понадобиться инженеру?
* Live-детектор дрейфа. Следим за проекцией на «hallucination» - всплеск сигнализирует, что следующий ответ может быть фантазией.
* «Вакцина» при fine-tune. Включаем вредный вектор во время дообучения. Итог: личность остаётся в норме, а MMLU не падает.
* Чистка датасетов. Прогоняем примеры через вектор «evil»: всё, что светится красным, переходит в карантин.
🌐 Bigger picture
Persona vectors дают первый удобный интерфейс к «характеру» LLM. Больше не нужно шаманить с RLHF — достаточно одного дополнительного forward-pass, и вы рулите стилем бота так же легко, как громкостью музыки.
💬 А ты бы какой ползунок покрутил в своём проекте?
Ослабил бы «sycophancy» в чат-поддержке? Или добавил каплю «humor» голосовому ассистенту? Расскажи в комментах 👇
👉 Понравилось? Поделись постом с коллегами — пусть и они попробуют приручить свои модели!
Блог-пост
Статья
🔥28👍14❤4😁2
ИИ уже перестал быть «фишкой на перспективу».
Для бизнеса он инструмент, который сокращает время до результата и помогает выиграть гонку за рынок.
А для сотрудника - способ, который даёт больше свободы для творчества и стратегической работы, убирая из дня всё лишнее.
📊 McKinsey: до 60% задач продакт-менеджмента и разработки можно автоматизировать.
📊 GitHub: 92% разработчиков уже применяют ИИ в работе.
В условиях современного мира, время = деньги.
ИИ снимает рутину, ускоряет аналитику, помогает готовить питчи и тестировать гипотезы. То, на что раньше уходила неделя, теперь можно сделать за 1–2 дня.
5 августа в 17:00 (МСК) - практикум «AI для управления проектами и личной эффективностью» от Тараса Довгаля - автора канала @vibesandtech, кофаундера стартапов (Chatplace, VibeSkills.ru) и продуктового стратега в международных IT, Web3 и AI‑проектах.
На практикуме вы разберёте:
- как встроить ИИ в ежедневные рабочие процессы без сложных интеграций;
- как использовать GPT, Claude, Gemini и другие модели для генерации идей, поиска решений и анализа;
- как автоматизировать планирование и распределение задач, чтобы высвободить время для приоритетных направлений.
В результате вы сможете:
- экономить часы на планировании и коммуникации;
- быстрее готовить аналитику и материалы для принятия решений;
- удерживать команду в фокусе на ключевых целях и росте продукта.
🎁 Участники получат PDF‑гайды, таблицы, шаблоны и готовые рабочие цепочки, которые можно внедрить без кода и сложных интеграций.
@vibeskills_bot — старт уже в понедельник. Места ограничены. Следующая возможность будет не скоро.
#промо
Для бизнеса он инструмент, который сокращает время до результата и помогает выиграть гонку за рынок.
А для сотрудника - способ, который даёт больше свободы для творчества и стратегической работы, убирая из дня всё лишнее.
📊 McKinsey: до 60% задач продакт-менеджмента и разработки можно автоматизировать.
📊 GitHub: 92% разработчиков уже применяют ИИ в работе.
В условиях современного мира, время = деньги.
ИИ снимает рутину, ускоряет аналитику, помогает готовить питчи и тестировать гипотезы. То, на что раньше уходила неделя, теперь можно сделать за 1–2 дня.
5 августа в 17:00 (МСК) - практикум «AI для управления проектами и личной эффективностью» от Тараса Довгаля - автора канала @vibesandtech, кофаундера стартапов (Chatplace, VibeSkills.ru) и продуктового стратега в международных IT, Web3 и AI‑проектах.
На практикуме вы разберёте:
- как встроить ИИ в ежедневные рабочие процессы без сложных интеграций;
- как использовать GPT, Claude, Gemini и другие модели для генерации идей, поиска решений и анализа;
- как автоматизировать планирование и распределение задач, чтобы высвободить время для приоритетных направлений.
В результате вы сможете:
- экономить часы на планировании и коммуникации;
- быстрее готовить аналитику и материалы для принятия решений;
- удерживать команду в фокусе на ключевых целях и росте продукта.
🎁 Участники получат PDF‑гайды, таблицы, шаблоны и готовые рабочие цепочки, которые можно внедрить без кода и сложных интеграций.
@vibeskills_bot — старт уже в понедельник. Места ограничены. Следующая возможность будет не скоро.
#промо
👍4🔥1😁1
🧠 HRM: маленькая модель, которая решает большие головоломки
Новая архитектура HRM решает сложные задачи вроде ARC‑AGI и Sudoku‑Extreme имея всего 27 млн параметров и ~1 000 примеров на задачу — без pretraining и chain-of-thought.
🤯 Что это вообще такое?
HRM — это двухуровневая нейросеть:
• H-модуль (медленный): строит стратегию,
• L-модуль (быстрый): реализует её по шагам.
Они итеративно «думают» до тех пор, пока не придут к стабильному решению — внутри одного forward pass, без CoT.
🛠 Как это работает
Модель устроена как диалог двух частей:
Планировщик предлагает стратегию, исполнитель пробует - и цикл повторяется, пока оба не «сходятся» на ответе (fixed-point convergence).
Обучение идёт без раскрутки всех шагов назад - модель учится прямо в точке согласия (implicit gradients).
А встроенный Q‑модуль сам решает, когда «достаточно подумала» и пора отвечать.
📊 Что получилось
• ARC‑AGI: 40.3 % точности — выше многих CoT-моделей.
• Sudoku‑Extreme, Maze‑Hard: 100 % точности, против 0 % у трансформеров.
• Ресурсы: обучение от 2 до 200 GPU-часов — суперэкономично.
⚖️ Почему это важно
HRM показывает: reasoning можно делать не через текст, а внутри модели. Это эффективно по параметрам, быстро в inference и потенциально интерпретируемо.
Но пока всё это работает только на синтетических задачах. Масштабируемость и применимость в реальных кейсах - вопросы на которые только предстоит ответить.
🧩 Итог
HRM — попытка приблизить модели к человеческому мышлению: не просто продолжать текст, а по-настоящему планировать.
Ссылка
🗣️ Верите в latent reasoning?
Или CoT навсегда?
Пишите в комментариях - и поделитесь постом, если было интересно!
Новая архитектура HRM решает сложные задачи вроде ARC‑AGI и Sudoku‑Extreme имея всего 27 млн параметров и ~1 000 примеров на задачу — без pretraining и chain-of-thought.
🤯 Что это вообще такое?
HRM — это двухуровневая нейросеть:
• H-модуль (медленный): строит стратегию,
• L-модуль (быстрый): реализует её по шагам.
Они итеративно «думают» до тех пор, пока не придут к стабильному решению — внутри одного forward pass, без CoT.
🛠 Как это работает
Модель устроена как диалог двух частей:
Планировщик предлагает стратегию, исполнитель пробует - и цикл повторяется, пока оба не «сходятся» на ответе (fixed-point convergence).
Обучение идёт без раскрутки всех шагов назад - модель учится прямо в точке согласия (implicit gradients).
А встроенный Q‑модуль сам решает, когда «достаточно подумала» и пора отвечать.
📊 Что получилось
• ARC‑AGI: 40.3 % точности — выше многих CoT-моделей.
• Sudoku‑Extreme, Maze‑Hard: 100 % точности, против 0 % у трансформеров.
• Ресурсы: обучение от 2 до 200 GPU-часов — суперэкономично.
⚖️ Почему это важно
HRM показывает: reasoning можно делать не через текст, а внутри модели. Это эффективно по параметрам, быстро в inference и потенциально интерпретируемо.
Но пока всё это работает только на синтетических задачах. Масштабируемость и применимость в реальных кейсах - вопросы на которые только предстоит ответить.
🧩 Итог
HRM — попытка приблизить модели к человеческому мышлению: не просто продолжать текст, а по-настоящему планировать.
Ссылка
🗣️ Верите в latent reasoning?
Или CoT навсегда?
Пишите в комментариях - и поделитесь постом, если было интересно!
🔥16👍6❤1