Cтартап, советы, немного ML — и сделка, к которой я оказался причастен
#storytime
Supplai, которых я консультирую, недавно купили Certus Automation.
Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.
Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.
Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.
Второй остался и построил уже четыре компании под брендом frontiergroup.ai.
Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.
Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.”
Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.
Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.
Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
#storytime
Supplai, которых я консультирую, недавно купили Certus Automation.
Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.
Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.
Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.
Второй остался и построил уже четыре компании под брендом frontiergroup.ai.
Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.
Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.”
Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.
Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.
Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
👍25🔥9❤6
Llama 4 🦙
Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Коротко:
1. Llama 4 Scout
- 17B активных параметров, 16 экспертов, 109B общих параметров
- Контекст: 10M токенов (в 80 раз больше, чем у Llama 3)
- Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding
- Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
2. Llama 4 Maverick
- 17B активных параметров, 128 экспертов, 400B общих параметров
- Побеждает GPT-4o, Gemini 2.0 Flash
- Сравнима с DeepSeek v3.1, но гораздо эффективнее
- ELO (LMArena): 1417 — один из лучших среди открытых моделей
- Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия
3. Llama 4 Behemoth (в разработке)
- 288B активных параметров, 16 экспертов, ~2T общих параметров
- Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках
- Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning
🎉
Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.
https://ai.meta.com/blog/llama-4-multimodal-intelligence/
Коротко:
1. Llama 4 Scout
- 17B активных параметров, 16 экспертов, 109B общих параметров
- Контекст: 10M токенов (в 80 раз больше, чем у Llama 3)
- Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding
- Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1
2. Llama 4 Maverick
- 17B активных параметров, 128 экспертов, 400B общих параметров
- Побеждает GPT-4o, Gemini 2.0 Flash
- Сравнима с DeepSeek v3.1, но гораздо эффективнее
- ELO (LMArena): 1417 — один из лучших среди открытых моделей
- Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия
3. Llama 4 Behemoth (в разработке)
- 288B активных параметров, 16 экспертов, ~2T общих параметров
- Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках
- Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning
🎉
Meta AI
The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation
We’re introducing Llama 4 Scout and Llama 4 Maverick, the first open-weight natively multimodal models with unprecedented context support and our first built using a mixture-of-experts (MoE) architecture.
🔥18👍2🤯1
Кажется, Llama 4 не проходит vibe check.
Для этого несколько причин.
Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.
Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.
В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.
В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.
Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.
Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.
P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
Для этого несколько причин.
Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.
Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.
В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.
В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.
Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.
Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.
P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
👍16🤔4🌚2❤1
Релиз firebase.studio от Google
По описанию похоже на микс cursor и lovable.
Пробуем и ждем отзывов.
По описанию похоже на микс cursor и lovable.
Пробуем и ждем отзывов.
Firebase Studio в настоящее время доступен бесплатно с 3 рабочими пространствами в рамках превью. Участники Google Developer Program получают до 30 рабочих пространств.
🔥18❤5👍5🌚1
Media is too big
VIEW IN TELEGRAM
Кто там толкал роботов палкой? Что с лицом?
P.s. Осторожно звук
Unitree проведет прямую трансляцию боёв роботов примерно через месяц.
P.s. Осторожно звук
😁17🤯5❤4👍4🌚2
GPT-4.5-preview устарела и будет удалена из API 14 июля 2025 года. 🤷♂️
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.
https://openai.com/index/gpt-4-1/
GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.
https://openai.com/index/gpt-4-1/
Openai
Introducing GPT-4.1 in the API
Introducing GPT-4.1 in the API—a new family of models with across-the-board improvements, including major gains in coding, instruction following, and long-context understanding. We’re also releasing our first nano model. Available to developers worldwide…
😁16🔥7🤯2
В общем, o3 и o4 mini — классные модели.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.
В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:
о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.
Сегодня буду тестить на рабочих задачах.
P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
👍32🔥13❤4
Vending‑Bench — стресс‑тест «долгого горизонта» LLM
Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).
Лидеры:
Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.
o3 и o4‑mini пока не тестили.
Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.
Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.
Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).
Лидеры:
Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.
o3 и o4‑mini пока не тестили.
Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.
Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.
Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
Andonlabs
Vending-Bench: Testing long-term coherence in agents | Andon Labs
How do agents act over very long horizons? We answer this by letting agents manage a simulated vending machine business. The agents need to handle ordering, inventory management, and pricing over long context horizons to successfully make money.
👍23🔥7❤6🤯2
Еще одно применение о3 и о4-mini от моей жены.
Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.
Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.
В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.
Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.
Ну и я трачу все лимиты, прям не хватает 🫠
Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.
Пока что эти модели - лучший экспириенс за долгое время.
Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.
Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.
В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.
Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.
Ну и я трачу все лимиты, прям не хватает 🫠
Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.
Пока что эти модели - лучший экспириенс за долгое время.
🔥47👍7❤1
Forwarded from AI для Всех (Artemii)
История с собачей площадки
Сегодняшняя история прямиком с площадки для собак у Аламо-Сквер, где Сэнди весело носилась со своей новой пушистой подружкой. Пока собаки играли, у меня завязался разговор с другим владельцем собаки, оказавшимся хирургом в California Pacific Medical Center.
Слово за слово и мы быстро вышли на увлекательную тему — как искусственный интеллект незаметно меняет радиологию в больницах сети Sutter Health в Сан-Франциско.
Оказалось, теперь каждый КТ-снимок, вне зависимости от первоначальной причины обследования, автоматически проверяется с помощью системы машинного обучения от компании Ferrum Health. Благодаря этому подходу, узелки в легких, которые могли бы ускользнуть от внимания врача-радиолога, обнаруживаются гораздо раньше.
Самое удивительное, что этот скрининг ощутимо повысил выявляемость рака легких на первой стадии, когда болезнь ещё поддаётся эффективному лечению.
Вот такие вот у нас беседы на собачих площадках в Сан Франциско.
Источник: Sutter Health и Ferrum Health.
Сегодняшняя история прямиком с площадки для собак у Аламо-Сквер, где Сэнди весело носилась со своей новой пушистой подружкой. Пока собаки играли, у меня завязался разговор с другим владельцем собаки, оказавшимся хирургом в California Pacific Medical Center.
Слово за слово и мы быстро вышли на увлекательную тему — как искусственный интеллект незаметно меняет радиологию в больницах сети Sutter Health в Сан-Франциско.
Оказалось, теперь каждый КТ-снимок, вне зависимости от первоначальной причины обследования, автоматически проверяется с помощью системы машинного обучения от компании Ferrum Health. Благодаря этому подходу, узелки в легких, которые могли бы ускользнуть от внимания врача-радиолога, обнаруживаются гораздо раньше.
Самое удивительное, что этот скрининг ощутимо повысил выявляемость рака легких на первой стадии, когда болезнь ещё поддаётся эффективному лечению.
Вот такие вот у нас беседы на собачих площадках в Сан Франциско.
Источник: Sutter Health и Ferrum Health.
👍31🔥17❤1
Ну что, Qwen, похоже выпустили действительно хорошие модели.
Ребята из Artificial Analysis оценили их так:
- Qwen 3 235B-A22B (Reasoning) на ряду с DeepSeek R1 и Gemini 2.5 Flash (Reasoning)
- Qwen3 30B-A3B (Reasoning) на ряду с non-reasoning DeepSeek V3 0324 и Llama 4 Maverick. На минуточку, у модели всего 3B активных параметров.
- Qwen3-14B (Reasoning) на ряду с Llama 4 Scout. 14B/14B vs 109B/17B.
На livecodebench Qwen 3 235B-A22B забрался аж на седьмое место.
Результатов lmarena еще нет.
И всё это прямо перед llamacon, который начинается вот прям сейчас. 🫠
Посмотрим, что нам приготовили Meta и на сколько Qwen спутал им карты.
Ребята из Artificial Analysis оценили их так:
- Qwen 3 235B-A22B (Reasoning) на ряду с DeepSeek R1 и Gemini 2.5 Flash (Reasoning)
- Qwen3 30B-A3B (Reasoning) на ряду с non-reasoning DeepSeek V3 0324 и Llama 4 Maverick. На минуточку, у модели всего 3B активных параметров.
- Qwen3-14B (Reasoning) на ряду с Llama 4 Scout. 14B/14B vs 109B/17B.
На livecodebench Qwen 3 235B-A22B забрался аж на седьмое место.
Результатов lmarena еще нет.
И всё это прямо перед llamacon, который начинается вот прям сейчас. 🫠
Посмотрим, что нам приготовили Meta и на сколько Qwen спутал им карты.
🔥15👍10❤4😁1
The Leaderboard Illusion - статья от команды Cohere о том, как модели тюнят специально под ChatbotArena.
В целом, не секрет, что модели подгоняют под лидерборд арены - настолько она стала популярна как бенчмарк.
В статье довольно плотно проанализировали 2М "битв" моделей с января 2024 по апрель 2025 и вот что обнаружили:
- Meta успела прогнать 27(!) приватных LLM-вариантов в Chatbot Arena перед тем, как показать публичный Llama-4. Это абсолютный рекорд скрытого тестирования.
- Best-of-N дает пример +100 пунктов. Авторы моделируют стратегию, когда провайдер тестирует N "черновиков" и публикует только победителя. Уже при N = 10 ожидаемый прирост рейтинга составляет ~100 пунктов , т.е. почти бесплатный рывок в одну лигу вверх.
- Правила приватного тестирования нигде не объявлены, но на деле воспользоваться схемой смогли лишь бигтехи. В симуляции видно, как слабые семейства моделей, имея Best-of-N, обгоняют более сильного соперника, у которого доступ только к одной попытке.
- OpenAI и Google впитывают 20.4 % и 19.2 % всех пользовательских баттлов соответственно, тогда как 83 open-weight моделей в сумме получают лишь 29.7 %. То есть по сути наибольшую пользу от сообщества получает не open-source.
- Sampling-лотерея - Chatbot Arena ставит модели Google и OpenAI в пары до 34 % всех баттлов за сутки. Для маленького стартапа Reka этот максимум - 3.3 %. У xAI - 22%, у Meta - 17.9%.
- Достаточно заменить 70 % тренировочных данных на логи Chatbot Arena, и win-rate модели на ArenaHard почти удваивается (+112 %), при этом MMLU даже слегка падает.
Арена ответила вот тут. Если коротко, написали примерно следующее:
When a measure becomes a target, it ceases to be a good measure (с)
В целом, не секрет, что модели подгоняют под лидерборд арены - настолько она стала популярна как бенчмарк.
В статье довольно плотно проанализировали 2М "битв" моделей с января 2024 по апрель 2025 и вот что обнаружили:
- Meta успела прогнать 27(!) приватных LLM-вариантов в Chatbot Arena перед тем, как показать публичный Llama-4. Это абсолютный рекорд скрытого тестирования.
- Best-of-N дает пример +100 пунктов. Авторы моделируют стратегию, когда провайдер тестирует N "черновиков" и публикует только победителя. Уже при N = 10 ожидаемый прирост рейтинга составляет ~100 пунктов , т.е. почти бесплатный рывок в одну лигу вверх.
- Правила приватного тестирования нигде не объявлены, но на деле воспользоваться схемой смогли лишь бигтехи. В симуляции видно, как слабые семейства моделей, имея Best-of-N, обгоняют более сильного соперника, у которого доступ только к одной попытке.
- OpenAI и Google впитывают 20.4 % и 19.2 % всех пользовательских баттлов соответственно, тогда как 83 open-weight моделей в сумме получают лишь 29.7 %. То есть по сути наибольшую пользу от сообщества получает не open-source.
- Sampling-лотерея - Chatbot Arena ставит модели Google и OpenAI в пары до 34 % всех баттлов за сутки. Для маленького стартапа Reka этот максимум - 3.3 %. У xAI - 22%, у Meta - 17.9%.
- Достаточно заменить 70 % тренировочных данных на логи Chatbot Arena, и win-rate модели на ArenaHard почти удваивается (+112 %), при этом MMLU даже слегка падает.
Арена ответила вот тут. Если коротко, написали примерно следующее:
Мы уверены, что наш лидерборд честно отражает реальные человеческие предпочтения: мы публикуем только итоговый результат той версии модели, которую провайдер действительно выпускает, а внутреннее pre-release-тестирование лишь помогает им выбрать понравившийся людям вариант. Мы расширяем и диверсифицируем аудиторию, готовим более справедливое активное семплирование и считаем многие выводы статьи неточными, оставаясь открытыми для всех желающих соревноваться на равных.
When a measure becomes a target, it ceases to be a good measure (с)
🔥15🤯9👍6❤1
Em dash—один из косвенных методов определения текста, сгенерированного языковыми моделями. Они по каким-то причинам любят этот символ и часто его используют.
Em dash это такое длинное тире—во такое.
Вот кто-то проанализировал статистику использования em dash в популярных сабреддитах вроде r/Entrepreneur (4.7M человек), r/startups (1.8M) и т.д.
Доля em dash в постах растет в среднем с 4-5% в мае прошлого года до 15% в декабре.
Видите em dash—будте бдительны! Часто идет без пробелов до и после.
Source
Em dash это такое длинное тире—во такое.
Вот кто-то проанализировал статистику использования em dash в популярных сабреддитах вроде r/Entrepreneur (4.7M человек), r/startups (1.8M) и т.д.
Доля em dash в постах растет в среднем с 4-5% в мае прошлого года до 15% в декабре.
Видите em dash—будте бдительны! Часто идет без пробелов до и после.
Source
😁24🔥11🌚4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Deep Research от OpenAI теперь может работать по гитхаб репозиториям.
Даете ссылку на репу, задаете вопрос, и deep research пойдет смотреть весь код и даже PR и вернет репорт с референсами.
Вот пример репорта по Codex.
Интересно, разберется ли он в langchain?..
Даете ссылку на репу, задаете вопрос, и deep research пойдет смотреть весь код и даже PR и вернет репорт с референсами.
Вот пример репорта по Codex.
Интересно, разберется ли он в langchain?..
🔥34❤4🤯4😁1
Microsoft объявили о сокращении 6000 человек (3% всех сотрдуников).
Странный паттерн современности – лэйоффы на фоне рекордно хороших показателей.
Недавно Microsoft отчитались о результатах лучше ожиданий: чистая квартальная прибыль составила $25,8 млрд, а в конце апреля был озвучен оптимистичный прогноз на будущее. Тем не менее, 6к человек разных уровней покинут компанию. А буквально недавно СЕО Microsoft Сатья Наделла заявил, что 30% кода компании написано ИИ.
Похожих лэйоффов становится все больше. Смотрите:
- Booking.com сокращают аж 10% на фоне роста оборота на 11% и выручки на $5.9 млрд.
- Autodesk - 9%, при этом финансовые показатели превысили их ожидания
- HP - 5% при росте оборота на 16% и прибыли на $200 млн
- CrowdStrike пару дней назад объявили что сокращают 5% рабочих мест - правда в связи с тем, что ИИ “преобразует каждую отрасль”.
Примеров еще много, но тренд думаю понятен.
Вот мои пять копеек о причинах и прогнозах.
В 2020–2022 было примерно следующее:
- ковид, весь мир ушёл в онлайн, отсюда взрывной спрос на IT
- деньги были почти бесплатны из-за низких ставок, инвесторы требовали роста, а не прибыли
- компании расширяли штаты, часто впрок. Например, Microsoft и Google тогда нанимали по десяткам тысяч человек в год.
Теперь всё наоборот:
- cтавки высокие, деньги дорогие - инвесторы требуют прибыли, а не роста.
- компании тратят миллиарды на байбек, а не на зарплаты, повышая цену акций и возвращая кэш инвесторам.
- за 2 года появилось слишком много уровней менеджеров - их теперь срезают. об этом говорят чуть ли не все компании, совершающие лэйоффы.
- ИИ делает людей эффективнее - часть штатной нагрузки становится избыточной
- компании переносят деньги с людей на капекс: серверы, дата-центры, видеокарты
- ну и нестабильность мировой экономики заставляет бизнесы заранее стелить солому
А ждет нас скорее всего следующее:
Будут еще сокращения, количество вакансий джунов сильно упадет, на рынке труда возникнет сильная конкуренция и возможно упадут входные зарплаты и бонусы, вероятно вырастет спрос на инженеров работающих с дата центрами и инфратсруктурой.
Короче, компании худеют, чтобы выжить и быть эффективными в мире, где ИИ работает быстрее, а деньги стоят дорого. Лэйоффы сейчас это, как мне кажется, не про кризис, а про новую экономику, где старые роли уже не так нужны.
Странный паттерн современности – лэйоффы на фоне рекордно хороших показателей.
Недавно Microsoft отчитались о результатах лучше ожиданий: чистая квартальная прибыль составила $25,8 млрд, а в конце апреля был озвучен оптимистичный прогноз на будущее. Тем не менее, 6к человек разных уровней покинут компанию. А буквально недавно СЕО Microsoft Сатья Наделла заявил, что 30% кода компании написано ИИ.
Похожих лэйоффов становится все больше. Смотрите:
- Booking.com сокращают аж 10% на фоне роста оборота на 11% и выручки на $5.9 млрд.
- Autodesk - 9%, при этом финансовые показатели превысили их ожидания
- HP - 5% при росте оборота на 16% и прибыли на $200 млн
- CrowdStrike пару дней назад объявили что сокращают 5% рабочих мест - правда в связи с тем, что ИИ “преобразует каждую отрасль”.
Примеров еще много, но тренд думаю понятен.
Вот мои пять копеек о причинах и прогнозах.
В 2020–2022 было примерно следующее:
- ковид, весь мир ушёл в онлайн, отсюда взрывной спрос на IT
- деньги были почти бесплатны из-за низких ставок, инвесторы требовали роста, а не прибыли
- компании расширяли штаты, часто впрок. Например, Microsoft и Google тогда нанимали по десяткам тысяч человек в год.
Теперь всё наоборот:
- cтавки высокие, деньги дорогие - инвесторы требуют прибыли, а не роста.
- компании тратят миллиарды на байбек, а не на зарплаты, повышая цену акций и возвращая кэш инвесторам.
- за 2 года появилось слишком много уровней менеджеров - их теперь срезают. об этом говорят чуть ли не все компании, совершающие лэйоффы.
- ИИ делает людей эффективнее - часть штатной нагрузки становится избыточной
- компании переносят деньги с людей на капекс: серверы, дата-центры, видеокарты
- ну и нестабильность мировой экономики заставляет бизнесы заранее стелить солому
А ждет нас скорее всего следующее:
Будут еще сокращения, количество вакансий джунов сильно упадет, на рынке труда возникнет сильная конкуренция и возможно упадут входные зарплаты и бонусы, вероятно вырастет спрос на инженеров работающих с дата центрами и инфратсруктурой.
Короче, компании худеют, чтобы выжить и быть эффективными в мире, где ИИ работает быстрее, а деньги стоят дорого. Лэйоффы сейчас это, как мне кажется, не про кризис, а про новую экономику, где старые роли уже не так нужны.
❤25👍21
Я две недели был в отпуске и сейчас вкатываюсь обратно в ритм. Отдохнул отлично: вообще не думал о работе, не читал про этот наш эйай и вообще гармонировал и преисполнялся.
Хотя не обошлось и без вайб-кодинга. Мой друг, сидя на парусной лодке где-то в районе Ибицы, прямо голосом диктовал задачи, а Augment Code их решал в агентском режиме. Выглядело эффектно, оно и правда работало. Разработка пет-проектов никогда не была такой быстрой.
В то же время выяснилось, что можно недельку другую не пытаться успеть за всеми апдейтами моделей и статей. Мир не рухнул, даже как будто и не упустил ничего критичного.
Но интерес и голод по новостям все таки есть. В мире ИИ экспонента, похоже, все таки есть - это скорость выхода новых моделей, бенчмарков, статей, стартапов и т.д.
Хотя не обошлось и без вайб-кодинга. Мой друг, сидя на парусной лодке где-то в районе Ибицы, прямо голосом диктовал задачи, а Augment Code их решал в агентском режиме. Выглядело эффектно, оно и правда работало. Разработка пет-проектов никогда не была такой быстрой.
В то же время выяснилось, что можно недельку другую не пытаться успеть за всеми апдейтами моделей и статей. Мир не рухнул, даже как будто и не упустил ничего критичного.
Но интерес и голод по новостям все таки есть. В мире ИИ экспонента, похоже, все таки есть - это скорость выхода новых моделей, бенчмарков, статей, стартапов и т.д.
❤49
Ну что, Мистраль наконец выпустили свою открытую ризонинг модель - Magistral Small 24B. (Магистраль, ага)
Есть аж целая статья: https://mistral.ai/static/research/magistral.pdf
Вместе с ней выпустили и Magistral Medium, но она уже закрытая - работает на уровне deep seek r1 (старый).
Веса для открытой модели тут.
Подробнее тут.
Есть аж целая статья: https://mistral.ai/static/research/magistral.pdf
Вместе с ней выпустили и Magistral Medium, но она уже закрытая - работает на уровне deep seek r1 (старый).
Веса для открытой модели тут.
Подробнее тут.
👍15😁11🔥4
Потихоньку решаем на работе задачу NER и RE на научных текстах по биоинформатике, генетике и т.д. Подход ленивый: запромптить LLMки и выбрать лучшую. Как выбирать - не до конца ясно, но у нас есть небольшой размеченный ручками датасет. Он шумный, разметка у человеков не совпадает, но это какой-никакой бэйзлайн.
Мы используем LLM-as-a-judge: отдельная модель сравнивает два предсказания и выбирает лучшее. Так LLMки играют друг с другом. При плотной сетке сравнений можно построить Elo-рейтинг - как на Chatbot Arena.
Пока используем несколько моделей OpenAI и разный опенсорс. По-хорошему надо расширить, но на сегодня и так сойдет. Цель - найти баланс между точностью, скоростью изатратами: предстоит обработать десятки миллионов документов.
Судейство отдали o4-mini.
Лидерборд во многом удивил: thinking-режимы хуже обычных, размеры моделей разбросаны. Только OpenAI ожидаемо в топе. Ну а человеки на самом дне 🫠 (ниже только одна багованная модель).
Такой вот domain specific R&D leaderboard.
Мы используем LLM-as-a-judge: отдельная модель сравнивает два предсказания и выбирает лучшее. Так LLMки играют друг с другом. При плотной сетке сравнений можно построить Elo-рейтинг - как на Chatbot Arena.
Пока используем несколько моделей OpenAI и разный опенсорс. По-хорошему надо расширить, но на сегодня и так сойдет. Цель - найти баланс между точностью, скоростью изатратами: предстоит обработать десятки миллионов документов.
Судейство отдали o4-mini.
Лидерборд во многом удивил: thinking-режимы хуже обычных, размеры моделей разбросаны. Только OpenAI ожидаемо в топе. Ну а человеки на самом дне 🫠 (ниже только одна багованная модель).
Такой вот domain specific R&D leaderboard.
👍15🔥5❤3🤔1