Forwarded from AI и грабли
Реальные кейсы про ИИ в разработке
Уже много раз говорили, что основной блокер адопшена ИИ для разработки – крутая кривая входа: скачать Курсор и написать промпт – легко. А чтобы этот промпт сделал что от него реально ожидают, еще и на существующей кодовой базе – сложно.
Инфа о работающих подходах обычно скапливается в головах у энтузиастов, у кого есть время и ресурсы на эксперименты и обмен практиками с другими энтузиастами. В итоге, к зиме 2025го приходим к ситуации, что все уже плюс минус приняли – ИИ может ускорять разработку. Но почти никто не понимает, как это сделать в реальности.
Мы с @the_ai_architect и @max_about_ai решили устроить глобальное переопыление – собираем с сообщества реальные кейсы, а потом обезличенно делимся со всеми, кто оставил осмысленную инфу
- Как конкретно настроили свои инструменты
- Какие подходы успешны, и что, наоборот, не оправдало ожиданий
- В каких задачах самый большой прирост, а что пока лучше делать руками
- ...
Чем больше инфы соберем, тем больше ценность для каждого участника. Так что, если у вас есть чатики с людьми, чьи подходы вам любопытны или мнение которых уважаете – перешлите, пожалуйста, пост. Им, наверняка, тоже будет интересно посмотреть результаты
А если пошерите этот пост в канале на 100+ человек, добавим ссылку на ваш канал в страницу с итогами 🤗
Ссылка на участие
Уже много раз говорили, что основной блокер адопшена ИИ для разработки – крутая кривая входа: скачать Курсор и написать промпт – легко. А чтобы этот промпт сделал что от него реально ожидают, еще и на существующей кодовой базе – сложно.
Инфа о работающих подходах обычно скапливается в головах у энтузиастов, у кого есть время и ресурсы на эксперименты и обмен практиками с другими энтузиастами. В итоге, к зиме 2025го приходим к ситуации, что все уже плюс минус приняли – ИИ может ускорять разработку. Но почти никто не понимает, как это сделать в реальности.
Мы с @the_ai_architect и @max_about_ai решили устроить глобальное переопыление – собираем с сообщества реальные кейсы, а потом обезличенно делимся со всеми, кто оставил осмысленную инфу
- Как конкретно настроили свои инструменты
- Какие подходы успешны, и что, наоборот, не оправдало ожиданий
- В каких задачах самый большой прирост, а что пока лучше делать руками
- ...
Чем больше инфы соберем, тем больше ценность для каждого участника. Так что, если у вас есть чатики с людьми, чьи подходы вам любопытны или мнение которых уважаете – перешлите, пожалуйста, пост. Им, наверняка, тоже будет интересно посмотреть результаты
А если пошерите этот пост в канале на 100+ человек, добавим ссылку на ваш канал в страницу с итогами 🤗
Ссылка на участие
👍2
Обычно бытует представление, что языковые модели, обучающиеся на одной эпохе не переобучаются. Но если задать вопрос - "тоесть они только обощают?" любой, кто хоть сколько-то с ними общался начинает возмущённо размахивать руками и аргументированно возражать. Причём возражают всё включая Суцкивера и ЛеКуна. Получается, что в головах людей живут явно взамоисключающие пункты, и им норм. Интересно, что при этом у людей много занимающихся языковыми сетями начисто отсутствуют мысли о том, как с переобучением бороться. Вплоть до того, что они говорят, вот все данные кончатся, мы их пять-шесть эпох прогоним и все умрём. Максимум у людей включён weight_decay = 0.1 ну и то это с давних времён значение по умолчанию, и никто даже не проверяет оптимально ли это значение.
Так на сколько же на самом деле переобучается зяыковая модель? Собирать train_loss по вполне очевидным причинам бесполезно - модель эти данные впервые видит точно так же как и свой валидейшен. А что будет если мы попробуем посмотреть лосс на пакете данных которые модель уже только что прошла train[-2560:], для простоты назову их train[-1], И на тех данных, с которых когда-то давно начиналось обучение, и которые модель должна была уже изрядно подзабыть train[:2560], обозначим их просто train[0]
Для малюсенькой GPT-2 от Карпаты, обученной на небольшой части опенвеба имеем примерно такое:
val_loss:3.2793
train[-1].loss:3.1503
train[0].loss:3.2809
Не скажу, что это прямо большое откровение, конечно, но наблюдение небезинтересное...
Так на сколько же на самом деле переобучается зяыковая модель? Собирать train_loss по вполне очевидным причинам бесполезно - модель эти данные впервые видит точно так же как и свой валидейшен. А что будет если мы попробуем посмотреть лосс на пакете данных которые модель уже только что прошла train[-2560:], для простоты назову их train[-1], И на тех данных, с которых когда-то давно начиналось обучение, и которые модель должна была уже изрядно подзабыть train[:2560], обозначим их просто train[0]
Для малюсенькой GPT-2 от Карпаты, обученной на небольшой части опенвеба имеем примерно такое:
val_loss:3.2793
train[-1].loss:3.1503
train[0].loss:3.2809
Не скажу, что это прямо большое откровение, конечно, но наблюдение небезинтересное...
🔥3🤔3❤1
https://vkvideo.ru/video454832249_456267605
Ашманов про ИИ-комапанейщину. Уже смотрели? Интересно мнение аудитории, которая глубоко погружена в тему. Я прикреплю опрос, а если есть желание прокомментировть по пунктам с удовольствием выслушаю и выскажу своё мнение, если будет что сказать.
Ашманов про ИИ-комапанейщину. Уже смотрели? Интересно мнение аудитории, которая глубоко погружена в тему. Я прикреплю опрос, а если есть желание прокомментировть по пунктам с удовольствием выслушаю и выскажу своё мнение, если будет что сказать.
VK Видео
⚡ИГОРЬ АШМАНОВ⚡ИИ..ИИ.. 👊
Смотрите онлайн ⚡ИГОРЬ АШМАНОВ⚡ИИ..ИИ.. 👊 1 ч 47 мин 13 с. Видео от 11 декабря 2025 в хорошем качестве, без регистрации в бесплатном видеокаталоге ВКонтакте! 84 — просмотрели. 5 — оценили.
А тем временем наш паровоз вперёд летит, и если вы вдруг по какому-то недоразумению не подписаны на @data_secrets-ы немедленно прекращайте. Это один из двух или парочки каналов, который мне приходится репостить своим друзьям и знакомых чаще чем всё остальное вместе взятое.
Telegram
Data Secrets
Главный по машинному обучению
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN
Сотрудничество: @veron_28
РКН: clck.ru/3FY3GN
🥴2
Forwarded from Data Secrets
Самый крутой скачок GPT-5.2 произошел, пожалуй, на ARC-AGI
На ARC-AGI 1 модель достала 86.2% (GPT-5.1 берет 72.8%, Gemini 3 Pro – 75). Это серьезный рост.
При этом GPT-5.2 Pro с повышенным уровнем ризонинга X-High скорит уже 90.5% при стоимости $11.64/задачу. Всего год назад сотой считалась нерелизнутая o3-High с результатом 88% и $4.5k/задачу. Это означает, что за год эффективность выросла в 390 раз.
На ARC-AGI 2 все еще интереснее. Там скачок произошел с 17.6 до 52.9%! Самый близкий по скору конкурент – Claude Opus 4.5 – выбивает всего 37.6%. Просто напоминаем, что между релизами GPT-5.1 и 5.2 прошел месяц😐
GPT 5.2 Pro X-High точно скорит еще больше, но организаторы бенчмарка пишут, что пока не смогли достоверно проверить ее результаты из-за API timeouts. Средний уровень человека на ARC-AGI 2 – около 60%. Интересно, побьет ли.
На ARC-AGI 1 модель достала 86.2% (GPT-5.1 берет 72.8%, Gemini 3 Pro – 75). Это серьезный рост.
При этом GPT-5.2 Pro с повышенным уровнем ризонинга X-High скорит уже 90.5% при стоимости $11.64/задачу. Всего год назад сотой считалась нерелизнутая o3-High с результатом 88% и $4.5k/задачу. Это означает, что за год эффективность выросла в 390 раз.
На ARC-AGI 2 все еще интереснее. Там скачок произошел с 17.6 до 52.9%! Самый близкий по скору конкурент – Claude Opus 4.5 – выбивает всего 37.6%. Просто напоминаем, что между релизами GPT-5.1 и 5.2 прошел месяц
GPT 5.2 Pro X-High точно скорит еще больше, но организаторы бенчмарка пишут, что пока не смогли достоверно проверить ее результаты из-за API timeouts. Средний уровень человека на ARC-AGI 2 – около 60%. Интересно, побьет ли.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2
Слушал тут подкаст Семихатова и Сурдина с автором N+1 - Коняевым, и сформулировал одну простую мысль к которой сводится всё то из-за чего у меня подгорало и хотелось прокомментировать. Мысль такая:
"Всё важное и интересное в нейросетях - это то, что выходит за рамки интерполяционной задачи."
P.S. Парадоксальным образом гроккинг может оказаться неинтересным, если окажется просто способом решать интерполяционную задачу на одном слое идеально. Не хотелось бы, с одной стороны, с другой - если понять как - было бы неплохо...
"Всё важное и интересное в нейросетях - это то, что выходит за рамки интерполяционной задачи."
P.S. Парадоксальным образом гроккинг может оказаться неинтересным, если окажется просто способом решать интерполяционную задачу на одном слое идеально. Не хотелось бы, с одной стороны, с другой - если понять как - было бы неплохо...
🤔6👍3
modded-nanogpt по дефолту запускается на 8xH100-ой силы. Арендовал себе тоже H100-ого немножко чтобы гонять эксперементы с с нормальной скоростью. Не 8 конечно, но тем не менее.
То чувство когда у твоего компьютера зарплата больше чем у тебя.... :))
То чувство когда у твоего компьютера зарплата больше чем у тебя.... :))
😁15🔥1
Уходящий год был годом подготовки прорывам и решительным изменениям, когда в принципе уже ясно, что вот сейчас оно и выстрелит, и изменится и переродится, и не только в нейросетях, и в связи с этим желаю чтобы все ваши наработки выстрелили и пошли в дело, все догадки показали себя полезными, на все хватило здоровья и прибавилось понимания вообще и нейросетей.
👍10🙏4🎄3☃1
Новогодняя интеллектуальная абстиненция довела меня до простого и столь же очевидного эксперимента, не требующего вообще ничего кроме добрых намерений.
Огромное количество людей всё ещё считают гроккинг случайным процессом, протекающим когда обычное обучение сошло на нет. Чтобы это оправергнуть берём оригинальный экспериментальный ноутбук от @AbstractDL спасибо ему ещё раз, https://colab.research.google.com/drive/1r3Wg84XECq57fT2B1dvHLSJrJ2sjIDCJ?usp=sharing Снимаем в коде ограничение на размер батчсайза, в половину трейна, и делаем батчсайз как раз размером в весь учебный датасет, то есть 97*98//2 - все, эксперимент готов. Всего через 5 минут гугловский коллаб обогащает нас картинкой, кучей новых знаний и желанием поиграть гиперпараметрами.
P.S. Столкновения с элементами рельефа также привносят некоторые дёргания не случайные, но дёргания.
Огромное количество людей всё ещё считают гроккинг случайным процессом, протекающим когда обычное обучение сошло на нет. Чтобы это оправергнуть берём оригинальный экспериментальный ноутбук от @AbstractDL спасибо ему ещё раз, https://colab.research.google.com/drive/1r3Wg84XECq57fT2B1dvHLSJrJ2sjIDCJ?usp=sharing Снимаем в коде ограничение на размер батчсайза, в половину трейна, и делаем батчсайз как раз размером в весь учебный датасет, то есть 97*98//2 - все, эксперимент готов. Всего через 5 минут гугловский коллаб обогащает нас картинкой, кучей новых знаний и желанием поиграть гиперпараметрами.
P.S. Столкновения с элементами рельефа также привносят некоторые дёргания не случайные, но дёргания.
🔥5🤔1
modded-nanogpt, соответственно всякие пониженные точности, типа bf16 и тому подобное.
val progress: 20/80 spends:09s/34s val_loss:3.3953
val progress: 80/80 spends:35s/35s val_loss:3.3815
step:1750/2315 val_loss:3.3815 train_time:47m:45s/01h:03mms step_avg:1636.20ms
Записал мдель на диск, считал моджель с диска чтобы продолжить с чекпоинта.
val progress: 20/80 spends:09s/34s val_loss:3.3959
val progress: 80/80 spends:34s/34s val_loss:3.3821
step:1750/2315 val_loss:3.3821 train_time:0.914:ms/1.208:msms step_avg:0.91ms
Вот теперь сиди и думиай, это у меня какая-то ошибка, или это torch.save на столько подель корраптит. :((
val progress: 20/80 spends:09s/34s val_loss:3.3953
val progress: 80/80 spends:35s/35s val_loss:3.3815
step:1750/2315 val_loss:3.3815 train_time:47m:45s/01h:03mms step_avg:1636.20ms
Записал мдель на диск, считал моджель с диска чтобы продолжить с чекпоинта.
val progress: 20/80 spends:09s/34s val_loss:3.3959
val progress: 80/80 spends:34s/34s val_loss:3.3821
step:1750/2315 val_loss:3.3821 train_time:0.914:ms/1.208:msms step_avg:0.91ms
Вот теперь сиди и думиай, это у меня какая-то ошибка, или это torch.save на столько подель корраптит. :((
😢2
Из очевидного, но почему-то не очевидного....
Мы же знаем, что обучение в ряде случаев вдоль дна оврага происходит экспоненциально после того как сеть в него спустится.
Из-за этого я всегда на всех бухтю, что график loss нужно рисовать в логарифмических координатах, на нём более или менее видно, идёт ли ещё обучение или оно реально остановилось, тоесть наклонная ли линия loss вниз, или она горизонтальна и мы забились между стенками наглухо. И почему-то только сегодня мне пришло в голову, что если так, то ещё более информативным будет график относительной скорости обучения, тоесть изменение loss в отношении к самому loss, и таки да, он реально довольно информативен.
Мы же знаем, что обучение в ряде случаев вдоль дна оврага происходит экспоненциально после того как сеть в него спустится.
Из-за этого я всегда на всех бухтю, что график loss нужно рисовать в логарифмических координатах, на нём более или менее видно, идёт ли ещё обучение или оно реально остановилось, тоесть наклонная ли линия loss вниз, или она горизонтальна и мы забились между стенками наглухо. И почему-то только сегодня мне пришло в голову, что если так, то ещё более информативным будет график относительной скорости обучения, тоесть изменение loss в отношении к самому loss, и таки да, он реально довольно информативен.
👍7🔥2
Есть такая штука - низкоранговое обучение.
Вы обучаете на саму матрицу 768x3072, например, а лора-адаптер к ней с узким местом в <768x32>(<32x3072>(x)), а по большой матрице градиент даже не собираете. После этого вы регулярно или каждый раз считаете прибавку от такого адаптера к основной ма трице <768x32>@<32x3072> и перекладываете 90% этой прибавки в большую матрицу, а одну из матриц адаптера, соответственно на 0.1 домножаете (чем реже перекладываете, тем хуже точность, что логично). По очевидным причинам скорость такого действа сильно выше. По не менее очевидным причинам точность несколь ниже. Что не очевидно, так это то, что на некоторых этапах обучения ниже она совсем не на много. Если взять modded-nanogpt, и заменить в ней все матрицы MLP то на некоторых первых шагах она может отличаться не сильно, а за счёт экономии времени даже обгонять этот супер-пупер-гипер-оптимизированный по скорости бейзлайн, что вообще-то, титанически сложно сделать.
Дальше нечинаются менее очевидные вещи. Во-первых, экономия по памяти зависит при этом от размеров батча и может быть даже отрицательной. Для вычисления градиентов в дереве вычислений сохраняются активации до матричного умножения. Дальше, в процессе обратного распостранения в этот слой из backward придёт d(loss)/d(logit), и на их основе считается градиент. Вы выигрываете на том, что не храните матрицу градиентов большой матрицы, но в хранении активаций вы проигрываете, вам теперь нужно хранить активации не только 768xBatchsize+32xBatchsize. Если мы возимся с трансформером, у которого размер эмбедингов может быть крайне не маленьким, и занимает львиную долю места в памяти, может получиться так, что память мы не съэкономили, а как раз наоборот.
Вторая более сложная неочевидность в том, что на поздних этапах обучения, более тонких, алгоритм начинает всё больше и больше проигрывать. Казалось бы, мы же знаем, что чем дальше обучение, тем в целом прямее его траектория, разницы между высоко и низко-ранговым обучением должна рассасываться. А вот не тут то было... Я для себя это объясняю тем, что на больее поздних этапах обучения суммарное направление ведёт себя поспокойнее, но складывается оно из того что отдельные семплы начинают тянуть во всё более разные стороны, и вот эта раскоряка, по всей видимости, плохо представима в lora. Что на первый взгляд как будто бы противоречит тому, что LoRA чаще всего используют как раз для доучивания.
В общем тема крайней благодатная. Исследовать её можно долго и с удовольствием. Говорят, за это даже деньги платят. Пока я разобрался ещё очень поверхностно...
Вы обучаете на саму матрицу 768x3072, например, а лора-адаптер к ней с узким местом в <768x32>(<32x3072>(x)), а по большой матрице градиент даже не собираете. После этого вы регулярно или каждый раз считаете прибавку от такого адаптера к основной ма трице <768x32>@<32x3072> и перекладываете 90% этой прибавки в большую матрицу, а одну из матриц адаптера, соответственно на 0.1 домножаете (чем реже перекладываете, тем хуже точность, что логично). По очевидным причинам скорость такого действа сильно выше. По не менее очевидным причинам точность несколь ниже. Что не очевидно, так это то, что на некоторых этапах обучения ниже она совсем не на много. Если взять modded-nanogpt, и заменить в ней все матрицы MLP то на некоторых первых шагах она может отличаться не сильно, а за счёт экономии времени даже обгонять этот супер-пупер-гипер-оптимизированный по скорости бейзлайн, что вообще-то, титанически сложно сделать.
Дальше нечинаются менее очевидные вещи. Во-первых, экономия по памяти зависит при этом от размеров батча и может быть даже отрицательной. Для вычисления градиентов в дереве вычислений сохраняются активации до матричного умножения. Дальше, в процессе обратного распостранения в этот слой из backward придёт d(loss)/d(logit), и на их основе считается градиент. Вы выигрываете на том, что не храните матрицу градиентов большой матрицы, но в хранении активаций вы проигрываете, вам теперь нужно хранить активации не только 768xBatchsize+32xBatchsize. Если мы возимся с трансформером, у которого размер эмбедингов может быть крайне не маленьким, и занимает львиную долю места в памяти, может получиться так, что память мы не съэкономили, а как раз наоборот.
Вторая более сложная неочевидность в том, что на поздних этапах обучения, более тонких, алгоритм начинает всё больше и больше проигрывать. Казалось бы, мы же знаем, что чем дальше обучение, тем в целом прямее его траектория, разницы между высоко и низко-ранговым обучением должна рассасываться. А вот не тут то было... Я для себя это объясняю тем, что на больее поздних этапах обучения суммарное направление ведёт себя поспокойнее, но складывается оно из того что отдельные семплы начинают тянуть во всё более разные стороны, и вот эта раскоряка, по всей видимости, плохо представима в lora. Что на первый взгляд как будто бы противоречит тому, что LoRA чаще всего используют как раз для доучивания.
В общем тема крайней благодатная. Исследовать её можно долго и с удовольствием. Говорят, за это даже деньги платят. Пока я разобрался ещё очень поверхностно...
🔥8🥰1
Спросили меня тут, а не могу ли я курс репостнуть, а я подумал, а почему бы и нет. О курсе ничено не знаю, но энтузиазм и желание двигать народ это хорошо.
Forwarded from ЦДО “Моноид”
Evals for AI Safety — это методология измерения качества, надежности и безопасности ИИ-систем. В условиях повсеместного внедрения языковых моделей в продакшн умение корректно оценивать их возможности и риски становится приоритетным навыком.
Как устроен курс:
Цель курса:
Дать базу для начала карьеры в области оценки ИИ и понимание того, какую роль evals играет в AI Safety. Программа знакомит с основными концепциями evals, учит анализировать существующие бенчмарки, проектировать собственные оценки и разрабатывать дизайн экспериментов в области evals. Участники курса освоят Inspect AI (один из самых популярных фреймворков для оценки LLM).
Кого мы ждем:
Подробнее: тут
Подать заявку на участие в курсе, а также на фасилитацию можно до 22 февраля: тут
Если вам интересно менторство, преподавание, сотрудничество с курсом или вы хотите задать вопрос, то напишите Юле
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
К вопросу об автоматическом рецензировании статей, провёл эксперимент со статьёй, которую неплохо знал. Сравнивались бесплатный deepseek, Qwen3-Max бесплатный, Kimi бесплатный, z.ai c подпиской и kagi assistant в режиме Research(experimental), платный. Исходный промпт:
Не z.ai не смогла найти полного текста статьи, тогда пришлось ей помочь вторым промптом:
Все ответити в разной степени успешно и получилил третий промпт:
Qwen показал лучший результат, он после третьего промпта он понял где искать и отметил, что в случае отсутствия wd нужны очень специальные условия и, возможно, другой оптимизатор, и там вообще не всё там просто, но прямо в разделе выводы запутался в собственной мысли. Но и на том спасибо. В ответ на первый запрос было включено 7 работ с абзацем на каждую, нашёлл две смысловые неточности в кратком описании статей в лоитобзоре, но Громов в список не попал, хотя это статья с наименее тривиальным результатом из всего обзора.
kagi assistant справилась с резюмированием, сотавила таблицу со всеми связанными работами никого не поетряв, нашла один недочёт, причём не там, где Qwen, На прямой уточняющий вопрос сказала что всё норм приведя буквальные цитаты, и это было бы первое место, но она не акцентировала внимания, на том, что эти цуитаты справедливы только для узкого круга оптимизаторов и специальных услловий. Тоесть выполнила приказ слишком буквально. Может быть в некоторых случаях жто и не минус, а плюс, так что можно считать, что первое место поделили. По умолчанию включается дешёвый быстрый поиск, я этого не заметил пока мне не указали.
Kimi на третьем месте. При первом запросе не смогла найти ссылку на html, попыталась питоном сконфертировать PDF-ку, наконец сообразила затянуть через web интерфейс, и тут у неё кончились токены на запрос, и пришлось сказать ей continue. :) Как переносить - осилила. Ни одну из статей на которые ссылалсь не потеряла, но про всех сказаал что все корректно, на мелкие недочёты внимания не обратила. На третий промпт с прямым указанием где искать, сказала, что всё норм, в статье Громова такие утверждения есть, не вчитавшись, что это только для некоторых оптимизаторов и только при очень некоторых условиях.
Deepseek выпал из тройки лидеров. ПРо способ переноса сказал просто "ну там используется", срезюмировать как конкретно, видимо, не осилил. В списке связанных работ сконцентрировался только на 3 работах по чуть-чуть от каждого типа ссылок и зачем-то привёл работу вышедшую позже и тоже обсуждающую роль первого влоя эмбедингов. Ну спасибо, конечно... На прямой вопрос про Громова сказал, что всё нормуль, потому что абстракте фраза с таким посылом действительно есть, значит всё зашибись.
z.ai сумела в способ переноса, в обззоре работ сконцентрировалась на том, академически правильно ли показана роль этой статьи относительно других но в детали или списоке не полезла. На прямой третий вопрос ответить почему-то, ответить не смогла, просто пустой былый ответ и досвидания.
1) Найди и прочи статью Let Me Grok for You: Accelerating Grokking via Embedding Transfer from a Weaker Model, и кратко, в два абзаца перескажи общую идею статьи, и то каким конкретным способом предлагается embeding transfer
2) Прочти статьи, на которые ссылеатся эта работа в зазделе связанных работ, проверь действительно ли описаные в этой статье в лиьобзоре присутствуют в исходной стате и правильно переданны.
Не z.ai не смогла найти полного текста статьи, тогда пришлось ей помочь вторым промптом:
Вот по этой ссылке доступен полный текст статьи: https://arxiv.org/html/2504.13292v1и там есть раздел: 1.1 Related Work
Все ответити в разной степени успешно и получилил третий промпт:
В исходной статье указано: Gromov (2023) showed that grokking is robust to different optimizers such as vanilla gradient descent and Adam; and regularization methods including no regularization, weight decay
Приведи цитату из указанной статье, где показывается, что гроккинг возможен без weight_decay
Qwen показал лучший результат, он после третьего промпта он понял где искать и отметил, что в случае отсутствия wd нужны очень специальные условия и, возможно, другой оптимизатор, и там вообще не всё там просто, но прямо в разделе выводы запутался в собственной мысли. Но и на том спасибо. В ответ на первый запрос было включено 7 работ с абзацем на каждую, нашёлл две смысловые неточности в кратком описании статей в лоитобзоре, но Громов в список не попал, хотя это статья с наименее тривиальным результатом из всего обзора.
kagi assistant справилась с резюмированием, сотавила таблицу со всеми связанными работами никого не поетряв, нашла один недочёт, причём не там, где Qwen, На прямой уточняющий вопрос сказала что всё норм приведя буквальные цитаты, и это было бы первое место, но она не акцентировала внимания, на том, что эти цуитаты справедливы только для узкого круга оптимизаторов и специальных услловий. Тоесть выполнила приказ слишком буквально. Может быть в некоторых случаях жто и не минус, а плюс, так что можно считать, что первое место поделили. По умолчанию включается дешёвый быстрый поиск, я этого не заметил пока мне не указали.
Kimi на третьем месте. При первом запросе не смогла найти ссылку на html, попыталась питоном сконфертировать PDF-ку, наконец сообразила затянуть через web интерфейс, и тут у неё кончились токены на запрос, и пришлось сказать ей continue. :) Как переносить - осилила. Ни одну из статей на которые ссылалсь не потеряла, но про всех сказаал что все корректно, на мелкие недочёты внимания не обратила. На третий промпт с прямым указанием где искать, сказала, что всё норм, в статье Громова такие утверждения есть, не вчитавшись, что это только для некоторых оптимизаторов и только при очень некоторых условиях.
Deepseek выпал из тройки лидеров. ПРо способ переноса сказал просто "ну там используется", срезюмировать как конкретно, видимо, не осилил. В списке связанных работ сконцентрировался только на 3 работах по чуть-чуть от каждого типа ссылок и зачем-то привёл работу вышедшую позже и тоже обсуждающую роль первого влоя эмбедингов. Ну спасибо, конечно... На прямой вопрос про Громова сказал, что всё нормуль, потому что абстракте фраза с таким посылом действительно есть, значит всё зашибись.
z.ai сумела в способ переноса, в обззоре работ сконцентрировалась на том, академически правильно ли показана роль этой статьи относительно других но в детали или списоке не полезла. На прямой третий вопрос ответить почему-то, ответить не смогла, просто пустой былый ответ и досвидания.
В самой статье не акцентируется внимание, что имеющаяся в модели матрица эмбедингов подменяется двумя более низкоранговыми, и хотя из текста это понятно, и ни одна из сетей не сумела на этом акцентироваться. Возможно это не из хи вина, потмоу что когда я ранее сам читал эту статью я тоже этого не понял, и подумал, что низкоранговым произведением роднаяч высокоранговая матрица инициализируется, становясь фактически меньшего ранга, но дальше учится уже как обычно. Полехз перпроверять только после того как три сети подчеркнулли что обу матрицы обучаемые.
Вывод 1: для быстрого рецензирования использовать можно, в большей степени только чтобы понять релевантна ли статья или нет, но доверять тому, что они написали решительно нельзя. Если прямо задавать уточняющие вопросыв шанс получить правильное представление выше, но тоже можно упустить самые важные детали.
Вывод 2: Бесплатный Qwen очень неплох там, где нужно подумать.
P.S. Если у вас есть сильно платная подписка на топовый Чатгпт проверьте его этим промптом. Антропик, когда разберусь с авторизацией, тоже попробую.
Вывод 1: для быстрого рецензирования использовать можно, в большей степени только чтобы понять релевантна ли статья или нет, но доверять тому, что они написали решительно нельзя. Если прямо задавать уточняющие вопросыв шанс получить правильное представление выше, но тоже можно упустить самые важные детали.
Вывод 2: Бесплатный Qwen очень неплох там, где нужно подумать.
P.S. Если у вас есть сильно платная подписка на топовый Чатгпт проверьте его этим промптом. Антропик, когда разберусь с авторизацией, тоже попробую.
👍2