This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Держите тесты Veo2 и Whisk->Veo2 (см предыдущий пост)
А промпты были вот такие:
📦🐸🍄 as mascots
🌮🍔🍕 dancing
🥬🥦🥒 as astronauts
🐷🐷 in 🐝 costumes, very very cute
🎠🦕🍄 as claymation
Иногда лучше добавить "emoji" в начало промпта.
Думаю, вы сами догадаетесь, где какой промпт.
Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.
Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.
Все подробности в предыдущем посте.
Хорошей субботы.
https://gemini.google.com/
https://labs.google/fx/tools/whisk
@cgevent
А промпты были вот такие:
📦🐸🍄 as mascots
🌮🍔🍕 dancing
🥬🥦🥒 as astronauts
🐷🐷 in 🐝 costumes, very very cute
🎠🦕🍄 as claymation
Иногда лучше добавить "emoji" в начало промпта.
Думаю, вы сами догадаетесь, где какой промпт.
Ну и разницу между "чистым" Veo2 (text2video) и связкой Whisk->Veo2(text2image2video) вы тоже заметите. Насчет свиней: Veo2 делает их грязными, Whisk - мимишными. Виск больше тяготеет к мультяшной картинке, если не задавать явно.
Генерит очень быстро, примерно одну минуту на видео. 8 секунд, 720p.
Все подробности в предыдущем посте.
Хорошей субботы.
https://gemini.google.com/
https://labs.google/fx/tools/whisk
@cgevent
6👍44🔥19❤8😱5👎3
Media is too big
VIEW IN TELEGRAM
Эппле показала новую рекламу своего AI - Apple Intelligence.
Это настолько плохо, что верится с трудом.
Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.
Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).
Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.
Хочется спросить, это все серьезно в 2025 году?
Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".
Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?
Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.
Во всем этом есть тем не менее один огромный плюс.
Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.
Жаль только, что через призму Ген-мать-их-моджи.
У меня всё.
@cgevent
Это настолько плохо, что верится с трудом.
Все эти rewrite, summarize, email helper смотрятся как архаичные фичи из 2023.
Про Генмоджи я даже говорить не хочу, это мега кастрированная версия генератора картинок на стероидах цензуры, не работающая притом(твиттерские уже потестили).
Весь этот нафталин настолько позади того, что делает Гугл или даже Самсунг, что за Эппле просто стыдно.
Хочется спросить, это все серьезно в 2025 году?
Главная фича всех этих шести минут маркетинга в том, что "теперь у вас есть доступ к chatGPT".
Да, просто доступ к chatGPT. Без специфики. Модель? Картинки? Лимиты? Ресерч?
Впрочем владельцы ойфонов обычно не спрашивают таких сложных вопросов. А радуются новым иконкам и эмоджам.
Во всем этом есть тем не менее один огромный плюс.
Про chatGPT и вообще про ИИ узнает огромная юзербаза Эппле.
Жаль только, что через призму Ген-мать-их-моджи.
У меня всё.
@cgevent
😁118👍30👎16❤12🔥9
Forwarded from Сиолошная
С утра посмотрел интервью-подкаст с Nikolay Savinov, ко-лидом команды тренировки длинного контекста Gemini в Google. Несколько заметок:
— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.
— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.
— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.
— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).
— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
— Почему 1 миллион токенов контекста, для маркетинга? Нет, потому что на тот момент было 100 тысяч токенов, и хотелось поставить амбициозную цель не в 2-3 раза выше, а на порядок.
— Ждать ли контекста больше 1-2М токенов? Они уже пробовали 10M, и оно работает, но будет стоить очень дорого и требует огромного количества железа/мощностей, потому пока не предоставляют как услугу. Nikolay сказал, что ждет ещё как минимум один алгоритмический/архитектурный прорыв, который позволил бы приблизиться к 100М супер-надёжного контекста; 10M скорее всего смогут дожать инженерными оптимизациями того, что уже есть. И вообще несколько раз упоминал, что инженерная составляющая безумно важна, и что нужна тесная связь команды, разрабатывающей железо (TPU), и команды разработки архитектуры моделей.
— Бенчмарк Needle-in-a-Haystack уже давно выдохся и никого не удивляет (что это такое — писал тут), и он не отражал реальные запросы к длинному контексту. В нём в обычный текст вставляли очень явно выделяющийся неуместный кусок и потом задавали про него вопрос. В реальных же практических кейсах тексты обычно более однородны, и модель заведомо не может понять, какая часть пригодится в будущем — можно сказать, что в тексте много отвлекающих частей, которые занимают «внимание» модели. Google уже выпустили бенчмарк под это, OpenAI даже успели его взять и модифицировать — теперь будем следить за ними.
— Почему модели могут принимать на вход сотни тысяч токенов, но выход зачастую ограничен 8-16 тысячами? (я так понимаю, что интервью записали давно — у 2.5 Pro выход 66k, у OpenAI 100k). Потому что все модели, которые проходят дообучение, обучаются на примерах, где генерация очень короткая. Модель просто выучивает, что где-то вот примерено после такого количества слов ответ кончается. И даже если задача подразумевает более длинный ответ — бум, LLM просто генерирует специальный токен «я всё». Если брать недообученную модель и давать ей 500 тысяч токенов на вход, а потом просить повторить — она это сделает без проблем (потому что не научилась генерировать «короткие» ответы).
— Nikolay отметил, что они не наблюдали проблему lost in the middle, когда модель хуже находит информацию из центра текста по сравнению с началом или концом. Интересно, означает ли это, что тип механизма внимания в GPT (по крайней мере старых версий до 4o) и Gemini существенно отличаются?
👍44❤6👎1
This media is not supported in your browser
VIEW IN TELEGRAM
SAM в Instagram
У Метачки есть одна из лучших моделей для сегментации и трекинга объектов на фото и видео.
Segment Anything Model 2 (SAM 2) is a foundation model towards solving promptable visual segmentation in images and videos.
Любопытно, что не прошло и пары лет, как они начали встраивать это в свои продукты.
Точнее так: в феврале они выпустили своего тряпочного "убийцу" CapCut под названием Edits - это монтажка видео на телефоне (одно из самых извращенных извращений, которыми я занимался).
А три дня назад, там появилась фича Cutouts - грубо говоря ротоскопинг объектов и отрезание их от фона.
Я проверил на своих видео, да, работает.
Любопытно наблюдать, как он анализирует картинку - вычисления происходят в сети на их серверах с H100.
Но еще любопытнее почитать статью об этом. Там они толкуют про новое поколение SAM 3, которое обещает быть огненным.
Ждем обновлений.
Можете поиграть на телефоне (ios \ android), а можете по-взрослому на десктопе:
https://sam2.metademolab.com/demo
@cgevent
У Метачки есть одна из лучших моделей для сегментации и трекинга объектов на фото и видео.
Segment Anything Model 2 (SAM 2) is a foundation model towards solving promptable visual segmentation in images and videos.
Любопытно, что не прошло и пары лет, как они начали встраивать это в свои продукты.
Точнее так: в феврале они выпустили своего тряпочного "убийцу" CapCut под названием Edits - это монтажка видео на телефоне (одно из самых извращенных извращений, которыми я занимался).
А три дня назад, там появилась фича Cutouts - грубо говоря ротоскопинг объектов и отрезание их от фона.
Я проверил на своих видео, да, работает.
Любопытно наблюдать, как он анализирует картинку - вычисления происходят в сети на их серверах с H100.
Но еще любопытнее почитать статью об этом. Там они толкуют про новое поколение SAM 3, которое обещает быть огненным.
Ждем обновлений.
Можете поиграть на телефоне (ios \ android), а можете по-взрослому на десктопе:
https://sam2.metademolab.com/demo
@cgevent
🔥27👍9❤5
После того, как поиск завезли в Антропик, а шоппинг начали прикручивать к chatGPT, гугл зашевелился и начал прикручивать AI MODE в свой поиск.
Пока это экспериментальная фича и она не для всех.
Доступна она только через https://labs.google/ и только в Штатах.
Для обычных пользователей в Штатах будут раскатывать потихонечку:
Soon, a small % of U.S. users will see a new AI Mode tab outside Labs.
А пока я врубил штатовский ВПН и ввалился в Лаб.
Да, можно теперь врубить AI Mode и искать с помощью него.
Все примеры в интернетике это "найти подешевле, продать подороже".
Поспрашивал его про то, как самый крутой ивент будет в этом году - он, молодец, говорит, что нельзя так просто сказать, но вот тебе варианты - от Суперкубка для Октоберфеста в Германии. Не зациклен на Штатах, но есть небольшой перекос. Про Эппле молчит, видать что-то знает.
Из интересного: слева сохраняются ваши поиски, как ресерч проекты, можно к ним вернуться.
Справа: ссылки, но не на сами мероприятия, а на агрегаторы новостей.
В общем это такой неглубокий речерч, который ловко ищет за вас прямо в новом нормальном ИИ-поиске.
@cgevent
Пока это экспериментальная фича и она не для всех.
Доступна она только через https://labs.google/ и только в Штатах.
Для обычных пользователей в Штатах будут раскатывать потихонечку:
Soon, a small % of U.S. users will see a new AI Mode tab outside Labs.
А пока я врубил штатовский ВПН и ввалился в Лаб.
Да, можно теперь врубить AI Mode и искать с помощью него.
Все примеры в интернетике это "найти подешевле, продать подороже".
Поспрашивал его про то, как самый крутой ивент будет в этом году - он, молодец, говорит, что нельзя так просто сказать, но вот тебе варианты - от Суперкубка для Октоберфеста в Германии. Не зациклен на Штатах, но есть небольшой перекос. Про Эппле молчит, видать что-то знает.
Из интересного: слева сохраняются ваши поиски, как ресерч проекты, можно к ним вернуться.
Справа: ссылки, но не на сами мероприятия, а на агрегаторы новостей.
В общем это такой неглубокий речерч, который ловко ищет за вас прямо в новом нормальном ИИ-поиске.
@cgevent
👍28❤9😁2👎1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
И тут интересно порассуждать о том, что SEO-оптимизация и все эти сакральные знания и курсы SEO-оптимизаторов будут неизбежно отмирать. Ибо поиск идет не по сайтам, а как бы уровнем выше, этакий метапоиск.
Соответственно, интересно посмотреть на сражение за выдачу в chatGPT, Google AI Mode и во всех других подобных поисковых ресерчах. Один ИИ будет искать лучшую цену по всему интернетику, включая реддиты, твиттары, фейсбучеки, а другие ИИ-умельцы будут мастерить алгоритмы постинга, скрытые символы, сакральные токены, и, конечно, полчища ботов, которые будут впрыскивать нужные инъекции уже не на сайты, а в весь интернетик.
Битвы ИИ не за горами, на кону деньги кожаных.
@cgevent
Соответственно, интересно посмотреть на сражение за выдачу в chatGPT, Google AI Mode и во всех других подобных поисковых ресерчах. Один ИИ будет искать лучшую цену по всему интернетику, включая реддиты, твиттары, фейсбучеки, а другие ИИ-умельцы будут мастерить алгоритмы постинга, скрытые символы, сакральные токены, и, конечно, полчища ботов, которые будут впрыскивать нужные инъекции уже не на сайты, а в весь интернетик.
Битвы ИИ не за горами, на кону деньги кожаных.
@cgevent
👍56😱14🔥12❤4👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Решил сломать вам мозг с утра.
Что говорит кожаная VLM в вашей голове?
Чувак на вайбе встречает понедельник..
@cgevent
Что говорит кожаная VLM в вашей голове?
Чувак на вайбе встречает понедельник..
@cgevent
😁88👍35❤13🔥8👎3😱1
Месть джунов: Revenge of the junior developer
Интернет взрывается вот такой статьей про вайбкодинг:
И автор выступает очень ортогонально популярному мнению, что джуны вымрут, а сеньоры останутся.
Он переворачивает гипотезу в такую мысль: пока сеньоры тупят со своим скептицизмом и спорами с реальностью. Джуны адаптируются и воспринимают это не как угрозу а как норму, потому что еще не привыкли к строгим рамкам.
А вообще я бы обобщил статью до следующего утверждения: возможно, что ваше программистское прошлое (или настоящее) будет вам только мешать. Вайб-кодинг далек от кодинга. И преимущество будут иметь люди с неким характерным складом мышления и способностью ОЧЕНЬ быстро адаптироваться.
Ниже саммари:
1. Vibe coding — это когда ты принципиально не пишешь руками ни строчки, а просто описываешь задачу ИИ и кайфуешь, пока он сам всё генерит. В прототипах можно вообще не смотреть, а когда до продакшена — пристально следить.
2. Есть шесть этапов развития: от ручного кода до «флотов» ИИ‑агентов к 2026 г.
Традиционное ручное кодирование (2022) — вручную пишем весь код.
Completions‑based (2023) — автодополнения (IDE‑сниппеты, Copilot).
Chat‑based (2024) — двунаправленный чат с LLM внутри IDE.
Coding agents (2025 начало) — автономные агенты, выполняющие задачи целиком.
Agent clusters (2025 конец) — параллельное управление группами агентов.
Agent fleets (2026) — иерархии агентов под надзором «супер‑агентов».
Каждая следующая волна ускоряет тебя примерно в 5 раз. Кто не сел в последний вагон — останется на рельсах автодополнений.
3. Агенты — это как бесплатные верблюды в пустыне: круто, но сначала харкают, кусаются и жрут твой бюджет. Но когда ты привыкаешь, уже не можешь без них жить. Они сами лезут в JIRA, копаются в коде, тесты гоняют, баги фиксят. Ты только их направляешь и ешь чипсы.
4. Ограничения: сегодня агенты ещё не настолько умны, чтобы проглотить огромные задачи, их надо кормить задачками поменьше и смотреть, когда застрянут. Но скоро придут «супер‑агенты», которые будут запускать рой агентов и сами следить за ними.
5. Организация: в 2026 г. разработчики станут словно линейными менеджерами, руководя группами ИИ‑агентов. ROI при этом улетает в космос, а отставшие разработчики — на свалку истории.
6. Месть джуниора: когда младшие товарищи возьмут все эти фишки, обгонят старую гвардию и окажутся на коне, оставив тех, кто «писал руками», с носом.
https://sourcegraph.com/blog/revenge-of-the-junior-developer
Я бы заменил слово джуниоры на просто "люди с новым мышлением".
@cgevent
Интернет взрывается вот такой статьей про вайбкодинг:
И автор выступает очень ортогонально популярному мнению, что джуны вымрут, а сеньоры останутся.
Он переворачивает гипотезу в такую мысль: пока сеньоры тупят со своим скептицизмом и спорами с реальностью. Джуны адаптируются и воспринимают это не как угрозу а как норму, потому что еще не привыкли к строгим рамкам.
А вообще я бы обобщил статью до следующего утверждения: возможно, что ваше программистское прошлое (или настоящее) будет вам только мешать. Вайб-кодинг далек от кодинга. И преимущество будут иметь люди с неким характерным складом мышления и способностью ОЧЕНЬ быстро адаптироваться.
Ниже саммари:
1. Vibe coding — это когда ты принципиально не пишешь руками ни строчки, а просто описываешь задачу ИИ и кайфуешь, пока он сам всё генерит. В прототипах можно вообще не смотреть, а когда до продакшена — пристально следить.
2. Есть шесть этапов развития: от ручного кода до «флотов» ИИ‑агентов к 2026 г.
Традиционное ручное кодирование (2022) — вручную пишем весь код.
Completions‑based (2023) — автодополнения (IDE‑сниппеты, Copilot).
Chat‑based (2024) — двунаправленный чат с LLM внутри IDE.
Coding agents (2025 начало) — автономные агенты, выполняющие задачи целиком.
Agent clusters (2025 конец) — параллельное управление группами агентов.
Agent fleets (2026) — иерархии агентов под надзором «супер‑агентов».
Каждая следующая волна ускоряет тебя примерно в 5 раз. Кто не сел в последний вагон — останется на рельсах автодополнений.
3. Агенты — это как бесплатные верблюды в пустыне: круто, но сначала харкают, кусаются и жрут твой бюджет. Но когда ты привыкаешь, уже не можешь без них жить. Они сами лезут в JIRA, копаются в коде, тесты гоняют, баги фиксят. Ты только их направляешь и ешь чипсы.
4. Ограничения: сегодня агенты ещё не настолько умны, чтобы проглотить огромные задачи, их надо кормить задачками поменьше и смотреть, когда застрянут. Но скоро придут «супер‑агенты», которые будут запускать рой агентов и сами следить за ними.
5. Организация: в 2026 г. разработчики станут словно линейными менеджерами, руководя группами ИИ‑агентов. ROI при этом улетает в космос, а отставшие разработчики — на свалку истории.
6. Месть джуниора: когда младшие товарищи возьмут все эти фишки, обгонят старую гвардию и окажутся на коне, оставив тех, кто «писал руками», с носом.
https://sourcegraph.com/blog/revenge-of-the-junior-developer
Я бы заменил слово джуниоры на просто "люди с новым мышлением".
@cgevent
Sourcegraph
Revenge of the junior developer | Sourcegraph Blog
The latest installment from Steve Yegge on viiiiibe coding and what that means for developer jobs.
4👍97🔥28😁14❤10👎10
Media is too big
VIEW IN TELEGRAM
Нейропрожарка.
Нейродеморил от подписчика Юрия.
В принципе, деморилы, трейлеры, нарезки больше всего подходят для генератива. Ибо быстрые склейки, короткие планы, минимум требований к монтажу.
В обличие от обычных деморилов, где нарезаются или подрендериваются уже готовые работы студии или автора, Юрий сгенерил "гипотетический" деморил - полностью сделал с нуля демонстрацию собственных нейровозможностей, а не нарезал готовое.
Цитирую:
После нескольких сделанных ИИ роликов на заказ, решил, что нужно создать свой шоурил, который продемонстрирует различные вариации использования ИИ в рекламе.
Все кадры создал в Reve. Оживлял в трех нейронках:
* Gen4
* Kling 1.6 (2.0 для динамичных кадров)
* Higgsfield
Если суммировать все часы, то делал примерно полторы недели. Но половина срока ушло на звуковую дорожку(звук со стоков), я сделал 6 разных вариантов, и потом еще несколько дней крутил их, думал, какая лучше :))
Доп. инструменты: фотошоп с генеративной заливкой, Topaz для апскейла в 4к
По затратам примерно 300$.
Обсуждаем в коментах.
@cgevent
Нейродеморил от подписчика Юрия.
В принципе, деморилы, трейлеры, нарезки больше всего подходят для генератива. Ибо быстрые склейки, короткие планы, минимум требований к монтажу.
В обличие от обычных деморилов, где нарезаются или подрендериваются уже готовые работы студии или автора, Юрий сгенерил "гипотетический" деморил - полностью сделал с нуля демонстрацию собственных нейровозможностей, а не нарезал готовое.
Цитирую:
После нескольких сделанных ИИ роликов на заказ, решил, что нужно создать свой шоурил, который продемонстрирует различные вариации использования ИИ в рекламе.
Все кадры создал в Reve. Оживлял в трех нейронках:
* Gen4
* Kling 1.6 (2.0 для динамичных кадров)
* Higgsfield
Если суммировать все часы, то делал примерно полторы недели. Но половина срока ушло на звуковую дорожку(звук со стоков), я сделал 6 разных вариантов, и потом еще несколько дней крутил их, думал, какая лучше :))
Доп. инструменты: фотошоп с генеративной заливкой, Topaz для апскейла в 4к
По затратам примерно 300$.
Обсуждаем в коментах.
@cgevent
👍84🔥54❤9👎9😁1
OpenAI обновили документацию про то, какую модель оптимально использовать в том или ином случае.
GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.
GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.
o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.
o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.
o3 - самый мощный движок для сложного, многоступенчатого анализа.
o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.
https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits
Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.
@cgevent
GPT-4o - Омни-модель для мультимодальных рассуждений в реальном времени в повседневных рабочих процессах.
GPT-4.5 - более широкие знания и лучший контроль тональности ответа - идеальное решение для письма, кодирования и быстрого решения проблем.
o4-mini - Быстрые, экономичные рассуждения для кода, математических и визуальных задач.
o4-mini-high - это o4-mini с дополнительной глубиной для более сложных технических ответов.
o3 - самый мощный движок для сложного, многоступенчатого анализа.
o1-pro - устаревшая(legacy) модель, настроенная на длительную аналитическую работу с высокими ставками.
https://help.openai.com/en/articles/11165333-chatgpt-enterprise-models-limits
Не скажу, что стало сильно понятнее, но по ссылке есть примеры промптов и четко указаны лимиты для каждой модели.
@cgevent
❤36👍20😁9🔥7👎6😱2
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
FramePack: lllyasviel снова на связи и выпустил F1 версию своего видеогенератора FramePack.
F1 здесь значит forward pass, то есть AI предсказывает только будущие кадры без обратного прохода. Это накладывает на модель меньше ограничений.
В итоге вариативность генераций и динамичность выросли — камера теперь должна легче двигаться.
Ещё Жанг пишет, что встроил технологию анти-дрифтинг, предотвращающую накопление ошибок. Вероятно для уменьшения количества артефактов.
На гитхабе теперь появился отдельный скрипт demo_gradio_f1.py для запуска F1, и инструкции как запустить тем, кто поставил портативную сборку. Вместе с этим F1 появилась и на хаггинге.
Если вы через git pull обновляете локальную репу на винде, но при запуске нужного скрипта всё равно запускается обычный FramePack — сделайте новую папку и поставьте новый FramePack рядом со старым. У нового в заголовке должно быть написано F1.
На тестах по скорости и потреблению VRAM ничего не изменилось, а вот динамичность действительно улучшилась. Причём у быстро двигающихся объектов детали могут жеваться, так что важно не переборщить. Камера теперь легче двигается, например, для прокрутки вокруг персонажа. Но, не смотря на то, что артефактов стало меньше, места сшивания кадров могут быть заметны.
Pinokio ещё пока не обновился.
Сайт
Гитхаб
Готовая сборка
Установка (Pinokio)
Comfy
Про FramePack
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
F1 здесь значит forward pass, то есть AI предсказывает только будущие кадры без обратного прохода. Это накладывает на модель меньше ограничений.
В итоге вариативность генераций и динамичность выросли — камера теперь должна легче двигаться.
Ещё Жанг пишет, что встроил технологию анти-дрифтинг, предотвращающую накопление ошибок. Вероятно для уменьшения количества артефактов.
На гитхабе теперь появился отдельный скрипт demo_gradio_f1.py для запуска F1, и инструкции как запустить тем, кто поставил портативную сборку. Вместе с этим F1 появилась и на хаггинге.
Если вы через git pull обновляете локальную репу на винде, но при запуске нужного скрипта всё равно запускается обычный FramePack — сделайте новую папку и поставьте новый FramePack рядом со старым. У нового в заголовке должно быть написано F1.
На тестах по скорости и потреблению VRAM ничего не изменилось, а вот динамичность действительно улучшилась. Причём у быстро двигающихся объектов детали могут жеваться, так что важно не переборщить. Камера теперь легче двигается, например, для прокрутки вокруг персонажа. Но, не смотря на то, что артефактов стало меньше, места сшивания кадров могут быть заметны.
Pinokio ещё пока не обновился.
Сайт
Гитхаб
Готовая сборка
Установка (Pinokio)
Comfy
Про FramePack
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍11
Фантомченко вышел из тени.
Тренировать Лоры для видеомоделей - занятие не для каждого. У коммерческих моделей давно появились "однокнопочные решения" типа Kling elements, pika ingredients и новоиспеченные GEN-4 References.
Вгружаете фотки, видеогенератор переносит их на видео.
В феврале писал про Фантом - опенсорсную ответочку от Bytedance - как бы нашлепка над Wan - a unified video generation framework for single and multi-subject references, built on existing text-to-video and image-to-video architectures.
Но ни кода, ни подробностей не было.
И тут, о чудо, гитхаб обновился и там теперь есть код и инструкции.
Видосы выглядят наряднейше, переносить на видео можно не только лицо или объект, вгружать НЕСКОЛЬКО изображений. Меня больше всего порадовали видосы-переодеваторы, о которых я тут регулярно толкую. Можно задавать до 4 входных картинок.
Но в отличие от коммерческих решений, тут вам придется упороться в установку: скачать веса малого WAN 2.1 1.3B, скачать веса самого фантома Phantom-Wan-1.3B и попотеть с флагами --ref_image. Хотя Киджай уже изваял враппер.
Проблема в том, что весов Фантома для "Большого Вани" на 14B пока нет, поэтому качества ждать не приходится.
Но сам тренд на быстрое повторение фич коммерческих генераторов в опен-сорсе - радует.
Код и веса тут:
https://github.com/Phantom-video/Phantom
@cgevent
Тренировать Лоры для видеомоделей - занятие не для каждого. У коммерческих моделей давно появились "однокнопочные решения" типа Kling elements, pika ingredients и новоиспеченные GEN-4 References.
Вгружаете фотки, видеогенератор переносит их на видео.
В феврале писал про Фантом - опенсорсную ответочку от Bytedance - как бы нашлепка над Wan - a unified video generation framework for single and multi-subject references, built on existing text-to-video and image-to-video architectures.
Но ни кода, ни подробностей не было.
И тут, о чудо, гитхаб обновился и там теперь есть код и инструкции.
Видосы выглядят наряднейше, переносить на видео можно не только лицо или объект, вгружать НЕСКОЛЬКО изображений. Меня больше всего порадовали видосы-переодеваторы, о которых я тут регулярно толкую. Можно задавать до 4 входных картинок.
Но в отличие от коммерческих решений, тут вам придется упороться в установку: скачать веса малого WAN 2.1 1.3B, скачать веса самого фантома Phantom-Wan-1.3B и попотеть с флагами --ref_image. Хотя Киджай уже изваял враппер.
Проблема в том, что весов Фантома для "Большого Вани" на 14B пока нет, поэтому качества ждать не приходится.
Но сам тренд на быстрое повторение фич коммерческих генераторов в опен-сорсе - радует.
Код и веса тут:
https://github.com/Phantom-video/Phantom
@cgevent
🔥22👍13❤7