Квест Теория Каст и Ролей
19.8K subscribers
1.22K photos
399 videos
44 files
3.55K links
Канал Алексея Крола, автора Теории Каст и Ролей.
Download Telegram
"Когда всё быстро развивается, выигрывают те, которые способны быстро адаптироваться и не боятся ошибаться.... скорость важна. Те, кто делают быстрее, накапливают больше знаний и адаптируются быстрее." Я сделал перевод выступления Сэма Альтмана о перспективах ИИ на Snowflake Summit 2025. https://youtu.be/qhnJDDX2hhU?si=limPfyRF7Xf7Xa86

10 ключевых тезисов из текста:

1. Генеративный ИИ уже радикально изменил множество сфер — от программирования до философии, и стал доступен миллионам пользователей через foundation-модели.
2. OpenAI и ChatGPT переопределили взаимодействие с данными и интеллектом, сформировав новую модель работы и общения с ИИ.
3. Лидерам рекомендовано действовать быстро и не бояться ошибок, так как в условиях стремительных изменений выигрывают те, кто быстро пробует и адаптируется.
4. Любопытство и экспериментирование — ключевые качества, особенно учитывая низкую стоимость экспериментов с современными AI-инструментами.
5. Память и retrieval (доступ к прошлым данным и внешнему контексту) становятся всё более важными для повышения качества и надёжности генеративных моделей.
6. Агенты на базе ИИ уже сегодня могут выполнять сложные задачи, и в будущем могут превратиться в сотрудников уровня senior-инженеров.
7. Настоящий сдвиг произошёл в прошлом году — крупные компании начали применять ИИ в реальных процессах, и технологии доказали свою надёжность.
8. AGI (общий искусственный интеллект) — понятие расплывчатое, но ChatGPT с памятью уже близок к тому, что многие воспринимают как AGI.
9. Следующее поколение моделей будет способно решать задачи, недоступные людям, — например, открывать новое знание и предлагать решения сложных бизнес-проблем.
10. Контекст — ключ к эффективному использованию моделей: успех зависит от того, насколько точно вы формулируете задачу и подаёте входные данные.

Полный текст.

"Как мы смотрим вперёд, мы знаем, что AI имеет потенциал формировать будущее — и формировать его к лучшему. Генеративный AI перевернул всё — от написания кода до философии. Это путешествие началось с foundation models — моделей-основ. Они позволили миллионам пользователей получить доступ к силе данных, которые ранее были недоступны. Они изменили правила игры для всех нас. И немногие повлияли на будущее больше, чем OpenAI.

С бешеным ростом ChatGPT, которым ежедневно пользуются полмиллиона человек, они переопределили то, как мы взаимодействуем с данными, интеллектом, и как мы представляем себе будущее работы. В центре этой трансформации — один из самых влиятельных голосов в технологиях сегодня. Он привёл OpenAI от базовых исследований к продуктам, которые уже влияют на миллионы людей, и ведут к эволюции AI на по-настоящему глобальном уровне.

Пожалуйста, присоединяйтесь к нам в приветствии основателя и CEO OpenAI — Сэма Альтмана. [Аплодисменты] [Музыка]

И также — в приветствии основательницы Conviction и нашей хорошей подруги — Сары Гуо. Добро пожаловать, Сэм и Сара. [Аплодисменты]

— Ну, это невероятно — снова быть здесь. Я говорила с Средаром, что это похоже на рок-концерт… но для людей, которым интересны данные.
— Для людей с данными, да.
— Вы были здесь два года назад.
— Да, но тогда всё было не так масштабно.

Итак, чтобы начать — Сэм, Средар, что бы вы сказали лидерам, которые формируют AI-планету в 2025 году?

Сэм: Я думаю, просто делайте. Всё ещё много хаоса, модели быстро меняются, и слишком многие ждут, чтобы посмотреть, куда всё повернёт. Но в технологиях принцип таков: когда всё быстро развивается, выигрывают те компании, которые способны быстро адаптироваться и не боятся ошибаться. Мы это видим в AI-интернете: те, кто быстро делают, оказываются значительно впереди тех, кто ждёт.
19
Средар: Полностью согласен. Добавлю — любопытство. Мы часто забываем, как всё работало раньше, что больше не работает, и перестаём экспериментировать. А стоимость эксперимента сейчас очень низкая — благодаря OpenAI, Snowflake и другим. Можно делать множество попыток, извлекать ценность и строить силу на базе этих проб. Повторю, что сказал Сэм: скорость важна. Те, кто делают быстрее, накапливают больше знаний и адаптируются быстрее.

Сара: Как бы твой совет отличался от того, что ты сказал год назад?

Сэм: Думаю, я сказал бы то же самое. Любопытство — ключевое. Ошибаться нормально. Главное — понимать, где ошибки недорогие. Таких ситуаций много. А технологии развиваются молниеносно. Сейчас ты можешь использовать ChatGPT, чтобы получить информацию о текущих событиях, потому что он умеет подключаться к интернету, когда это нужно.

Всё больше приложений, включая чат-боты, становятся возможными, независимо от их структуры. И технология уже готова для массового применения. В прошлом году я бы не сказал этого про крупные компании. Тогда можно было экспериментировать понемногу, но это ещё не было готово к реальному применению. А теперь — да, крупные бизнесы действительно используют нас всерьёз. Это работает гораздо надёжнее и делает то, что раньше казалось невозможным. Похоже, в прошлом году мы пересекли критическую точку.

Интересно, что мы скажем через год. Думаю, мы придём к моменту, когда AI будет не просто автоматизировать бизнес-процессы или помогать создавать продукты и сервисы, а решать серьёзные задачи бизнеса. Проблемы, которые раньше были не под силу даже команде людей.

Сара: Как ты видишь роль памяти и retrieval (поиска/отрывков) в этом новом этапе?

Сэм: Retrieval всегда играл важную роль, особенно в генеративных технологиях — нужно, чтобы модель давала точные ответы. В начале 2023 года мы построили веб-сервисы поверх GPT-3, чтобы он мог отвечать на вопросы вроде “breaking news”, используя актуальный контекст.

Также память — знание, как ты решал задачи раньше, — улучшает систему. Это будет всё важнее, особенно для агентных и интерактивных моделей. Чем больше контекста, тем лучше результат.

Сара: Есть ли какой-то фреймворк, который ты можешь предложить лидерам, чтобы они подумали, что агенты могут делать уже сейчас или в следующем году?

Сэм: Кодекс — один из таких агентов. Это был мой “ощущение AGI” момент. Он работает в фоне, довольно умён, может выполнять длинные задачи, подключаться к GitHub, читать ваши документы, Slack, встречи. Сейчас он как интерн, работающий несколько часов, но в будущем — как опытный инженер на полную ставку.

Многие компании строят агентов, чтобы автоматизировать поддержку, анализ данных, работу с клиентами. Сейчас задача — дать агенту работать, следить за качеством, корректировать. Похоже на работу с младшими членами команды. И это уже происходит. В следующем году появятся агенты, которые смогут открывать новое знание и решать нетривиальные задачи бизнеса.

Сейчас это в основном повторяющаяся когнитивная работа. Но это расширится и до более сложных задач. Агент-инженер, открывающий новое знание — это будет важнейшая веха.

Сара: Ты сказал, что именно Кодекс стал моментом “ощущения AGI”. Что сегодня для тебя AGI? Насколько мы близки?

Сэм: Если вернуться лет на пять, в 2020, всё ещё было “в темноте” по поводу AGI. Тогда даже просто увидеть хорошую языковую модель было бы поразительно. Если бы тогда показать кому-то ChatGPT сегодня, большинство сказали бы: “Вот это AGI”. Но мы быстро адаптируемся, и уже не удивляемся. Определение AGI у всех своё. Главное — это скорость прогресса. Она впечатляет.

Некоторые скажут, AGI — это модель, которая может сама открыть новую научную теорию. Другие — что она должна быть способна к самообучению. Некоторые считают, что ChatGPT с памятью уже близок к этому.
15
Для меня момент “Ага” был, когда мы пытались сделать абстрактивную суммаризацию. Взять 1500 слов и свести к трём. Людям это трудно. Но модель сделала это. Тогда я понял, что это реально мощно — и если бы это работало на масштабе веба, ты мог бы найти нужные 10 страниц, на которые стоит обратить внимание.

Сара: Средар, как у тебя было? Когда ты почувствовал, что ты теперь не просто CEO Snowflake, а тоже AI-предприниматель?

Средар: Когда ты начинаешь взаимодействовать с этими моделями, хочешь найти способ, как задать нужный контекст, как сформулировать проблему, как заставить модель сосредоточиться. Это стало универсальной техникой. Установка контекста — это основа взаимодействия. Это не просто инструмент, это способ мыслить.

Сара: Ты согласен с Сэмом, что важнее кривая способностей, чем конкретное определение AGI?

Средар: Да. Я думаю, что вопрос AGI — часто философский. Но когда смотришь на способности моделей, становится понятно, что для человека в 2030 это точно будет AGI. Как с шахматами — компьютер побеждает, но люди продолжают играть. Это будет также и с AI.

Сара: А что дальше? Вы тренируете новые модели. Какие шаги кажутся самыми важными для следующего поколения?

Сэм: Прогресс в следующие 1-2 года будет значительным. Как GPT-4 открыл бизнес-возможности, которые раньше были невозможны — так будет и дальше. Дайте модели самую трудную задачу. Она поймёт контекст, подключит инструменты, подумает и даст результат. Возможно, мы ближе к этому, чем я думал.

Сара: У тебя есть представление о том, что значит “знание”? Ведь у нас нет симулятора физического мира в голове — так как знать, что возможно?

Сэм: Мне нравится думать о модели как о платонической идее — миниатюрной системе с суперспособностями разума, триллионом токенов контекста, доступом ко всем инструментам. И тогда уже не важно, знает ли она что-то заранее. Мы можем использовать её как гибкий механизм решения задач.

Сара: А если бы у тебя было в 1000 раз больше вычислений, что бы ты сделал?

Сэм: Попросил бы систему придумать лучшее устройство и спросил бы, что нам делать. Но даже сейчас, с текущими мощностями, если вы дадите модели достаточно свободы “говорить”, она может выдать потрясающие результаты.
26
20
Операторам колл центров посвящается.

Phonely, Maitai и Groq решили проблему задержек голосовом ИИ.

Компании совместно добились успеха, сократив задержку на 70% и повысив комплексную точность (ASR+генерация ответа) с 81,5% до 99,2%. Проблема «неловких пауз» в разговорах с роботами, которая выдавала их, устранена благодаря технологии Groq - «горячей замене» легких моделей LoRA без потерь в скорости.

Система работает так: Maitai выбирает оптимальную модель для каждого запроса, Groq обрабатывает ее на специализированных чипах LPU, а данные о слабых местах моделей собираются и используются для их доработки. В итоге время первого ответа снизилось с 661 до 176 мс, а синтез диалога стал в 4 раза быстрее.

Один из клиентов Phonely уже заменит 350 операторов колл-центра на ИИ, а количество качественных лидов выросло на 32%.
37
12
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня завезли ElevenLabs v3. Ребята... вам обязательно нужно послушать этот клип. Я не могу переоценить его крутость — это переломный момент для голоса ИИ.И тот факт, что теперь мы можем сделать это из текстовой подсказки, просто сводит с ума.
185
This media is not supported in your browser
VIEW IN TELEGRAM
Генерацию голоса на основе текста теперь можно режиссировать. Просто послушайте.
103
Инструкция по режиссуре для EL3.pdf
324.3 KB
Вот еще подарок. Вчера elevenlabs потрясла иниернет, выпустив Eleven v3, которая дает вам полный режиссерский контроль над тем, что, а главное КАК ИИ говорит за вас на любом языке. Примеры я уже постил, они потрясаю, а сегодня с сделал бесплатный открытый микро учебник "Режиссура голоса в озвучке
с помощью Eleven v3. Полный практический гайд и демонстрация возможностей голосовой режиссуры".

📦 Что внутри:

Переведённая и адаптированная инструкция ElevenLabs — включает все ключевые принципы работы с v3-моделью:
• выбор подходящего голоса по цели (нейтральный, нишевой, эмоциональный)
• использование audio tags для управления эмоциями ([whispers], [laughs], [crying] и др.)
• работа с punctuation, capitalization, timing
• настройка параметра Stability: от естественности до полной креативности
• добавление звуковых эффектов ([clapping], [explosion], [fart])
• использование экспериментальных тегов и акцентов ([strong French accent], [sings])

🎙️ 10 монологов на русском языке, каждый оформлен:
• с английскими аудиотегами (как код для ElevenLabs)
• с выразительной пунктуацией и заглавными акцентами
• с полным режиссёрским комментарием: что делает сцену живой, как работает дыхание, интонация, ритм

📚 Темы монологов:
• мотивация
• самоирония
• паника ребёнка
• философия времени
• продажа на шоу
• внутренний кризис
• стендап
• технологическая сатира
• женский конфликт
• экстаз писателя

🎭 10 диалогов — динамичные, сценические, идеально подходят для озвучки:
с конфликтами, сменой темпа, паузами, шёпотом, криком и подлинным ритмом.

📚 Темы диалогов:
• встреча старых друзей
• психотерапия
• конфликт в лифте
• любовное расставание
• AI и человек
• продавец и клиент
• спор отца и подростка
• философская дуэль
• подростки в парке
• такси в полночь

Ты получаешь готовые голосовые сцены, полностью адаптированные под ElevenLabs. Используй как тренировку, шаблон, вдохновение — или для создания настоящей голосовой драмы.

🛠 Подходит для:
• актёров озвучки
• режиссёров и сценаристов
• создателей аудиоконтента
• разработчиков голосовых ИИ

Голос — это не просто звук. Это сюжет, драма и ритм. И теперь он у тебя в руках.
122
Очень интересно. Много разговоров в индустрии сейчас, разумеется, про YouTube и его планы по узурпации ТВ. Но одно дело индустрия, а что думают люди? Looper Insights опросили более тысячи зрителей и десятки медиаменеджеров из США.

Итоги говорят сами за себя:

Зрители:
💙 66% считают YouTube подходящей площадкой для фильмов и сериалов
💙 47% смотрят YouTube на ТВ в доме
💙 52% готовы заменить Netflix и Disney+ на бесплатный YouTube с рекламой

Что говорят медиаменеджеры?
💙 88% видят YouTube как потенциальную платформу для премиум-контента
💙 86% готовы выпускать сериалы и фильмы на YouTube (30% уже начали)
💙 85% уверены, что YouTube скоро вытеснит платные SVOD-сервисы в домах зрителей

Интересно, что и зрители, и менеджеры согласны: популярные блогеры типа Dude Perfect и Liza Koshy лучше смотрятся на YouTube, чем на больших стримингах. Это подтверждается тем, что за пределами платформы им взлететь почти не удалось.

Теперь вопрос, как скоро киностудии пойдут на эксперименты с контентом прямо на платформе. Для развлекательного контента YouTube — топчик, а вот как они с Disney+ конкурировать будут, пока не ясно.

Если посмотреть на последний OTT отчет, они кажутся буквально атлантами. Несмотря на то, что поговаривают про низкую рентабельность контента, сокращения бюджета и удержание подписчиков, по стате не скажешь.

Утащил отсюда: https://tttttt.me/all_is_gucci/594
Please open Telegram to view this post
VIEW IN TELEGRAM
26
Media is too big
VIEW IN TELEGRAM
Если бы 12 лет назад мне кто-то сказал, что я могу создавать такие миры сам, без огромной команды и тонны денег, я бы... наверное очень сильно поверил бы ему... Мы все время отстаем от новых возможностей. Они рядом, только бери.
128
Forwarded from Machinelearning
⚡️ Отчет OpenAI по пресечению вредоносного использования ИИ

В свежем июньском отчете, Open AI описала самые крупные кейсы, когда злоумышленники использовали модели ИИ для создания фейковых резюме, манипуляций в соцсетях, кибератак и мошенничества.

Для анализа угроз исследователи применяют комбинацию ИИ и экспертные команды. ИИ помогает выявлять шаблоны текста злоумышленников и координировать расследование с платформами. Архитектура таких систем включает модели для анализа данных, детекторы аномалий и инструменты для синхронизации с правоохранительными органами.

Обучались такие специализированные модели, помимо общедоступных данных, еще на примерах социальной инженерии и профилях киберугроз. Дополнительно, они получили методы обнаружения фейковых профилей, перевода текстов и анализа сетевого трафика.

▶️Всего в отчете приведено 10 случаев обнаружения:

Deceptive Employment Scheme: IT Workers.

🟠Угроза использования ИИ для создания поддельных резюме и получения удалённых IT-вакансий, связанная с подозрением на участников из КНДР.
🟢Были заблокированы аккаунты ChatGPT, использовавшие модели для автоматической генерации документов, а также установлены связи с операторами в Африке и Северной Америке.

Covert IO: Operation “Sneer Review”

🟠Координированная генерация комментариев в соцсетях для продвижения китайских интересов, включая критику Тайваня и Пакистана.
🟢Обнаружены и заблокированы аккаунты, создававшие иллюзию органической активности через множественные языки и платформы.

Covert IO: Operation “High Five”

🟠Массовые комментарии в соцсетях на политические темы в Филиппинах, связанные с маркетинговой компанией Comm&Sense Inc.
🟢Были заблокированы аккаунты, создававшие фейковые TikTok-каналы для популяризации президента Маркоса, и выявлена схема с использованием подставных профилей.

Social engineering meets IO: Operation “VAGue Focus”

🟠Социальная инженерия через поддельные СМИ (Focus Lens News, VAG Group) для сбора информации о политике США и Европы.
🟢Заблокированы аккаунты, использовавшие ИИ для перевода и создания фейковых материалов, а также выявлены признаки связи с китайскими структурами.

Covert IO: Operation “Helgoland Bite”

🟠Пропаганда партии AfD в Германии через поддельные Telegram-каналы и сайт Pravda DE.
🟢Обнаружены и заблокированы аккаунты, распространявшие контент, а также установлены связи с сетью Portal Kombat, известной по предыдущим расследованиям.

Cyber Operation: “ScopeCreep”

🟠Вредоносное ПО, распространяемое через поддельный игровой инструмент Crosshair-X, с функциями шпионажа и обхода антивирусов.
🟢Были заблокированы аккаунты, использовавшие ИИ для отладки кода, а также удалены вредоносные репозитории и установлены методы обнаружения.

Cyber Operations: Vixen and Keyhole Panda

🟠Кибератаки и сбор информации о технологиях США через ИИ, связанные с группами APT5 и APT15.
🟢Заблокированы аккаунты, использовавшие модели для создания скриптов и анализа инфраструктуры, а также переданы индикаторы партнерам для усиления защиты.

Covert IO: Operation “Uncle Spam”

🟠Поляризующий контент в США через фейковые профили с ИИ-генерируемыми изображениями и анализом данных.
🟢Заблокированы аккаунты, использовавшие ИИ для создания логотипов и сбора информации из соцсетей, также проведена оцененка степени влияния.

Recidivist Influence Activity: STORM-2035

🟠Пропаганда в поддержку Ирана и других стран через фейковые аккаунты в X, касающаяся миграции и независимости регионов.
🟢Были заблокированы аккаунты, распространявшие контент на испанском и английском, а также отмечены повторные попытки операторов вернуться к активности.

Scam: Operation “Wrong Number”

🟠Мошенничество с предложениями высокой зарплаты за лайки и инвестиции, связанное с Камбоджей.
🟢Заблокированы аккаунты, использовавшие ИИ для перевода сообщений, а также выявлена схема с этапами «The ping», «The zing» и «The sting» для обмана жертв.


🔜 Почитать полный отчет можно на сейте OpenAI

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
25
Прогресс на 2 недели просто чудовищный. Tatiana Tkr реализовала липсинг. Ниже объясню - какие это дает возможности. Здесь пока использован "старый стек" текст->NotebookLM->Kling 2.1->CapCut. Генерацию делали только для героев и интерьера студии, остальное - Storyblocks, так получается быстро и недорого. Крайняя версия:

Кто главный: человек или ИИ? Машина размышляет о своём будущем. https://www.youtube.com/watch?v=Pfl5vyk6s3A

Все герои синтезированные, пока под аудиотрек от NotebookLM, и в прошлой версии делали без липсинга, просто дублирование. см - Игры вместо школы? Модель воспитания XXI века. https://www.youtube.com/watch?v=-8k6JhfQigU

После чумового релиза ElevenLab 3.0, будем тестировать полноценную режиссуру голоса и озвучки, т.е. убираем посредника в виде NotebookLM, т.е. мы теперь можем 100% управлять текстом и режиссурой озвучки - можно тестировать как режим монолога, так и диалога - даже несколько человек в кадре + строить полностью сцену, т.е. это уже полноценное кино - любые разговорные сцены.

Для коротких форматов, где доля генерации ИИ не больше 1 минуты это более или менее еще приемлемо по деньгам, но, конечно, пока это идеально для коротких анонсов в формате 11 и 30 секунд - это под превью. Остальное покрывать стоками - для тематических видео подкастов это норм.

А вот для аудио подкастов это уже совсем интересно, так как мы получаем 100 min всего за 22$, или 1000 мин за 99$, это 12-18 полноценных 60-минутных выпусков или по сути ЕЖЕДНЕВНО 30-минутный выпуск.

Сейчас ПОКА можно 100% автоматизировать 2-ую версию EL, но, думаю в течении нескольких месяцев API раскатают и на версию 3.

Итого, при наличии написанного текста сценария для монолога/ диалога, 60 минутный аудио трек стоит примерно 6$ генерации на почти 70 языках.

При том, что если кого-то нанимать на такой же объем, это стоило бы с учетом актеров, студии, звукорежиссера и затрат времени, думаю в районе от 500 до 700$. Т.е. разница - огромная.

Для кого это супер полезно? Для авторов, которые умеют писать, у кого есть тексты, кто хочет выйти на разные языковые аудитории. Разумеется, режиссер, маркетологи, писатели, блоггеры.

Совершенно очевидно, качество, управляемость будет расти, а цена генерации падать. Разумеется, под серьезные проекты можно создавать свой ЛОР.
76
N4sG5LWZ-2OBaBR-.mp4
16.2 MB
Ситуация в Лос Анжелесе. "В последние дни в Лос-Анджелесе, Калифорния, жестокие толпы напали на сотрудников ICE и федеральных правоохранительных органов, выполнявших обычные операции по депортации.
Эти операции необходимы для остановки и разворота вторжения нелегальных преступников в Соединённые Штаты.
На фоне этой волны насилия демократические лидеры Калифорнии проявили полную беспомощность и фактически отказались от своей ответственности защищать граждан.
Именно поэтому президент Трамп подписал президентский меморандум о направлении 2 000 солдат Национальной гвардии для наведения порядка и борьбы с беззаконием, которому позволили укорениться.
Администрация Трампа придерживается политики нулевой терпимости к преступному поведению и насилию, особенно когда оно направлено против сотрудников правоохранительных органов, выполняющих свою работу.
Эти преступники будут арестованы и быстро преданы суду.
Главнокомандующий обеспечит полное и неукоснительное исполнение законов Соединённых Штатов." https://x.com/PressSec/status/1931520821471928407
246