Mistral выпустила открытые модели для распознавания речи - Voxtral 3B и Voxtral 24B.
Они обходят Whisper large-v3, который долгое время считался эталоном среди open-source решений, а также превосходят GPT-4o mini Transcribe и Gemini 2.5 Flash по всем ключевым задачам.
Voxtral показывает state-of-the-art результаты на английском (особенно на коротких аудио), а также на мульти-язычных тестах Mozilla Common Voice, обгоняя даже ElevenLabs Scribe.
Возможности Voxtral:
• Длинный контекст: до 32k токенов - это примерно 30 минут аудио на транскрипцию или 40 минут для анализа содержания.
• Встроенные Q&A и резюмирование: можно задавать вопросы по аудиофайлу или получать структурированные сводки.
• Работает на самых популярных языках мира (английский, испанский, французский и др.).
• Вызов функций/интеграция: Модель умеет сразу по голосу вызывать нужные backend-функции, запускать рабочие процессы или API - без дополнительного парсинга
Попробовать Voxtral можно уже сейчас: через API, веб-чат или скачать на Hugging Face
Сергей Булаев AI 🤖 - об AI и не только
Они обходят Whisper large-v3, который долгое время считался эталоном среди open-source решений, а также превосходят GPT-4o mini Transcribe и Gemini 2.5 Flash по всем ключевым задачам.
Voxtral показывает state-of-the-art результаты на английском (особенно на коротких аудио), а также на мульти-язычных тестах Mozilla Common Voice, обгоняя даже ElevenLabs Scribe.
Возможности Voxtral:
• Длинный контекст: до 32k токенов - это примерно 30 минут аудио на транскрипцию или 40 минут для анализа содержания.
• Встроенные Q&A и резюмирование: можно задавать вопросы по аудиофайлу или получать структурированные сводки.
• Работает на самых популярных языках мира (английский, испанский, французский и др.).
• Вызов функций/интеграция: Модель умеет сразу по голосу вызывать нужные backend-функции, запускать рабочие процессы или API - без дополнительного парсинга
Попробовать Voxtral можно уже сейчас: через API, веб-чат или скачать на Hugging Face
Сергей Булаев AI 🤖 - об AI и не только
1 28 4 3
Промт инжиниринг потихоньку превратился в контекстный.
Сегодня модели настолько умные, что дело не в том, КАК спросить, а в том, ЧТО вставить в контекст.
Что такое контекст-инжиниринг?
Это искусство и наука заполнения контекстного окна ровно той информацией, которая нужна для следующего шага.
Наука - потому что это система:
- Описания задач и объяснения
- Few-shot примеры
- RAG (поиск по базе знаний)
- Мультимодальные данные
- Инструменты и история состояний
- Сжатие/суммаризация информации
Искусство - потому что нужна интуиция. Понимание "психологии" модели.
Почему это сложно?
Слишком мало контекста → модель не справляется
Слишком много → растут расходы, падает качество результата
Не тот контекст → мимо
Что входит в контекст-инжиниринг?
Динамическое управление промптами - теперь они не статичные шаблоны, а адаптивные цепочки
- Умный RAG - не просто векторный поиск, а релевантное, осознанное снабжение знаниями
- Управление памятью - краткосрочной (фргаментированная/ полная история диалога) и долгосрочной (кроме RAG - графы, индексы, карточки)
- Оптимизация ввода/вывода - структуры данных, JSON-схемы, XML, разделители
- Фильтрация шума - убирать лишнее не менее важно
- Мультимодальные данные — работа не только с текстом, но и с изображениями, аудио
- Инструменты и состояния — управление инструментами в агентных системах
- Компрессия контекста - сжатие информации без потери смысла
Что почитать:
- Prompting Guide — мощный гайд по техникам промптинга
- The rise of "context engineering" - обзорная статья на LangChain
- 12 факторные агенты - принципы построения ИИ-агентов
- Context Engineering - выходя за рамки промтинга в целях давления на ИИ
Сергей Булаев AI 🤖 - об AI и не только
Сегодня модели настолько умные, что дело не в том, КАК спросить, а в том, ЧТО вставить в контекст.
Что такое контекст-инжиниринг?
Это искусство и наука заполнения контекстного окна ровно той информацией, которая нужна для следующего шага.
Наука - потому что это система:
- Описания задач и объяснения
- Few-shot примеры
- RAG (поиск по базе знаний)
- Мультимодальные данные
- Инструменты и история состояний
- Сжатие/суммаризация информации
Искусство - потому что нужна интуиция. Понимание "психологии" модели.
Почему это сложно?
Слишком мало контекста → модель не справляется
Слишком много → растут расходы, падает качество результата
Не тот контекст → мимо
Что входит в контекст-инжиниринг?
Динамическое управление промптами - теперь они не статичные шаблоны, а адаптивные цепочки
- Умный RAG - не просто векторный поиск, а релевантное, осознанное снабжение знаниями
- Управление памятью - краткосрочной (фргаментированная/ полная история диалога) и долгосрочной (кроме RAG - графы, индексы, карточки)
- Оптимизация ввода/вывода - структуры данных, JSON-схемы, XML, разделители
- Фильтрация шума - убирать лишнее не менее важно
- Мультимодальные данные — работа не только с текстом, но и с изображениями, аудио
- Инструменты и состояния — управление инструментами в агентных системах
- Компрессия контекста - сжатие информации без потери смысла
Что почитать:
- Prompting Guide — мощный гайд по техникам промптинга
- The rise of "context engineering" - обзорная статья на LangChain
- 12 факторные агенты - принципы построения ИИ-агентов
- Context Engineering - выходя за рамки промтинга в целях давления на ИИ
Сергей Булаев AI 🤖 - об AI и не только
10 56 14 9
Да лааааадно! стартап Миры Муратти поднял сид раунд в $2 миллиарда по оценке $12!!! (a16z, Nvidia, Accel, ServiceNow, Cisco, AMD). Большая часть команды - выходцы из OpenAI...
Сергей Булаев AI 🤖 - об AI и не только
Сергей Булаев AI 🤖 - об AI и не только
Разработчик три недели назад покинувший OpenAI (проработав там год) поделился интересными подробностями того как сейчас живёт и работает самая инновационная компания в мире.
Темпы роста и культура
• OpenAI выросла с 1000 до 3000 сотрудников всего за год - автор был в топ-30% по стажу работы
• Вся коммуникация происходит через Slack - электронной почты практически нет (автор получил ~10 писем за весь период работы)
• Компания работает по принципу “снизу вверх” - дорожных карт на квартал не существует, хорошие идеи могут прийти от кого угодно
Технические особенности
• OpenAI использует гигантский монорепозиторий, написанный преимущественно на Python, с растущим числом сервисов на Rust
• Все работает на Azure, причем только три сервиса считаются надежными: Azure Kubernetes Service, CosmosDB и BlobStore
• Стоимость GPU настолько велика, что все остальное кажется ошибкой округления - одна нишевая функция Codex стоила столько же, сколько вся инфраструктура Segment
Запуск Codex
• Продукт Codex был создан с нуля за 7 недель - от первых строк кода до полного запуска calv
• За 53 дня после запуска Codex сгенерировал 630,000 публичных пулл-реквестов
• Команда работала в экстремальном темпе - до 11-12 ночи каждый день, подъем в 5:30 утра, работа по выходным
Корпоративная среда
• Секретность очень высока. Тем не менее автор регулярно видел новости о компании в прессе раньше, чем они объявлялись внутри
• OpenAI сильно ориентируется на Twitter - если ваш твит об OpenAI станет вирусным, его скорее всего прочитают и примут к сведению
• Руководство очень вовлечено - топ-менеджеры регулярно отвечают в Slack-е
Философия и будущее
• Путь к AGI - это гонка трех компаний: OpenAI, Anthropic и Google, каждая из которых идёт своим путем
Сергей Булаев AI 🤖 - об AI и не только
Темпы роста и культура
• OpenAI выросла с 1000 до 3000 сотрудников всего за год - автор был в топ-30% по стажу работы
• Вся коммуникация происходит через Slack - электронной почты практически нет (автор получил ~10 писем за весь период работы)
• Компания работает по принципу “снизу вверх” - дорожных карт на квартал не существует, хорошие идеи могут прийти от кого угодно
Технические особенности
• OpenAI использует гигантский монорепозиторий, написанный преимущественно на Python, с растущим числом сервисов на Rust
• Все работает на Azure, причем только три сервиса считаются надежными: Azure Kubernetes Service, CosmosDB и BlobStore
• Стоимость GPU настолько велика, что все остальное кажется ошибкой округления - одна нишевая функция Codex стоила столько же, сколько вся инфраструктура Segment
Запуск Codex
• Продукт Codex был создан с нуля за 7 недель - от первых строк кода до полного запуска calv
• За 53 дня после запуска Codex сгенерировал 630,000 публичных пулл-реквестов
• Команда работала в экстремальном темпе - до 11-12 ночи каждый день, подъем в 5:30 утра, работа по выходным
Корпоративная среда
• Секретность очень высока. Тем не менее автор регулярно видел новости о компании в прессе раньше, чем они объявлялись внутри
• OpenAI сильно ориентируется на Twitter - если ваш твит об OpenAI станет вирусным, его скорее всего прочитают и примут к сведению
• Руководство очень вовлечено - топ-менеджеры регулярно отвечают в Slack-е
Философия и будущее
• Путь к AGI - это гонка трех компаний: OpenAI, Anthropic и Google, каждая из которых идёт своим путем
Сергей Булаев AI 🤖 - об AI и не только
OpenAI продолжает превращать ChatGPT в универсальный рабочий инструмент, который постепенно вытесняет привычные офисные приложения.
"The Information" вчера написали, что скоро прямо в чате появятся кнопки для создания презентаций PowerPoint и таблиц Excel - можно будет генерировать и редактировать файлы без необходимости использовать продукты Microsoft.
OpenAI также тестирует инструменты совместной работы: несколько пользователей смогут одновременно обсуждать и редактировать документы прямо в ChatGPT. Это приближает сервис к полноценной альтернативе офисным пакетам, где это уже давно есть.
Сергей Булаев AI 🤖 - об AI и не только
"The Information" вчера написали, что скоро прямо в чате появятся кнопки для создания презентаций PowerPoint и таблиц Excel - можно будет генерировать и редактировать файлы без необходимости использовать продукты Microsoft.
OpenAI также тестирует инструменты совместной работы: несколько пользователей смогут одновременно обсуждать и редактировать документы прямо в ChatGPT. Это приближает сервис к полноценной альтернативе офисным пакетам, где это уже давно есть.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Похоже не зря со мной спорили читатели о ненужности MagicPath в комментариях. Figma анонсировала вчера, что представит сегодня какую то супер фичу, которая выглядит как полностю автоматизированное создание интерфейсов.
P.S. Как отмечают в комментариях, похоже это просто поддержка Liquid Glass (гайд здесь)
По этому поводу стал смотреть на Figma Make... Кто то пользуется? Нравится?
Сергей Булаев AI 🤖 - об AI и не только
P.S. Как отмечают в комментариях, похоже это просто поддержка Liquid Glass (гайд здесь)
По этому поводу стал смотреть на Figma Make... Кто то пользуется? Нравится?
Сергей Булаев AI 🤖 - об AI и не только
Amazon анонсировал S3 Vectors - первое облачное объектное хранилище с нативной поддержкой векторов.
Теперь можно хранить и искать огромные массивы эмбеддингов напрямую в Amazon S3, без необходимости разворачивать отдельные векторные базы данных. Экономия на хранении и обработке - до 90% по сравнению с существующими решениями.
Что нового:
• Появился специальный тип бакетов - vector buckets. В каждом можно создать до 10 000 векторных индексов, в каждом индексе - десятки миллионов векторов.
• К каждому вектору можно прикреплять метаданные (даты, категории или любые ключ-значение), а затем фильтровать результаты поиска по этим параметрам.
• Система сама оптимизирует хранение и обработку векторов, обеспечивая максимально низкую стоимость и высокую производительность по мере роста данных.
• Субсекундная скорость поиска - векторы можно искать и сравнивать практически мгновенно.
• Гибкая интеграция с Amazon Bedrock Knowledge Bases и SageMaker Unified Studio для построения RAG систем, чат-ботов и генеративных AI-приложений.
• Интеграция с OpenSearch: редко используемые векторы хранятся в S3 Vectors, а востребованные быстро перемещаются в OpenSearch для сверхбыстрого поиска.
Сергей Булаев AI 🤖 - об AI и не только
Теперь можно хранить и искать огромные массивы эмбеддингов напрямую в Amazon S3, без необходимости разворачивать отдельные векторные базы данных. Экономия на хранении и обработке - до 90% по сравнению с существующими решениями.
Что нового:
• Появился специальный тип бакетов - vector buckets. В каждом можно создать до 10 000 векторных индексов, в каждом индексе - десятки миллионов векторов.
• К каждому вектору можно прикреплять метаданные (даты, категории или любые ключ-значение), а затем фильтровать результаты поиска по этим параметрам.
• Система сама оптимизирует хранение и обработку векторов, обеспечивая максимально низкую стоимость и высокую производительность по мере роста данных.
• Субсекундная скорость поиска - векторы можно искать и сравнивать практически мгновенно.
• Гибкая интеграция с Amazon Bedrock Knowledge Bases и SageMaker Unified Studio для построения RAG систем, чат-ботов и генеративных AI-приложений.
• Интеграция с OpenSearch: редко используемые векторы хранятся в S3 Vectors, а востребованные быстро перемещаются в OpenSearch для сверхбыстрого поиска.
Сергей Булаев AI 🤖 - об AI и не только
Смотрите какой чудо агент "Изменяющий папочка", слушает ваш разговор и выдаёт подсказки в реальном времени (при помощи Gemini).
Сами подсказки не очень, ну или требуют контекста, но зато какая отличная основа для творчества. Самая нудная работа - интерфейс, живой транскрайбинг и запросы к модели реализованы, добавляйте всё что вам захочется :)) Форкаем и вперёд!
Сергей Булаев AI 🤖 - об AI и не только
Сами подсказки не очень, ну или требуют контекста, но зато какая отличная основа для творчества. Самая нудная работа - интерфейс, живой транскрайбинг и запросы к модели реализованы, добавляйте всё что вам захочется :)) Форкаем и вперёд!
Сергей Булаев AI 🤖 - об AI и не только
В прошлом году мы с женой оказались в Бангкоке во время землетрясения. Хотя почти ничего не разрушилось, было страшно - особенно от внезапности происходящего и неизвестности, что будет дальше.
Google тут опубликовал результаты масштабного проекта: с 2021 по 2024 год компания использовала датчики движения более чем на 2 миллиардах Android-смартфонов для обнаружения землетрясений. Вот ключевые факты:
• Система зафиксировала свыше 11 000 землетрясений в 98 странах
• Точность обнаружения оказалась сопоставима с профессиональными сейсмометрами
• Количество людей с доступом к оповещениям о землетрясениях выросло в 10 раз с 2019 года
• При крупных землетрясениях Google отправляет срочное сообщение "TakeAction" на Android-устройства
Технология работает по принципу "количество важнее качества" - отдельные телефоны менее чувствительны, чем научное оборудование, но их огромное количество компенсирует этот недостаток.
Во время мощных землетрясений в Турции в феврале 2023 года система отправила около 4,5 миллиона предупреждений. После улучшения алгоритмов анализ показал, что система могла бы отправить еще более точные оповещения 10 миллионам пользователей.
Сергей Булаев AI 🤖 - об AI и не только
Google тут опубликовал результаты масштабного проекта: с 2021 по 2024 год компания использовала датчики движения более чем на 2 миллиардах Android-смартфонов для обнаружения землетрясений. Вот ключевые факты:
• Система зафиксировала свыше 11 000 землетрясений в 98 странах
• Точность обнаружения оказалась сопоставима с профессиональными сейсмометрами
• Количество людей с доступом к оповещениям о землетрясениях выросло в 10 раз с 2019 года
• При крупных землетрясениях Google отправляет срочное сообщение "TakeAction" на Android-устройства
Технология работает по принципу "количество важнее качества" - отдельные телефоны менее чувствительны, чем научное оборудование, но их огромное количество компенсирует этот недостаток.
Во время мощных землетрясений в Турции в феврале 2023 года система отправила около 4,5 миллиона предупреждений. После улучшения алгоритмов анализ показал, что система могла бы отправить еще более точные оповещения 10 миллионам пользователей.
Сергей Булаев AI 🤖 - об AI и не только
Хочу наконец рассказать о своём проекте. Начну с базового объяснения.
Истории буду добавлять органически.
Не знаю, помните ли вы, но чуть меньше года назад я сделал прототип сервиса по сохранению памяти. Проект называется флэшбэки (работает до сих пор). Дополнительно почитать можно тут и тут.
Идея простая - два телеграм-бота - Сохранитель и Отвечатель. Все отправленные сообщения в Сохранитель - сохраняются в вашу собственную векторную базу. Ответы на все вопросы, которые задаются Отвечателю - формируются на основе этой самой базы. Классический RAG, короче.
Мой читатель и тогда ещё будущий друг и инвестор Максим из Флориды - стал самым активным пользователем прототипа. И умудрился сохранить несколько сотен сообщений за пару месяцев. В этот момент ему прислали вопросы для публикации статьи в модном журнале. Он задал все эти вопросы отвечателю и был поражён, насколько они были глубокими и именно его ответами. Рассказывая об этом мне, употреблял слова восторг и я бы сам так не смог сформулировать.
Мы поняли, что родилась неплохая идея для продукта.
Мы осознали, что, имея сравнительно небольшую базу воспоминаний, можно создавать уникальный, действительно персонализированный контент (а не просто текст, написанный в твоём стиле).
И понимали, что многим людям нужно регулярно создавать контент (а контент - это не только личный бренд, но и вообще нетворкинг на стероидах, я-то знаю), но они, не умея этого делать, сопротивляются и не могут научиться. А этому надо учиться.
Другим важным инсайтом оказалось то, что в компании Макса есть лидеры мнений и эксперты в технологических областях, которым непросто найти силы, вдохновение и время рассказать и своем опыте и экспертизе постоянно создавая контент.
Он верит в то, что развитие сильных личных брендов его коллег принесет компании гораздо больше пользы, так как люди покупают у людей и личный контент гораздо лучше воспринимается, чем корпоративный. Так мы поняли, что надо делать продукт не B2C (где чеки гораздо ниже), а именно B2B.
Вот так родился co.actor, у которого до сих пор нет нормального лэндинга (в процессе), но который уже помогает людям писать.
Вы спросите, где мы берем их воспоминания, если они не любят писать? Мы проводим с ними интервью. Кроме того, у нас придуман регулярный цикл пополнения и дополнения памяти человека.
А ещё оказалось что у компаний тоже есть "своя", корпоративная память. Накопленные презентации и рассказы. Статьи и прессрелизы. И её тоже можно и нужно использовать для написания постов (на самом деле много для чего ещё). А слышали про tribal knowledge?
Нас уже целых 8 человек, раскиданных по миру, но мы делаем нереально интересный проект и видим, как он приносит пользу уже сейчас. И понимаем, что будет приносить ещё больше в процессе постепенного взросления.
Я планирую регулярно рассказывать об особенностях нашего решения (и чем оно отличается от ChatGPT и других, похожих более узких решений которых очень очень много) на регулярной основе.
Я счастлив, что мы можем использовать самые современные технологии и много работаем именно с инжинирингом контекста и сложными, многоуровневыми и гибридными RAG-ами.
К сожалению, мы в B2B и сетап сервиса довольно дорог, потому я пока (мы работаем над этим) не могу позволить опробовать его всем желающим (как, например, флэшбэки), однако если у вас компания, и если у вас есть описанные проблемы, то пишите мне @sergeonsamui - будем рады показать и рассказать.
Сергей Булаев AI 🤖 - об AI и не только
Истории буду добавлять органически.
Не знаю, помните ли вы, но чуть меньше года назад я сделал прототип сервиса по сохранению памяти. Проект называется флэшбэки (работает до сих пор). Дополнительно почитать можно тут и тут.
Идея простая - два телеграм-бота - Сохранитель и Отвечатель. Все отправленные сообщения в Сохранитель - сохраняются в вашу собственную векторную базу. Ответы на все вопросы, которые задаются Отвечателю - формируются на основе этой самой базы. Классический RAG, короче.
Мой читатель и тогда ещё будущий друг и инвестор Максим из Флориды - стал самым активным пользователем прототипа. И умудрился сохранить несколько сотен сообщений за пару месяцев. В этот момент ему прислали вопросы для публикации статьи в модном журнале. Он задал все эти вопросы отвечателю и был поражён, насколько они были глубокими и именно его ответами. Рассказывая об этом мне, употреблял слова восторг и я бы сам так не смог сформулировать.
Мы поняли, что родилась неплохая идея для продукта.
Мы осознали, что, имея сравнительно небольшую базу воспоминаний, можно создавать уникальный, действительно персонализированный контент (а не просто текст, написанный в твоём стиле).
И понимали, что многим людям нужно регулярно создавать контент (а контент - это не только личный бренд, но и вообще нетворкинг на стероидах, я-то знаю), но они, не умея этого делать, сопротивляются и не могут научиться. А этому надо учиться.
Другим важным инсайтом оказалось то, что в компании Макса есть лидеры мнений и эксперты в технологических областях, которым непросто найти силы, вдохновение и время рассказать и своем опыте и экспертизе постоянно создавая контент.
Он верит в то, что развитие сильных личных брендов его коллег принесет компании гораздо больше пользы, так как люди покупают у людей и личный контент гораздо лучше воспринимается, чем корпоративный. Так мы поняли, что надо делать продукт не B2C (где чеки гораздо ниже), а именно B2B.
Вот так родился co.actor, у которого до сих пор нет нормального лэндинга (в процессе), но который уже помогает людям писать.
Вы спросите, где мы берем их воспоминания, если они не любят писать? Мы проводим с ними интервью. Кроме того, у нас придуман регулярный цикл пополнения и дополнения памяти человека.
А ещё оказалось что у компаний тоже есть "своя", корпоративная память. Накопленные презентации и рассказы. Статьи и прессрелизы. И её тоже можно и нужно использовать для написания постов (на самом деле много для чего ещё). А слышали про tribal knowledge?
Нас уже целых 8 человек, раскиданных по миру, но мы делаем нереально интересный проект и видим, как он приносит пользу уже сейчас. И понимаем, что будет приносить ещё больше в процессе постепенного взросления.
Я планирую регулярно рассказывать об особенностях нашего решения (и чем оно отличается от ChatGPT и других, похожих более узких решений которых очень очень много) на регулярной основе.
Я счастлив, что мы можем использовать самые современные технологии и много работаем именно с инжинирингом контекста и сложными, многоуровневыми и гибридными RAG-ами.
К сожалению, мы в B2B и сетап сервиса довольно дорог, потому я пока (мы работаем над этим) не могу позволить опробовать его всем желающим (как, например, флэшбэки), однако если у вас компания, и если у вас есть описанные проблемы, то пишите мне @sergeonsamui - будем рады показать и рассказать.
Сергей Булаев AI 🤖 - об AI и не только
14 91 15 8 3👎2
Media is too big
VIEW IN TELEGRAM
OpenArt представила новую функцию OpenArt Story в сотрудничестве с Hailuo_AI. Теперь можно создавать короткие видеоролики длительностью до 1 минуты из любой идеи: текста, музыкального бита, сценария или персонажа.
AI автоматически собирает сцены, добавляет музыку и выстраивает повествование.
Доступно три шаблона:
• Character Vlog - создаем анимированные влоги с постоянным персонажем. Можно выбрать готового героя из библиотеки OpenArt или загрузить свое изображение для анимации.
• Music Video - превращаем любой трек в креативный визуальный опыт. AI сам генерирует сцены и синхронизирует их с музыкой.
• Explainer Video - AI визуализирует и озвучивает любой текст или параграф, идеально для обучающего контента.
Технические возможности:
• Полный контроль редактирования - меняйте сцены, голоса, музыку или создавайте с нуля в редакторе историй
• Поддержка передовых видеомоделей: Kling 2.1 и Veo 3 с улучшенным реализмом и кинематографичной съемкой
• Точная синхронизация губ (lip sync) с любым голосом или загруженным аудио на базе модели Kling
Сервис сейчас в бета-версии, разработчики активно собирают отзывы для улучшения функционала.
Сергей Булаев AI 🤖 - об AI и не только
AI автоматически собирает сцены, добавляет музыку и выстраивает повествование.
Доступно три шаблона:
• Character Vlog - создаем анимированные влоги с постоянным персонажем. Можно выбрать готового героя из библиотеки OpenArt или загрузить свое изображение для анимации.
• Music Video - превращаем любой трек в креативный визуальный опыт. AI сам генерирует сцены и синхронизирует их с музыкой.
• Explainer Video - AI визуализирует и озвучивает любой текст или параграф, идеально для обучающего контента.
Технические возможности:
• Полный контроль редактирования - меняйте сцены, голоса, музыку или создавайте с нуля в редакторе историй
• Поддержка передовых видеомоделей: Kling 2.1 и Veo 3 с улучшенным реализмом и кинематографичной съемкой
• Точная синхронизация губ (lip sync) с любым голосом или загруженным аудио на базе модели Kling
Сервис сейчас в бета-версии, разработчики активно собирают отзывы для улучшения функционала.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
В рубрике #КриповаяСуббота сегодня, завирусившийся недавно, результат старинного японского исследования "Лизун".
Мы представляем Лизуна - гибкий роботизированный язык, который может имитировать движения человеческого. Цель этого робота - укреплять социальные связи независимо от вида (вида животного) через облизывание.
Сначала мы проанализировали движения человеческого языка и выделили четыре основных типа движений. На основе этих результатов мы разработали оригинального робота, имитирующего движения языка. Затем мы тщательно проработали тактильные ощущения языка - такие как мягкость самого языка и скользкую текстуру слюны.
Используя этого робота, мы смогли подтвердить в ходе демонстраций, что он может создавать реалистичные тактильные ощущения от облизывания.
Японцы как обычно, лидеры.
Сергей Булаев AI 🤖 - об AI и не только
Мы представляем Лизуна - гибкий роботизированный язык, который может имитировать движения человеческого. Цель этого робота - укреплять социальные связи независимо от вида (вида животного) через облизывание.
Сначала мы проанализировали движения человеческого языка и выделили четыре основных типа движений. На основе этих результатов мы разработали оригинального робота, имитирующего движения языка. Затем мы тщательно проработали тактильные ощущения языка - такие как мягкость самого языка и скользкую текстуру слюны.
Используя этого робота, мы смогли подтвердить в ходе демонстраций, что он может создавать реалистичные тактильные ощущения от облизывания.
Японцы как обычно, лидеры.
Сергей Булаев AI 🤖 - об AI и не только
This media is not supported in your browser
VIEW IN TELEGRAM
Утро, пустой вагон, а рядом... робот в форме пингвина.
Так начинается новая глава городской логистики.
Пока пассажиры спят, маленькие курьеры едут по рельсам к 7-Eleven.
Пингвины в метро? В Китае VX Logistics запустили первых в мире роботов-доставщиков, которые используют городское метро для доставки товаров в магазины 7-Eleven. Маленькие (но не совсем) автономные "пингвины" уже обслуживают более 100 магазинов, развозя снеки и напитки в нерабочие часы, чтобы не мешать пассажирам.
Сергей Булаев AI 🤖 - об AI и не только
Так начинается новая глава городской логистики.
Пока пассажиры спят, маленькие курьеры едут по рельсам к 7-Eleven.
Пингвины в метро? В Китае VX Logistics запустили первых в мире роботов-доставщиков, которые используют городское метро для доставки товаров в магазины 7-Eleven. Маленькие (но не совсем) автономные "пингвины" уже обслуживают более 100 магазинов, развозя снеки и напитки в нерабочие часы, чтобы не мешать пассажирам.
Сергей Булаев AI 🤖 - об AI и не только
Forwarded from Кружок Пономаря
Как там дела в гонке за звание главного мирового ИИ?
Посмотрел свежие цифры от OpenAI. Пользователи отправляют 2,5 миллиарда (!) промптов в день. Из них из США всего 330 миллионов. Получается, в среднем каждый американец задаёт по одному вопросу в ChatGPT каждый день. И это только OpenAI. Если добавить Claude, Gemini, Grok и остальных, по объёму использования AI уже реально начинает догонять Google Search.
Теперь про деньги. Релиз Grok 4 на прошлой неделе показал, что бывает, если ты вовремя выкатываешь востребованный продукт — выручка выросла в 4 раза за одну ночь ($99K → $419K в день), загрузки — почти в 3 раза (с 52K до 197K). Обороты пока небольшие, но темпы роста космические.
Для сравнения, OpenAI зарабатывает $27 млн в день ($10 млрд в год), Anthropic — $11 млн в день ($4 млрд в год), Google AI (зашит в подписку Google One) — примерно $3–5 млн в день.
Короче, Grok, чтобы догнать OpenAI, нужно вырасти всего в 165 раз 💀
При этом, скорее всего, ни один из этих сервисов пока не достиг прибыльности. Но это уже неважно. Это гонка не стартапов, а инфраструктур, и до момента определения победителя мы увидим появление еще нескольких очень крупных участников. Microsoft и Amazon уж точно не будут стоять в стороне.
Посмотрел свежие цифры от OpenAI. Пользователи отправляют 2,5 миллиарда (!) промптов в день. Из них из США всего 330 миллионов. Получается, в среднем каждый американец задаёт по одному вопросу в ChatGPT каждый день. И это только OpenAI. Если добавить Claude, Gemini, Grok и остальных, по объёму использования AI уже реально начинает догонять Google Search.
Теперь про деньги. Релиз Grok 4 на прошлой неделе показал, что бывает, если ты вовремя выкатываешь востребованный продукт — выручка выросла в 4 раза за одну ночь ($99K → $419K в день), загрузки — почти в 3 раза (с 52K до 197K). Обороты пока небольшие, но темпы роста космические.
Для сравнения, OpenAI зарабатывает $27 млн в день ($10 млрд в год), Anthropic — $11 млн в день ($4 млрд в год), Google AI (зашит в подписку Google One) — примерно $3–5 млн в день.
Короче, Grok, чтобы догнать OpenAI, нужно вырасти всего в 165 раз 💀
При этом, скорее всего, ни один из этих сервисов пока не достиг прибыльности. Но это уже неважно. Это гонка не стартапов, а инфраструктур, и до момента определения победителя мы увидим появление еще нескольких очень крупных участников. Microsoft и Amazon уж точно не будут стоять в стороне.
a16z устроили спарринг Comet vs Dia
🥊 AI-браузеры прямо сейчас пытаются заменить Chrome у power-user'ов
По данным Olivia Moore:
• Comet от Perplexity стал её новым браузером по умолчанию - решило качество универсального агента и интеграции с G Suite, Gmail, Dropbox и one-click чекаут.
• Dia сохранил место в weekly active благодаря Skills - собственным цепочкам действий: «draft email + найди контакт».
Ключевое различие подходов:
1. Универсальный агент снижает порог входа - открыл, спросил, получил. Apple-подход ближе массовым пользователям.
2. Skills дают гибкость при тонкой настройке задач. Здесь выигрывают хардкорные автоматизаторы.
Сергей Булаев AI 🤖 - об AI и не только
🥊 AI-браузеры прямо сейчас пытаются заменить Chrome у power-user'ов
По данным Olivia Moore:
• Comet от Perplexity стал её новым браузером по умолчанию - решило качество универсального агента и интеграции с G Suite, Gmail, Dropbox и one-click чекаут.
• Dia сохранил место в weekly active благодаря Skills - собственным цепочкам действий: «draft email + найди контакт».
Ключевое различие подходов:
1. Универсальный агент снижает порог входа - открыл, спросил, получил. Apple-подход ближе массовым пользователям.
2. Skills дают гибкость при тонкой настройке задач. Здесь выигрывают хардкорные автоматизаторы.
Сергей Булаев AI 🤖 - об AI и не только
Спустя всего 2 недели после появления Kimi K2 вышел Qwen-3-Coder, который обходит её по всем бенчмаркам кодинга: безумные 70% на SWE-Bench Verified.. и у него контекст 1М токенов!
$1-6/М на входе и $5-60/М на выходе, дороже K2, но дешевле Sonnet 4. Сравнительно дешёвая.
По скорости на одном уровне с Gemini Flash, Kimi и Sonnet - тоже 60-70 токенов в секунду.
Реально крутая модель. У неё свой агент для разработки Qwen Code.
Однако рекомендую посмотреть инструкцию как переключить Claude Code на использование этой модели с помощью LocalLLaMA и OpenRouter .
Сергей Булаев AI 🤖 - об AI и не только
$1-6/М на входе и $5-60/М на выходе, дороже K2, но дешевле Sonnet 4. Сравнительно дешёвая.
По скорости на одном уровне с Gemini Flash, Kimi и Sonnet - тоже 60-70 токенов в секунду.
Реально крутая модель. У неё свой агент для разработки Qwen Code.
Однако рекомендую посмотреть инструкцию как переключить Claude Code на использование этой модели с помощью LocalLLaMA и OpenRouter .
Сергей Булаев AI 🤖 - об AI и не только