Tinker — первый продукт Thinking Machines
Становится понятно на что Мира Мурати привлекла два миллиарда. Tinker это облачное API для файнтюна LLM направленное на ресёрчеров. Оно берёт берёт на себя менеджмент инфраструктуры, при этом оставляет контроль над данными и алгоритмами.
Выглядит это так: пользователям дают крайне простой интерфейс в виде forward_backward, sample, optim_step и ещё парочки функций для сохранения/загрузки тюнов. Остальное (трейнинг луп, энвайроменты и т.д.) можно спокойно запускать у себя на ноутбуке. Результаты тренировки можно скачать.
Пока что тренировать можно только LoRA, поддержку полноценного файнтюна тоже обещают, но полноценный тюн будет явно дороже. Судя по ресёрчу Thinking Machines, LoRA не отличаются по качеству от полноценных файнтюнов на небольших датасетах. Но у LoRA есть большое преимущество по эффективности — для их тренировки нужно на 30% меньше флопс, кроме этого использование LoRA даёт дополнительную экономию при тренировке большого количества за раз.
Из моделей пока доступны последние версии Llama 3 (кроме 405B) и Qwen 3, для части из них даже доступны Base модели. Пока что доступ по вейтлисту. В первое время сервис будет бесплатным, ввести оплату обещают уже в ближайшие недели.
Вышел очень крутой продукт, надеюсь цена будет не конской. Ну и следующий шаг компании очевиден — API для инференса, чтобы эти модельки где-то можно было запускать.
Блогпост
@ai_newz
Становится понятно на что Мира Мурати привлекла два миллиарда. Tinker это облачное API для файнтюна LLM направленное на ресёрчеров. Оно берёт берёт на себя менеджмент инфраструктуры, при этом оставляет контроль над данными и алгоритмами.
Выглядит это так: пользователям дают крайне простой интерфейс в виде forward_backward, sample, optim_step и ещё парочки функций для сохранения/загрузки тюнов. Остальное (трейнинг луп, энвайроменты и т.д.) можно спокойно запускать у себя на ноутбуке. Результаты тренировки можно скачать.
Пока что тренировать можно только LoRA, поддержку полноценного файнтюна тоже обещают, но полноценный тюн будет явно дороже. Судя по ресёрчу Thinking Machines, LoRA не отличаются по качеству от полноценных файнтюнов на небольших датасетах. Но у LoRA есть большое преимущество по эффективности — для их тренировки нужно на 30% меньше флопс, кроме этого использование LoRA даёт дополнительную экономию при тренировке большого количества за раз.
Из моделей пока доступны последние версии Llama 3 (кроме 405B) и Qwen 3, для части из них даже доступны Base модели. Пока что доступ по вейтлисту. В первое время сервис будет бесплатным, ввести оплату обещают уже в ближайшие недели.
Вышел очень крутой продукт, надеюсь цена будет не конской. Ну и следующий шаг компании очевиден — API для инференса, чтобы эти модельки где-то можно было запускать.
Блогпост
@ai_newz
❤94👍50🔥26😁5🤯2😱1💯1🦄1
Нейродайджест за неделю (#89)
LLM
- Claude Sonnet 4.5 — GPT-5 Codex побыл лучшей моделью для кодинга всего две недели. Anthropic прокачали Клода в кодинге и агентных задачах, может автономно работать до 30-ти часов (но это не точно).
- Tinker от Thinking Machines — Первый продукт от стартапа Миры Мурати. Это облачное API для файнтюна LLM, нацеленное на ресёрчеров и упрощающее менеджмент инфраструктуры.
Генеративные модели
- Wan 2.5 — Китайский нейрокомбайн. Модель стала мультимодальной (Text, Image, Video, Audio) и теперь умеет генерировать видео по аудио, с нативным липсинком и движением в такт музыке.
- Sora 2: Новая SOTA и AI-TikTok — OpenAI выкатили новую SOTA-видеомодель, но вау-эффекта уже меньше. Качество в черипиках и реальных генерациях высокое, но все ещё сохранились нейронные косячки. Главное нововведение — отдельное приложение-лента в стиле TikTok и генерация AI-аватаров с голосом.
- Kandinsky Video Lite и Giga-Embeddings — Сбер выложил в открытый доступ две модели: Kandinsky Video Lite (компактная 2B видеомодель, обходящая более тяжёлых конкурентов) и Giga-Embeddings (эмбеддинги для русского языка, заточенные под RAG).
> Читать дайджест #88
#дайджест
@ai_newz
LLM
- Claude Sonnet 4.5 — GPT-5 Codex побыл лучшей моделью для кодинга всего две недели. Anthropic прокачали Клода в кодинге и агентных задачах, может автономно работать до 30-ти часов (но это не точно).
- Tinker от Thinking Machines — Первый продукт от стартапа Миры Мурати. Это облачное API для файнтюна LLM, нацеленное на ресёрчеров и упрощающее менеджмент инфраструктуры.
Генеративные модели
- Wan 2.5 — Китайский нейрокомбайн. Модель стала мультимодальной (Text, Image, Video, Audio) и теперь умеет генерировать видео по аудио, с нативным липсинком и движением в такт музыке.
- Sora 2: Новая SOTA и AI-TikTok — OpenAI выкатили новую SOTA-видеомодель, но вау-эффекта уже меньше. Качество в черипиках и реальных генерациях высокое, но все ещё сохранились нейронные косячки. Главное нововведение — отдельное приложение-лента в стиле TikTok и генерация AI-аватаров с голосом.
- Kandinsky Video Lite и Giga-Embeddings — Сбер выложил в открытый доступ две модели: Kandinsky Video Lite (компактная 2B видеомодель, обходящая более тяжёлых конкурентов) и Giga-Embeddings (эмбеддинги для русского языка, заточенные под RAG).
> Читать дайджест #88
#дайджест
@ai_newz
1👍45❤26🔥16⚡4
Что показали на OpenAI DevDay
Главный анонс — мини-приложения в ChatGPT. На старте их семь, анонсировали ещё 11. Чатгпт будет периодически сам подсказывать подходящее приложение по контексту диалога. Фича открыта почти всем авторизованным пользователям вне ЕС, каталог приложений и приём заявок на публикацию приложений от разработчиков обещают до конца года.
Приложения собираются на веб-технологиях поверх MCP. Примеры с исходниками уже есть на GitHub. Обещают кучу способов монетизации своих приложений, OpenAI всё ещё плотно хотят свой апстор, несмотря на провал GPTs.
AgentKit и ChatKit. AgentKit — набор для сборки и продакшен-запуска агентов с визуальным конструктором, коннекторами и встроенными инструментами оценки. ChatKit — готовый встраиваемый чат-интерфейс, чтобы быстро дать пользователю доступ к вашему агенту прямо в продукте. Описывать флоу агента теперь можно в новом визуальном интерфейсе Agent Builder, теперь создание агентов доступнее.
В API тоже насыпали моделей. Sora 2 и Sora 2 Pro теперь доступны в API. Pro версия отличается длиной генерации в 15 секунд вместо 10 и поддержкой 1080p. Цена 10 центов за секунду для обычной модели, что дешевле даже Veo 3 Fast. Pro версия стоит 30 центов за секунду 720p видео и 50 центов за 1080p. На удивление адекватная цена для такого уровня качества.
А вот GPT-5 Pro обвинить в разумном прайсинге нельзя. $15/$120 за миллион токенов для ризонера это крайне много, с такой ценой модель продолжит оставаться очень нишевой.
Кроме этого вышли мини варианты gpt-realtime и gpt-imagе, чтобы удешевлять продакшен-кейсы. Как у них с качеством всё ещё неясно, но цена неплохая.
@ai_newz
Главный анонс — мини-приложения в ChatGPT. На старте их семь, анонсировали ещё 11. Чатгпт будет периодически сам подсказывать подходящее приложение по контексту диалога. Фича открыта почти всем авторизованным пользователям вне ЕС, каталог приложений и приём заявок на публикацию приложений от разработчиков обещают до конца года.
Приложения собираются на веб-технологиях поверх MCP. Примеры с исходниками уже есть на GitHub. Обещают кучу способов монетизации своих приложений, OpenAI всё ещё плотно хотят свой апстор, несмотря на провал GPTs.
AgentKit и ChatKit. AgentKit — набор для сборки и продакшен-запуска агентов с визуальным конструктором, коннекторами и встроенными инструментами оценки. ChatKit — готовый встраиваемый чат-интерфейс, чтобы быстро дать пользователю доступ к вашему агенту прямо в продукте. Описывать флоу агента теперь можно в новом визуальном интерфейсе Agent Builder, теперь создание агентов доступнее.
В API тоже насыпали моделей. Sora 2 и Sora 2 Pro теперь доступны в API. Pro версия отличается длиной генерации в 15 секунд вместо 10 и поддержкой 1080p. Цена 10 центов за секунду для обычной модели, что дешевле даже Veo 3 Fast. Pro версия стоит 30 центов за секунду 720p видео и 50 центов за 1080p. На удивление адекватная цена для такого уровня качества.
А вот GPT-5 Pro обвинить в разумном прайсинге нельзя. $15/$120 за миллион токенов для ризонера это крайне много, с такой ценой модель продолжит оставаться очень нишевой.
Кроме этого вышли мини варианты gpt-realtime и gpt-imagе, чтобы удешевлять продакшен-кейсы. Как у них с качеством всё ещё неясно, но цена неплохая.
@ai_newz
1🔥69👍38❤33🙏4🦄2
Nvidia будет частью нового раунда финансирования xAI
Особенность раунда в том, что акций xAI инвесторы не получают. Всё идёт через SPV (Special Purpose Vehicle), специально созданную компанию, которая приобретёт GPU для Colossus 2 и будет сдавать их в аренду xAI. В чём-то это похоже на схему OpenAI со Stargate. Доля Nvidia составит 2 миллиарда, а в целом размер раунда ожидается в 20 миллиардов — 7.5 будут акциями SPV, остальное в долг.
@ai_newz
Особенность раунда в том, что акций xAI инвесторы не получают. Всё идёт через SPV (Special Purpose Vehicle), специально созданную компанию, которая приобретёт GPU для Colossus 2 и будет сдавать их в аренду xAI. В чём-то это похоже на схему OpenAI со Stargate. Доля Nvidia составит 2 миллиарда, а в целом размер раунда ожидается в 20 миллиардов — 7.5 будут акциями SPV, остальное в долг.
@ai_newz
😁93❤22👍18🦄11🫡4🔥3😱3😍1
MWS AI выпустила первый бенчмарк для тестирования мультимодальных моделей на русскоязычных документах — MWS Vision Bench. До этого момента разработчики могли полагаться только на OCRBench или MMMU, которые работают исключительно с английским и китайским языками, что делало невозможной адекватную оценку моделей для российского рынка. Это решает реальную боль компаний: теперь можно объективно сравнить, насколько хорошо разные VLM-модели справляются с типовыми задачами.
Что проверяет бенчмарк:
• Распознавание текста на сканах договоров и официальных документов
• Извлечение структурированных данных из таблиц и форм
• Понимание рукописных заметок и аннотаций
• Работа со схемами, чертежами и диаграммами
• Ответы на сложные вопросы по содержимому документов
Бенчмарк включает 800 реальных изображений и 2580 заданий, полностью обезличенных и максимально приближенных к реальным рабочим сценариям. Команда MWS AI сделала бенчмарк полностью открытым: код выложен на GitHub, валидационный датасет доступен на HuggingFace. Любой желающий может скачать, запустить тесты на своих моделях и сравнить результаты с лидерами — сейчас это Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы. То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей, которые наконец-то можно сравнивать по единым, прозрачным метрикам.
@ai_newz
Что проверяет бенчмарк:
• Распознавание текста на сканах договоров и официальных документов
• Извлечение структурированных данных из таблиц и форм
• Понимание рукописных заметок и аннотаций
• Работа со схемами, чертежами и диаграммами
• Ответы на сложные вопросы по содержимому документов
Бенчмарк включает 800 реальных изображений и 2580 заданий, полностью обезличенных и максимально приближенных к реальным рабочим сценариям. Команда MWS AI сделала бенчмарк полностью открытым: код выложен на GitHub, валидационный датасет доступен на HuggingFace. Любой желающий может скачать, запустить тесты на своих моделях и сравнить результаты с лидерами — сейчас это Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. Архитектура позволяет добавлять новые типы задач и адаптировать бенчмарк под специфические кейсы. То есть он может служить фундаментом для развития экосистемы русскоязычных мультимодальных моделей, которые наконец-то можно сравнивать по единым, прозрачным метрикам.
@ai_newz
👍71😁32🔥21❤5🤯3
Вчера Google анонсировали что Gemini теперь обрабатывает 1.3 квадриллиона токенов в месяц, с конца июля нагрузка выросла на 30%. Это цифра для всего использования Gemini — и для продуктов Google и для внешних разработчиков. Это какое-то безумное количество токенов — для сравнения, это эквивалентно обработке нескольких миллиардов книг каждый месяц. Но тем не менее цифра ещё и неимоверно маленькая — ведь в перерасчёте, на каждого человека на планете, в среднем выходит лишь 160 тысяч токенов в месяц (сравните это со своим использованием).
Google не единственная компания с такими масштабами — OpenAI на Devday заявили что их API обрабатывает 6 миллиардов токенов в минуту, то есть больше 250 триллионов токенов в месяц. Напрямую сравнивать это с цифрами гугла разумеется нельзя — у OpenAI гигантское количество токенов потребляется 800 миллионами пользователей ChatGPT, что не учитывается в использовании API. Но понятно что уровень нагрузки у компаний сопоставимый, хоть глобально это всё ещё крайне мало.
@ai_newz
Google не единственная компания с такими масштабами — OpenAI на Devday заявили что их API обрабатывает 6 миллиардов токенов в минуту, то есть больше 250 триллионов токенов в месяц. Напрямую сравнивать это с цифрами гугла разумеется нельзя — у OpenAI гигантское количество токенов потребляется 800 миллионами пользователей ChatGPT, что не учитывается в использовании API. Но понятно что уровень нагрузки у компаний сопоставимый, хоть глобально это всё ещё крайне мало.
@ai_newz
🔥111❤39🤯25👍17❤🔥2😍1
Нейродайджест за неделю (#90)
Юбилейный
LLM
- OpenAI DevDay — мини-приложения в ChatGPT. Плюс AgentKit (аналог n8n) и ChatKit для интерфейса. В API добавили GPT-5 Pro с конским ценником ($15/$120) и мини-версии других моделей.
- Nvidia инвестирует в xAI — вложит $2 миллиарда, но не напрямую, а через SPV, которая закупит GPU для кластера Colossus 2 и будет сдавать их в аренду.
- Сколько генерят нейронки —Gemini обрабатывает 1.3 квадриллиона токенов в месяц, а API OpenAI — более 250 триллионов.
Генеративные модели
- Sora 2 в API — Sora 2 и Pro теперь доступны в API по адекватной цене: 10 центов/сек за обычную версию. Pro-версия дороже, но с 1080p и длиной до 15 секунд.
> Читать дайджест #89
#дайджест
@ai_newz
Юбилейный
LLM
- OpenAI DevDay — мини-приложения в ChatGPT. Плюс AgentKit (аналог n8n) и ChatKit для интерфейса. В API добавили GPT-5 Pro с конским ценником ($15/$120) и мини-версии других моделей.
- Nvidia инвестирует в xAI — вложит $2 миллиарда, но не напрямую, а через SPV, которая закупит GPU для кластера Colossus 2 и будет сдавать их в аренду.
- Сколько генерят нейронки —Gemini обрабатывает 1.3 квадриллиона токенов в месяц, а API OpenAI — более 250 триллионов.
Генеративные модели
- Sora 2 в API — Sora 2 и Pro теперь доступны в API по адекватной цене: 10 центов/сек за обычную версию. Pro-версия дороже, но с 1080p и длиной до 15 секунд.
> Читать дайджест #89
#дайджест
@ai_newz
👍29❤13🔥8⚡4🤩2❤🔥1
Жесть какой объем видео было скормлено в Сору 2 во время тренировки.
Знает даже всякую лютую дичь из нашего постсоветского телевизора, типа Малышевой. Но человека, садящегося в автомобиль, сгенерить не может – не достаточно данных все-таки.
Все ещё ждем решений суда об использовании всего этого контента и внешности существующих людей. Я если что за свободное использование фото видео из интернета (выложил в ютуб - распрощался с правами), но уж слишком Альтман борзо себя ведёт.
@ai_newz
Знает даже всякую лютую дичь из нашего постсоветского телевизора, типа Малышевой. Но человека, садящегося в автомобиль, сгенерить не может – не достаточно данных все-таки.
Все ещё ждем решений суда об использовании всего этого контента и внешности существующих людей. Я если что за свободное использование фото видео из интернета (выложил в ютуб - распрощался с правами), но уж слишком Альтман борзо себя ведёт.
@ai_newz
Telegram
Ëда-мастер
В общем, в Sora скормили огромное количество контента со всего мира.
При чëм достаточно например написать :
Зомби в передаче Что, где, когда?, сюжет с юмором.
Бигфут и призрак (Баба Яга) в Давай поженимся
.. то что в голову придёт🤔😁
А вот Малышеву случайно…
При чëм достаточно например написать :
Зомби в передаче Что, где, когда?, сюжет с юмором.
Бигфут и призрак (Баба Яга) в Давай поженимся
.. то что в голову придёт🤔😁
А вот Малышеву случайно…
2😍71🤯50😁46❤16🔥15👍3🦄2💯1
This media is not supported in your browser
VIEW IN TELEGRAM
RIP Social Media
Уже какое-то время UGC (User-Generated Content) находится в топе инструментов для коммерческой рекламы. Даже крупные бренды идут за рилсами к нишевым блогерам (таким как я). Это работает, потому что люди доверяют людям, а не креативным агентствам.
Но нет, сегодня про Sora 2. Как уже говорил, новая Sora может привести к смерти социальных сетей и UGC-контента или как минимум знатно потрепать рынок. Не люблю цитировать Твиттер, но посмотрите, что собрали с Sora 2 на n8n.
На вход картинка продукта, по желанию промпт. На выходе готовый ролик в 1080p, без вотермарок (а как же безопасность? Видимо, бизнеса это не касается), с монтажом, звуком и всеми делами.
Главная фишка в том, что такие видео можно лить тоннами с разных аккаунтов. Наличие аудитории у блогера вообще не важно, потому что рекомендательные системы со времён Тиктока пушат просто хороший контент (даже рекламный), если он достаточно залипательный.
Не сложно додуматься, что с такими автоматизациями нейронный спам польётся рекой в ленты ещё пуще прежнего, и никуда от него не денешься. Вертикальным блогерам остаётся только посочувствовать. Ну либо делать такой контент, который AI пока ещё не под силу (например, как садиться в машину😄 ).
Хороший повод ещё раз удалить тикток, и мечтаю, чтобы шортсы в ютубе можно было отключить.
Источник
@ai_newz
Уже какое-то время UGC (User-Generated Content) находится в топе инструментов для коммерческой рекламы. Даже крупные бренды идут за рилсами к нишевым блогерам (таким как я). Это работает, потому что люди доверяют людям, а не креативным агентствам.
Но нет, сегодня про Sora 2. Как уже говорил, новая Sora может привести к смерти социальных сетей и UGC-контента или как минимум знатно потрепать рынок. Не люблю цитировать Твиттер, но посмотрите, что собрали с Sora 2 на n8n.
На вход картинка продукта, по желанию промпт. На выходе готовый ролик в 1080p, без вотермарок (а как же безопасность? Видимо, бизнеса это не касается), с монтажом, звуком и всеми делами.
Главная фишка в том, что такие видео можно лить тоннами с разных аккаунтов. Наличие аудитории у блогера вообще не важно, потому что рекомендательные системы со времён Тиктока пушат просто хороший контент (даже рекламный), если он достаточно залипательный.
Не сложно додуматься, что с такими автоматизациями нейронный спам польётся рекой в ленты ещё пуще прежнего, и никуда от него не денешься. Вертикальным блогерам остаётся только посочувствовать. Ну либо делать такой контент, который AI пока ещё не под силу (например, как садиться в машину
Хороший повод ещё раз удалить тикток, и мечтаю, чтобы шортсы в ютубе можно было отключить.
Источник
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1😱113❤100😁40👍24🔥21💯17🤯8🙏3🦄3❤🔥1
Media is too big
VIEW IN TELEGRAM
VEO 3.1 🔥 🔥 🔥 🔥 🔥
Видеогенератор от Google обновился до версии 3.1. Всё в целом стало получше, особенно отмечают улучшения в img2video.
Но почему-то мало кто говорит о том, что во Flow теперь можно РЕДАКТИРОВАТЬ ВИДЕО (впрочем Moviegen, который я тренировал в Мете это тоже умеет). Правда, Veo редактирует только сгенерированные видео, но это как минимум намекает, что возможно скоро можно будет и обычные (лицо Runway видели?). Кстати, топ фича для нейронного продакшена, даже в текущем формате.
Ну и по мелочи: добавили Ингредиенты (аналог Elements), генерацию по start/end фреймам, продление видео и удобный prompt enhancer с пресетами. А вот 1080p во Flow по-прежнему отсутствует.
Sora 2, конечно, хайпит, но она будто бы для мемов сделана. Veo 3.1 — не слишком большой скачок вперёд, но теперь это как минимум достойный конкурент. Мне кажется, в AI-продакшене она всё ещё будет предпочтительнее.
@ai_newz
Видеогенератор от Google обновился до версии 3.1. Всё в целом стало получше, особенно отмечают улучшения в img2video.
Но почему-то мало кто говорит о том, что во Flow теперь можно РЕДАКТИРОВАТЬ ВИДЕО (впрочем Moviegen, который я тренировал в Мете это тоже умеет). Правда, Veo редактирует только сгенерированные видео, но это как минимум намекает, что возможно скоро можно будет и обычные (лицо Runway видели?). Кстати, топ фича для нейронного продакшена, даже в текущем формате.
Ну и по мелочи: добавили Ингредиенты (аналог Elements), генерацию по start/end фреймам, продление видео и удобный prompt enhancer с пресетами. А вот 1080p во Flow по-прежнему отсутствует.
Sora 2, конечно, хайпит, но она будто бы для мемов сделана. Veo 3.1 — не слишком большой скачок вперёд, но теперь это как минимум достойный конкурент. Мне кажется, в AI-продакшене она всё ещё будет предпочтительнее.
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤94🔥43👍22