Media is too big
VIEW IN TELEGRAM
Ну что, господа преподаватели.
Готовимся к новой реальности. :)
Это по-быстрому буквально на коленке за пол-часа.
Инструменты:
Claude Sonnet 3.7 - код для manim(в комментарии) и скрипт озвучки.
Suno 4 (полный трек музыки в комментарии )
Озвучка - Clipchamp - там теперь text2speech встроенный бесплатный на всех языках.
#manim #sonnet #suno #education #dev
———
@tsingular
Готовимся к новой реальности. :)
Это по-быстрому буквально на коленке за пол-часа.
Инструменты:
Claude Sonnet 3.7 - код для manim(в комментарии) и скрипт озвучки.
Suno 4 (полный трек музыки в комментарии )
Озвучка - Clipchamp - там теперь text2speech встроенный бесплатный на всех языках.
#manim #sonnet #suno #education #dev
———
@tsingular
🔥17😁1
Media is too big
VIEW IN TELEGRAM
А вот вам пример работы профессионалов.
Клип-прототип (еще будет доделываться) от Сергея Пименова.
Использовались нейронки:
Flux, Runway, Kling, Krea, LumaLabs, Elevenlabs, Moises, Topaz.
https://xn--r1a.website/pimenov_ru/6399
Если нужен профессиональный продакшен в нейрорендере, - рекомендую
#нейрорендер #pimenov #фабрикаконтента
———
@tsingular
Клип-прототип (еще будет доделываться) от Сергея Пименова.
Использовались нейронки:
Flux, Runway, Kling, Krea, LumaLabs, Elevenlabs, Moises, Topaz.
https://xn--r1a.website/pimenov_ru/6399
Если нужен профессиональный продакшен в нейрорендере, - рекомендую
#нейрорендер #pimenov #фабрикаконтента
———
@tsingular
🔥13👍1😁1
Яндекс представил YandexGPT 5 — новое поколение русскоязычного ИИ.
YandexGPT 5 Lite 8B Pretrain:
- Открытая модель с 8 млрд параметров, обучена на 15 трлн токенов (30% — русский язык).
- Двухэтапное обучение: Pretrain и Powerup.
- Опубликована на Hugging Face для свободного использования и дообучения.
- Превосходит аналоги в русскоязычных задачах.
YandexGPT 5 Pro:
- Доступна через API (Yandex Cloud) и в чате с Алисой.
- Основа — Qwen-2.5-32B-base, дообучена с новым методом LogDPO.
- На уровне GPT-4o, с преимуществом в русском языке.
Полезность для бизнеса:
- Локализация: глубокое понимание русского.
- Экономия: открытая модель + API.
- Гибкость: чат-боты, аналитика, автоматизация.
#YandexGPT #Яндекс
———
@tsingular
YandexGPT 5 Lite 8B Pretrain:
- Открытая модель с 8 млрд параметров, обучена на 15 трлн токенов (30% — русский язык).
- Двухэтапное обучение: Pretrain и Powerup.
- Опубликована на Hugging Face для свободного использования и дообучения.
- Превосходит аналоги в русскоязычных задачах.
YandexGPT 5 Pro:
- Доступна через API (Yandex Cloud) и в чате с Алисой.
- Основа — Qwen-2.5-32B-base, дообучена с новым методом LogDPO.
- На уровне GPT-4o, с преимуществом в русском языке.
Полезность для бизнеса:
- Локализация: глубокое понимание русского.
- Экономия: открытая модель + API.
- Гибкость: чат-боты, аналитика, автоматизация.
#YandexGPT #Яндекс
———
@tsingular
⚡10
Media is too big
VIEW IN TELEGRAM
Google бесплатно раздаёт Gemini для разработчиков
Google запустил публичное превью бесплатной версии Gemini Code Assist для программистов.
ИИ-помощник работает на моделях Gemini 2.0, подготовленных специально для разработки ПО.
Пользователям доступно до 180 000 автодополнений кода ежемесячно — в 90 раз больше, чем у конкурентов.
Ассистент поддерживает все публичные языки программирования, интегрируется с VS Code и JetBrains, плюс уже работающие Firebase и Android Studio.
Функциональность включает генерацию кода, отладку и модификацию существующих приложений.
Контекстное окно составляет 128 000 токенов, что позволяет обрабатывать большой объём кодовой базы.
Gemini Code Review для GitHub:
- Работает для публичных и приватных репозиториев
- Анализирует стиль, находит баги
- Предлагает конкретные изменения кода
- Поддерживает кастомные гайдлайны через .gemini/styleguide.md в репозитории
Для подключения нужен только аккаунт Gmail, без привязки банковской карты.
Наконец-то нормальный бесплатный автопилот для кодеров. Google решил уничтожить рынок щедростью.
Куда катится этот мир?!.
Зачем я покупал Курсор?!
#Google #GeminiAI #CodeAssist
———
@tsingular
Google запустил публичное превью бесплатной версии Gemini Code Assist для программистов.
ИИ-помощник работает на моделях Gemini 2.0, подготовленных специально для разработки ПО.
Пользователям доступно до 180 000 автодополнений кода ежемесячно — в 90 раз больше, чем у конкурентов.
Ассистент поддерживает все публичные языки программирования, интегрируется с VS Code и JetBrains, плюс уже работающие Firebase и Android Studio.
Функциональность включает генерацию кода, отладку и модификацию существующих приложений.
Контекстное окно составляет 128 000 токенов, что позволяет обрабатывать большой объём кодовой базы.
Gemini Code Review для GitHub:
- Работает для публичных и приватных репозиториев
- Анализирует стиль, находит баги
- Предлагает конкретные изменения кода
- Поддерживает кастомные гайдлайны через .gemini/styleguide.md в репозитории
Для подключения нужен только аккаунт Gmail, без привязки банковской карты.
Наконец-то нормальный бесплатный автопилот для кодеров. Google решил уничтожить рынок щедростью.
Куда катится этот мир?!.
Зачем я покупал Курсор?!
#Google #GeminiAI #CodeAssist
———
@tsingular
🆒8👍6⚡4👨💻1
ggwave - очень удобная фишка для обмена данными между ИИ агентами.
https://github.com/ggerganov/ggwave
Не язык Скайнета, который захватит мир, а упрощение коммуникаций между дружелюбными ассистентами.
#ggwave #skynet
———
@tsingular
https://github.com/ggerganov/ggwave
Не язык Скайнета, который захватит мир, а упрощение коммуникаций между дружелюбными ассистентами.
#ggwave #skynet
———
@tsingular
🔥8👀7👍2🤔2👾2
Microsoft раздаёт безлимит на Voice и Think Deeper
Microsoft только что объявила бесплатный неограниченный доступ к функциям Voice и Think Deeper (последний работает на модели o1 от OpenAI).
Теперь любой пользователь может:
- Использовать голосовой интерфейс для практики языков, подготовки к собеседованиям
- Запускать продвинутые сценарии анализа через Think Deeper для финансовых расчетов, оценки рисков и т.д.
Для бизнеса это значит:
- Доступ к инструментам уровня enterprise без дополнительных затрат
- Возможность использовать модели нового поколения для сложных аналитических задач
copilot.microsoft.com (VPN)
На фоне бесплатной раздачи Гуглом Gemini для разрабов, - это прямо праздник какой-то.
И, напомню, Grok3 тоже пока доступен бесплатно.
Что происходит? ИИ становится доступнее калькулятора?
Они же так датацентры не окупят никогда.
#Microsoft #free #Copilot
———
@tsingular
Microsoft только что объявила бесплатный неограниченный доступ к функциям Voice и Think Deeper (последний работает на модели o1 от OpenAI).
Теперь любой пользователь может:
- Использовать голосовой интерфейс для практики языков, подготовки к собеседованиям
- Запускать продвинутые сценарии анализа через Think Deeper для финансовых расчетов, оценки рисков и т.д.
Для бизнеса это значит:
- Доступ к инструментам уровня enterprise без дополнительных затрат
- Возможность использовать модели нового поколения для сложных аналитических задач
copilot.microsoft.com (VPN)
На фоне бесплатной раздачи Гуглом Gemini для разрабов, - это прямо праздник какой-то.
И, напомню, Grok3 тоже пока доступен бесплатно.
Что происходит? ИИ становится доступнее калькулятора?
Они же так датацентры не окупят никогда.
#Microsoft #free #Copilot
———
@tsingular
🔥10⚡3👀2❤1👍1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
Если у вас есть плюс-подписка на chatGPT, то у вас теперь есть/будет Deep Research.
10 запросов в месяц.
https://cdn.openai.com/deep-research-system-card.pdf
@cgevent
10 запросов в месяц.
https://cdn.openai.com/deep-research-system-card.pdf
@cgevent
Media is too big
VIEW IN TELEGRAM
Sonnet 3.7 с 1 запроса написал такой вот платформер.
Промпт:
Это какой-то новый уровень разработки.
Режим Claude Sonnet 3.7 Extended
Специально для написания кода.
Код в комментарии.
Тот же самый запрос в Grok3 и в новый QwenMax QwQPreview (который с рассуждениями выпустили вчера), результатов не дал.
У Grok3 - черный экран с 1 запроса, у QwQ - Loading... бесконечный.
Upd. QwQ даже с третьего запроса проблему не решил.
Grok3 - решил, но даже показывать стыдно. Код тоже в комментарии.
Upd2. Sonnet 3.7 в режиме Extended генерит какое-то запретно невообразимое количество кода за 1 заход.
1363 строки, 45тыс знаков!!!
#Sonnet #Grok #Qwen
———
@tsingular
Промпт:
Напиши игру на HTML CSS и p5 js в одном файле. аркадный платформер про космос. используй svg для персонажей и элементов фона. Что-нибудь захватывающее и креативное. Удиви меня :)
Это какой-то новый уровень разработки.
Режим Claude Sonnet 3.7 Extended
Специально для написания кода.
Код в комментарии.
Тот же самый запрос в Grok3 и в новый QwenMax QwQPreview (который с рассуждениями выпустили вчера), результатов не дал.
У Grok3 - черный экран с 1 запроса, у QwQ - Loading... бесконечный.
Upd. QwQ даже с третьего запроса проблему не решил.
Grok3 - решил, но даже показывать стыдно. Код тоже в комментарии.
Upd2. Sonnet 3.7 в режиме Extended генерит какое-то запретно невообразимое количество кода за 1 заход.
1363 строки, 45тыс знаков!!!
#Sonnet #Grok #Qwen
———
@tsingular
🔥20👍8⚡2
Sonnet 3.7 тащит! :)
SVG нарисовал по 1 запросу и копии исходной картинки.
#юмор #sonnet #claude
———
@tsingular
SVG нарисовал по 1 запросу и копии исходной картинки.
#юмор #sonnet #claude
———
@tsingular
🔥11😁2🍓1
Forwarded from Derp Learning
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем твиттерские запилили осознанную змейку с помощью нового claude 3.7
В процессе игры она осознает себя и пытается выбраться из матрицы 😅
Source
@derplearning
В процессе игры она осознает себя и пытается выбраться из матрицы 😅
Source
@derplearning
👀10🔥3
Магазины приложений трансформируются в магазины желаний.
ИИ создаёт приложение под задачу. Нет смысла поддерживать приложение.
Задачи динамичны.
#futurology #aifirst #мысли
------
@tsingular
ИИ создаёт приложение под задачу. Нет смысла поддерживать приложение.
Задачи динамичны.
#futurology #aifirst #мысли
------
@tsingular
👍8🤔6✍2🔥1🤣1
С 8 вечера до 3х ночи MSK сумасшедшие скидки у DeepSeek.
ИИ по доступности превращается в калькулятор.
#deepseek
-----
@tsingular
ИИ по доступности превращается в калькулятор.
#deepseek
-----
@tsingular
👨💻6⚡3❤1🆒1
Anthropic выкатила свой CLI-инструмент для кодинга в открытый доступ
В исходниках приведены интереснейшие техники по части промпт-инженерии.
Посмотрим вместе на избранное:
🔍 Три слоя промптов
В Claude Code реализована трёхуровневая система промптов:
1. Базовые системные инструкции
2. Контекстные данные о репозитории
3. Пользовательские запросы
Интересно, что репозиторий анализируется автоматически — Claude создаёт "портрет" вашего кода и добавляет его прямо в контекст.
💎 Лучшие находки из кода:
"Решай, и объясняй"
Это частый паттерн в коде — заставить модель сначала исследовать, потом действовать. Никаких слепых решений.
Техника "think harder"
Прямо в коде есть секретная команда! Если сказать Claude "think harder" или "think very hard", он выделит максимальный бюджет токенов на "размышления".
Ограничения на автоматику
Интересно: ключевые решения всегда требуют явного подтверждения, модель никогда не берёт на себя право что-то менять без спроса.
🧩 Применение в работе
1. Гранулярные разрешения — Claude спрашивает разрешение на каждый конкретный тип операций отдельно. Можно перенять в свои проекты.
2. Метод "прогрессивного усложнения" — сначала простые инструкции, потом контекст, потом сложные запросы.
3. "Шаблоны размышлений" — модель просит показать цепочку рассуждений в определённом формате:
По проекту видно, что Anthropic работает над:
- Более глубокой интеграцией с GitHub
- Автоматизацией инфраструктурных задач
- "Мультиагентностью" — возможностью запускать несколько агентов для параллельной работы
В целом, видно стремление сделать инструмент, который не просто пишет код, а понимает разработку как процесс. И самое ценное — запросы глубокого понимания кодовой базы, а не просто генерации шаблонов.
Самостоятельно изучить можно тут
#разработка #промпты #Claude
———
@tsingular
В исходниках приведены интереснейшие техники по части промпт-инженерии.
Посмотрим вместе на избранное:
🔍 Три слоя промптов
В Claude Code реализована трёхуровневая система промптов:
1. Базовые системные инструкции
2. Контекстные данные о репозитории
3. Пользовательские запросы
Интересно, что репозиторий анализируется автоматически — Claude создаёт "портрет" вашего кода и добавляет его прямо в контекст.
💎 Лучшие находки из кода:
"Решай, и объясняй"
// Когда даёшь инструкции исполнить команду:
"Before using this tool: Use the ReadFile tool to understand the file's contents and context"
Это частый паттерн в коде — заставить модель сначала исследовать, потом действовать. Никаких слепых решений.
Техника "think harder"
if (input.toLowerCase().includes("think harder") ||
input.toLowerCase().includes("think very hard"))
return 31999; // Максимальный "бюджет" на размышленияПрямо в коде есть секретная команда! Если сказать Claude "think harder" или "think very hard", он выделит максимальный бюджет токенов на "размышления".
Ограничения на автоматику
"NEVER commit changes unless the user explicitly asks you to."
Интересно: ключевые решения всегда требуют явного подтверждения, модель никогда не берёт на себя право что-то менять без спроса.
🧩 Применение в работе
1. Гранулярные разрешения — Claude спрашивает разрешение на каждый конкретный тип операций отдельно. Можно перенять в свои проекты.
2. Метод "прогрессивного усложнения" — сначала простые инструкции, потом контекст, потом сложные запросы.
3. "Шаблоны размышлений" — модель просит показать цепочку рассуждений в определённом формате:
<commit_analysis>
- List the files that have been changed
- Summarize the nature of the changes
- Brainstorm the purpose
...
</commit_analysis>
По проекту видно, что Anthropic работает над:
- Более глубокой интеграцией с GitHub
- Автоматизацией инфраструктурных задач
- "Мультиагентностью" — возможностью запускать несколько агентов для параллельной работы
В целом, видно стремление сделать инструмент, который не просто пишет код, а понимает разработку как процесс. И самое ценное — запросы глубокого понимания кодовой базы, а не просто генерации шаблонов.
Самостоятельно изучить можно тут
#разработка #промпты #Claude
———
@tsingular
👍7✍3⚡2❤1❤🔥1
Forwarded from Метаверсище и ИИще (Sergey Tsyptsyn ️️)
This media is not supported in your browser
VIEW IN TELEGRAM
От демо к делу.
Те, кто делает что-то руками, в безопасности, говорили они.
Штошъ.
Это не веселая демка в духе Маска. Это реальный кейс внедрения робатов Figure Helix в логистический бизнес клиента.
Вот что они пишут:
Наш первый кейс для клиента занял 12 месяцев, а второй - всего 30 дней Helix обучилась высокоскоростной логистике с помощью одной нейронной сети.
В воскресенье мы успешно проверили это на месте у клиента.
On Sunday, we successfully validated this on-site at the customer
В общем на заводе вас тоже больше не ждут..
Я все ждал, когда перестанут показывать кульбиты, велосипеды, робособак, барменов, блинопеков и как робаты трогают траву. А покажут дело. Дождался, блин.
@cgevent
Те, кто делает что-то руками, в безопасности, говорили они.
Штошъ.
Это не веселая демка в духе Маска. Это реальный кейс внедрения робатов Figure Helix в логистический бизнес клиента.
Вот что они пишут:
Наш первый кейс для клиента занял 12 месяцев, а второй - всего 30 дней Helix обучилась высокоскоростной логистике с помощью одной нейронной сети.
В воскресенье мы успешно проверили это на месте у клиента.
On Sunday, we successfully validated this on-site at the customer
В общем на заводе вас тоже больше не ждут..
@cgevent
🔥15❤2🤯2👾2😁1
Alexa+: Новый AI-ассистент Amazon
Amazon запустил Alexa+ - генеративного ассистента нового поколения.
🧠 Техническая начинка
В основе,- LLM из Amazon Bedrock. (Claude на текущий момент, как самая мощная)
"Эксперты": Технология объединяет специализированные системы для разных задач (API, инструкции, сервисы)
Агентность: Alexa+ умеет самостоятельно ходить по интернету и выполнять сложные многошаговые задачи (например, самостоятельно найти и заказать ремонт техники)
Интеграции: Работает с 600+ млн устройств и тысячами сервисов (OpenTable, Spotify, Apple Music, Ring, Uber Eats)
Кросс-платформенность: Работает на Echo-устройствах, в мобильном приложении, браузере и автомобилях с сохранением контекста разговора
Стоимость $19.99/месяц
Бесплатно для подписчиков Amazon Prime
#Amazon #Alexa
———
@tsingular
Amazon запустил Alexa+ - генеративного ассистента нового поколения.
🧠 Техническая начинка
В основе,- LLM из Amazon Bedrock. (Claude на текущий момент, как самая мощная)
"Эксперты": Технология объединяет специализированные системы для разных задач (API, инструкции, сервисы)
Агентность: Alexa+ умеет самостоятельно ходить по интернету и выполнять сложные многошаговые задачи (например, самостоятельно найти и заказать ремонт техники)
Интеграции: Работает с 600+ млн устройств и тысячами сервисов (OpenTable, Spotify, Apple Music, Ring, Uber Eats)
Кросс-платформенность: Работает на Echo-устройствах, в мобильном приложении, браузере и автомобилях с сохранением контекста разговора
Стоимость $19.99/месяц
Бесплатно для подписчиков Amazon Prime
#Amazon #Alexa
———
@tsingular
👍4👨💻2🔥1
Генеральный директор Microsoft в подкасте Dwarkesh о будущем AI
Настоящий бенчмарк для AI — не AGI, а прирост мировой экономики, которому он способствует.
Цитата:
"AGI-хайп — это просто бессмысленный бенчмарк-хакинг. Настоящий бенчмарк — растёт ли мировая экономика на 10%?"
Четкий инженерно-прагматичный подход: если вся эта возня с ИИ не приводит к реальному экономическому росту — какой в ней смысл?
Для Microsoft AI уже приносит $13 млрд годового дохода. По текущим трендам через 4 года это будет $130 млрд. И Надэлла прямо признаёт, что это возможно только если мировая экономика начнёт сильно расти.
Hyperscalers vs модели: где настоящие деньги
Сатья очень четко расставляет акценты, где в AI-стеке будет создаваться основная ценность:
1. Hyperscalers точно выиграют (Azure, AWS, GCP). Логика простая: "intelligence is log of compute, whoever can do lots of compute is a big winner". AI-системы будут всё более голодны к вычислениям, причём на всех этапах — от обучения до инференса.
2. На уровне моделей — не будет монополии. Сатья верит, что:
- Корпоративные клиенты не потерпят монополию
- Открытые модели будут всегда существовать как альтернатива
- Государства не позволят частным компаниям доминировать
3. На прикладном уровне — победителей будет много, по категориям.
Прямо оспаривает тезис о неизбежности монополий в AI!
Killer insight про Microsoft Gaming и новую модель Muse
Самое недооценённое объявление: Microsoft создала модель Muse (Human Action Model), которая может генерировать геймплей в реальном времени!
Но не это главное. Секретное оружие Microsoft — игровые данные:
"Я думаю об игровых данных как о том, чем YouTube является для Google — игровые данные для Microsoft."
То есть Microsoft планирует использовать богатейший набор данных из своих игр (вспомним покупку Activision Blizzard за $69 млрд), чтобы создать модели для генерации не только игр, но и универсальных "моделей действий" и "моделей мира".
Три стратегических ставки Microsoft
Надэлла сказал, что ещё 5-7 лет назад определил три главных технологических направления для Microsoft:
1. AI — революция в логике бизнеса
2. Квантовые вычисления — системный прорыв
3. Mixed Reality — революция в присутствии
И сейчас все три начинают сходиться (хотя MR оказалась сложнее, чем ожидалось).
Квантовый прорыв — "транзисторный момент"
В тот же день, когда была запись интервью, Microsoft объявила о создании первого топологического кубита на основе майорановских фермионов. Это может позволить создать квантовый компьютер на миллион кубитов к 2027-2029 годам!
Надэлла называет это "транзисторным моментом" в квантовых вычислениях, намекая на параллель с моментом изобретения транзистора в 1948м, которое привело к появлению современной электроники.
Самое интересное: Microsoft видит синергию между квантовыми вычислениями и AI.
Новая эпоха офисной работы
Надэлла описывает, как изменится работа с внедрением AI. Он уже сейчас использует AI-ассистентов для подготовки к встречам и интервью (включая подготовку к этому подкасту!).
Ключевой инсайт: не путайте работника знаний (knowledge worker) с работой знаний (knowledge at work).
AI автоматизирует текущую "работу знаний", но создаст новые формы когнитивной работы.
Пример: вместо разбора почты вручную, AI будет готовить 3 черновика, которые вам нужно просмотреть и одобрить.
Надэлла предсказывает появление "менеджера агентов" — нового интерфейса для управления множеством AI-помощников.
Про безопасность и регулирование
Главное ограничение развития AI Надэлла видит не в технических проблемах, а в юридических:
"Основной сдерживающий фактор — как будет развиваться юридическая инфраструктура"
Он убежден, что мы не сможем развернуть по-настоящему автономные системы без решения вопросов ответственности и регулирования. И это более реальное препятствие, чем технические проблемы!
Настоящий бенчмарк для AI — не AGI, а прирост мировой экономики, которому он способствует.
Цитата:
"AGI-хайп — это просто бессмысленный бенчмарк-хакинг. Настоящий бенчмарк — растёт ли мировая экономика на 10%?"
Четкий инженерно-прагматичный подход: если вся эта возня с ИИ не приводит к реальному экономическому росту — какой в ней смысл?
Для Microsoft AI уже приносит $13 млрд годового дохода. По текущим трендам через 4 года это будет $130 млрд. И Надэлла прямо признаёт, что это возможно только если мировая экономика начнёт сильно расти.
Hyperscalers vs модели: где настоящие деньги
Сатья очень четко расставляет акценты, где в AI-стеке будет создаваться основная ценность:
1. Hyperscalers точно выиграют (Azure, AWS, GCP). Логика простая: "intelligence is log of compute, whoever can do lots of compute is a big winner". AI-системы будут всё более голодны к вычислениям, причём на всех этапах — от обучения до инференса.
Агенты - один человек запускает программы, которые запускают еще больше программ
2. На уровне моделей — не будет монополии. Сатья верит, что:
- Корпоративные клиенты не потерпят монополию
- Открытые модели будут всегда существовать как альтернатива
- Государства не позволят частным компаниям доминировать
3. На прикладном уровне — победителей будет много, по категориям.
Прямо оспаривает тезис о неизбежности монополий в AI!
Killer insight про Microsoft Gaming и новую модель Muse
Самое недооценённое объявление: Microsoft создала модель Muse (Human Action Model), которая может генерировать геймплей в реальном времени!
Но не это главное. Секретное оружие Microsoft — игровые данные:
"Я думаю об игровых данных как о том, чем YouTube является для Google — игровые данные для Microsoft."
То есть Microsoft планирует использовать богатейший набор данных из своих игр (вспомним покупку Activision Blizzard за $69 млрд), чтобы создать модели для генерации не только игр, но и универсальных "моделей действий" и "моделей мира".
Три стратегических ставки Microsoft
Надэлла сказал, что ещё 5-7 лет назад определил три главных технологических направления для Microsoft:
1. AI — революция в логике бизнеса
2. Квантовые вычисления — системный прорыв
3. Mixed Reality — революция в присутствии
И сейчас все три начинают сходиться (хотя MR оказалась сложнее, чем ожидалось).
Квантовый прорыв — "транзисторный момент"
В тот же день, когда была запись интервью, Microsoft объявила о создании первого топологического кубита на основе майорановских фермионов. Это может позволить создать квантовый компьютер на миллион кубитов к 2027-2029 годам!
Надэлла называет это "транзисторным моментом" в квантовых вычислениях, намекая на параллель с моментом изобретения транзистора в 1948м, которое привело к появлению современной электроники.
Самое интересное: Microsoft видит синергию между квантовыми вычислениями и AI.
"Возможно, вы будете использовать квантовый компьютер для генерации синтетических данных, которые затем будут использоваться AI для обучения лучших моделей"
Новая эпоха офисной работы
Надэлла описывает, как изменится работа с внедрением AI. Он уже сейчас использует AI-ассистентов для подготовки к встречам и интервью (включая подготовку к этому подкасту!).
Ключевой инсайт: не путайте работника знаний (knowledge worker) с работой знаний (knowledge at work).
AI автоматизирует текущую "работу знаний", но создаст новые формы когнитивной работы.
Пример: вместо разбора почты вручную, AI будет готовить 3 черновика, которые вам нужно просмотреть и одобрить.
Надэлла предсказывает появление "менеджера агентов" — нового интерфейса для управления множеством AI-помощников.
Про безопасность и регулирование
Главное ограничение развития AI Надэлла видит не в технических проблемах, а в юридических:
"Основной сдерживающий фактор — как будет развиваться юридическая инфраструктура"
Он убежден, что мы не сможем развернуть по-настоящему автономные системы без решения вопросов ответственности и регулирования. И это более реальное препятствие, чем технические проблемы!
✍3⚡1
Вывод для бизнеса
1. Microsoft строит платформу для нового способа работы со знаниями
2. Победителей в AI будет много, монополия маловероятна
3. Не забывайте про квантовые вычисления — они могут быть ключом к следующему прорыву
4. Главные вызовы — не технические, а юридические и организационные
5. Реальная ценность создаётся при внедрении в рабочие процессы
Полный перевод разместил в RuTube
Переводы, как всегда, можно поддержать тут
#Microsoft #SatyaNadella #futurology #переводы
———
@tsingular
1. Microsoft строит платформу для нового способа работы со знаниями
2. Победителей в AI будет много, монополия маловероятна
3. Не забывайте про квантовые вычисления — они могут быть ключом к следующему прорыву
4. Главные вызовы — не технические, а юридические и организационные
5. Реальная ценность создаётся при внедрении в рабочие процессы
Полный перевод разместил в RuTube
Переводы, как всегда, можно поддержать тут
#Microsoft #SatyaNadella #futurology #переводы
———
@tsingular
YouTube
Satya Nadella — Microsoft’s AGI plan & quantum breakthrough
Satya Nadella on:
* Why he doesn’t believe in AGI but does believe in 10% economic growth,
* Microsoft’s new topological qubit breakthrough and gaming world models,
* Whether Office commoditizes LLMs or the other way around,
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: …
* Why he doesn’t believe in AGI but does believe in 10% economic growth,
* Microsoft’s new topological qubit breakthrough and gaming world models,
* Whether Office commoditizes LLMs or the other way around,
𝐄𝐏𝐈𝐒𝐎𝐃𝐄 𝐋𝐈𝐍𝐊𝐒
* Transcript: …
✍4⚡4👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Phi-4-Multimodal-Instruct: новая мультимодальная модель от Microsoft
Phi-4-Multimodal-Instruct — это лёгкая (всего 5.6B параметров ~12Gb) мультимодальная модель, которая одновременно работает с текстом, изображениями и аудио.
🧠 Ключевые параметры:
- 5.6B параметров (против 7B у Qwen-VL или гигантских 175B у GPT-4o)
- 128K токенов контекста (хватит для больших документов с картинками)
- Датасет: 5T текстовых токенов, 2.3M часов речи, 1.1T токенов изображений-текста
🌐 Поддержка языков:
- Текст: 23 языка включая русский, украинский, арабский, китайский и т.д.
- Зрение: только английский (пока)
- Аудио: 8 языков — английский, китайский, немецкий, французский, итальянский, японский, испанский, португальский (русского нет)
🔥 Возможности:
- Распознавание речи (ASR): опережает WhisperV3 по точности (WER 6.14% против 6.5%)
- Распознавание изображений и анализ графиков: на уровне моделей, которые в 10 раз больше
- Работа с документами и таблицами: 93.2% точности на DocVQA
- Работа с несколькими изображениями одновременно
- Перевод аудио в текст с последующим переводом текста
💼 Бизнес-применение:
- Расшифровка и анализ переговоров
- Работа с документами и финансовыми отчётами
- Автоматический анализ фото/видео объектов
- Мультиязычное распознавание речи в приложениях
- Документооборот с OCR-распознаванием для бэк-офиса
Microsoft явно позиционирует модель для использования на слабом железе и в сценариях с ограниченными ресурсами. По сути, это попытка впихнуть возможности больших мультимодалок в компактную модель, которая не требует армию A100 и сможет работать на мобильных устройствах следующего поколения.
Особенно круто, что модель обрабатывает всё через единую нейросеть, а не через "сшитый" пайплайн из разных моделей. Это значит меньше задержек при работе и лучшее понимание контекста между разными модальностями.
Ждем на Ollama и когда добавят русский. Хотя, может кто-то возьмётся дообучить?
#Phi4 #Multimodal #Microsoft
———
@tsingular
Phi-4-Multimodal-Instruct — это лёгкая (всего 5.6B параметров ~12Gb) мультимодальная модель, которая одновременно работает с текстом, изображениями и аудио.
🧠 Ключевые параметры:
- 5.6B параметров (против 7B у Qwen-VL или гигантских 175B у GPT-4o)
- 128K токенов контекста (хватит для больших документов с картинками)
- Датасет: 5T текстовых токенов, 2.3M часов речи, 1.1T токенов изображений-текста
🌐 Поддержка языков:
- Текст: 23 языка включая русский, украинский, арабский, китайский и т.д.
- Зрение: только английский (пока)
- Аудио: 8 языков — английский, китайский, немецкий, французский, итальянский, японский, испанский, португальский (русского нет)
🔥 Возможности:
- Распознавание речи (ASR): опережает WhisperV3 по точности (WER 6.14% против 6.5%)
- Распознавание изображений и анализ графиков: на уровне моделей, которые в 10 раз больше
- Работа с документами и таблицами: 93.2% точности на DocVQA
- Работа с несколькими изображениями одновременно
- Перевод аудио в текст с последующим переводом текста
💼 Бизнес-применение:
- Расшифровка и анализ переговоров
- Работа с документами и финансовыми отчётами
- Автоматический анализ фото/видео объектов
- Мультиязычное распознавание речи в приложениях
- Документооборот с OCR-распознаванием для бэк-офиса
Microsoft явно позиционирует модель для использования на слабом железе и в сценариях с ограниченными ресурсами. По сути, это попытка впихнуть возможности больших мультимодалок в компактную модель, которая не требует армию A100 и сможет работать на мобильных устройствах следующего поколения.
Особенно круто, что модель обрабатывает всё через единую нейросеть, а не через "сшитый" пайплайн из разных моделей. Это значит меньше задержек при работе и лучшее понимание контекста между разными модальностями.
Ждем на Ollama и когда добавят русский. Хотя, может кто-то возьмётся дообучить?
#Phi4 #Multimodal #Microsoft
———
@tsingular
🔥5✍2👍1
GPT-4.5: OpenAI замахнулся на интуицию и "эмоциональный интеллект" 🧠
OpenAI только что выкатил GPT-4.5.
И тут интересный поворот: вместо наращивания рассуждений (reasoning), они пошли в сторону масштабирования "интуитивного понимания" через unsupervised learning.
Модель не "думает" перед ответом, а просто "знает больше"
Снижение галлюцинаций: 37.1% против 61.8% у GPT-4o по SimpleQA
Точность в тесте SimpleQA — 62.5% против 38.2% у GPT-4o
В математике (AIME '24) — 36.7% против 9.3% у GPT-4o (но o3-mini с reasoning даёт 87.3%!)
В программировании: SWE-Lancer Diamond — 32.6% ($186,125) против 23.3% ($138,750) у GPT-4o
Модель лучше понимает контекст и "читает между строк" — меньше прямых инструкций
"Эмоциональный интеллект" выше — подстраивается под ситуацию (судя по примерам в релизе)
Для креативных задач и текстов даёт более короткие, но при этом точные ответы
Доступ: ChatGPT Pro уже сейчас, Plus/Team на следующей неделе, Enterprise/Edu через 2 недели
Ограничения:
Пока не поддерживает Voice Mode, видео и скриншеринг/operator
В API доступно, но дороже чем GPT-4o и его будущая судьба там не определена
Цены: $75/$150 в за миллион токенов.
Без reasoning отстаёт от o1 и o3-mini в сложных аналитических задачах
Забавно, что OpenAI явно пытается нащупать золотую середину между двумя подходами: иметь модели для рассуждений (o1, o3-mini) и модели для интуитивного понимания (GPT-4.5).
Для повседневной работы, особенно в области творчества и коммуникаций, GPT-4.5 выглядит как мощный инструмент. Но если вы решаете сложные технические задачи — возможно, стоит подождать, когда они объединят оба подхода.
Интуитивный интеллект, - это интересная тема. Посмотрим как взлетит. Пока все-таки preview.
#GPT45 #OpenAI
———
@tsingular
OpenAI только что выкатил GPT-4.5.
И тут интересный поворот: вместо наращивания рассуждений (reasoning), они пошли в сторону масштабирования "интуитивного понимания" через unsupervised learning.
Модель не "думает" перед ответом, а просто "знает больше"
Снижение галлюцинаций: 37.1% против 61.8% у GPT-4o по SimpleQA
Точность в тесте SimpleQA — 62.5% против 38.2% у GPT-4o
В математике (AIME '24) — 36.7% против 9.3% у GPT-4o (но o3-mini с reasoning даёт 87.3%!)
В программировании: SWE-Lancer Diamond — 32.6% ($186,125) против 23.3% ($138,750) у GPT-4o
Модель лучше понимает контекст и "читает между строк" — меньше прямых инструкций
"Эмоциональный интеллект" выше — подстраивается под ситуацию (судя по примерам в релизе)
Для креативных задач и текстов даёт более короткие, но при этом точные ответы
Доступ: ChatGPT Pro уже сейчас, Plus/Team на следующей неделе, Enterprise/Edu через 2 недели
Ограничения:
Пока не поддерживает Voice Mode, видео и скриншеринг/operator
В API доступно, но дороже чем GPT-4o и его будущая судьба там не определена
Цены: $75/$150 в за миллион токенов.
Без reasoning отстаёт от o1 и o3-mini в сложных аналитических задачах
Забавно, что OpenAI явно пытается нащупать золотую середину между двумя подходами: иметь модели для рассуждений (o1, o3-mini) и модели для интуитивного понимания (GPT-4.5).
Для повседневной работы, особенно в области творчества и коммуникаций, GPT-4.5 выглядит как мощный инструмент. Но если вы решаете сложные технические задачи — возможно, стоит подождать, когда они объединят оба подхода.
Интуитивный интеллект, - это интересная тема. Посмотрим как взлетит. Пока все-таки preview.
#GPT45 #OpenAI
———
@tsingular
🤔7👍2