Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
У xAI прошел хакатон и выиграл там проект который мне кажется генерирует ненависть больше чем все остальное, представьте:
1. Вы смотрите любимый фильм или сериал
2. В какой-то момент герои берут какие-то шмотки и начинают их вам рекламировать, как часть фильма
3. Реклама заканчивается и кино играет как обычно
Надеюсь эта фигня никогда не попадет в продакшн – мгновенно стану пиратом сервиса который это подключит
Генеративный АИ, но про генерацию кортизола
1. Вы смотрите любимый фильм или сериал
2. В какой-то момент герои берут какие-то шмотки и начинают их вам рекламировать, как часть фильма
3. Реклама заканчивается и кино играет как обычно
Надеюсь эта фигня никогда не попадет в продакшн – мгновенно стану пиратом сервиса который это подключит
Генеративный АИ, но про генерацию кортизола
😁23🤯7
Всё, что нужно знать о бенчмарках в этом году.
Год назад мы проверили предварительную версию ещё не выпущенной OpenAI o3 (High), которая набрала 88% на ARC-AGI-1 при ориентировочной стоимости $4,5k за задачу.
Сегодня мы проверили новый GPT-5.2 Pro (X-High) с рекордным (SOTA) результатом 90,5% при стоимости $11,64 за задачу.
Это означает примерно 390-кратное улучшение эффективности за один год.
🤯19👍18🔥5😁3
Zoom (???) получил соту на HLE - 48.1%. Что вообще происходит?
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social
https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social
😁34🌚10❤1
Просить LLM отвечать в роли эксперта в чем-то не повышает точность ответа.
Статья.
Тестили 6 моделей: GPT-4o, GPT-4o-mini, o3-mini, o4-mini, Gemini 2.0 Flash и Gemini 2.5 Flash. На двух бенчах: GPQA Diamond и MMLU-Pro - это вопросы университетского уровня, по естественным наукам, инженерии и праву
Если смотреть только на правильность ответов, добавление «роли/персоны» в запрос чаще всего ничего не улучшает по сравнению с обычным запросом без роли. Роль «эксперта» не дает надежного выигрыша на разных моделях, кроме отдельных случаев. А если «эксперт» выбран не по теме, качество иногда падает. «Неуверенные» или «малознающие» роли в среднем тоже ухудшают точность.
При этом, понятно, что персоны могут быть нужны не ради фактов, а ради стиля и подачи. Но для качества - похоже, что нет.
Статья.
Тестили 6 моделей: GPT-4o, GPT-4o-mini, o3-mini, o4-mini, Gemini 2.0 Flash и Gemini 2.5 Flash. На двух бенчах: GPQA Diamond и MMLU-Pro - это вопросы университетского уровня, по естественным наукам, инженерии и праву
Если смотреть только на правильность ответов, добавление «роли/персоны» в запрос чаще всего ничего не улучшает по сравнению с обычным запросом без роли. Роль «эксперта» не дает надежного выигрыша на разных моделях, кроме отдельных случаев. А если «эксперт» выбран не по теме, качество иногда падает. «Неуверенные» или «малознающие» роли в среднем тоже ухудшают точность.
При этом, понятно, что персоны могут быть нужны не ради фактов, а ради стиля и подачи. Но для качества - похоже, что нет.
👍30🤯9❤6😁2🌚1
GPT Image 1.5.
Будет доступна с сегодня всем пользователям ChatGPT и через API.
- модель делает точные правки, сохраняет важные детали (например, лица - ура, композиция, освещение)
- лучше следует инструкциям
- прокачали рендер текстов (плотные и мелкие тексты)
- улучшили “натуральность” результатов и кейсы типа “много маленьких лиц”.
- в 4 раза быстрее
https://openai.com/index/new-chatgpt-images-is-here/
Будет доступна с сегодня всем пользователям ChatGPT и через API.
- модель делает точные правки, сохраняет важные детали (например, лица - ура, композиция, освещение)
- лучше следует инструкциям
- прокачали рендер текстов (плотные и мелкие тексты)
- улучшили “натуральность” результатов и кейсы типа “много маленьких лиц”.
- в 4 раза быстрее
https://openai.com/index/new-chatgpt-images-is-here/
Openai
The new ChatGPT Images is here
The new ChatGPT Images is powered by our flagship image generation model, delivering more precise edits, consistent details, and image generation up to 4× faster. The upgraded model is rolling out to all ChatGPT users today and is also available in the API…
❤10🔥9👍6
Nvidia покупает Groq.
Тот самый, который делает чипы для быстрого инференса LLM.
- Это крупнейшая покупка Nvidia за всю историю - $20 млрд.
- Компания была основана создателями Tensor Processing Unit (TPU) от Google. Они сейчас конкурируют (ну, хотят) с Nvidia в железе.
- Groq, оценивался в $6,9 млрд в раунде финансирования в сентябре, и сейчас представил сделку как «неэксклюзивное лицензионное соглашение», при этом CEO и другие руководители высшего звена переходят в Nvidia.
Source
Тот самый, который делает чипы для быстрого инференса LLM.
- Это крупнейшая покупка Nvidia за всю историю - $20 млрд.
- Компания была основана создателями Tensor Processing Unit (TPU) от Google. Они сейчас конкурируют (ну, хотят) с Nvidia в железе.
- Groq, оценивался в $6,9 млрд в раунде финансирования в сентябре, и сейчас представил сделку как «неэксклюзивное лицензионное соглашение», при этом CEO и другие руководители высшего звена переходят в Nvidia.
Source
CNBC
Nvidia buying AI chip startup Groq's assets for about $20 billion in its largest deal on record
Nvidia is making its largest purchase ever, acquiring assets from 9-year-old chip startup Groq for about $20 billion.
🤯25👍5🤔1
Claude выращивает томат. 🍅
Интересный эксперимент, где Claude вот уже 37 дней выращивает томат в контролируемой среде.
У него есть датчики температуры, влажности воздуха и почвы, давления, уровня СО2, температуры листьев.
И он может управлять светом, подогревом почвы (через подогрев коврика), вентиляцией, подачей воды.
Посмотреть, что там сейчас и почитать лог можно тут: https://autoncorp.com/biodome/
Автономные теплицы все ближе!
Автор
Интересный эксперимент, где Claude вот уже 37 дней выращивает томат в контролируемой среде.
У него есть датчики температуры, влажности воздуха и почвы, давления, уровня СО2, температуры листьев.
И он может управлять светом, подогревом почвы (через подогрев коврика), вентиляцией, подачей воды.
Посмотреть, что там сейчас и почитать лог можно тут: https://autoncorp.com/biodome/
Автономные теплицы все ближе!
Автор
🔥40❤11👍4🤯3🌚3
Друзья, С Новым годом!
Пусть в 2026-м жизнь не станет “эффективнее” - а станет проще и честнее. Чтобы работа делалась без героизма и с удовольствием, а бытовые мелочи решались сами собой, как будто у них появился стыд.
Пусть здоровье не требует переговоров, близкие будут рядом без лишних поводов, и деньги - тоже без лишних объяснений.
А если уж в дом пришёл ИИ то пусть ведёт себя, как приличный человек, как говорится.
Всем любви, мира, здоровья и вообще чтоб классно было!
Пусть в 2026-м жизнь не станет “эффективнее” - а станет проще и честнее. Чтобы работа делалась без героизма и с удовольствием, а бытовые мелочи решались сами собой, как будто у них появился стыд.
Пусть здоровье не требует переговоров, близкие будут рядом без лишних поводов, и деньги - тоже без лишних объяснений.
А если уж в дом пришёл ИИ то пусть ведёт себя, как приличный человек, как говорится.
Всем любви, мира, здоровья и вообще чтоб классно было!
❤36🔥14👍7
В 2026 году астронавты полетят вокруг Луны - миссия Artemis II.
Каждый может отправить туда и свое имя! Зарегистрированные имена будут записаны на SD-карту, которая полетит внутри корабля Orion.
Регаетесь тут, дадут аж boarding pass:
https://www3.nasa.gov/send-your-name-with-artemis/
Каждый может отправить туда и свое имя! Зарегистрированные имена будут записаны на SD-карту, которая полетит внутри корабля Orion.
Регаетесь тут, дадут аж boarding pass:
https://www3.nasa.gov/send-your-name-with-artemis/
🔥17❤6😁5
LaTeX в ChatGPT.
Я помню, насколько больно было писать статьи со всеми эти требованиями по отступам, интервалам и прочей головомойкой. С появлением в моей жизни латеха стало круче, но как будто бы еще больнее. Overleaf вообще показался какой-то маной небесной, когда я его впервые попробовал.
Теперь вот ллмки навешивают поверх этого всего - а то я всё думал, когда уже. Ведь кейс самый что ни на есть ллмный. Хотя может уже и были попытки, конечно, я не следил пристально - я опенаи фанбой и слежу за модой в основном по ним 😅
https://openai.com/prism/
Я помню, насколько больно было писать статьи со всеми эти требованиями по отступам, интервалам и прочей головомойкой. С появлением в моей жизни латеха стало круче, но как будто бы еще больнее. Overleaf вообще показался какой-то маной небесной, когда я его впервые попробовал.
Теперь вот ллмки навешивают поверх этого всего - а то я всё думал, когда уже. Ведь кейс самый что ни на есть ллмный. Хотя может уже и были попытки, конечно, я не следил пристально - я опенаи фанбой и слежу за модой в основном по ним 😅
https://openai.com/prism/
Openai
Prism | A free, LaTeX-native workspace for scientists
Write, edit, and collaborate on scientific documents in LaTeX with Prism—a free workspace integrating GPT-5.2 into research and writing.
❤11👍7
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Примеры Genie 3 начали заполнять интернет.
Собрал несколько классных от себя:
• распятие Иисуса - гуляем по сцене и смотрим вокруг
• катаемся на jetski вокруг острова Эпштейна (ага)
• оживляем любимую игрушку ребенка и бегаем от ее лица по комнате
• катаемся по полу метро Нью-йорка за пачку сигарет среди мусора
• играем в GTA6
• катаемся за металлический шарик среди других желтых шаров
Выглядит, конечно, впечатляюще. Попробвать можно пользователям с подпиской Ultra.
Собрал несколько классных от себя:
• распятие Иисуса - гуляем по сцене и смотрим вокруг
• катаемся на jetski вокруг острова Эпштейна (ага)
• оживляем любимую игрушку ребенка и бегаем от ее лица по комнате
• катаемся по полу метро Нью-йорка за пачку сигарет среди мусора
• играем в GTA6
• катаемся за металлический шарик среди других желтых шаров
Выглядит, конечно, впечатляюще. Попробвать можно пользователям с подпиской Ultra.
❤16🤯7👍3
Банк Goldman Sachs начинает внедрять модель Claude, чтобы максимально автоматизировать работу в бухгалтерии и комплаенсе (это всякий контроль соблюдения законов и внутренних правил). Около 6 месяцев (!) инженеры Anthropic работали внутри Goldman и вместе с командой банка делали системы, которые действуют как “цифровые сотрудники” для большого объёма рутинных, процессных задач.
Схема такая: агент на базе LLM может читать большие пачки торговых записей и тексты внутренних правил/политик, а затем по шагам применять правила - что сделать, что пометить как подозрительное, а что отправить на согласование.
В голдман говорят, что неожиданностью стало то, что Claude хорош не только в программировании: тот же “стиль рассуждения” отлично работает и для задач бухгалтерии и комплаенса, где нужно разбираться в тексте, таблицах и исключениях.
Может уже и политиков пора заменять потихоньку, а?..
сорс
Схема такая: агент на базе LLM может читать большие пачки торговых записей и тексты внутренних правил/политик, а затем по шагам применять правила - что сделать, что пометить как подозрительное, а что отправить на согласование.
В голдман говорят, что неожиданностью стало то, что Claude хорош не только в программировании: тот же “стиль рассуждения” отлично работает и для задач бухгалтерии и комплаенса, где нужно разбираться в тексте, таблицах и исключениях.
Может уже и политиков пора заменять потихоньку, а?..
сорс
CNBC
Goldman Sachs is tapping Anthropic’s AI model to automate accounting, compliance roles
Goldman Sachs is building AI agents with Anthropic’s Claude to automate trade accounting and client onboarding, aiming to speed work and boost efficiency.
🔥21❤5👍5😁3🌚1