Адель и МЛь
2.62K subscribers
287 photos
109 videos
268 links
Об ИИ и жизни в Нидерландах @AdelZakirov
Download Telegram
Forwarded from Denis Sexy IT 🤖
Media is too big
VIEW IN TELEGRAM
У xAI прошел хакатон и выиграл там проект который мне кажется генерирует ненависть больше чем все остальное, представьте:

1. Вы смотрите любимый фильм или сериал
2. В какой-то момент герои берут какие-то шмотки и начинают их вам рекламировать, как часть фильма
3. Реклама заканчивается и кино играет как обычно

Надеюсь эта фигня никогда не попадет в продакшн – мгновенно стану пиратом сервиса который это подключит

Генеративный АИ, но про генерацию кортизола
😁23🤯7
Time назвал человеком года «архитекторов ИИ» и поместил на обложку Марка Цукерберга, Лизу Су, Илона Маска, Дженсена Хуанга, Сэма Альтмана, Демиса Хассабиса, Дарио Амодея и Фэй-Фэй Ли.

Но все мы понимаем, что на самом деле там должен быть Шмидхубер. ☝️
😁23👍7🌚5🔥1
Всё, что нужно знать о бенчмарках в этом году.

Год назад мы проверили предварительную версию ещё не выпущенной OpenAI o3 (High), которая набрала 88% на ARC-AGI-1 при ориентировочной стоимости $4,5k за задачу.

Сегодня мы проверили новый GPT-5.2 Pro (X-High) с рекордным (SOTA) результатом 90,5% при стоимости $11,64 за задачу.

Это означает примерно 390-кратное улучшение эффективности за один год.
🤯19👍18🔥5😁3
Zoom (???) получил соту на HLE - 48.1%. Что вообще происходит?

https://www.zoom.com/en/blog/humanitys-last-exam-zoom-ai-breakthrough/?utm_source=social&utm_medium=organic-social
😁34🌚101
Просить LLM отвечать в роли эксперта в чем-то не повышает точность ответа.

Статья.

Тестили 6 моделей: GPT-4o, GPT-4o-mini, o3-mini, o4-mini, Gemini 2.0 Flash и Gemini 2.5 Flash. На двух бенчах: GPQA Diamond и MMLU-Pro - это вопросы университетского уровня, по естественным наукам, инженерии и праву

Если смотреть только на правильность ответов, добавление «роли/персоны» в запрос чаще всего ничего не улучшает по сравнению с обычным запросом без роли. Роль «эксперта» не дает надежного выигрыша на разных моделях, кроме отдельных случаев. А если «эксперт» выбран не по теме, качество иногда падает. «Неуверенные» или «малознающие» роли в среднем тоже ухудшают точность.

При этом, понятно, что персоны могут быть нужны не ради фактов, а ради стиля и подачи. Но для качества - похоже, что нет.
👍30🤯96😁2🌚1
GPT Image 1.5.

Будет доступна с сегодня всем пользователям ChatGPT и через API.

- модель делает точные правки, сохраняет важные детали (например, лица - ура, композиция, освещение)

- лучше следует инструкциям

- прокачали рендер текстов (плотные и мелкие тексты)

- улучшили “натуральность” результатов и кейсы типа “много маленьких лиц”.

- в 4 раза быстрее

https://openai.com/index/new-chatgpt-images-is-here/
10🔥9👍6
Nvidia покупает Groq.

Тот самый, который делает чипы для быстрого инференса LLM.

- Это крупнейшая покупка Nvidia за всю историю - $20 млрд.
- Компания была основана создателями Tensor Processing Unit (TPU) от Google. Они сейчас конкурируют (ну, хотят) с Nvidia в железе.
- Groq, оценивался в $6,9 млрд в раунде финансирования в сентябре, и сейчас представил сделку как «неэксклюзивное лицензионное соглашение», при этом CEO и другие руководители высшего звена переходят в Nvidia.

Source
🤯25👍5🤔1
Claude выращивает томат. 🍅

Интересный эксперимент, где Claude вот уже 37 дней выращивает томат в контролируемой среде.
У него есть датчики температуры, влажности воздуха и почвы, давления, уровня СО2, температуры листьев.
И он может управлять светом, подогревом почвы (через подогрев коврика), вентиляцией, подачей воды.
Посмотреть, что там сейчас и почитать лог можно тут: https://autoncorp.com/biodome/

Автономные теплицы все ближе!

Автор
🔥4011👍4🤯3🌚3
Друзья, С Новым годом!

Пусть в 2026-м жизнь не станет “эффективнее” - а станет проще и честнее. Чтобы работа делалась без героизма и с удовольствием, а бытовые мелочи решались сами собой, как будто у них появился стыд.

Пусть здоровье не требует переговоров, близкие будут рядом без лишних поводов, и деньги - тоже без лишних объяснений.

А если уж в дом пришёл ИИ то пусть ведёт себя, как приличный человек, как говорится.

Всем любви, мира, здоровья и вообще чтоб классно было!
36🔥14👍7
This media is not supported in your browser
VIEW IN TELEGRAM
На CES 2026 показывают новые гаджеты 🌚
Такое вот будущее.

отсюда
😁40🌚82
В 2026 году астронавты полетят вокруг Луны - миссия Artemis II.

Каждый может отправить туда и свое имя! Зарегистрированные имена будут записаны на SD-карту, которая полетит внутри корабля Orion.

Регаетесь тут, дадут аж boarding pass:
https://www3.nasa.gov/send-your-name-with-artemis/
🔥176😁5
LaTeX в ChatGPT.

Я помню, насколько больно было писать статьи со всеми эти требованиями по отступам, интервалам и прочей головомойкой. С появлением в моей жизни латеха стало круче, но как будто бы еще больнее. Overleaf вообще показался какой-то маной небесной, когда я его впервые попробовал.

Теперь вот ллмки навешивают поверх этого всего - а то я всё думал, когда уже. Ведь кейс самый что ни на есть ллмный. Хотя может уже и были попытки, конечно, я не следил пристально - я опенаи фанбой и слежу за модой в основном по ним 😅

https://openai.com/prism/
11👍7
Примеры Genie 3 начали заполнять интернет.

Собрал несколько классных от себя:
• распятие Иисуса - гуляем по сцене и смотрим вокруг
• катаемся на jetski вокруг острова Эпштейна (ага)
• оживляем любимую игрушку ребенка и бегаем от ее лица по комнате
• катаемся по полу метро Нью-йорка за пачку сигарет среди мусора
• играем в GTA6
• катаемся за металлический шарик среди других желтых шаров

Выглядит, конечно, впечатляюще. Попробвать можно пользователям с подпиской Ultra.
16🤯7👍3
Банк Goldman Sachs начинает внедрять модель Claude, чтобы максимально автоматизировать работу в бухгалтерии и комплаенсе (это всякий контроль соблюдения законов и внутренних правил). Около 6 месяцев (!) инженеры Anthropic работали внутри Goldman и вместе с командой банка делали системы, которые действуют как “цифровые сотрудники” для большого объёма рутинных, процессных задач.

Схема такая: агент на базе LLM может читать большие пачки торговых записей и тексты внутренних правил/политик, а затем по шагам применять правила - что сделать, что пометить как подозрительное, а что отправить на согласование.

В голдман говорят, что неожиданностью стало то, что Claude хорош не только в программировании: тот же “стиль рассуждения” отлично работает и для задач бухгалтерии и комплаенса, где нужно разбираться в тексте, таблицах и исключениях.

Может уже и политиков пора заменять потихоньку, а?..

сорс
🔥215👍5😁3🌚1