Сиолошная
70.2K subscribers
1.67K photos
305 videos
1 file
1.75K links
Канал SeeAll'а с новостями (и мыслями о них) из мира NLP, VR и космоса.

Более подробно смотри в первом сообщении в канале (оно закреплено). А еще у нас есть чат! Заходи: https://xn--r1a.website/+i_XzLucdtRJlYWUy
Download Telegram
DiffThinker: Towards Generative Multimodal Reasoning with Diffusion Models (блог)

Прикольная статья, показывающая новую (хотя думаю схожие работы были) парадигму: применение модели генерации изображений для решения визуальных пазлов.

Сейчас когда вы работаете в Gemini App, то модель смотрит на всю картинку целиком, затем размышляет текстом и выдаёт текстовый ответ (слева сверху на первой картинке). ChatGPT, начиная с моделей о-серии, научились пользоваться инструментом вырезания части картинки: они могут отдать в Python команду «обрежь и приблизь верхний правый угол», посмотреть на него, подумать текстом и выдать текстовый же ответ (справа сверху на первой картинке)

В случае DiffThinker (нижняя половина первой картинки) применяется Qwen-Image-Edit, который прямо на самой картинке генерирует решение в виде пути / точек / перестановки кусочков изображения. Перебор решений происходит в латентном пространстве (то есть после того, как VAE Encoder сжал изображение в некоторый набор векторов, которые всё ещё хранят смысл и детали изображения, но занимают меньше места в памяти), после чего Decoder расшифровывает латент решения обратно.

К сожалению, подход не полностью end-2-end: во-первых, результат со сгенерированной картинки парсит отдельный код, не модель, и во-вторых, нет никаких рассуждений — единственный текст, который есть в трансформере, это специальный для каждой задачи промпт.

Это разочаровывает, зато учится быстро: 3 часа на 8 H200. Надеюсь, авторам или другим талантливым людям дадут бюджет побольше, чтобы могли полноценно замкнуть цикл. Чтоб модель представила несколько решений, потом сама порассуждала над ними текстом, затем допилила один ответ и могла его вербализовать и/или выдать картинку.

Ещё авторы дообучают модель на каждую задачу, поэтому не получается проверить, как работает на по-настоящему новых задачах (тут просто меняют размер поля).

Вторая картинка —  примеры задач и их решений DiffThinker-ом: поиск пути в лабиринте, соединение точек, судоку и восстановление изображения по кусочкам.

Третья картинка — как выглядят решения на промежуточных шагах. Видно, что модель исследует несколько вариантов в параллель, но затем стирает неправильные пути и оставляет только верный.

Четвертая картинка — пример объединения этого подхода и модели-критика на основе Gemini 3 Flash: диффузия генерирует 3-5 разных вариантов решения, а Gemini выбирает, какой из них является результатом.

Пятая картинка — метрики, где видно, насколько лучше моделей даже с сильным Perception работает подход DiffThinker.
🔥43👍15🤯15🎉5🤔2❤‍🔥1🤡1👨‍💻11
ВОСЕМЬ советов от создателя Claude Code, чтобы перестать вайбкодить в Новом году и стать 10x инженером:

1) Запускать 5 терминалов в параллель + 5-10 вкладок на веб-сайте
2) Использовать только Opus 4.5 с размышлениями, который хоть и медленнее, но лучше остальных
3) Файл CLAUDE.md общий для всей команды проекта и обновляется несколько раз в неделю: туда заносятся типовые ошибки и способы их решения (например: «всегда используй Х» или «вместо Y всегда пиши Z»)
4) Изменения в CLAUDE.md пусть вносит сам Claude — можно даже тегнуть его в PR или в слаке и заставить описать проблему
5) Начинать почти все сессии в режиме планирования, детально обсуждать требования и тонкости имплементации. После этого переключиться в режим принятия правок, и обычно Claude с первого раза делает что нужно и как нужно
6) Задолбались по 10 раз в день делать одно и то же? Автоматизируйте рутину через слеш-команды для простых скриптовых задач и суб-агентов для задач чуть сложнее.
7) Если вы не крейзи чтобы использовать --dangerously-skip-permissions, но не хотите каждые 5 минут дергаться и читать команды в баше — настройте список одобреных команд
8) Самое главное: дайте инструменту возможность проверять свою работу. С такой обратной связью качество может вырасти в 2-3 раза. А если вы занимаетесь веб-разработкой — используйте Claude Chrome. Для всего другого нужно придумать и написать тесты — тогда дело начнёт спориться, а вы не будете тупить над ошибками (над ними будет работать Claude)

Забирай себе на стену и ищи успеха в 2026-м году!
12🤣189👍166🔥52🤡181311🤯5🌚5👨‍💻4💩1
Почтим память легенды — StackOverflow почти всё. За декабрь на ресурсе было размещено 3710 вопросов, в прошлом январе 22.5 тыс — почти в 10 раз меньше пика 2014-го года.

Ещё до выхода ChatGPT популярность начала падать (интересно, почему? что было в 2020-2022? на все вопросы уже дали ответы?), а после совсем обрушилась.

Релевантный пост годовой давности от Pragmatic Engineer: тык.

🫡 пришёл, помог, стал тренировочным полем для LLM, ушёл с миром
Please open Telegram to view this post
VIEW IN TELEGRAM
7😭551💔156👍6216👨‍💻10🤯3👎2💩2
Сиолошная
Глядя на свои ожидания от 2025-го года понимаю, что самое большое разочарование — что не вышла GTA VI 😣 В остальном неплохо — переехал и живу в Лондоне, продолжил тему здоровья и похудел, и под конец года вышло много моделей, подвинувших фронтир даже по отношению…
Наткнулся на твит от создателя Django Simon Willison:
— У меня стойкое ощущение, что ноябрьские версии GPT-5.2 и Opus 4.5 стали переломным моментом. Это один из тех случаев, когда постепенное улучшение моделей позволяет им перешагнуть незримый порог возможностей, после чего внезапно становится доступным решение множества куда более сложных задач в программировании.

Это меня натолкнуло на понимание, что в подведении итогов года я забыл номинацию «График года» — в которой бесспорно побеждает график от METR об оценке автономности агентов 🤩 через длину выполняемых задач. Я даже забыл, что он появился в 2025-м, казалось, что он с нами долго.
👍132🤡37❤‍🔥13🌚9🔥7👨‍💻3🤔1🤯1
Forwarded from Denis Sexy IT 🤖
Продолжаю ковырять интернет на наличие любопытных штук которые можно купить онлайн (просто так), и наткнулся на сайт по продаже небольших бизнесов в США:
за ~200$ тысяч можно купить бар в Техасе, за ~1М$ прачечную в Нью-Йорк, заправку за ~300к$ и тп., бизнесы реальны и работают прямо сейчас.

И пришла идея, на случай если я стану возмутительно богатым:
> Берем GPT5 которая через годик-два выйдет
> Прописываем ей роли агентов нужные для управления бизнесом (допустим, тратим на автоматизацию этого всего много времени и весь бек-офис забираем на автоматизацию)
> Начинаем скупать бизнесы какие только можно, желательно так, чтобы там уже был персонал и лично ничего смотреть не нужно было бы
> …
> Профит

Идея в том, что GPT5 модель сможет управлять бизнесом эффективнее человека, если научиться ей передавать ключевые метрики (в чем главная проблема).

Персонал и менеджеры коммуницируют с «заморским» владельцем через почту, и не в курсе что он нейронка 🌚 нейронка же присылает инструкции по следующим шагам для ключевых менеджеров.

Забавно, что мы достаточно близки к такому в реальности – я иногда скармливаю экспорты данных нашего стартапа по продуктовым метрикам, или финансовым показателям, и модель выдает разумные рекомендации (вторая картинка) или советы по улучшению бизнеса, которые я уже исполняю (если они уместны). То есть технически, это все очень реализуемо даже сейчас, если сильно заморочиться.

Я уверен идея не нова и понравится всем ИИ-алярмистам 😃

Ну и еще выглядит так, что капитализм правда уязвим к таким моделям ИИ, это еще не общий искусственный интеллект, но уже можно представить как такой тул захватывал бы рынки где угодно.

Интересно, запретят ли государства такую авто-монополию в целом ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍138🤡90🤔19🤣139❤‍🔥6🔥5🌚4👨‍💻3
Сиолошная
Photo
Всего полгода назад, в июле 2025-го, на мировом чемпионате по программированию AHC (на оптимизационные задачи без чёткого верного решения) AI-системы уже показывали зубы: OpenAI заняли второе место, система от Sakana — 5-ое. Я писал про это вот тут.

В прошедшем AHC058 (насколько я понимаю, менее крупное соревнование) агент ALE от Sakana AI занял чистое первое место, обойдя 804 живых участника, включая топовых грандмастеров. Это первый случай в истории, когда AI выиграл соревнование по оптимизации в реальном времени, участвуя на тех же условиях, что и люди — 4 часа на всю задачу.

С технической точки зрения решение агента оказалось глубже задуманного авторами. Организаторы ожидали стандартную связку жадного алгоритма и имитации отжига, но агент реализовал по-другому — детали ищите в блоге.

Авторы задач признали, что агент нашел алгоритмические пути, которые они сами не предусмотрели, эффективно закрыв разрыв в интуиции на основе экспериментов, которой раньше не хватало LLM при решении оптимизационных задач. Как мне кажется, это тесно связано с инсайтом, который я описывал для Gemini 3 Pro (и которым обладает GPT-5.2): возможность более эффективно учиться из обратной связи и улучшаться от итерации к итерации при решении какой-то задачи в несколько шагов. Это не ли не research taste? 😀

Победа обошлась примерно в $1,300 на API и потребовала суммарно около 4700 вызовов моделей GPT-5.2 и Gemini 3 Pro.
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤‍🔥136🤯65🔥51👍13🤡8🌚1
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Там бостон динамикс выкатили нового Атласа.

Теперь это не просто экспериментальный прототип для видосов с сальтухами, а железка, призванная для того, чтобы заменить кожаных на заводе.

Из интересного:

Робот сам топает к зарядке, сам вытаскивает севшую батарею и вставляет свежую. Никаких простоев, перекуров и походов в туалет. Работает 24/7.

Мозги от Google: Boston Dynamics запартнерились с Google DeepMind, чтобы впихнуть в Атласа годных нейронок. То есть робот будет не просто следовать скриптам, а реально "соображать" и быстро учиться новым задачам на ходу.

Немножко характеристик: поднимает до 50 кг груза, вытягивается на 2.3 метра в высоту, 56 степеней свободы (суставы крутятся как угодно, посмотрите, что эта скотина делает на видео), не боится воды и мороза.

Собирать серийные модели начинают прямо сейчас в Бостоне. Все поставки на 2026 год уже расписаны: первые партии уедут на заводы Hyundai и в Google DeepMind. Остальным придется ждать до 2027-го. Сейчас планируют строить завод, который будет штамповать 30000 таких юнитов в год.

Чо, заводчане, готовимся идти на рынок торговать луком. Ахахахах, конечно нет, потому что робот умный и за 30 тысяч рублей в месяц работать на заводе не будет даже он

тут подробнее
🔥341🤡58👍3822🤣2012❤‍🔥7🤯4👎2😈1👨‍💻1
Ночью на выставке CES Nvidia официально представила новые видеокарты для ИИ-датацентров в линейке Vera Rubin. Как и всегда, всё мощнее, быстрее, главное накидывают больше памяти, так что производительность больших моделей вырастает (картинка 1), а цены снижаются.

Интересно, что прирост в пропускной способности 10x показали не на уровне 50 токенов-в-секунду, как обычно нам предоставляют сервисы вроде ChatGPT, а около 225 — именно там наибольший прирост для моделей размера в 1 триллион параметров. В теории, может быть для платных пользователей сервисов будет увеличенная скорость генерации — я вот мечтаю, что GPT-5.2 Pro будет работать не за 20 минут, а за 5.

И отдельно представили специальный вид железа под названием Context Memory Storage Platform (картинка номер 2). Это очень быстрый SSD, подключающийся напрямую к GPU так, что загрузка данных игнорирует CPU и оперативную память.

Этот SSD, судя по предыдущим новостям, будет иметь скорость в 100 миллионов операций чтения и записи случайных данных в секунду. Это очень много — ChatGPT говорит, что хорошие SSD в игровых компьютерах выдают 1-3 миллиона. Это всё равно существенно медленнее оперативной памяти, но зато объёмы выше.

Сходу смог придумать три применения для этих дисков, все три предполагают дальнейший рост длины чатов/цепочек рассуждений:
1) выгружать ваш чат из памяти, пока вы читаете и печатаете ответ (расширение функциональности кэширования)

2) выгружать состояние GPU для того, чтобы быстро загружать его обратно в будущем (это позволяет ускорить запуск виртуальных машин, чтобы не инициализировать что-то с нуля; альтернативно, можно загружать персонализированные LoRA-адаптеры, которые немного дообучены под вас или один из сотен доменов)

3) самое интересное — позволить моделям во время обучения писать гораздо более длинные цепочки рассуждений, в миллионы-десятки миллионов токенов. Сейчас модели так просто не могут, но если бы могли, то быстро упёрлись в количество памяти на GPU. Я могу представить, как условный DSA от DeepSeek ложится на это решение — быстрые индексы для поиска релевантных токенов живут в GPU, и по ним определяется, какие части предыдущей истории загружать с SSD.

Акции Nvidia после презентации не выросли.... (non 🔼)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9❤‍🔥106👍60🔥22🤡6👨‍💻4💩1
Artemis 2: не раньше 6 февраля

У первой пилотируемой миссии к Луне почти за 55 лет *снова* появилась новая NET дата:
- 6 февраля (21:45 EST)
- 7 февраля (запасная)

Также есть запасные окна в марте и апреле. Сроки февральского запуска пока что упираются в выкатку ракеты SLS. Если она не произойдёт в ближайшие 10 дней, то запуск съедет на весну.
❤‍🔥74🔥40🤯7👨‍💻5🤣4💩2
В воскресенье, 11 января, в 16:00 по Лондону / 19:00 по Москве планируем провести стрим с Валерой @cryptovalerii, рассмотрим что изменилось с прошлогоднего стрима в отношении кодинг-агентов. Стрим был супер удачным — и много зрителей в лайве, и вопросов, и просмотров в записи.

Обсудим пару баек от Валеры + ближайшее будущее автоматизации разработки.

Валера пообещал, что купил нормальные микрофоны... верим? 🥺
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥114👍45🤡19👎74💩2🌚1
Быстровости:

— Anthropic привлекает скромные $10B по оценке $350B (для сравнения, OpenAI в ближайшее время планирует привлекать по оценке $850B), xAI — $20B, почти все из которых пойдут на строительство датацентра; оценка последних неизвестна

— По оценкам аналитиков, в течение следующих двух лет индустрия DRAM сможет обеспечить только ~15 ГВт ИИ-датацентров. На данный момент у лидирующих компаний есть план построить 50 ГВт за 3 года. Насколько я понимаю, быстрее чем за 2 года производство так сильно не расширить, но вот к концу третьего года быть может новые плашки и появятся.

— SemiAnalysis утверждает, что модель, выигравшая золотую медаль на олимпиаде по математике летом — это вариант GPT-5.1 Codex Max. Не знаю, зачем вам эта информация, просто между делом.

— Веб-фреймворк Tailwind уволил 75% сотрудников из-за ИИ, но не потому, что программисты теперь не нужны — у компании нет денег, так как из-за LLM-ок люди не заходят на страницу документации, и меньше людей покупает платные услуги. Выручка упала, пришлось резать штат. Чуть больше деталей у Дениса.

— Суд продавил OpenAI сразу в двух делах: в деле против New York Times судья заставила компанию предоставить 20 миллионов чатов газете для анализа; ранее компания обжаловала этот запрос, но судья решила, что так надо. В деле против Elon Musk и нарушении миссии компании делу дали ход, теперь стороны увидятся в суде (раньше это был просто судебный иск).

— OpenAI запустили ChatGPT Health, ассистента, который будет помогать в медицинских вопросах. Основная фича — это загрузка всех своих медицинских данных, от снимков и анализов до результатов тренировок с часов или MyFitnessPal. Доступно даже бесплатным пользователям, однако запуск очень лимитирован по количеству аудитории (и ещё недоступно в UK и EU, спасибо регуляторам).

— Nvidia планирует выпустить новые игровые видеокарты 60xx серии (на Vera Rubin, которую вот только что представили для датацентров) во второй половине 2027-го.
🔥49👍20❤‍🔥7🤔3🤡3🌚2👨‍💻1
🤡1063116👍3🤔2💩1🌚1