gonzo-обзоры ML статей
24.3K subscribers
2.95K photos
2 videos
3 files
1.46K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
9
Dedicated to Ilya Sutskever.

https://situational-awareness.ai/

Текст большой, но любопытно.

Table of Contents
Each essay is meant to stand on its own, though I’d strongly encourage reading the series as a whole. For a pdf version of the full essay series, click here.

Introduction
History is live in San Francisco.

I. From GPT-4 to AGI: Counting the OOMs
AGI by 2027 is strikingly plausible. GPT-2 to GPT-4 took us from ~preschooler to ~smart high-schooler abilities in 4 years. Tracing trendlines in compute (~0.5 orders of magnitude or OOMs/year), algorithmic efficiencies (~0.5 OOMs/year), and “unhobbling” gains (from chatbot to agent), we should expect another preschooler-to-high-schooler-sized qualitative jump by 2027.

II. From AGI to Superintelligence: the Intelligence Explosion
AI progress won’t stop at human-level. Hundreds of millions of AGIs could automate AI research, compressing a decade of algorithmic progress (5+ OOMs) into ≤1 year. We would rapidly go from human-level to vastly superhuman AI systems. The power—and the peril—of superintelligence would be dramatic.

III. The Challenges

IIIa. Racing to the Trillion-Dollar Cluster
The most extraordinary techno-capital acceleration has been set in motion. As AI revenue grows rapidly, many trillions of dollars will go into GPU, datacenter, and power buildout before the end of the decade. The industrial mobilization, including growing US electricity production by 10s of percent, will be intense.

IIIb. Lock Down the Labs: Security for AGI
The nation’s leading AI labs treat security as an afterthought. Currently, they’re basically handing the key secrets for AGI to the CCP on a silver platter. Securing the AGI secrets and weights against the state-actor threat will be an immense effort, and we’re not on track.

IIIc. Superalignment
Reliably controlling AI systems much smarter than we are is an unsolved technical problem. And while it is a solvable problem, things could easily go off the rails during a rapid intelligence explosion. Managing this will be extremely tense; failure could easily be catastrophic.

IIId. The Free World Must Prevail
Superintelligence will give a decisive economic and military advantage. China isn’t at all out of the game yet. In the race to AGI, the free world’s very survival will be at stake. Can we maintain our preeminence over the authoritarian powers? And will we manage to avoid self-destruction along the way?

IV. The Project
As the race to AGI intensifies, the national security state will get involved. The USG will wake from its slumber, and by 27/28 we’ll get some form of government AGI project. No startup can handle superintelligence. Somewhere in a SCIF, the endgame will be on.

V. Parting Thoughts
What if we’re right?
🔥14🤯5👀3😁2👍1
Кстати, кому не интересно 150 страниц про AGI в ближайшие годы, как альтернатива есть 510 страниц про темную материю:

Dark Matter
https://arxiv.org/abs/2406.01705

We review observational, experimental and theoretical results related to Dark Matter.
😁8913👍9🔥6
Картинок вам в ленту.

https://posts.voronoiapp.com/technology/The-Training-Costs-of-AI-Models-Over-Time-1334

Странно, правда, что BERT всего 3k. Мне кажется по старым ценам должно было быть сильно больше
🔥11👍31
gonzo-обзоры ML статей
Кстати, кому не интересно 150 страниц про AGI в ближайшие годы, как альтернатива есть 510 страниц про темную материю: Dark Matter https://arxiv.org/abs/2406.01705 We review observational, experimental and theoretical results related to Dark Matter.
А вот вам ещё прекрасного про физику, но теперь на 3 страницы вместо 510.

The forest as a neutrino detector
https://arxiv.org/abs/2401.14454

The primary challenge in detecting ultrahigh energy (UHE) neutrinos with energies exceeding 10^16 eV is to instrument a large enough volume to detect the extremely low flux, which falls as ∼E^−2. We explore in this article the feasibility of using the forest as a detector. Trees have been shown to be efficient broadband antennas, and may, without damage to the tree, be instrumented with a minimum of apparatus. A large scale array of such trees may be the key to achieving the requisite target volumes for UHE neutrino astronomy.
🔥21😁6🤯4🤔1💯1
Ну и давненько про новые LLM не писали, а сегодня как раз вышла Qwen2 от Alibaba Cloud
https://qwenlm.github.io/blog/qwen2/

5 моделей: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B, обычные и instruction-tuned. Контекст до 128k. На бенчмарках выглядит красиво и бьёт Llama 3.

В дополнение к английскому и китайскому поддерживает ещё 27 языков.

Лицензия Apache 2.0 для всех кроме самой большой, у той прежняя Qianwen License.

В будущем обещают мультимодальность с видео и аудио.
🔥83
Сергей Марков дописал свою большую двухтомную книгу про ИИ «Охота на электроовец: большая книга искусственного интеллекта»! Поздравляем!

Я читал ранние версии и знаю, что Сергей проделал огромную работу по сбору исторического материала. Абсолютно разумно и без хайпа, с технически достоверными обзорами архитектур. Рекомендую.

Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно:

https://markoff.science
👍9224🤮10💩2🖕2🔥1
Ну и чтобы продолжить с книгами и ростом количества страниц, вот ещё прекрасное

Algebra, Topology, Differential Calculus, and Optimization Theory For Computer Science and Machine Learning

https://www.cis.upenn.edu/~jean/math-deep.pdf

На 2196 страниц.

Приятных выходных!
😁5313🔥6👍4🤡1
Open-Endedness is Essential for Artificial Superhuman Intelligence
Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel
Статья: https://arxiv.org/abs/2406.04268

Серьёзное заявление: “In this position paper, we argue that the ingredients are now in place to achieve openendedness in AI systems with respect to a human observer. Furthermore, we claim that such open-endedness is an essential property of any artificial superhuman intelligence (ASI).”

Авторы заходят со стороны того, что важно квантифицировать и формализовать open-endedness. Для этого они вводят понятие наблюдателя и говорят, что с его перспективы система может считаться таковой, если и только если последовательность производимых ей артефактов является новой (novelty) и выучиваемой (learnability). Оригинальная формулировка определения такова: "From the perspective of an observer, a system is open-ended if and only if the sequence of artifacts it produces is both novel and learnable".

Более формально, система S производит последовательность артефактов X_t, где t — это время. Наблюдатель O является статистической моделью и оценивает предсказуемость артефакта X_T по истории предыдущих артефактов X_{1:t}. Качество предсказания оценивается неким лоссом ℓ(t, T).

Novelty определяется как последовательно увеличивающаяся непредсказуемость артефактов моделью наблюдателя в любое фиксированное время t. То есть матожидание лосса для более поздних артефактов выше.

Learnability присутствует в системе, когда лосс для артефактов при предоставлении наблюдателю более длинной истории становится меньше.

Соответственно для наблюдателя система является open-ended, если она генерирует последовательность novel и learnable артефактов. Это можно описать как “we’ll be surprised but we’ll be surprised in a way that makes sense in retrospect”.

В классическом примере с телевизором, постоянно показывающим случайный шум, на котором потенциально могут зависать многие типа агентов, этот телевизор будет learnable (в том смысле, что агент выучит конкретное распределение), но со временем потеряется novelty. Epistemic uncertainty уйдёт, останется так называемая aleatoric uncertainty (https://docs.aws.amazon.com/prescriptive-guidance/latest/ml-quantifying-uncertainty/decompose-uncertainty.htm) про неустранимую случайность в данных, но и та сколлапсирует благодаря матожиданию.

В примере с таким же телевизором, но где ещё и извне переключают программы на канал с другим шумом с иным распределением (с Первого на Второй, и нужен конечно ещё канал с Полковником) в каждый момент переключения канала наблюдатель будет иметь novelty, но поскольку история наблюдений теперь не очень помогает (лосс не будет уменьшаться, новые каналы генерят иной шум), теряется learnability.

Interestingness явно в описании не фигурирует, но она задаётся через выбор функции потерь. Интересные части артефактов — это те фичи, которые наблюдатель выбрал как полезные для выучивания.

Есть и другие определения open-endedness (среди свежих, например, “A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents” https://arxiv.org/abs/2311.00344, в котором тоже фигурирует наблюдатель) а также куча других связанных идей (им посвящено приложение C).

Наблюдатель — это отдельная большая и важная тема. Традиционно у нас есть большой класс наблюдателей под названием “человеки”. Но текущее определение позволяет быть и иным наблюдателям, например, чтобы покрыть и неантропоцентричные open-ended системы (типа биологической эволюции). Это позволяет и рассуждать об open-ended системах, превосходящих человека (ASI). Ещё это позволяет определить, является ли система open-ended по отношению к любому наблюдателю.
🔥26👍82
Поскольку у наблюдателя есть некий временной горизонт τ, ограничивающий его наблюдения системы, разные системы могут быть open-ended на разных временных масштабах. Если система остаётся open-ended на любом временном горизонте (τ → ∞), то мы называем её infinitely open-ended. В противном случае она finitely open-ended со временным горизонтом τ по отношению к наблюдателю O. Например, Adaptive Agent (AdA из “Human-Timescale Adaptation in an Open-Ended Task Space” https://arxiv.org/abs/2301.07608) — finitely open-ended с горизонтом примерно 1 месяц (для него novelty выходило на плато после этого времени обучения в силу ограниченности богатства задач и размера сети агента).

Когнитивные способности наблюдателя тоже влияют, у него банально может не хватить памяти и он начнёт забывать старые наблюдения (хорошо уметь качественно сжимать!), так что с его точки зрения система перестанет быть open-ended. С этим легче совладать в более узких доменах (в нашем, по ощущению, всё сложнее).

В работе с точки зрения человеческого наблюдателя разбираются несколько примеров известных агентов.

Первых архетипический пример — AlphaGo, которая novel (находит новые неожиданные ходы) и learnable (человек может у неё научиться новым полиси и улучшить свой лосс). Она open-ended (спасибо self-play?) и также является примером narrow superhuman intelligence (по классификации из “Levels of AGI for Operationalizing Progress on the Path to AGI” https://arxiv.org/abs/2311.02462).

Другой пример — упоминавшийся выше AdA, решавший задачи в 3D-средах XLand2 и постоянно демонстрировавший новые способности (zero-shot/few-shot способности на средах, где он не обучался). За ним стоят алгоритмы unsupervised environment design (UED) с automatic curriculum и подбором сред в зоне ближайшего развития по Выготскому. Но в обучении AdA был замечен выход на плато, так что вероятно если вбухать на порядок больше compute, то AdA перестанет быть open-ended. Чтобы это пофиксить понадобятся более богатые среды и более сложный агент для поддержки коэволюции среды и агента в UED.

Третий пример — POET (“Paired Open-Ended Trailblazer (POET): Endlessly Generating Increasingly Complex and Diverse Learning Environments and Their Solutions” https://arxiv.org/abs/1901.01753). Там обучается популяция агентов, каждый из которых связан с эволюционирующей по ходу дела средой, периодически агенты переносятся в новые среды. Эти артефакты в лице пар агент-среда являются open-ended по отношению к человеческому наблюдателю, который моделирует возникающие фичи среды и способности агента. Тут есть и novelty (за счёт мутаций в алгоритме Quality Diversity, генерящем новые неожиданные среды) и learnability (потому что мутации небольшие и история прошлых сред даёт ориентиры к свойствам текущей). Как и в AdA главное ограничение на open-endedness это параметризация сред — агент выходит на плато, когда все ландшафты решены.

Финальный пример — современные foundation models. Он негативный, потому что они обучаются на фиксированных датасетах и наблюдатель рано или поздно выучит всю epistemic uncertainty. Они могут выглядеть для человека open-ended на достаточно обширном домене в силу ограниченной памяти человека, но если начать сужать фокус, то проблемы становятся заметны.

НО! По мнению авторов, дополнение foundation models open-endedness открывает путь к ASI, а то, что модели обусловливаются контекстом, ломает логику невозможности быть open-ended — контекст, в принципе, позволяет рекомбинировать концепты open-ended способом.
👍32😱1
По мнению авторов, тренд улучшения foundation models за счёт скейлинга и обучения на пассивных данных скоро выйдет на плато и сам по себе недостаточен для достижения ASI (но недостаточен не в смысле невозможно, а в смысле unlikely, потому что open-endedness по своей сути — experiential process). Чтобы достичь open-endedness в foundation models осталось всего несколько шагов, а самый быстрый путь к ASI будет вдохновлён научным методом (с его гипотезами, фальсификациями через эксперименты и кодификацией результата в новое знание) и компиляцией датасета онлайн через комбинацию foundation models и open-ended алгоритмов.

Среди перспективных направлений выделяют следующие (а также ссылаются на другие пути других авторов, среди таких путей замечена Assembly theory, см. https://www.quantamagazine.org/a-new-theory-for-the-assembly-of-life-in-the-universe-20230504/):

1. Reinforcement Learning. Один из интересных свежих примеров как можно завернуть RL-подобный self-improvement поверх LLM — это “Voyager: An Open-Ended Embodied Agent with Large Language Models” (https://arxiv.org/abs/2305.16291). Другие примеры показывают, как LLM могут направлять агентов, предоставляя reward или собирая куррикулум задач.

2. Self-Improvement чтобы активно вовлекаться в задачи, расширяющие границы знаний и способностей агента, например, через использование тулов (https://xn--r1a.website/gonzo_ML/1305) или коммуникацию с другими агентами. Есть куча примеров, когда модели могут использоваться для фидбека вместо людей (например, Constitutional AI https://xn--r1a.website/gonzo_ML/1285), что наводит на мысли об использовании моделей для генерации своих собственных сэмплов и обновления в режиме open-ended.

3. Task Generation aka “The Problem Problem” (“Autocurricula and the Emergence of Innovation from Social Interaction: A Manifesto for Multi-Agent Intelligence Research” https://arxiv.org/abs/1903.00742) про то, как сгенерить кучу интересных сред, полезных для обучения агента. Как альтернатива, это учить world models, в которых можно симулировать результаты действий. Их можно комбинировать с мультимодальными reward models и генерировать open-ended curriculum.

4. Evolutionary Algorithms. LLM могут исполнять роль операторов отбора и мутации, начиная с дизайна промптов (там уже работает лучше человека). Отдельная интересная тема — эволюция в пространстве кодов (см. Eureka или FunSearch). Открытый вопрос, как перейти от кода для специальных доменов к более общим.

Во всех этих разделах, да и вообще во всей работе огромное количество ссылок по теме, заслуживает пристального изучения само по себе. Также в работе много интересных мыслей по ходу дела, я не пытался перенести в обзор все.

Отдельная глава про риски и responsibility в контексте ASI.

Open-ended системы by design могут и будут вести к новым возможностям, в том числе двойного назначения. Особенно это опасно, если система сама может совершать действия в среде. Exploration может быть очень агрессивным и здесь есть все проблемы AI agency включая goal misgeneralization (https://xn--r1a.website/gonzo_ML/1160) и specification gaming.

Производимые системой артефакты могут стать непонятны для человека и в этом смысле система перестанет быть для человека open-ended по текущему определению, потому что перестанет быть learnable. Чтобы оставаться полезными для человека они должны быть понимаемы. Здесь большое поле для работ по интерпретируемости и объяснимости.

Отдельный вопрос, смогут ли человеки направлять open-ended системы, ибо такие системы могут не иметь хорошо определённых objectives и быть непредсказуемыми. Возможны какие-то варианты human-in-the-loop или openendedness from human feedback. Кроме направляемости система должна обращать внимание человека на неожиданные и потенциально важные артефакты. Но это всё большой вопрос, как скрестить направляемость и open-endedness.

Большой нетехнический вопрос — как общество адаптируется к open-ended моделям. Надо предусмотреть механизмы избегания различных tipping points, чтобы не было как с The Flash Crash (https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2721922).
👍10🔥54🤔2🥱1