Dedicated to Ilya Sutskever.
https://situational-awareness.ai/
Текст большой, но любопытно.
Table of Contents
Each essay is meant to stand on its own, though I’d strongly encourage reading the series as a whole. For a pdf version of the full essay series, click here.
Introduction
History is live in San Francisco.
I. From GPT-4 to AGI: Counting the OOMs
AGI by 2027 is strikingly plausible. GPT-2 to GPT-4 took us from ~preschooler to ~smart high-schooler abilities in 4 years. Tracing trendlines in compute (~0.5 orders of magnitude or OOMs/year), algorithmic efficiencies (~0.5 OOMs/year), and “unhobbling” gains (from chatbot to agent), we should expect another preschooler-to-high-schooler-sized qualitative jump by 2027.
II. From AGI to Superintelligence: the Intelligence Explosion
AI progress won’t stop at human-level. Hundreds of millions of AGIs could automate AI research, compressing a decade of algorithmic progress (5+ OOMs) into ≤1 year. We would rapidly go from human-level to vastly superhuman AI systems. The power—and the peril—of superintelligence would be dramatic.
III. The Challenges
IIIa. Racing to the Trillion-Dollar Cluster
The most extraordinary techno-capital acceleration has been set in motion. As AI revenue grows rapidly, many trillions of dollars will go into GPU, datacenter, and power buildout before the end of the decade. The industrial mobilization, including growing US electricity production by 10s of percent, will be intense.
IIIb. Lock Down the Labs: Security for AGI
The nation’s leading AI labs treat security as an afterthought. Currently, they’re basically handing the key secrets for AGI to the CCP on a silver platter. Securing the AGI secrets and weights against the state-actor threat will be an immense effort, and we’re not on track.
IIIc. Superalignment
Reliably controlling AI systems much smarter than we are is an unsolved technical problem. And while it is a solvable problem, things could easily go off the rails during a rapid intelligence explosion. Managing this will be extremely tense; failure could easily be catastrophic.
IIId. The Free World Must Prevail
Superintelligence will give a decisive economic and military advantage. China isn’t at all out of the game yet. In the race to AGI, the free world’s very survival will be at stake. Can we maintain our preeminence over the authoritarian powers? And will we manage to avoid self-destruction along the way?
IV. The Project
As the race to AGI intensifies, the national security state will get involved. The USG will wake from its slumber, and by 27/28 we’ll get some form of government AGI project. No startup can handle superintelligence. Somewhere in a SCIF, the endgame will be on.
V. Parting Thoughts
What if we’re right?
https://situational-awareness.ai/
Текст большой, но любопытно.
Table of Contents
Each essay is meant to stand on its own, though I’d strongly encourage reading the series as a whole. For a pdf version of the full essay series, click here.
Introduction
History is live in San Francisco.
I. From GPT-4 to AGI: Counting the OOMs
AGI by 2027 is strikingly plausible. GPT-2 to GPT-4 took us from ~preschooler to ~smart high-schooler abilities in 4 years. Tracing trendlines in compute (~0.5 orders of magnitude or OOMs/year), algorithmic efficiencies (~0.5 OOMs/year), and “unhobbling” gains (from chatbot to agent), we should expect another preschooler-to-high-schooler-sized qualitative jump by 2027.
II. From AGI to Superintelligence: the Intelligence Explosion
AI progress won’t stop at human-level. Hundreds of millions of AGIs could automate AI research, compressing a decade of algorithmic progress (5+ OOMs) into ≤1 year. We would rapidly go from human-level to vastly superhuman AI systems. The power—and the peril—of superintelligence would be dramatic.
III. The Challenges
IIIa. Racing to the Trillion-Dollar Cluster
The most extraordinary techno-capital acceleration has been set in motion. As AI revenue grows rapidly, many trillions of dollars will go into GPU, datacenter, and power buildout before the end of the decade. The industrial mobilization, including growing US electricity production by 10s of percent, will be intense.
IIIb. Lock Down the Labs: Security for AGI
The nation’s leading AI labs treat security as an afterthought. Currently, they’re basically handing the key secrets for AGI to the CCP on a silver platter. Securing the AGI secrets and weights against the state-actor threat will be an immense effort, and we’re not on track.
IIIc. Superalignment
Reliably controlling AI systems much smarter than we are is an unsolved technical problem. And while it is a solvable problem, things could easily go off the rails during a rapid intelligence explosion. Managing this will be extremely tense; failure could easily be catastrophic.
IIId. The Free World Must Prevail
Superintelligence will give a decisive economic and military advantage. China isn’t at all out of the game yet. In the race to AGI, the free world’s very survival will be at stake. Can we maintain our preeminence over the authoritarian powers? And will we manage to avoid self-destruction along the way?
IV. The Project
As the race to AGI intensifies, the national security state will get involved. The USG will wake from its slumber, and by 27/28 we’ll get some form of government AGI project. No startup can handle superintelligence. Somewhere in a SCIF, the endgame will be on.
V. Parting Thoughts
What if we’re right?
SITUATIONAL AWARENESS - The Decade Ahead
Introduction - SITUATIONAL AWARENESS: The Decade Ahead
Leopold Aschenbrenner, June 2024 You can see the future first in San Francisco. Over the past year, the talk of the town has shifted from $10 billion compute clusters to $100 billion clusters to trillion-dollar clusters. Every six months another zero is added…
🔥14🤯5👀3😁2👍1
gonzo-обзоры ML статей
Dedicated to Ilya Sutskever. https://situational-awareness.ai/ Текст большой, но любопытно. Table of Contents Each essay is meant to stand on its own, though I’d strongly encourage reading the series as a whole. For a pdf version of the full essay series…
Если кто любит больше подкасты (на 4.5 часа!), то вот:
https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
https://www.dwarkeshpatel.com/p/leopold-aschenbrenner
Dwarkesh
Leopold Aschenbrenner — 2027 AGI, China/US super-intelligence race, & the return of history
The trillion dollar cluster...
❤12😱2
Кстати, кому не интересно 150 страниц про AGI в ближайшие годы, как альтернатива есть 510 страниц про темную материю:
Dark Matter
https://arxiv.org/abs/2406.01705
We review observational, experimental and theoretical results related to Dark Matter.
Dark Matter
https://arxiv.org/abs/2406.01705
We review observational, experimental and theoretical results related to Dark Matter.
arXiv.org
Dark Matter
We review observational, experimental and theoretical results related to Dark Matter.
😁89❤13👍9🔥6
Картинок вам в ленту.
https://posts.voronoiapp.com/technology/The-Training-Costs-of-AI-Models-Over-Time-1334
Странно, правда, что BERT всего 3k. Мне кажется по старым ценам должно было быть сильно больше
https://posts.voronoiapp.com/technology/The-Training-Costs-of-AI-Models-Over-Time-1334
Странно, правда, что BERT всего 3k. Мне кажется по старым ценам должно было быть сильно больше
🔥11👍3❤1
gonzo-обзоры ML статей
Кстати, кому не интересно 150 страниц про AGI в ближайшие годы, как альтернатива есть 510 страниц про темную материю: Dark Matter https://arxiv.org/abs/2406.01705 We review observational, experimental and theoretical results related to Dark Matter.
А вот вам ещё прекрасного про физику, но теперь на 3 страницы вместо 510.
The forest as a neutrino detector
https://arxiv.org/abs/2401.14454
The primary challenge in detecting ultrahigh energy (UHE) neutrinos with energies exceeding 10^16 eV is to instrument a large enough volume to detect the extremely low flux, which falls as ∼E^−2. We explore in this article the feasibility of using the forest as a detector. Trees have been shown to be efficient broadband antennas, and may, without damage to the tree, be instrumented with a minimum of apparatus. A large scale array of such trees may be the key to achieving the requisite target volumes for UHE neutrino astronomy.
The forest as a neutrino detector
https://arxiv.org/abs/2401.14454
The primary challenge in detecting ultrahigh energy (UHE) neutrinos with energies exceeding 10^16 eV is to instrument a large enough volume to detect the extremely low flux, which falls as ∼E^−2. We explore in this article the feasibility of using the forest as a detector. Trees have been shown to be efficient broadband antennas, and may, without damage to the tree, be instrumented with a minimum of apparatus. A large scale array of such trees may be the key to achieving the requisite target volumes for UHE neutrino astronomy.
arXiv.org
The forest as a neutrino detector
The primary challenge in detecting ultrahigh energy (UHE) neutrinos with energies exceeding $10^{16}$ eV is to instrument a large enough volume to detect the extremely low flux, which falls as...
🔥21😁6🤯4🤔1💯1
Ну и давненько про новые LLM не писали, а сегодня как раз вышла Qwen2 от Alibaba Cloud
https://qwenlm.github.io/blog/qwen2/
5 моделей: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B, обычные и instruction-tuned. Контекст до 128k. На бенчмарках выглядит красиво и бьёт Llama 3.
В дополнение к английскому и китайскому поддерживает ещё 27 языков.
Лицензия Apache 2.0 для всех кроме самой большой, у той прежняя Qianwen License.
В будущем обещают мультимодальность с видео и аудио.
https://qwenlm.github.io/blog/qwen2/
5 моделей: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, Qwen2-72B, обычные и instruction-tuned. Контекст до 128k. На бенчмарках выглядит красиво и бьёт Llama 3.
В дополнение к английскому и китайскому поддерживает ещё 27 языков.
Лицензия Apache 2.0 для всех кроме самой большой, у той прежняя Qianwen License.
В будущем обещают мультимодальность с видео и аудио.
Qwen
Hello Qwen2
GITHUB HUGGING FACE MODELSCOPE DEMO DISCORD
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…
Introduction After months of efforts, we are pleased to announce the evolution from Qwen1.5 to Qwen2. This time, we bring to you:
Pretrained and instruction-tuned models of 5 sizes, including Qwen2-0.5B, Qwen2-1.5B…
🔥8❤3
Сергей Марков дописал свою большую двухтомную книгу про ИИ «Охота на электроовец: большая книга искусственного интеллекта»! Поздравляем!
Я читал ранние версии и знаю, что Сергей проделал огромную работу по сбору исторического материала. Абсолютно разумно и без хайпа, с технически достоверными обзорами архитектур. Рекомендую.
Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно:
https://markoff.science
Я читал ранние версии и знаю, что Сергей проделал огромную работу по сбору исторического материала. Абсолютно разумно и без хайпа, с технически достоверными обзорами архитектур. Рекомендую.
Полные электронные версии книги (epub, docx, pdf) можно скачать с сайта бесплатно:
https://markoff.science
👍92❤24🤮10💩2🖕2🔥1
Ну и чтобы продолжить с книгами и ростом количества страниц, вот ещё прекрасное
Algebra, Topology, Differential Calculus, and Optimization Theory For Computer Science and Machine Learning
https://www.cis.upenn.edu/~jean/math-deep.pdf
На 2196 страниц.
Приятных выходных!
Algebra, Topology, Differential Calculus, and Optimization Theory For Computer Science and Machine Learning
https://www.cis.upenn.edu/~jean/math-deep.pdf
На 2196 страниц.
Приятных выходных!
😁53❤13🔥6👍4🤡1
Open-Endedness is Essential for Artificial Superhuman Intelligence
Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel
Статья: https://arxiv.org/abs/2406.04268
Серьёзное заявление: “In this position paper, we argue that the ingredients are now in place to achieve openendedness in AI systems with respect to a human observer. Furthermore, we claim that such open-endedness is an essential property of any artificial superhuman intelligence (ASI).”
Авторы заходят со стороны того, что важно квантифицировать и формализовать open-endedness. Для этого они вводят понятие наблюдателя и говорят, что с его перспективы система может считаться таковой, если и только если последовательность производимых ей артефактов является новой (novelty) и выучиваемой (learnability). Оригинальная формулировка определения такова: "From the perspective of an observer, a system is open-ended if and only if the sequence of artifacts it produces is both novel and learnable".
Более формально, система S производит последовательность артефактов X_t, где t — это время. Наблюдатель O является статистической моделью и оценивает предсказуемость артефакта X_T по истории предыдущих артефактов X_{1:t}. Качество предсказания оценивается неким лоссом ℓ(t, T).
Novelty определяется как последовательно увеличивающаяся непредсказуемость артефактов моделью наблюдателя в любое фиксированное время t. То есть матожидание лосса для более поздних артефактов выше.
Learnability присутствует в системе, когда лосс для артефактов при предоставлении наблюдателю более длинной истории становится меньше.
Соответственно для наблюдателя система является open-ended, если она генерирует последовательность novel и learnable артефактов. Это можно описать как “we’ll be surprised but we’ll be surprised in a way that makes sense in retrospect”.
В классическом примере с телевизором, постоянно показывающим случайный шум, на котором потенциально могут зависать многие типа агентов, этот телевизор будет learnable (в том смысле, что агент выучит конкретное распределение), но со временем потеряется novelty. Epistemic uncertainty уйдёт, останется так называемая aleatoric uncertainty (https://docs.aws.amazon.com/prescriptive-guidance/latest/ml-quantifying-uncertainty/decompose-uncertainty.htm) про неустранимую случайность в данных, но и та сколлапсирует благодаря матожиданию.
В примере с таким же телевизором, но где ещё и извне переключают программы на канал с другим шумом с иным распределением (с Первого на Второй, и нужен конечно ещё канал с Полковником) в каждый момент переключения канала наблюдатель будет иметь novelty, но поскольку история наблюдений теперь не очень помогает (лосс не будет уменьшаться, новые каналы генерят иной шум), теряется learnability.
Interestingness явно в описании не фигурирует, но она задаётся через выбор функции потерь. Интересные части артефактов — это те фичи, которые наблюдатель выбрал как полезные для выучивания.
Есть и другие определения open-endedness (среди свежих, например, “A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents” https://arxiv.org/abs/2311.00344, в котором тоже фигурирует наблюдатель) а также куча других связанных идей (им посвящено приложение C).
Наблюдатель — это отдельная большая и важная тема. Традиционно у нас есть большой класс наблюдателей под названием “человеки”. Но текущее определение позволяет быть и иным наблюдателям, например, чтобы покрыть и неантропоцентричные open-ended системы (типа биологической эволюции). Это позволяет и рассуждать об open-ended системах, превосходящих человека (ASI). Ещё это позволяет определить, является ли система open-ended по отношению к любому наблюдателю.
Edward Hughes, Michael Dennis, Jack Parker-Holder, Feryal Behbahani, Aditi Mavalankar, Yuge Shi, Tom Schaul, Tim Rocktaschel
Статья: https://arxiv.org/abs/2406.04268
Серьёзное заявление: “In this position paper, we argue that the ingredients are now in place to achieve openendedness in AI systems with respect to a human observer. Furthermore, we claim that such open-endedness is an essential property of any artificial superhuman intelligence (ASI).”
Авторы заходят со стороны того, что важно квантифицировать и формализовать open-endedness. Для этого они вводят понятие наблюдателя и говорят, что с его перспективы система может считаться таковой, если и только если последовательность производимых ей артефактов является новой (novelty) и выучиваемой (learnability). Оригинальная формулировка определения такова: "From the perspective of an observer, a system is open-ended if and only if the sequence of artifacts it produces is both novel and learnable".
Более формально, система S производит последовательность артефактов X_t, где t — это время. Наблюдатель O является статистической моделью и оценивает предсказуемость артефакта X_T по истории предыдущих артефактов X_{1:t}. Качество предсказания оценивается неким лоссом ℓ(t, T).
Novelty определяется как последовательно увеличивающаяся непредсказуемость артефактов моделью наблюдателя в любое фиксированное время t. То есть матожидание лосса для более поздних артефактов выше.
Learnability присутствует в системе, когда лосс для артефактов при предоставлении наблюдателю более длинной истории становится меньше.
Соответственно для наблюдателя система является open-ended, если она генерирует последовательность novel и learnable артефактов. Это можно описать как “we’ll be surprised but we’ll be surprised in a way that makes sense in retrospect”.
В классическом примере с телевизором, постоянно показывающим случайный шум, на котором потенциально могут зависать многие типа агентов, этот телевизор будет learnable (в том смысле, что агент выучит конкретное распределение), но со временем потеряется novelty. Epistemic uncertainty уйдёт, останется так называемая aleatoric uncertainty (https://docs.aws.amazon.com/prescriptive-guidance/latest/ml-quantifying-uncertainty/decompose-uncertainty.htm) про неустранимую случайность в данных, но и та сколлапсирует благодаря матожиданию.
В примере с таким же телевизором, но где ещё и извне переключают программы на канал с другим шумом с иным распределением (с Первого на Второй, и нужен конечно ещё канал с Полковником) в каждый момент переключения канала наблюдатель будет иметь novelty, но поскольку история наблюдений теперь не очень помогает (лосс не будет уменьшаться, новые каналы генерят иной шум), теряется learnability.
Interestingness явно в описании не фигурирует, но она задаётся через выбор функции потерь. Интересные части артефактов — это те фичи, которые наблюдатель выбрал как полезные для выучивания.
Есть и другие определения open-endedness (среди свежих, например, “A Definition of Open-Ended Learning Problems for Goal-Conditioned Agents” https://arxiv.org/abs/2311.00344, в котором тоже фигурирует наблюдатель) а также куча других связанных идей (им посвящено приложение C).
Наблюдатель — это отдельная большая и важная тема. Традиционно у нас есть большой класс наблюдателей под названием “человеки”. Но текущее определение позволяет быть и иным наблюдателям, например, чтобы покрыть и неантропоцентричные open-ended системы (типа биологической эволюции). Это позволяет и рассуждать об open-ended системах, превосходящих человека (ASI). Ещё это позволяет определить, является ли система open-ended по отношению к любому наблюдателю.
🔥26👍8❤2