Я запустив десятки Codex агентів, які працюють майже постійно, коли я за компом. Я спрямував усі запити від усіх Кодексів в одне вікно терміналу. Мені треба лише дивитися це вікно і писати, щоб вони продовжували робити наступні кроки, коли виникає черговий запит від агента (кожні 10-20 хвилин). Ліміт токенів GPT Pro використати практично неможливо - я поставив найновіші моделі і extra high reasoning effort, і як я сказав, багато агентів працює паралельно, але все одно я не досяг ліміту. На жаль, ліміт на Claude Caude досягається доволі швидко, навіть на Ultra підписці. Але Claude Code на основі Опусу 4.5 розумніший.
Що саме вони роблять? Я хз, я не дивлюся. Мені пофіг. Це великий вайб-кодінговий експеримент. Завалити усі задачі мʼясом.
Що саме вони роблять? Я хз, я не дивлюся. Мені пофіг. Це великий вайб-кодінговий експеримент. Завалити усі задачі мʼясом.
🤩13😁7👍1👎1🤔1
Якщо проранжувати усі літературні твори, які я читав, за ступенем розуміння логіки, мотивації та психології персонажів, то на одному кінці спектра будуть "Вартові" - там кожен персонаж виглядає як ти чи певна частина тебе, повністю зрозумілий, повністю relatable, все в кожному з них викликає розуміння і активацію здатностей мозка до theory of mind. На іншому кінці спектра романи Достоєвського - усі персонажи в них завжди виглядали для мене як абсолютно штучні конструкти, які не є і не можуть бути реальними людьми, справжні люди такими не бувають, це вигадки, які були вигадані для вигаданого світу, які не мають жодного сенсу та існування за його межами.
✍3😁3😐1
Один з вайбкодінгових проектів, який я зробив за ці дні - це Clippy - стратегічна гра, в який ви граєте або за ШІ, який намагається захопити світ, або за коаліцію алайнменту, яка намагається запобігти цьому. Inspired by Plague Inc and HOI4. Вочевидь, це альфа версія з проблемами з балансом та обмеженим геймплеєм, але на мій погляд вона дуже гарна як пародія того, що відбувається з ШІ і як жартівливий туторіал в тему сучасних ШІ трендів. Гру можна завантажити з гітхабу і грати через веб-інтерфейс: https://github.com/Kendiukhov/clippy/tree/main
❤7🔥6👎1🥰1
Homo Technicus
Новини, які бачиш перед тим, як цунамі Сингулярності зносить тебе:
Ви розумієте, що це означає?
Це були відкриті математичні задачі топового професійного рівня. Професори математики не могли вирішити їх. Олімпіадники не могли вирішити їх. Не факт, що Теренс Тао намагався, але ймовірно намагався, і не зміг вирішити їх.
Чомусь, основні прориви в ШІ завжди приходять у грудні. Невже це банально тому, що розробницькі чи комерційні цикли в ладах привʼязані до календарного року?
ChatGPT вийшла в грудні 2022.
У грудні 2024 вийшли перші моделі з chain-of-thought, які наситили всі основні бенчмарки.
У грудні 2025 вийшли агенти, які самостійно розробляють додатки, роблять оригінальні дослідження, пишуть наукові статті та розвʼязують нетривіальні задачі елітного рівня.
Напрошується питання: що буде у грудні 2026? AI-2027 виглядає так, що йде за графіком.
Це були відкриті математичні задачі топового професійного рівня. Професори математики не могли вирішити їх. Олімпіадники не могли вирішити їх. Не факт, що Теренс Тао намагався, але ймовірно намагався, і не зміг вирішити їх.
Чомусь, основні прориви в ШІ завжди приходять у грудні. Невже це банально тому, що розробницькі чи комерційні цикли в ладах привʼязані до календарного року?
ChatGPT вийшла в грудні 2022.
У грудні 2024 вийшли перші моделі з chain-of-thought, які наситили всі основні бенчмарки.
У грудні 2025 вийшли агенти, які самостійно розробляють додатки, роблять оригінальні дослідження, пишуть наукові статті та розвʼязують нетривіальні задачі елітного рівня.
Напрошується питання: що буде у грудні 2026? AI-2027 виглядає так, що йде за графіком.
🫡4😭3🔥1
Homo Technicus
Ви розумієте, що це означає? Це були відкриті математичні задачі топового професійного рівня. Професори математики не могли вирішити їх. Олімпіадники не могли вирішити їх. Не факт, що Теренс Тао намагався, але ймовірно намагався, і не зміг вирішити їх. …
Історія з математичними здатностями ШІ - це черговий приклад того, що реальність не зобовʼязана обирати середину в дискусії.
Влітку, коли ШІ взяли золото на IMO, я дискутував з різними людьми стосовно того, наскільки це ознака того, що ШІ близькі до того, щоб робити оригінальні відкриття в математиці. Я вважав, що це скоріше так, і за рік-два це відбудеться. Інші вважали, що це скоріше не так, і треба суттєво більше часу. В реальності, на це пішло півроку.
Влітку, коли ШІ взяли золото на IMO, я дискутував з різними людьми стосовно того, наскільки це ознака того, що ШІ близькі до того, щоб робити оригінальні відкриття в математиці. Я вважав, що це скоріше так, і за рік-два це відбудеться. Інші вважали, що це скоріше не так, і треба суттєво більше часу. В реальності, на це пішло півроку.
😁8😭3👀1
https://x.com/getjonwithit/status/2009602836997505255
Я завжди вважав: існує купа математики, яка ніколи не буде корисною. Уся теза про «дивовижну застосованість математики» заснована на винятках та ретельно відібраних людьми окремих випадках. Усе, що можна корисно застосувати для моделювання світу - це математика, але далеко не все, що математика, можна корисно застосувати для моделювання світу.
Також, що цікаво, кількість цікавих простих аксіоматичних систем велика, але не дуже велика. Інтуїтивно, мені здавалося, що їх повинно бути більше (в тому сенсі, що майже всі аксіоматичні системи людей не повинні були б зʼявитися в першому мільйоні перебору всіх можливих).
Звичайно, багато хто інтуїтивно помиляється в інший бік - тобто вважає, що людство відкрило і розробляє більшість чи навіть майже всі цікаві аксіоматичні системи.
Я завжди вважав: існує купа математики, яка ніколи не буде корисною. Уся теза про «дивовижну застосованість математики» заснована на винятках та ретельно відібраних людьми окремих випадках. Усе, що можна корисно застосувати для моделювання світу - це математика, але далеко не все, що математика, можна корисно застосувати для моделювання світу.
Також, що цікаво, кількість цікавих простих аксіоматичних систем велика, але не дуже велика. Інтуїтивно, мені здавалося, що їх повинно бути більше (в тому сенсі, що майже всі аксіоматичні системи людей не повинні були б зʼявитися в першому мільйоні перебору всіх можливих).
Звичайно, багато хто інтуїтивно помиляється в інший бік - тобто вважає, що людство відкрило і розробляє більшість чи навіть майже всі цікаві аксіоматичні системи.
X (formerly Twitter)
Jonathan Gorard (@getjonwithit) on X
Like @davidbessis and others, I think that Hinton is wrong. To explain why, let me tell you a brief story.
About a decade ago, in 2017, I developed an automated theorem-proving framework that was ultimately integrated into Mathematica (see: https://t.co/nGCIUk44TP)…
About a decade ago, in 2017, I developed an automated theorem-proving framework that was ultimately integrated into Mathematica (see: https://t.co/nGCIUk44TP)…
Another day, another research stream from me!
На цей раз, шукаю людей в команду для мого проекту в SPAR, мета якого — відповісти на питання: які напрямки досліджень з безпеки ШІ можуть випадково зробити ШІ небезпечнішим?
Тривіальний приклад: RLHF було винайдено, щоб зробити ШІ безпечнішим. Воно стало двигуном комерційного успіху ChatGPT та всієї гонки озброєнь ШІ. Це не поодинокий випадок — це системна проблема, яка так і не була формально вирішена.
Цей проєкт SPAR створить першу строгу методологію для вимірювання Capability Spillover Potential, CSP: кількісної оцінки того, наскільки ймовірно, що дослідження з safety буде перепрофільовано для просування capabilities.
Ми проаналізуємо історичні випадки, оцінимо поточні дослідницькі напрямки та створимо практичні рекомендації для грантодавців і дослідників для досягнення диференційного прогресу в безпеці.
Вам варто подаватися, якщо ви:
Маєте знання ландшафту досліджень з безпеки ШІ на рівні intermediate+
Розумієте, чому алайнмент — це складно (знайомі з аргументами на кшталт AGI Ruin, Agent Foundations)
Дедлайн подачі заявок — 14 січня.
Читайте про проєкт тут: https://sparai.org/projects/sp26/recQ0oK9NPEa1ajpK
Подавайтеся тут: https://fillout.kairos-project.org/t/fAg7dB6whjus
Двоє людей були взяті на мій поточний проект в AI Safety Camp через канал.
На цей раз, шукаю людей в команду для мого проекту в SPAR, мета якого — відповісти на питання: які напрямки досліджень з безпеки ШІ можуть випадково зробити ШІ небезпечнішим?
Тривіальний приклад: RLHF було винайдено, щоб зробити ШІ безпечнішим. Воно стало двигуном комерційного успіху ChatGPT та всієї гонки озброєнь ШІ. Це не поодинокий випадок — це системна проблема, яка так і не була формально вирішена.
Цей проєкт SPAR створить першу строгу методологію для вимірювання Capability Spillover Potential, CSP: кількісної оцінки того, наскільки ймовірно, що дослідження з safety буде перепрофільовано для просування capabilities.
Ми проаналізуємо історичні випадки, оцінимо поточні дослідницькі напрямки та створимо практичні рекомендації для грантодавців і дослідників для досягнення диференційного прогресу в безпеці.
Вам варто подаватися, якщо ви:
Маєте знання ландшафту досліджень з безпеки ШІ на рівні intermediate+
Розумієте, чому алайнмент — це складно (знайомі з аргументами на кшталт AGI Ruin, Agent Foundations)
Дедлайн подачі заявок — 14 січня.
Читайте про проєкт тут: https://sparai.org/projects/sp26/recQ0oK9NPEa1ajpK
Подавайтеся тут: https://fillout.kairos-project.org/t/fAg7dB6whjus
Двоє людей були взяті на мій поточний проект в AI Safety Camp через канал.
SPAR
The Double-Edged Sword: A Framework for Analyzing and Forecasting Capability Spillovers from AI Safety Research - SPAR Project
This is a metaresearch project to investigate a critical, paradoxical dynamic within the AI ecosystem: the tendency for AI safety research to produce "spillover...
❤3
Неочікувано для себе, я завершив першу з двох частин науково-фантастичної книги, яку пишу - "Дорослішання". Тепер, є всі шанси встигнути дописати другу частину не тільки до Сингулярності, але і за цей рік.
Ніцше казав:
"З усього написаного, найбільше я люблю те, що написано власною кров'ю. Пиши власною кров'ю - і ти дізнаєшся, що кров є дух."
Я дізнався це, коли писав цю книгу.
Я був би дуже вдячний за бета-тестінг і за зворотній зв'язок щодо того, чи є в книзі якісь очевидні помилки чи прогалини, а також взагалі за будь-які коментарі. Тому, якщо у когось є бажання почитати і надати коментарі, пишіть в особисті будь-ласка. Можливо, вас змотивує те, що не один і не два моїх підписники стали в тому чи іншому ступені прототипами деяких персонажів.
Я згадував сюжет коротко на каналі, але нагадаю: Альтернативна історія, яка пішла іншим шляхом після 1952 року. 2025 рік. Населення Землі - 92 мільярди. Науково-технократичне суспільство. Світова конфедерація. Ринки передбачень як основа економіки та політики. Початок колонізації Марсу та малих планет. Початок генетичної інженерії людей. Майже утопія - чи як я називаю це, антиантиутопія.
Інвестор наймає відомого фундаментального фізика, показує йому каміння і просить провести певні дослідження таємно від усіх. Світовий Комітет Безпеки збирає різних незрозумілих людей незрозуміло для чого. Не дуже успішний історик намагається знайти відповідь на питання: що сталося у 1952 році?
Ніцше казав:
"З усього написаного, найбільше я люблю те, що написано власною кров'ю. Пиши власною кров'ю - і ти дізнаєшся, що кров є дух."
Я дізнався це, коли писав цю книгу.
Я був би дуже вдячний за бета-тестінг і за зворотній зв'язок щодо того, чи є в книзі якісь очевидні помилки чи прогалини, а також взагалі за будь-які коментарі. Тому, якщо у когось є бажання почитати і надати коментарі, пишіть в особисті будь-ласка. Можливо, вас змотивує те, що не один і не два моїх підписники стали в тому чи іншому ступені прототипами деяких персонажів.
Я згадував сюжет коротко на каналі, але нагадаю: Альтернативна історія, яка пішла іншим шляхом після 1952 року. 2025 рік. Населення Землі - 92 мільярди. Науково-технократичне суспільство. Світова конфедерація. Ринки передбачень як основа економіки та політики. Початок колонізації Марсу та малих планет. Початок генетичної інженерії людей. Майже утопія - чи як я називаю це, антиантиутопія.
Інвестор наймає відомого фундаментального фізика, показує йому каміння і просить провести певні дослідження таємно від усіх. Світовий Комітет Безпеки збирає різних незрозумілих людей незрозуміло для чого. Не дуже успішний історик намагається знайти відповідь на питання: що сталося у 1952 році?
❤4🔥1
Славетна перемога!
Я зробив додаток, який дозволяє запускати кодингових агентів на основі Кодексу без зупинки і необхідності втручань від користувача (хоча звичайно користувач може втручатися, якщо хоче) - вони будуть працювати стільки, скільки необхідно, щоб виконати задачу, і якщо задача відкрита або велетенська, то вони будуть працювати нескінченно (тобто, поки не увійдете в ліміт). Він працює на основі ChatGPT підписки, не API. Для MacOS/Linus.
Усе працює в докері, тому повинно бути безпечно. Всередині докера агенти мають повну свободу дій.
Інтерфейси - CLI та веб. Краще користуватися CLI - веб-інтерфейс трохи повільний і не дуже протестований, але наче увесь базовий функціонал працює.
Наскільки це буде якісно та корисно? Лише практика покаже. Я зараз вже роблю певні речі за його допомогою. Але у будь-якому випадку, ви можете використовувати цей тул, щоб ваші ліміти не простоювали - саме це було моєю початковою мотивацією. У мене просто нема часу на те, щоб промптити Кодекси так багато, щоб вони досягали тижневого ліміту. А ще є Claude Code та Antigravity. Тепер, цю проблему вирішено.
https://github.com/Biodyn-AI/estel
Я зробив додаток, який дозволяє запускати кодингових агентів на основі Кодексу без зупинки і необхідності втручань від користувача (хоча звичайно користувач може втручатися, якщо хоче) - вони будуть працювати стільки, скільки необхідно, щоб виконати задачу, і якщо задача відкрита або велетенська, то вони будуть працювати нескінченно (тобто, поки не увійдете в ліміт). Він працює на основі ChatGPT підписки, не API. Для MacOS/Linus.
Усе працює в докері, тому повинно бути безпечно. Всередині докера агенти мають повну свободу дій.
Інтерфейси - CLI та веб. Краще користуватися CLI - веб-інтерфейс трохи повільний і не дуже протестований, але наче увесь базовий функціонал працює.
Наскільки це буде якісно та корисно? Лише практика покаже. Я зараз вже роблю певні речі за його допомогою. Але у будь-якому випадку, ви можете використовувати цей тул, щоб ваші ліміти не простоювали - саме це було моєю початковою мотивацією. У мене просто нема часу на те, щоб промптити Кодекси так багато, щоб вони досягали тижневого ліміту. А ще є Claude Code та Antigravity. Тепер, цю проблему вирішено.
https://github.com/Biodyn-AI/estel
GitHub
GitHub - Biodyn-AI/estel
Contribute to Biodyn-AI/estel development by creating an account on GitHub.
👍6
Homo Technicus
Неочікувано для себе, я завершив першу з двох частин науково-фантастичної книги, яку пишу - "Дорослішання". Тепер, є всі шанси встигнути дописати другу частину не тільки до Сингулярності, але і за цей рік. Ніцше казав: "З усього написаного, найбільше я люблю…
У зв'язку з написанням книги, я зрозумів, що мені випадає унікальна можливість "чисто" протестувати здатність ЛЛМ до літературного аналізу. Оскільки книги нема в тренувальних даних, то те, що ЛЛМи зрозуміють про неї, буде результатом їхнього власного мислення, а не повторення вивченого аналізу.
І результати вийшли доволі цікаві.
Перше місце безумовно займає Клод. Він розуміє з нульом підказок може 70-80% "художнього контенту". Тобто, відсилки, паралелі, приховані повідомлення, структури, різноманітні прийоми, багаторівневі ідеї. Це дійсно, я б сказав, доволі глибокий аналіз - точно більше, ніж зробив би середній літературний аналітик. А якщо давати хоча б мінімальні підказки, він розуміє практично все. Може, буквально пару важливих прихованих повідомлень чи структур він пропустив.
Джеміні також розуміє непогано, але у неї доволі високий рейт "хибнопозитивних" результатів. Вона нерідко бачить структури та метафори там, де їх нема. І часто їй треба "допомагати", щоб вона додумалася до конкретних речей.
Найбільш неочікуваний результат в GPT. Навіть pro версія доволі незграбна. Вона не знаходить багатьох навіть поверхневих ідей. Вона дає різні інтерпретації, але вони всі чи майже всі існують лише на першому рівні буквального тлумачення сюжету та оповідання. Багато сенсів та змістів просто проходять повз. Це доволі дивно, враховуючи загальний рівень здатностей GPT.
І результати вийшли доволі цікаві.
Перше місце безумовно займає Клод. Він розуміє з нульом підказок може 70-80% "художнього контенту". Тобто, відсилки, паралелі, приховані повідомлення, структури, різноманітні прийоми, багаторівневі ідеї. Це дійсно, я б сказав, доволі глибокий аналіз - точно більше, ніж зробив би середній літературний аналітик. А якщо давати хоча б мінімальні підказки, він розуміє практично все. Може, буквально пару важливих прихованих повідомлень чи структур він пропустив.
Джеміні також розуміє непогано, але у неї доволі високий рейт "хибнопозитивних" результатів. Вона нерідко бачить структури та метафори там, де їх нема. І часто їй треба "допомагати", щоб вона додумалася до конкретних речей.
Найбільш неочікуваний результат в GPT. Навіть pro версія доволі незграбна. Вона не знаходить багатьох навіть поверхневих ідей. Вона дає різні інтерпретації, але вони всі чи майже всі існують лише на першому рівні буквального тлумачення сюжету та оповідання. Багато сенсів та змістів просто проходять повз. Це доволі дивно, враховуючи загальний рівень здатностей GPT.
👀7❤2🔥2🤔2
Homo Technicus
Славетна перемога! Я зробив додаток, який дозволяє запускати кодингових агентів на основі Кодексу без зупинки і необхідності втручань від користувача (хоча звичайно користувач може втручатися, якщо хоче) - вони будуть працювати стільки, скільки необхідно…
Тепер також у вигляді додатку для VSCode - https://github.com/Biodyn-AI/estel-vscode.
GitHub
GitHub - Biodyn-AI/estel-vscode
Contribute to Biodyn-AI/estel-vscode development by creating an account on GitHub.
👍2✍1🔥1
У черговий раз ШІ-тусовку кидає з боку в бік на основі мікро-різниць з прогнозом AI-2027. Раніше реальність відставала від прогнозу на пару місяців, і всі розповідали, який AI-2027 надто оптимістичний. Тепер прогноз відстає від реальності на пару місяців, і всі розповідають, який від надто стриманий. Я особисто залишаються консерватором і вважаю, що у нас є час принаймні до 2028 року.
😭4👌2
Закони масштабування METR виглядають так, що вони повністю припинили працювати і зламалися вгору? Або може я чогось не розумію. Зараз верхня межа confidence interval для 80% рейту вирішення задач - це півтори години за їхнім графіком. Але я не можу згадати жодну інтелектуальну задачу, яку може виконати людина за півтори години і яку не може зараз виконати ШІ. Реалістична оцінка як на мене зараз - це мінімум робочий день. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
metr.org
Measuring AI Ability to Complete Long Tasks
We propose measuring AI performance in terms of the *length* of tasks AI agents can complete. We show that this metric has been consistently exponentially increasing over the past 6 years, with a doubling time of around 7 months. Extrapolating this trend…
👍3😭1
The_Dichomous_Lure.pdf
362.4 KB
Я тільки що використав Google Antigravity, щоб на основі цього відео він написав дисертацію Енакіна Скайокера про мета-наратив в Трагедії Дарта Плегаса Мудрого.
Подивіться, який вийшов чудовий результат!
What a time to be alive!
Подивіться, який вийшов чудовий результат!
What a time to be alive!
😁6👎1🤯1😭1