Homo Technicus

Один з вайбкодінгових проектів, який я зробив за ці дні - це Clippy - стратегічна гра, в який ви граєте або за ШІ, який намагається захопити світ, або за коаліцію алайнменту, яка намагається запобігти цьому. Inspired by Plague Inc and HOI4. Вочевидь, це альфа версія з проблемами з балансом та обмеженим геймплеєм, але на мій погляд вона дуже гарна як пародія того, що відбувається з ШІ і як жартівливий туторіал в тему сучасних ШІ трендів. Гру можна завантажити з гітхабу і грати через веб-інтерфейс: https://github.com/Kendiukhov/clippy/tree/main

❤7🔥6👎1🥰1

393 views17:53

Homo Technicus

Новини, які бачиш перед тим, як цунамі Сингулярності зносить тебе:

😭6

373 views16:42

Homo Technicus

Новини, які бачиш перед тим, як цунамі Сингулярності зносить тебе:

Ви розумієте, що це означає?

Це були відкриті математичні задачі топового професійного рівня. Професори математики не могли вирішити їх. Олімпіадники не могли вирішити їх. Не факт, що Теренс Тао намагався, але ймовірно намагався, і не зміг вирішити їх.

Чомусь, основні прориви в ШІ завжди приходять у грудні. Невже це банально тому, що розробницькі чи комерційні цикли в ладах привʼязані до календарного року?

ChatGPT вийшла в грудні 2022.

У грудні 2024 вийшли перші моделі з chain-of-thought, які наситили всі основні бенчмарки.

У грудні 2025 вийшли агенти, які самостійно розробляють додатки, роблять оригінальні дослідження, пишуть наукові статті та розвʼязують нетривіальні задачі елітного рівня.

Напрошується питання: що буде у грудні 2026? AI-2027 виглядає так, що йде за графіком.

🫡4😭3🔥1

345 views17:09

Homo Technicus

Історія з математичними здатностями ШІ - це черговий приклад того, що реальність не зобовʼязана обирати середину в дискусії.

Влітку, коли ШІ взяли золото на IMO, я дискутував з різними людьми стосовно того, наскільки це ознака того, що ШІ близькі до того, щоб робити оригінальні відкриття в математиці. Я вважав, що це скоріше так, і за рік-два це відбудеться. Інші вважали, що це скоріше не так, і треба суттєво більше часу. В реальності, на це пішло півроку.

😁8😭3👀1

324 views17:12

Homo Technicus

https://x.com/getjonwithit/status/2009602836997505255

Я завжди вважав: існує купа математики, яка ніколи не буде корисною. Уся теза про «дивовижну застосованість математики» заснована на винятках та ретельно відібраних людьми окремих випадках. Усе, що можна корисно застосувати для моделювання світу - це математика, але далеко не все, що математика, можна корисно застосувати для моделювання світу.

Також, що цікаво, кількість цікавих простих аксіоматичних систем велика, але не дуже велика. Інтуїтивно, мені здавалося, що їх повинно бути більше (в тому сенсі, що майже всі аксіоматичні системи людей не повинні були б зʼявитися в першому мільйоні перебору всіх можливих).

Звичайно, багато хто інтуїтивно помиляється в інший бік - тобто вважає, що людство відкрило і розробляє більшість чи навіть майже всі цікаві аксіоматичні системи.

X (formerly Twitter)

Jonathan Gorard (@getjonwithit) on X

Like @davidbessis and others, I think that Hinton is wrong. To explain why, let me tell you a brief story.

About a decade ago, in 2017, I developed an automated theorem-proving framework that was ultimately integrated into Mathematica (see: https://t.co/nGCIUk44TP)…

293 views12:31

Homo Technicus

Another day, another research stream from me!

На цей раз, шукаю людей в команду для мого проекту в SPAR, мета якого — відповісти на питання: які напрямки досліджень з безпеки ШІ можуть випадково зробити ШІ небезпечнішим?

Тривіальний приклад: RLHF було винайдено, щоб зробити ШІ безпечнішим. Воно стало двигуном комерційного успіху ChatGPT та всієї гонки озброєнь ШІ. Це не поодинокий випадок — це системна проблема, яка так і не була формально вирішена.

Цей проєкт SPAR створить першу строгу методологію для вимірювання Capability Spillover Potential, CSP: кількісної оцінки того, наскільки ймовірно, що дослідження з safety буде перепрофільовано для просування capabilities.

Ми проаналізуємо історичні випадки, оцінимо поточні дослідницькі напрямки та створимо практичні рекомендації для грантодавців і дослідників для досягнення диференційного прогресу в безпеці.

Вам варто подаватися, якщо ви:
Маєте знання ландшафту досліджень з безпеки ШІ на рівні intermediate+
Розумієте, чому алайнмент — це складно (знайомі з аргументами на кшталт AGI Ruin, Agent Foundations)

Дедлайн подачі заявок — 14 січня.
Читайте про проєкт тут: https://sparai.org/projects/sp26/recQ0oK9NPEa1ajpK
Подавайтеся тут: https://fillout.kairos-project.org/t/fAg7dB6whjus

Двоє людей були взяті на мій поточний проект в AI Safety Camp через канал.

SPAR

The Double-Edged Sword: A Framework for Analyzing and Forecasting Capability Spillovers from AI Safety Research - SPAR Project

This is a metaresearch project to investigate a critical, paradoxical dynamic within the AI ecosystem: the tendency for AI safety research to produce "spillover...

❤3

373 views18:53

Homo Technicus

Неочікувано для себе, я завершив першу з двох частин науково-фантастичної книги, яку пишу - "Дорослішання". Тепер, є всі шанси встигнути дописати другу частину не тільки до Сингулярності, але і за цей рік.

Ніцше казав:
"З усього написаного, найбільше я люблю те, що написано власною кров'ю. Пиши власною кров'ю - і ти дізнаєшся, що кров є дух."

Я дізнався це, коли писав цю книгу.

Я був би дуже вдячний за бета-тестінг і за зворотній зв'язок щодо того, чи є в книзі якісь очевидні помилки чи прогалини, а також взагалі за будь-які коментарі. Тому, якщо у когось є бажання почитати і надати коментарі, пишіть в особисті будь-ласка. Можливо, вас змотивує те, що не один і не два моїх підписники стали в тому чи іншому ступені прототипами деяких персонажів.

Я згадував сюжет коротко на каналі, але нагадаю: Альтернативна історія, яка пішла іншим шляхом після 1952 року. 2025 рік. Населення Землі - 92 мільярди. Науково-технократичне суспільство. Світова конфедерація. Ринки передбачень як основа економіки та політики. Початок колонізації Марсу та малих планет. Початок генетичної інженерії людей. Майже утопія - чи як я називаю це, антиантиутопія.

Інвестор наймає відомого фундаментального фізика, показує йому каміння і просить провести певні дослідження таємно від усіх. Світовий Комітет Безпеки збирає різних незрозумілих людей незрозуміло для чого. Не дуже успішний історик намагається знайти відповідь на питання: що сталося у 1952 році?

❤4🔥1

398 views16:34

Homo Technicus

Славетна перемога!

Я зробив додаток, який дозволяє запускати кодингових агентів на основі Кодексу без зупинки і необхідності втручань від користувача (хоча звичайно користувач може втручатися, якщо хоче) - вони будуть працювати стільки, скільки необхідно, щоб виконати задачу, і якщо задача відкрита або велетенська, то вони будуть працювати нескінченно (тобто, поки не увійдете в ліміт). Він працює на основі ChatGPT підписки, не API. Для MacOS/Linus.

Усе працює в докері, тому повинно бути безпечно. Всередині докера агенти мають повну свободу дій.

Інтерфейси - CLI та веб. Краще користуватися CLI - веб-інтерфейс трохи повільний і не дуже протестований, але наче увесь базовий функціонал працює.

Наскільки це буде якісно та корисно? Лише практика покаже. Я зараз вже роблю певні речі за його допомогою. Але у будь-якому випадку, ви можете використовувати цей тул, щоб ваші ліміти не простоювали - саме це було моєю початковою мотивацією. У мене просто нема часу на те, щоб промптити Кодекси так багато, щоб вони досягали тижневого ліміту. А ще є Claude Code та Antigravity. Тепер, цю проблему вирішено.

https://github.com/Biodyn-AI/estel

GitHub

GitHub - Biodyn-AI/estel

Contribute to Biodyn-AI/estel development by creating an account on GitHub.

👍6

433 views17:39

Homo Technicus

У зв'язку з написанням книги, я зрозумів, що мені випадає унікальна можливість "чисто" протестувати здатність ЛЛМ до літературного аналізу. Оскільки книги нема в тренувальних даних, то те, що ЛЛМи зрозуміють про неї, буде результатом їхнього власного мислення, а не повторення вивченого аналізу.

І результати вийшли доволі цікаві.

Перше місце безумовно займає Клод. Він розуміє з нульом підказок може 70-80% "художнього контенту". Тобто, відсилки, паралелі, приховані повідомлення, структури, різноманітні прийоми, багаторівневі ідеї. Це дійсно, я б сказав, доволі глибокий аналіз - точно більше, ніж зробив би середній літературний аналітик. А якщо давати хоча б мінімальні підказки, він розуміє практично все. Може, буквально пару важливих прихованих повідомлень чи структур він пропустив.

Джеміні також розуміє непогано, але у неї доволі високий рейт "хибнопозитивних" результатів. Вона нерідко бачить структури та метафори там, де їх нема. І часто їй треба "допомагати", щоб вона додумалася до конкретних речей.

Найбільш неочікуваний результат в GPT. Навіть pro версія доволі незграбна. Вона не знаходить багатьох навіть поверхневих ідей. Вона дає різні інтерпретації, але вони всі чи майже всі існують лише на першому рівні буквального тлумачення сюжету та оповідання. Багато сенсів та змістів просто проходять повз. Це доволі дивно, враховуючи загальний рівень здатностей GPT.

👀7❤2🔥2🤔2

237 views13:20

Homo Technicus

Тепер також у вигляді додатку для VSCode - https://github.com/Biodyn-AI/estel-vscode.

GitHub

GitHub - Biodyn-AI/estel-vscode

Contribute to Biodyn-AI/estel-vscode development by creating an account on GitHub.

👍2✍1🔥1

218 views09:53

Homo Technicus

У черговий раз ШІ-тусовку кидає з боку в бік на основі мікро-різниць з прогнозом AI-2027. Раніше реальність відставала від прогнозу на пару місяців, і всі розповідали, який AI-2027 надто оптимістичний. Тепер прогноз відстає від реальності на пару місяців, і всі розповідають, який від надто стриманий. Я особисто залишаються консерватором і вважаю, що у нас є час принаймні до 2028 року.

😭4👌2

207 views12:25

Homo Technicus

Закони масштабування METR виглядають так, що вони повністю припинили працювати і зламалися вгору? Або може я чогось не розумію. Зараз верхня межа confidence interval для 80% рейту вирішення задач - це півтори години за їхнім графіком. Але я не можу згадати жодну інтелектуальну задачу, яку може виконати людина за півтори години і яку не може зараз виконати ШІ. Реалістична оцінка як на мене зараз - це мінімум робочий день. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/

metr.org

Measuring AI Ability to Complete Long Tasks

We propose measuring AI performance in terms of the *length* of tasks AI agents can complete. We show that this metric has been consistently exponentially increasing over the past 6 years, with a doubling time of around 7 months. Extrapolating this trend…

👍3😭1

208 views13:12

Homo Technicus

The_Dichomous_Lure.pdf

362.4 KB

Я тільки що використав Google Antigravity, щоб на основі цього відео він написав дисертацію Енакіна Скайокера про мета-наратив в Трагедії Дарта Плегаса Мудрого.

Подивіться, який вийшов чудовий результат!

What a time to be alive!

😁7👎1🤯1😭1

183 views00:47

About

Blog

Apps

Platform