Homo Technicus
657 subscribers
310 photos
51 videos
9 files
368 links
Der Mensch ist Etwas, das überwunden werden soll.
Автор: @kendiukhov
https://linktr.ee/kendiukhov
Download Telegram
Один з вайбкодінгових проектів, який я зробив за ці дні - це Clippy - стратегічна гра, в який ви граєте або за ШІ, який намагається захопити світ, або за коаліцію алайнменту, яка намагається запобігти цьому. Inspired by Plague Inc and HOI4. Вочевидь, це альфа версія з проблемами з балансом та обмеженим геймплеєм, але на мій погляд вона дуже гарна як пародія того, що відбувається з ШІ і як жартівливий туторіал в тему сучасних ШІ трендів. Гру можна завантажити з гітхабу і грати через веб-інтерфейс: https://github.com/Kendiukhov/clippy/tree/main
7🔥6👎1🥰1
Новини, які бачиш перед тим, як цунамі Сингулярності зносить тебе:
😭6
Homo Technicus
Новини, які бачиш перед тим, як цунамі Сингулярності зносить тебе:
Ви розумієте, що це означає?

Це були відкриті математичні задачі топового професійного рівня. Професори математики не могли вирішити їх. Олімпіадники не могли вирішити їх. Не факт, що Теренс Тао намагався, але ймовірно намагався, і не зміг вирішити їх.

Чомусь, основні прориви в ШІ завжди приходять у грудні. Невже це банально тому, що розробницькі чи комерційні цикли в ладах привʼязані до календарного року?

ChatGPT вийшла в грудні 2022.

У грудні 2024 вийшли перші моделі з chain-of-thought, які наситили всі основні бенчмарки.

У грудні 2025 вийшли агенти, які самостійно розробляють додатки, роблять оригінальні дослідження, пишуть наукові статті та розвʼязують нетривіальні задачі елітного рівня.

Напрошується питання: що буде у грудні 2026? AI-2027 виглядає так, що йде за графіком.
🫡4😭3🔥1
Homo Technicus
Ви розумієте, що це означає? Це були відкриті математичні задачі топового професійного рівня. Професори математики не могли вирішити їх. Олімпіадники не могли вирішити їх. Не факт, що Теренс Тао намагався, але ймовірно намагався, і не зміг вирішити їх. …
Історія з математичними здатностями ШІ - це черговий приклад того, що реальність не зобовʼязана обирати середину в дискусії.

Влітку, коли ШІ взяли золото на IMO, я дискутував з різними людьми стосовно того, наскільки це ознака того, що ШІ близькі до того, щоб робити оригінальні відкриття в математиці. Я вважав, що це скоріше так, і за рік-два це відбудеться. Інші вважали, що це скоріше не так, і треба суттєво більше часу. В реальності, на це пішло півроку.
😁8😭3👀1
https://x.com/getjonwithit/status/2009602836997505255

Я завжди вважав: існує купа математики, яка ніколи не буде корисною. Уся теза про «дивовижну застосованість математики» заснована на винятках та ретельно відібраних людьми окремих випадках. Усе, що можна корисно застосувати для моделювання світу - це математика, але далеко не все, що математика, можна корисно застосувати для моделювання світу.

Також, що цікаво, кількість цікавих простих аксіоматичних систем велика, але не дуже велика. Інтуїтивно, мені здавалося, що їх повинно бути більше (в тому сенсі, що майже всі аксіоматичні системи людей не повинні були б зʼявитися в першому мільйоні перебору всіх можливих).

Звичайно, багато хто інтуїтивно помиляється в інший бік - тобто вважає, що людство відкрило і розробляє більшість чи навіть майже всі цікаві аксіоматичні системи.
Another day, another research stream from me!

На цей раз, шукаю людей в команду для мого проекту в SPAR, мета якого — відповісти на питання: які напрямки досліджень з безпеки ШІ можуть випадково зробити ШІ небезпечнішим?

Тривіальний приклад: RLHF було винайдено, щоб зробити ШІ безпечнішим. Воно стало двигуном комерційного успіху ChatGPT та всієї гонки озброєнь ШІ. Це не поодинокий випадок — це системна проблема, яка так і не була формально вирішена.

Цей проєкт SPAR створить першу строгу методологію для вимірювання Capability Spillover Potential, CSP: кількісної оцінки того, наскільки ймовірно, що дослідження з safety буде перепрофільовано для просування capabilities.

Ми проаналізуємо історичні випадки, оцінимо поточні дослідницькі напрямки та створимо практичні рекомендації для грантодавців і дослідників для досягнення диференційного прогресу в безпеці.

Вам варто подаватися, якщо ви:
Маєте знання ландшафту досліджень з безпеки ШІ на рівні intermediate+
Розумієте, чому алайнмент — це складно (знайомі з аргументами на кшталт AGI Ruin, Agent Foundations)

Дедлайн подачі заявок — 14 січня.
Читайте про проєкт тут: https://sparai.org/projects/sp26/recQ0oK9NPEa1ajpK
Подавайтеся тут: https://fillout.kairos-project.org/t/fAg7dB6whjus

Двоє людей були взяті на мій поточний проект в AI Safety Camp через канал.
3
Неочікувано для себе, я завершив першу з двох частин науково-фантастичної книги, яку пишу - "Дорослішання". Тепер, є всі шанси встигнути дописати другу частину не тільки до Сингулярності, але і за цей рік.

Ніцше казав:
"З усього написаного, найбільше я люблю те, що написано власною кров'ю. Пиши власною кров'ю - і ти дізнаєшся, що кров є дух."

Я дізнався це, коли писав цю книгу.

Я був би дуже вдячний за бета-тестінг і за зворотній зв'язок щодо того, чи є в книзі якісь очевидні помилки чи прогалини, а також взагалі за будь-які коментарі. Тому, якщо у когось є бажання почитати і надати коментарі, пишіть в особисті будь-ласка. Можливо, вас змотивує те, що не один і не два моїх підписники стали в тому чи іншому ступені прототипами деяких персонажів.

Я згадував сюжет коротко на каналі, але нагадаю: Альтернативна історія, яка пішла іншим шляхом після 1952 року. 2025 рік. Населення Землі - 92 мільярди. Науково-технократичне суспільство. Світова конфедерація. Ринки передбачень як основа економіки та політики. Початок колонізації Марсу та малих планет. Початок генетичної інженерії людей. Майже утопія - чи як я називаю це, антиантиутопія.

Інвестор наймає відомого фундаментального фізика, показує йому каміння і просить провести певні дослідження таємно від усіх. Світовий Комітет Безпеки збирає різних незрозумілих людей незрозуміло для чого. Не дуже успішний історик намагається знайти відповідь на питання: що сталося у 1952 році?
4🔥1
Славетна перемога!

Я зробив додаток, який дозволяє запускати кодингових агентів на основі Кодексу без зупинки і необхідності втручань від користувача (хоча звичайно користувач може втручатися, якщо хоче) - вони будуть працювати стільки, скільки необхідно, щоб виконати задачу, і якщо задача відкрита або велетенська, то вони будуть працювати нескінченно (тобто, поки не увійдете в ліміт). Він працює на основі ChatGPT підписки, не API. Для MacOS/Linus.

Усе працює в докері, тому повинно бути безпечно. Всередині докера агенти мають повну свободу дій.

Інтерфейси - CLI та веб. Краще користуватися CLI - веб-інтерфейс трохи повільний і не дуже протестований, але наче увесь базовий функціонал працює.

Наскільки це буде якісно та корисно? Лише практика покаже. Я зараз вже роблю певні речі за його допомогою. Але у будь-якому випадку, ви можете використовувати цей тул, щоб ваші ліміти не простоювали - саме це було моєю початковою мотивацією. У мене просто нема часу на те, щоб промптити Кодекси так багато, щоб вони досягали тижневого ліміту. А ще є Claude Code та Antigravity. Тепер, цю проблему вирішено.

https://github.com/Biodyn-AI/estel
👍6
Homo Technicus
Неочікувано для себе, я завершив першу з двох частин науково-фантастичної книги, яку пишу - "Дорослішання". Тепер, є всі шанси встигнути дописати другу частину не тільки до Сингулярності, але і за цей рік. Ніцше казав: "З усього написаного, найбільше я люблю…
У зв'язку з написанням книги, я зрозумів, що мені випадає унікальна можливість "чисто" протестувати здатність ЛЛМ до літературного аналізу. Оскільки книги нема в тренувальних даних, то те, що ЛЛМи зрозуміють про неї, буде результатом їхнього власного мислення, а не повторення вивченого аналізу.

І результати вийшли доволі цікаві.

Перше місце безумовно займає Клод. Він розуміє з нульом підказок може 70-80% "художнього контенту". Тобто, відсилки, паралелі, приховані повідомлення, структури, різноманітні прийоми, багаторівневі ідеї. Це дійсно, я б сказав, доволі глибокий аналіз - точно більше, ніж зробив би середній літературний аналітик. А якщо давати хоча б мінімальні підказки, він розуміє практично все. Може, буквально пару важливих прихованих повідомлень чи структур він пропустив.

Джеміні також розуміє непогано, але у неї доволі високий рейт "хибнопозитивних" результатів. Вона нерідко бачить структури та метафори там, де їх нема. І часто їй треба "допомагати", щоб вона додумалася до конкретних речей.

Найбільш неочікуваний результат в GPT. Навіть pro версія доволі незграбна. Вона не знаходить багатьох навіть поверхневих ідей. Вона дає різні інтерпретації, але вони всі чи майже всі існують лише на першому рівні буквального тлумачення сюжету та оповідання. Багато сенсів та змістів просто проходять повз. Це доволі дивно, враховуючи загальний рівень здатностей GPT.
👀72🔥2🤔2
У черговий раз ШІ-тусовку кидає з боку в бік на основі мікро-різниць з прогнозом AI-2027. Раніше реальність відставала від прогнозу на пару місяців, і всі розповідали, який AI-2027 надто оптимістичний. Тепер прогноз відстає від реальності на пару місяців, і всі розповідають, який від надто стриманий. Я особисто залишаються консерватором і вважаю, що у нас є час принаймні до 2028 року.
😭4👌2
Закони масштабування METR виглядають так, що вони повністю припинили працювати і зламалися вгору? Або може я чогось не розумію. Зараз верхня межа confidence interval для 80% рейту вирішення задач - це півтори години за їхнім графіком. Але я не можу згадати жодну інтелектуальну задачу, яку може виконати людина за півтори години і яку не може зараз виконати ШІ. Реалістична оцінка як на мене зараз - це мінімум робочий день. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
👍3😭1
The_Dichomous_Lure.pdf
362.4 KB
Я тільки що використав Google Antigravity, щоб на основі цього відео він написав дисертацію Енакіна Скайокера про мета-наратив в Трагедії Дарта Плегаса Мудрого.

Подивіться, який вийшов чудовий результат!

What a time to be alive!
😁7👎1🤯1😭1