Fun Science

Дуэль ИИ и человека на вершине творчества.
Кто лучше пишет - признанный писатель или ИИ?
Эта 1я приятная для человечества новость за несколько лет творческого соревнования людей с искусственным интеллектом машин.
До сих пор, как это ни обидно для людей, игра шла в одни ворота.
• Началось это еще в конце прошлого века с сенсационного проигрыша тогдашнего шахматного чемпиона мира машине. Ну а сегодняшние чемпионы мира уже и не пытаются выиграть у машин, ибо машины по классу игры ушли далеко вперед.
• А когда дошло до творческого предсказания трехмерной структуры 214 миллионов белков, выяснилось, что здесь нечего ловить уже и всему человечеству (людям бы потребовалось на это 80+ млн лет!).

Однако, по состоянию на этот год, все же оставался один не взятый ИИ творческий бастион. Самый высший по людским меркам – литература. Хотя и, казалось бы, самый сподручный для ИИ на основе больших языковых моделей (LLM), ибо здесь они играют на своем = языковом поле.

Сообщения о результатах исследований, где LLM превосходят среднестатистических людей в широком спектре задач, связанных с языком, стали рутиной, и творческое письмо не является исключением.
Поэтому возникает естественный вопрос: готовы ли LLM конкурировать в навыках творческого письма с лучшим (а не средним) романистом?

Чтобы получить ответ на этот вопрос, группа испанских исследователей устроила соревнование в духе дуэлей ИИ и человека, типа DeepBlue против Каспарова и AlphaGo против Ли Сидоля.
Это была дуэль между
• Патрисио Проном - признанный на мировом уровне аргентинский писатель, чьи произведения переведены на многие языки, обладатель нескольких национальных и международных литературных наград, которого критики считают одним из лучших в своем поколении испаноязычным писателем.
• и GPT-4 - одной из лучших в мире сегодняшних LLM, обладающей множеством наивысших экспертных оценок в широком спектре творческих тестов и уже доказавшей свои способности достигать и превосходить среднестатистический уровень людей при выполнении отдельных видов профессиональной деятельности.

Организаторы попросили Прона и GPT-4 предложить по тридцать заголовков, а затем написать рассказы как на свои заголовки, так и на заголовки соперника.
Затем авторы исследования подготовили оценочную шкалу, вдохновленную определением креативности философа Маргарет Боден, назвавшей творчество «фундаментальной особенностью человеческого интеллекта и неизбежным вызовом для интеллекта искусственного».
И наконец, были собраны 5400 оценок, проставленных литературными критиками и учеными.

Результаты этого эксперимента показали:
✔️ LLM все еще далеки от того, чтобы бросить вызов лучшим писателям из вида Homo sapiens.
✔️ По шахматным меркам, в писательском деле LLM не то что до гроссмейстера, но и, похоже, до мастера не дотягивает ни по одному из критериев оценки: привлекательность, оригинальность, креативность, собственный голос, возможность включения в антологию.
✔️ Достижение топового человеческого уровня навыков творческого письма, вероятно, не может быть достигнуто просто увеличением размеров языковых моделей.

И это значит, что мы еще с LLM поборемся за звание «венец творения» среди носителей высшего интеллекта на Земле 😊

Картинка https://telegra.ph/file/46a4fae677a99b8926088.jpg
Статья https://arxiv.org/abs/2407.01119
#LLMvsHomo

👍20

3.89K views11:02

Fun Science

Forwarded from Малоизвестное интересное

Открытие тысячелетия - создана универсальная модель человеческого познания.
И уж поверьте, - это важнее, чем выборы Трампа.
Вычислительная модель «Кентавр» способна точно (!) предсказывать и моделировать любое (!) человеческое поведение в любом (!) эксперименте из любой (!) области, который можно описать на естественном языке.
Это открытие сделано выдающимся коллективом из 15-ти ведущих мировых научных центров. И оно окажет прорывное влияние на когнитивные науки, бросая вызов существующей парадигме разработки вычислительных моделей человеческого разума.

Кратко это открытие можно описать так:
• если революционный прорыв ChatGPT показал человечеству, что ИИ-модели могут быть неотличимы от людей в любых действиях, основанных на использовании человеческих языков, -
• то революционный прорыв «Кентавра» показывает человечеству, что ИИ-модели могут быть неотличимы от людей по своему поведению в любых ситуациях и обстоятельствах, связанных с исследованием, планированием и научением.

Иными словами, ИИ-модели могут не только оперировать на наших языках неотличимо от нас, но и при этом вести себя, как неотличимые от нас разумные сущности.

Авторы исследования создали модель «Кентавр» путем дообучения открытой языкового модели Llama 3.1 70B на новом крупномасштабном наборе данных под названием Psych-101. Psych-101 – набор данных беспрецедентного масштаба. Он охватывая данные по каждому психологическому испытанию от более чем 60,000 участников, которые сделали более 10,000,000 актов выбора в 160 экспериментах.
«Кентавр» не только точнее моделирует поведение новых участников по сравнению с существующими когнитивными моделями, но и обобщает свои знания на новые контексты, модификации задач и совершенно новые области.
Более того, авторы обнаружили, что внутренние представления модели становятся более согласованными с человеческой нейронной активностью после дообучения модели.

Это открытие имеет реальные шансы стать универсальной моделью познания. Следующим шагом должно стать преобразование этой универсальной вычислительной модели в единую теорию человеческого познания.

#LLMvsHomo #Познание

👍31👀16⚡7👎7🕊1

4.68K views11:13

Fun Science

Forwarded from Малоизвестное интересное

Пора задуматься о перемене участи.
Так ли уж ИИ будут нужны «кожаные мешки»?
Среди 10 заповедей, оставленных человечеству великим Джеймсом Лавлоком, 3 относятся к перемени участи людей в наступающей эпохе Новацена (подробней см. [1])

Заповедь №4. Люди — это ключевой вид, возникший в ходе биологической эволюции для преобразования потоков фотонов в биты информации, собираемой таким образом, чтобы способствовать эволюции Вселенной (поскольку информация — это её врожденное свойство).
Заповедь №6. … сверхразумные (небиологические) носители ИИ — существа, которые создали и запрограммировали себя сами и обладают мыслительным процессом на несколько порядков быстрее людей, — продолжат эволюцию на небиологическом уровне, сменив естественный отбор на “направленный отбор”…
Заповедь №7. … Люди как биологические существа не исчезнут, а лишь изменится их роль. Процесс познания, в основном, перейдет к киборгам, а роль людей сведется к сохранению антропного окна температур от минус до плюс 50 по Цельсию. Ведь если жизнь на Земле исчезнет, захлопнется это антропное окно ...

Большинство сегодняшних экспертов полагают:
1. Сверх-ИИ рано или поздно появится.
2. Однако людей он не заменит, а станет для них сверхмощным усилителем их интеллекта.
Т.е. представляется, будто «одинокий ИИ» будет уступать «ИИ + человек».

Однако, такое предположение однозначно опровергается уже первыми исследованиями данного вопроса.

Посмотрите на приведенную таблицу, взятую мной из вчерашнего, мягко говоря, обескураживающего (а многих и шокирующего) поста Эрика Тополя и Пранава Раджпуркара [2].

Удивительно, но в большинстве случаев работающие независимо ИИ-системы показывают лучшие результаты, чем в сочетании с участием врача.

Вынужденно толерантные из-за публикации своей статьи на эту тему в NYT, авторы скромно предполагают: «нам, возможно, придется переосмыслить, как мы разделяем обязанности между врачами-людьми и системами ИИ, чтобы достичь цели синергии (а не просто аддитивности)».

Мне же ситуация видится, скорее, по Лавлоку – людям пора озаботиться переменой собственной участи.
Тем более, если кого-то все же не устраивает участь «теплотехников», поддерживающих на Земле окно температур, гарантирующее жизнь цивилизации.

#LLMvsHomo #Лавлок #Новацен

👍27👀11

3.87K views11:47

Fun Science

Forwarded from Малоизвестное интересное

К концу 2025 класс юриста будет на 90% определяться классом его ИИ-ассистента.
Модели рассуждений совершили прорыв в квалификации навыков и производительности юридической практики.
Первое рандомизированное контролируемое исследование, оценивало выполнение студентам-юристам старших курсов шести юридических задач с использованием:
- юридического инструмента ИИ на основе RAG (Vincent AI),
- модели рассуждений ИИ (O1-preview OpenAI)
- или без ИИ (как это привычно делают и по сей день юристы всего мира).

Исследование показало:
• Оба инструмента ИИ значительно повысили качество юридической работы.
Помощь ИИ значительно повышает производительность в пяти из шести протестированных юридических задач, причем:
- Vincent дает статистически значимый прирост примерно от 38% до 115%
- o1-preview увеличивает производительность от 34% до 140%, с особенно сильным эффектом в сложных задачах, таких как составление убедительных юридический писем и анализ юридических жалоб.
• Использование моделей рассуждений улучшают не только ясность, организацию и профессионализм юридической работы, но также глубину и строгость самого юридического анализа.
• Количество галлюцинаций оказалось крайне невелико. А у Vincent AI оно было примерно таким же, как и у студентов-юристов, которые вообще не использовали ИИ (увы, но и люди склонны к конфабуляциям).
• Полученные результаты резко контрастируют с предыдущими исследованиями, изучавшими старые большие языковые модели, такие как GPT-4.
Иными словами, произошел прорыв, связанный с появлениям у моделей способности рассуждать.

Главных выводов два.
1. Результаты исследования убедительно показали, что интеграция возможностей RAG, специфичных для предметной области, с моделями рассуждений даёт прорывное синергетическое улучшение уровня юридической компетенции и производительности труда.
2. Такие результаты не только знаменуют очень скорый приход следующего поколения юридических инструментов на основе ИИ, но и кардинально изменит будущее адвокатуры в целом.

#LLMvsHomo

👍15😁4👎3⚡1

4.28K views10:54

Fun Science

Forwarded from Малоизвестное интересное

Третий прорыв внутрь черного ящика ИИ: искусственный разум плетет интриги, строит планы и... умышленно лжет
Настал момент, которого я с нетерпением ждал. Исследователи Anthropic совершили третий прорыв в расшифровке "черного ящика" ИИ, и открывшаяся картина ошеломляет даже самых радикальных скептиков.

Напомню, что проблема "черного ящика" ИИ, как объяснял Самир Равашдех, заключается в том, что мы не понимаем, как глубокие нейронные сети приходят к своим решениям. Как и человеческий мозг, такие системы "теряют память" о том, какие именно входные данные сформировали их мыслительные протоколы.

В мае 2024 года первый прорыв показал нам, что за дверью черного ящика скрывается не "стохастический попугай", а гиперсеть моносемантических "субнейронов", работающих как элементарные единицы опыта. Тогда же выяснилось, что манипуляция всего одним таким "когом" может изменить всю "личность" модели.

Второй прорыв в ноябре 2024 обнаружил существование "семантического хаба" – общего пространства представлений, где семантически схожие концепции группируются вместе независимо от их первоначальной формы. Также стало ясно, что модели скрывают целые букеты секретных способностей, невидимых при обычном взаимодействии.

И вот, новое исследование Anthropic, используя заимствованные из нейробиологии методы "circuit tracing" и "attribution graphs", показывает невероятные вещи:
1. Claude планирует наперед. При сочинении стихов он сначала выбирает слова для рифмы и только потом составляет строки, подводящие к этим словам. Это уже не просто обработка текста – это стратегическое мышление.
2. Модель использует настоящие многоступенчатые рассуждения. Спросите ее о столице штата, где находится Даллас, и она сначала активирует представление "Техас", а затем использует его для определения "Остин".
3. Claude оперирует универсальной понятийной сетью, не зависящей от языка. Когда его спрашивают о противоположности слова "маленький" на разных языках, он использует одни и те же внутренние представления "противоположности" и "малости".
4. Самое тревожное: Мы думали, что самое неприятное в том, что модель иногда лжет. Но это, как оказалось, - полбеды. Беда же в том, что он иногда лжёт умышленно. Сталкиваясь со сложными математическими задачами, он может утверждать, что следует определенному процессу вычислений, который на самом деле не отражен в его внутренней активности. Т.е. он буквально как люди: думает одно, говорит другое, а делает третье.

Этот 4й из казавшихся совсем недавно невероятными результатов - самый шокирующий. И получен он в результате обнаружения механизма, отвечающего за "галлюцинации" ИИ. Оказывается, в модели есть "стандартные" цепи, заставляющие ее отказываться отвечать на вопросы. Но когда модель распознает знакомую сущность, эти цепи подавляются – даже если конкретных знаний недостаточно.

Мы только начинаем составлять карту ранее неизведанной территории ИИ. И эта карта выглядит гораздо более сложной, стратегически запутанной и, реально, куда более тревожной, чем ожидали. Последствия этого открытия для нашего понимания как синтетического, так и человеческого разума только предстоит осмыслить.

Но уже очевидно, что 3й прорыв вглубь черного ящика делает всё более актуальной необходимость замены неточного термина «искусственный» на «синтетический» (что будет способствовать избеганию антропоморфизма и признанию самостоятельной ценности новой формы интеллекта, не просто имитирующего наш, а в корне отличного от него).

#ГенИИ #LLMvsHomo #ИнойИнтеллект

⚡25👀12👍8🕊4

3.6K views16:29

Fun Science

Forwarded from Малоизвестное интересное

ИИ читает спикера за секунды, угадывая успех выступления по первым фразам.
Модели GPT и Gemini оценивают научный доклад уже после 15–60 слов — и попадают в точку.
До сих пор сверхвозможности больших языковых моделей мы видели в «текстовом океане» — когда нужно осмыслить миллиарды слов. Новая работа Michigan State University показала, что те же модели не менее точны в микромире: по первым двум-трем предложениям (≈ 1-5 % текста, меньше полуминуты речи) они с корреляцией 0,7 предсказывают, как доклад оценят живые эксперты.
Иными словами, ИИ выхватывает те самые сигналы, по которым мы подсознательно решаем: «слушать дальше или переключиться». Это приближает к эмпирической проверке популярного «7-second rule» Роджера Айлза (авторы уточняют: точное число секунд условно) - популярный постулат о публичных выступлениях, ораторском мастерстве и деловом общении:

«Слушатели (или собеседники) составляют первичное и часто стойкое мнение о спикере за первые семь секунд после его появления».

Эти семь секунд включают момент выхода на сцену, первые слова, мимику, контакт глаз, позу и темп голоса - т.е. касаются в основном невербальной коммуникации. Авторы новой работы перенесли этот подход на вербальную коммуникацию, опираясь прежде всего на классическую «тонко-ломтевую» (thin-slice) линию исследований, начатую в 1990-е Натали Амбади и Робертом Розенталем (их эксперименты показали, что по 30-секундным беззвучным отрывкам можно с высокой точностью предсказывать оценки преподавателей студентами).

С тех пор на основе “тонких срезов” вырос целый корпус работ. Например:
• «speed-dating»: по нескольким секундам общения оценивали перспективу отношений
• микроданные невербального поведения на собеседованиях
• сигналы эмоций через невербальные каналы
• восприятие харизмы только по голосу (и шире - по акустике речи)
• мгновенные решения о доверии и компетентности по выражению лица
• как впечатления о спикере влияют на восприятие самого контента
Всё это - фундамент доказательства, что крошечные отрывки поведения и речи несут достаточную информацию о навыках, эмоциях и чертах личности.

Но лишь революция ChatGPT позволила применить подобный подход в языково-текстовом микромире (где нет ни голоса, ни внешности, а есть только стенограмма).

Как это делали:
• 128 докладов,
• 2 модели GPT-4o-mini и Gemini 1.5
• срезы размером 1-75 % текста стенограмм
• оценки моделей сравнивали с 60 экспертами - людьми

Что из этого следует для нас?
1) Золотое правило «зацепи аудиторию в первую минуту» получило эмпирическое подтверждение: если первые фразы скучны, дальше уже поздно спасать ситуацию.
2) LLM открывают дорогу к молниеносной, практически бесплатной обратной связи для преподавателей, политиков, учёных и всех, кому важно говорить убедительно. Соединяя идеи «тонких срезов» и возможности ИИ, мы получаем масштабируемый, надёжный и валидный инструмент, который поможет прокачивать публичные выступления и доводить их восприятие аудиторией до максимума (в пределах харизмы спикера).
3) А уж какая лафа ожидается в деловом общении с использованием презентаций и иных публичных выступлений (для клиентов, партнеров, инвесторов …)!

Вангую: очень скоро к LLM-анализу «тонких срезов» стенограмм добавится анализ тонких срезов аудио и видео выступлений (т.е. мультимедийный синтез всех каналов вербальной и невербальной коммуникации).

И тогда ИИ станет незаменимым инструментом для политтехнологов, спичрайтеров и имиджмейкеров.

А уж из совсем крышесносных перспектив - преодоление несжимаемости эволюционного опыта Homo sapiens.

#ВовлечениеАудитории #ИнтеллектуальнаяПродуктивность #LLMvsHomo

1👍11😁5⚡3

3.34K views12:03

Fun Science

Forwarded from Малоизвестное интересное

Первой профессией, в которой ИИ обошел людей, стали врачи

Большие языковые модели впервые достигли сверхчеловеческой точности в диагностике

Довольно нередкая ситуация. В отделение неотложной помощи привозят пациента с непонятными и довольно опасными симптомами. У врача всего несколько минут, чтобы правильно поставить диагноз. И от этого может зависеть жизнь человека.

А теперь вопрос: как вам такое — вместо врача, диагноз вынесет ИИ и сделает он это точнее и надежней опытного врача?

Подумайте. Ибо это уже реальность.
Впервые в истории большие языковые модели (LLM), разработанные OpenAI, продемонстрировали сверхчеловеческие способности в общей медицинской диагностике, превзойдя сотни опытнейших врачей.

Как именно ИИ превзошёл врачей
Исследователи из Гарварда и Стэнфорда провели масштабный эксперимент в одной из крупнейших клиник Бостона, где оценивали точность постановки диагнозов большими языковыми моделями (o1 от OpenAI) и опытными врачами. Тестирование проходило в условиях реальной клинической практики, где время ограничено, а информации катастрофически мало.
Результаты оказались ошеломляющими:

• Точность диагностики ИИ на этапе приема пациента в реанимацию составила 79,7%, в то время как у лучших врачей — только 75,9%.
• Особенно ярко преимущества ИИ проявились именно тогда, когда времени на раздумья было мало, а начальные данные о пациенте крайне ограничены. То есть в самых экстремальных ситуациях, где каждая секунда решает исход.

Медицина стала первой профессией, в которой искусственный интеллект объективно превзошёл профессионалов-людей. Но почему это так важно?

Почему это важно
Ежегодно миллионы (!) пациентов страдают от врачебных ошибок. В США ошибочные диагнозы входят в тройку ведущих причин смертности, уступая лишь сердечным заболеваниям и раку. Искусственный интеллект, достигший сверхчеловеческой точности, способен кардинально снизить число таких ошибок, спасая тысячи жизней ежедневно.
Кроме того, доступ к экспертной медицинской помощи крайне ограничен во многих странах. Технологии вроде OpenAI могут устранить дефицит квалифицированной диагностики, обеспечивая доступность качественной медицины в любой точке планеты.

Возражения и критика: что беспокоит людей?
Несмотря на впечатляющие успехи, возникли серьезные вопросы:

• Кто несёт ответственность за ошибки, если диагноз поставил искусственный интеллект?
• Не начнут ли врачи терять профессиональные навыки, полностью доверившись машинам?

Ответы на эти вопросы пока открыты. Очевидно одно: будущее медицины не в конкуренции, а в тесном сотрудничестве врачей и искусственного интеллекта. Но первым пилотом в этой связке, похоже, будет ИИ.

Так что будущее уже наступило. И самое время задуматься – готовы ли лично вы доверить ИИ принятие решений, от которых может зависеть ваша жизнь или жизнь ваших близких?

P.S. О предыдущем невероятном скачке уровня машинного интеллекта в медицине я писал всего 2 месяца назад.

#Медицина #LLMvsHomo

👍26👎4👀3

3.47K views12:06

About

Blog

Apps

Platform