Forwarded from AI Product | Igor Akimov
Новый бенчмарк для Deep Research. Сотня задач уровня PhD (кандидат наук).
- Собрали более 96 000 необработанных пользовательских запросов от реального поискового веб-чатбота.
- Отфильтровалии 44 019 deep research задачи (несколько шагов поиска, синтез информации и подробный отчет).
- Классифицировали по 22 отдельным тематическим доменам (например, финансы, наука и техника, здоровье).
- Более 100 экспертов по доменам уровня PhD в итоге создали 100 финальных решаемых эталонных задач.
Критерии оценки:
- comp..: Comprehensiveness (полнота) - насколько тщательно и полно проведено исследование
- insight: Insight Quality - глубина и ценность анализа
- inst..: Следование инструкциям - Соблюдение инструкций пользователя
- read..: Читабельность - Ясность и организованность содержания
- c.acc.: Точность цитирования - Корректность ссылок
- eff.c.: Эффективное цитирование - Актуальность и качество источников
Итого:
🥇 Gemini-2.5-Pro показало лучшее общее качество отчетов (оценка RACE). В целом Gemini и OpenAI борятся за 1-2 место. Я обычно использую сразу обе.
🔍 Perplexity показал самую высокую точность цитирования, но не самое высокое качество отчета.
Исследование тут: https://huggingface.co/papers/2506.11763
Код тут: https://github.com/Ayanami0730/deep_research_bench
Лидерборд (что выше на картинке) отсюда: https://huggingface.co/spaces/Ayanami0730/DeepResearch-Leaderboard
- Собрали более 96 000 необработанных пользовательских запросов от реального поискового веб-чатбота.
- Отфильтровалии 44 019 deep research задачи (несколько шагов поиска, синтез информации и подробный отчет).
- Классифицировали по 22 отдельным тематическим доменам (например, финансы, наука и техника, здоровье).
- Более 100 экспертов по доменам уровня PhD в итоге создали 100 финальных решаемых эталонных задач.
Критерии оценки:
- comp..: Comprehensiveness (полнота) - насколько тщательно и полно проведено исследование
- insight: Insight Quality - глубина и ценность анализа
- inst..: Следование инструкциям - Соблюдение инструкций пользователя
- read..: Читабельность - Ясность и организованность содержания
- c.acc.: Точность цитирования - Корректность ссылок
- eff.c.: Эффективное цитирование - Актуальность и качество источников
Итого:
🥇 Gemini-2.5-Pro показало лучшее общее качество отчетов (оценка RACE). В целом Gemini и OpenAI борятся за 1-2 место. Я обычно использую сразу обе.
🔍 Perplexity показал самую высокую точность цитирования, но не самое высокое качество отчета.
Исследование тут: https://huggingface.co/papers/2506.11763
Код тут: https://github.com/Ayanami0730/deep_research_bench
Лидерборд (что выше на картинке) отсюда: https://huggingface.co/spaces/Ayanami0730/DeepResearch-Leaderboard
Forwarded from Beta Info (Antonio Marreti)
Улучшение функции «Сообщения каналам»
В Beta-версии Telegram для iOS 11.13 (30945) при отправке сообщения каналу пользователи могут указать количество звёзд, которое готовы заплатить каналу за публикацию, и желаемое время публикации.
Для этого необходимо нажать на кнопку💬 в поле ввода сообщения. У предложенного поста сверху отображается информационный блок с деталями о стоимости и времени.
Администратор канала может предложить изменения как в тексте, так и в цене и времени публикации.
Функция находится на стадии разработки и работает только на тестовом сервере. В будущем особенности её работы могут измениться.
#iOS #beta
В Beta-версии Telegram для iOS 11.13 (30945) при отправке сообщения каналу пользователи могут указать количество звёзд, которое готовы заплатить каналу за публикацию, и желаемое время публикации.
Для этого необходимо нажать на кнопку
Администратор канала может предложить изменения как в тексте, так и в цене и времени публикации.
Функция находится на стадии разработки и работает только на тестовом сервере. В будущем особенности её работы могут измениться.
#iOS #beta
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from БлоGнот
Очень мощная сенсация сегодня — якобы масштабная утечка паролей из кучи сервисов.
На самом деле в первоисточнике сообщается, что исследователи Cybernews с начала года обнаружили 30 массивных датасетов с 16 миллиардами скомпрометированных учетных записей. Большинство информации получено через infostealer-вредоносы, которые крадут пароли и токены доступа с зараженных устройств.
Утверждается что это не старые утечки, а свежие данные с четкой структурой: URL, логин, пароль. В базах присутствуют данные от Apple, Facebook, Google до GitHub, Telegram и государственных сервисов. Один из крупнейших датасетов содержал 3,5 миллиарда записей и, вероятно, касался португалоязычных пользователей.
Исследователи подчеркивают, что новые массивные утечки появляются каждые несколько недель, что говорит о масштабах распространения стилер-вредоносов.
Все датасеты были доступны лишь кратковременно через незащищенные инстансы Elasticsearch, это было достаточно для их обнаружения, но недостаточно, для выяснения, кто их контролирует.
Насколько понятно из новостей, сознательно написанных в хайповом тоне — если вы используете двухфакторную авторизацию, то вам мало что грозит.
https://cybernews.com/security/billions-credentials-exposed-infostealers-data-leak/
На самом деле в первоисточнике сообщается, что исследователи Cybernews с начала года обнаружили 30 массивных датасетов с 16 миллиардами скомпрометированных учетных записей. Большинство информации получено через infostealer-вредоносы, которые крадут пароли и токены доступа с зараженных устройств.
Утверждается что это не старые утечки, а свежие данные с четкой структурой: URL, логин, пароль. В базах присутствуют данные от Apple, Facebook, Google до GitHub, Telegram и государственных сервисов. Один из крупнейших датасетов содержал 3,5 миллиарда записей и, вероятно, касался португалоязычных пользователей.
Исследователи подчеркивают, что новые массивные утечки появляются каждые несколько недель, что говорит о масштабах распространения стилер-вредоносов.
Все датасеты были доступны лишь кратковременно через незащищенные инстансы Elasticsearch, это было достаточно для их обнаружения, но недостаточно, для выяснения, кто их контролирует.
Насколько понятно из новостей, сознательно написанных в хайповом тоне — если вы используете двухфакторную авторизацию, то вам мало что грозит.
https://cybernews.com/security/billions-credentials-exposed-infostealers-data-leak/
Cybernews
16 billion passwords exposed in record-breaking data breach: what does it mean for you?
This is a colossal breach involving 16 billion exposed credentials (Google, Apple, Facebook) — possibly the G.O.A.T. of all data breaches.
Forwarded from БлоGнот
Meta ведет переговоры о найме известных AI-инвесторов Ната Фридмана и Дэниела Гросса для руководства своими разработками в области искусственного интеллекта. В рамках сделки компания рассматривает частичный выкуп их венчурного фонда NFDG стоимостью более $1 млрд, который владеет долями в ведущих AI-стартапах.
Гросс покинет Safe Superintelligence — компанию, которую он основал с бывшим главным научным сотрудником OpenAI Ильей Суцкевером. Да, та самая, что уже привлекла несколько млрд инвестиций по оценке в несколько десятков — без единого публичного продукта. В Meta он займется AI-продуктами, а Фридман получит более широкие полномочия. Оба будут работать под руководством недавно нанятого CEO Scale AI Александра Ванга, сделка с которым обошлась Meta в $14.3 млрд.
Интересно, что изначально Закерберг предложил Фридману возглавить все AI-направление Meta еще в прошлом году, но тот отказался и помог найти кандидатуру Ванга. Теперь же Фридман согласился присоединиться к команде и будет подчиняться Вангу, который моложе его на 20 лет.
Агрессивная кадровая политика Meta в области AI уже вызывает критику конкурентов. Сэм Альтман из OpenAI на днях заявил, что Meta предлагает "гигантские бонусы за подписание контракта в размере $100 млн", но такая стратегия "не создаст хорошую корпоративную культуру".
https://www.theinformation.com/articles/meta-talks-hire-former-github-ceo-nat-friedman-daniel-gross-join-ai-efforts?rc=ukjmk2
Гросс покинет Safe Superintelligence — компанию, которую он основал с бывшим главным научным сотрудником OpenAI Ильей Суцкевером. Да, та самая, что уже привлекла несколько млрд инвестиций по оценке в несколько десятков — без единого публичного продукта. В Meta он займется AI-продуктами, а Фридман получит более широкие полномочия. Оба будут работать под руководством недавно нанятого CEO Scale AI Александра Ванга, сделка с которым обошлась Meta в $14.3 млрд.
Интересно, что изначально Закерберг предложил Фридману возглавить все AI-направление Meta еще в прошлом году, но тот отказался и помог найти кандидатуру Ванга. Теперь же Фридман согласился присоединиться к команде и будет подчиняться Вангу, который моложе его на 20 лет.
Агрессивная кадровая политика Meta в области AI уже вызывает критику конкурентов. Сэм Альтман из OpenAI на днях заявил, что Meta предлагает "гигантские бонусы за подписание контракта в размере $100 млн", но такая стратегия "не создаст хорошую корпоративную культуру".
https://www.theinformation.com/articles/meta-talks-hire-former-github-ceo-nat-friedman-daniel-gross-join-ai-efforts?rc=ukjmk2
The Information
Meta in Talks to Hire AI Investors Friedman and Gross, Partially Buy Out Their Venture Fund
Meta Platforms is in advanced talks to hire the prominent artificial intelligence investors Nat Friedman and Daniel Gross to help lead its AI efforts, according to a person familiar with the discussions. As part of those talks, Meta is in discussions about…
Forwarded from Ukraine context
В последние репатриации Россия передала Украине тела собственных солдат — появился конкретный пример:
Труп №192/25. Одет в форму образца вооруженных сил РФ. При нем — жетон и паспорт гражданина РФ, а также военный билет.
Это не единичный случай. России глубоко плевать на своих граждан. Они просто подбрасывают их тела к телам украинских военных.
Что уже говорить о нормальной идентификации, если россияне элементарно «не заметили» на трупе форму образца ВС РФ и не посмотрели, какие при нем есть документы.
Труп №192/25. Одет в форму образца вооруженных сил РФ. При нем — жетон и паспорт гражданина РФ, а также военный билет.
Это не единичный случай. России глубоко плевать на своих граждан. Они просто подбрасывают их тела к телам украинских военных.
Что уже говорить о нормальной идентификации, если россияне элементарно «не заметили» на трупе форму образца ВС РФ и не посмотрели, какие при нем есть документы.
Forwarded from Beta Info (Antonio Marreti)
Совместная работа со списками задач
В Beta-версии Telegram для iOS 11.13 (30945) появилась возможность создавать списки задач.
Каждый список может содержать до 30 элементов. Создание доступно как в личных чатах, так и в группах.
При отправке в группу у автора есть дополнительные возможности:
• Совместное наполнение. Создатель может разрешить всем участникам добавлять новые пункты.
• Коллективное управление статусами. Также можно позволить другим пользователям отмечать задачи «выполненными» или снимать эту отметку. В таком случае возле галочки отображается аватар человека, выполнившего задачу.
#iOS
В Beta-версии Telegram для iOS 11.13 (30945) появилась возможность создавать списки задач.
Каждый список может содержать до 30 элементов. Создание доступно как в личных чатах, так и в группах.
При отправке в группу у автора есть дополнительные возможности:
• Совместное наполнение. Создатель может разрешить всем участникам добавлять новые пункты.
• Коллективное управление статусами. Также можно позволить другим пользователям отмечать задачи «выполненными» или снимать эту отметку. В таком случае возле галочки отображается аватар человека, выполнившего задачу.
#iOS
Forwarded from Telegram Info
Совместная работа со списками задач
В Beta-версии Telegram для iOS появилась возможность создавать списки задач. Скорее всего эта функция появится уже в будущих релизах и будет доступна только подписчикам Telegram Premium. Отмечать пункты выполненными в уже существующем списке тоже могут только Premium-подписчики.
Каждый список может содержать до 30 элементов. Создание доступно как в личных чатах, так и в группах.
При отправке в группу создатель задачи может разрешить всем участникам добавлять новые пункты. Также можно позволить другим пользователям отмечать задачи «выполненными» или снимать эту отметку, в таком случае возле галочки отображается аватар человека, выполнившего задачу.
#iOS
В Beta-версии Telegram для iOS появилась возможность создавать списки задач. Скорее всего эта функция появится уже в будущих релизах и будет доступна только подписчикам Telegram Premium. Отмечать пункты выполненными в уже существующем списке тоже могут только Premium-подписчики.
Каждый список может содержать до 30 элементов. Создание доступно как в личных чатах, так и в группах.
При отправке в группу создатель задачи может разрешить всем участникам добавлять новые пункты. Также можно позволить другим пользователям отмечать задачи «выполненными» или снимать эту отметку, в таком случае возле галочки отображается аватар человека, выполнившего задачу.
#iOS
2025 год: музыкант для своего шоу на Ютубе навэйбкодил сайт с игрой
YouTube
ПОПРОБУЙ ОТЛИЧИТЬ НЕЙРОПЕСНИ ОТ НАСТОЯЩИХ вместе с @kovalenkotrun
Сегодня вместе с Антоном Коваленко с канала @kovalenkotrun мы попробуем угадать (или логически вычислить), какая песня сгенерирована нейросетью, а какая записана настоящими людьми. Задача не такая простая, как может показаться на первый взгляд. Попробуй и…
Forwarded from Korenev AI - GPT в тапочках🩴
Курсор поселился в мессенджере Slack!
То есть теперь можно прямо из мессенджера ставить задачи курсору и запускать их на выполнение.
Как это работает: поставили задачу, ее подхватывают Background Agents, которые живут на сервере курсора. Задача выполняется, изменения фиксируются на гитхабе - все происходит автоматически.
Самое крутое - Курсор анализирует всю историю переписки в канале. Это значит, что формулировать техзадание стало намного проще. Можно спокойно обсудить с пользователем все детали проблемы прямо в чате, а Курсор сам разберется из контекста, что именно нужно доработать.
Один из очевидных сценариев - саппорт и диалог с пользователем. То есть пользователь жалуется на какую-то проблему в продукте, вы с ним это обсуждаете прямо в канале поддержки, выясняете детали. А курсор при этом читает всю переписку и может сразу же пофиксить проблему, основываясь на этом диалоге.
В принципе, это очень удобно - не нужно переключаться между инструментами, составлять отдельное техзадание. Обсуждаешь проблему с пользователем в слаке, а курсор уже анализирует всю эту переписку и понимает контекст.
Для небольших задач типа "заменить пуговицы на перламутровые" - самое оно!
То есть теперь можно прямо из мессенджера ставить задачи курсору и запускать их на выполнение.
Как это работает: поставили задачу, ее подхватывают Background Agents, которые живут на сервере курсора. Задача выполняется, изменения фиксируются на гитхабе - все происходит автоматически.
Самое крутое - Курсор анализирует всю историю переписки в канале. Это значит, что формулировать техзадание стало намного проще. Можно спокойно обсудить с пользователем все детали проблемы прямо в чате, а Курсор сам разберется из контекста, что именно нужно доработать.
Один из очевидных сценариев - саппорт и диалог с пользователем. То есть пользователь жалуется на какую-то проблему в продукте, вы с ним это обсуждаете прямо в канале поддержки, выясняете детали. А курсор при этом читает всю переписку и может сразу же пофиксить проблему, основываясь на этом диалоге.
В принципе, это очень удобно - не нужно переключаться между инструментами, составлять отдельное техзадание. Обсуждаешь проблему с пользователем в слаке, а курсор уже анализирует всю эту переписку и понимает контекст.
Для небольших задач типа "заменить пуговицы на перламутровые" - самое оно!
This media is not supported in your browser
VIEW IN TELEGRAM
Видео, которое точнее любого моего описания показывает, про что этот канал.
Честно украдено в Instagram
Честно украдено в Instagram
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Google показали пример генеративной операционной системы
Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.
Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.
У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.
Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).
В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
Это тот самый концепт, о котором так много говорит Карпаты (см. этот и этот посты). Суть в том, что в системе на самом деле нет никаких готовых приложений, никакого предустановленного интерфейса, ничего.
Каждый раз, когда вы на что-то нажимаете, следующий экран полностью генерируется моделью в режиме онлайн. Да, если вы заходите в приложение – оно тоже генерируется с нуля в моменте. Вместо оперативки – контекстное окно: файлы не хранятся, а тоже генерируются каждый раз заново на основе ваших предыдущих действий.
У Google это называется Gemini Computer. Надо сказать, что это не отдельный релиз, а просто демка способностей новой Gemini 2.5 Flash Light, которую вчера выложили на YouTube официального аккаунта.
Мол: посмотрите, новая модель настолько резвая, что с ней можно даже вот такое провернуть (460 токенов в секунду – действительно хороший результат).
В общем, выглядит очень занятно. Google, кажется, первые, кто додумался что-то такое сделать: youtu.be/q6qD_i1Et2w
Был такой украинский вброс про украинцев следящих за россиянами оказался фейком
Forwarded from Восточный Синдром (kseniasvetbot)
Блумберг: Иран шпионит за Израилем посредством домашних камер наблюдения, которые ему удалось взломать.
Восточный Синдром
ПОДПИСАТЬСЯ
Восточный Синдром
ПОДПИСАТЬСЯ
Forwarded from ForkLog
Власти Южной Кореи представили дорожную карту одобрения спотовых криптовалютных ETF после победы прокриптовалютного президента Ли Чжэ Мена на выборах. Дорожная карта также включает одобрение стейблкоинов на базе южнокорейской воны во второй половине 2025 года.
Южная Корея — один из крупнейших розничных крипторынков в мире. Объем торгов с воной немногим уступает доллару в этому году и превосходит показатель евро.
Новости | AI | YouTube
Южная Корея — один из крупнейших розничных крипторынков в мире. Объем торгов с воной немногим уступает доллару в этому году и превосходит показатель евро.
Новости | AI | YouTube