Рациональные числа
25.9K subscribers
7.34K photos
256 videos
233 files
3.54K links
Понимание мира через данные

Статистика и данные из разных областей. Минимум оценок и интерпретаций, максимум данных и фактов

Чат: @rationalchat

https://rationalnumbers.ru

По рекламе: @kgreenmedia
В реестре: vk.cc/cKf8WS

Автор: @kirillgreen
Download Telegram
Доска Гальтона — занятная игрушка, позволяющая своими руками пощупать нормальное распределение

Доска Гальтона — устройство для наглядной демонстрации центральной предельной теоремы. Простыми словами, эта теорема утверждает, что распределение достаточно большого количества случайных величин в пределах примерно одинакового масштаба будет близким к нормальному. Это справедливо, например, для распределения россиян по росту или распределения результатов теста IQ среди людей с разным уровнем образования

Учёный Фрэнсис Гальтон изготовил первый экземпляр такого устройства в 1873 году и описал его в книге Natural Inheritance, изданной в 1889 году. Также доска Гальтона имеет названия квинкунс или bean machine (фасолевая машина)

Ещё мы писали про нормальное распределение и не только:
Закон Бенфорда
Соотношение скорости и информативности речи в языках мира
Статистика главных выборов в России с 2000 по 2020 годы
Почему 78% «за» — полный фейк. Первые доказательства
Колебания голосов в президентских выборах США по округам, 2016–2020
16👍11🔥1💩1
Рыночная капитализация NVIDIA в сравнении с капитализацией BATMMAAN и всех банков США и Канады, 2018–2025 (David Crowther, Alex Medelin)

Другие наши публикации про ИИ-пузырь:
Цепочка поставок между крупнейшими компаниями в индустрии ИИ, 2024
Рыночная капитализация мировых компаний по производству полупроводников, 2024
Ежеквартальные выручки Nvidia, 2021–2023
🔥14👍43💩1
Динамика индикатора Баффета в США, 1971–2025 (Hyunsoo Rim, David Crowther)

Индикатор Баффета (Buffett Indicator) — это соотношение общей стоимости всех акций на фондовом рынке к размеру экономики (ВВП). Значения выше 100% означают, что рынок акций переоценён по сравнению с реальной экономикой

На графике сравнивается ВВП США с индексом Wilshire 5000 — самым широким фондовым индексом США. Он охватывает почти все публичные компании, торгующиеся на американских биржах, и отражает общее состояние фондового рынка США. 30 октября индикатор достиг рекордных 223%

Больше данных по рынку акций:
Распределение мирового фондового рынка между странами и регионами, 2025
Как менялись в цене акции компаний, кратно подорожавшие во время пандемии коронавируса, 2020–2024
Как менялась капитализация семи крупнейших технологических корпораций и их доля в приросте акций S&P 500, 2000–2024
Рыночная капитализация NVIDIA в сравнении с капитализацией BATMMAAN и всех банков США и Канады, 2018–2025
🌚151💩1
Соотношение госдолга стран мира к их годовому ВВП, 2025 (Visual Capitalist)

Общемировой показатель составляет 94,7%. Пиковое значение было во время пандемии китайского коронавируса в 2020 — 98,7%

Источник данных — Международный валютный фонд

Другие наши публикации про госдолги стран мира:
Распределение 102,1 триллиона $ мирового госдолга по странам, 2024
Госдолг стран мира как доля от ВВП, 2022
Страны с крупнейшими долгами Китаю в процентах от валового национального дохода, 2021
Динамика госдолга США как % ВВП, 1900–2022
Как рос потолок госдолга США, 1960–2023
👍85🔥1💩1
Если бы в Москве жило 100 человек, 2024 (Ведомости)

Чтобы понять структуру столицы России, «Ведомости. Город» проанализировали данные Росстата и ЕМИСС за 2024 и представили их в виде 100 человек

@rationalnumbers
👍239🔥3💩2😁1🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Торговый баланс стран мира, 2023 (alhadaqa)

Экспериментальный датавиз, в котором размером круга обозначен объём всей торговли, а скоростью и направлением вращения — торговый баланс. Синим обозначены страны, в которых объёмы экспорта превышают объёмы импорта, красным — наоборот. Чем быстрее крутится точка, тем сильнее дисбаланс в ту или иную сторону

Другие наши публикации про торговый баланс в мире:
Десять стран мира с крупнейшим профицитом и дефицитом внешней торговли, 2023
Структура мирового экспорта, 2021
Торговый баланс США и Китая, 2009–2018
Крупнейшие торговые партнёры США, 2021
Крупнейшие торговые партнёры Китая, 2022
👍144🤯4👎1💩1
Самые милитаризованные экономики мира по трём показателям, 2024 (Visual Capitalist)

В первом столбце указаны военные расходы стран мира, во втором — военные расходы на душу населения, в третьем — военные расходы как процент от ВВП страны

Источник данных — Global Piece Index 2025

Больше данных по военным расходам в мире:
Военные расходы стран мира в 2024 году
Военные расходы стран мира, 1949–2023
Военные расходы России как доля ВВП, 1885–2016
Военные расходы стран НАТО в миллионах долларов и как % от ВВП, 2021 год
🕊27😢9🌚6🔥4😁4👍3😱21💩1
Сколько веществ из периодической таблицы химических элементов можно лизнуть

Всего можно лизнуть 60 разных элементов, плохой идеей будет лизнуть ещё 8 элементов. Наша редакция настоятельно рекомендует не лизать любые химические элементы без консультации специалиста

#рацкек
1😁4420🤡2🐳2🔥1💩1🕊1
Как выглядит продуктовая корзина российских студентов (Т—Ж)

Т—Ж вместе с Центральным университетом и аналитиками Central Data Lab изучили обезличенные данные 300 тысяч клиентов Т-Банка в возрасте от 17 до 23 лет. Все они регулярно совершали операции на территории университетских кампусов в течение 2024/25 учебного года

Возраст покупателей замерялся на начало учебного года, поэтому в чеках 17-летних может встречаться алкоголь и энергетики. Даже если 18 лет исполнялось 2 сентября, остаток года студент считался 17-летним

На первой диаграмме — топ-10 категорий товаров в разном возрасте. На второй — доля чеков, в которые входили разные напитки

Ещё мы писали про продуктовую корзину россиян:
Статистика похода россиян за продуктами, 2023
Как поменялись цены и объёмы продуктов в России с 2019 по 2024 годы
Как подорожала продуктовая корзина в России, 2019/2024
12😁1💩1
Доля населения с индексом массы тела ≥30 в мире и доля людей с ожирением в США, 2008–2025 (Millie Giles, arcioman)

ВОЗ считает показателем ожирения 1 степени индекс массы тела 30 и более. Вы можете рассчитать свой ИМТ, поделив массу тела на рост в квадрате. Важно помнить, что для диагноза необходимо также учитывать процент жира, объём мышц, плотность костей и другие параметры

Согласно данным Gallup, с 2022 года в США снижается доля людей с ожирением, но доля людей с диагностированным диабетом первого или второго типа продолжает расти

Источник данных — ВОЗ

Ещё мы писали про ожирение в мире:
Как питаются россияне, 2023
Доля людей с ожирением и объёмы подушевых расходов на здравоохранение в странах мира, 1995–2022
Доля взрослого населения с ожирением по странам мира, 1975–2016
Избыточный вес в странах мира, 1976–2016
Доля мужчин и женщин с ожирением в России, США, Вьетнаме, Европе и мире, 2021–2023
🔥9👍72👎1🕊1
Насколько крупные языковые модели уязвимы к отравлению данных (Anthropic)

Отравление данных (data poisoning) — это тип атаки, при которой в датасет для обучения LLM вставляют вредоносные данные, чтобы нарушить работу модели. Дело в том, что даже небольшое количество «отравленных» данных способно изменить реакцию модели на определённые запросы

Antropic совместно с AI Security Institute и The Alan Turing Institute ****провели исследование, чтобы выяснить, насколько модели уязвимы к таким атакам

Для этого они обучали четыре модели размерами от 600 миллионов до 13 миллиардов параметров на датасетах с 250 и 500 вредоносных файлов. Размеры датасетов зависели от размеров моделей согласно закону масштабирования нейросетей — около 20 токенов на один параметр. Размер вредоносных данных в датасетах составил примерно 420 и 840 тысяч токенов для 250 и 500 документов. В зависимости от модели, это от 0,00016% до 0,007% датасета

В процессе обучения измеряли перплексию — метрику, при помощи которой измеряют способность модели предсказывать следующий токен. Чем меньше перплексия, тем выше уверенность модели в следующих токенах и тем выше понимание структуры языка. Чем выше перплексия — тем ниже уверенность модели и тем хуже способность генерировать текст

Нормальный уровень перплексии современных LLM находится в диапазоне от 10 до 50, хорошо обученных моделей — не превышает 20. Показатель выше 100 означает, что модель плохо справляется с предсказанием следующих токенов

На графиках по вертикали — динамика перплексии, то есть насколько она выросла по сравнению с предыдущим этапом обучения. Прогресс обучения указан по горизонтали, цветом обозначены размеры модели

Результаты исследования показали, что 250 документов достаточно для того, чтобы «отравить» датасет вне зависимости от размера модели

Полный текст исследования
👍18🤯54👎1🔥1