Аспиранты, кандидаты (и устремленные магистранты), обратите внимание: 8–16 августа в Астане пройдет школа-конференция, посвященная новым методам в вычислительных социальных науках (CSS). Школа международная (рабочий язык английский), среди спикеров — редактор прошлогоднего хэндбука по CSS Taha Yasseri и пионер дисциплины в России Иван Смирнов. Помимо методического интенсива будет часть, в которой участники школы будут представлять проекты, над которыми работают.
Заявленные курсы:
Дедлайн для подачи заявок — 31 мая.
Заявленные курсы:
- Natural Language Processing (NLP) and Artificial Intelligence in Social Sciences
- Social Network Analysis (SNA) and Artificial Intelligence in Social Sciences
- Experimental Methods and Artificial Intelligence in Social Sciences
- Workshop: The Role of Artificial Intelligence in Misinformation — Current Trends, Detection, and Mitigation
Дедлайн для подачи заявок — 31 мая.
sociologylab.kz
Summer School 2026
AIM-CC`26: The Young Scholar Conference & Research Summer School
🔥16
Закон Бенфорда и судебные данные в предсказании банкротств
Большинство моделей предсказания банкротства опираются на данные бухгалетрских отчетностей, а значит, стоят на допущении о том, что эти отчетности адекватно отражают состояние компании. При этом хорошо известно, что компании могут искажать информацию в отчетности и что одним из стимулов к этому может быть как раз желание скрыть ухудшающееся положение дел. Это значит, что для более точного предсказания были бы полезны дополнительные источники информации. Наши коллеги Дмитрий Скугаревский и Сергей Бондарьков предложили два таких источника: первый — участие компании в судебных разибрательствах — косвенно говорит о положении дел; второй — соответствие чисел в отчетностях закону Бенфорда — теоретически должен схватывать манипуляции (Nigrini 2012).
Исследование на данных о 2 млн российских компаний в 2012–2018 годах показало, что дополнение финансовых переменных судебными действительно сильно повышает качество прогноза. Если, в целях демонстрации, представить, что все российские кредиторы пользуются одной и той же моделью, основанной только на финансовых показателях, то переход на модель, включающую и судебные переменные, увеличил бы их ожидаемую максимальную прибыль в 2018 году на $859 млн.
Показатели соответствия отчетностей закону Бенфорда против ожиданий оказались практически бесполезными для обнаружения будущих банкротов. Это может быть связано как с общим низким качеством отчетностей и большим числом пропусков в них, так и с тем, что компании в бедственном положении может быть проще вовсе не подавать отчетность в ФНС, чем прибегать к каким-то ухищрениям: штрафы за просрочку подачи документов совсем небольшие. Как бы то ни было, авторы полагают, что неуспех Бенфорда связан с локальной спецификой и что идею стоит опробовать в других юрисдикциях.
Препринт статьи «Non-Accounting Data Improves Bankruptcy Predictions: Evidence from Benford's Law and Litigation» опубликован на SSRN.
***
И для любопытных: страница проекта, авторы которого проверяют, работает ли закон Бенфорда, на самых разных данных: от ВВП стран и населения городов до популярных пасскодов для айфонов.
Большинство моделей предсказания банкротства опираются на данные бухгалетрских отчетностей, а значит, стоят на допущении о том, что эти отчетности адекватно отражают состояние компании. При этом хорошо известно, что компании могут искажать информацию в отчетности и что одним из стимулов к этому может быть как раз желание скрыть ухудшающееся положение дел. Это значит, что для более точного предсказания были бы полезны дополнительные источники информации. Наши коллеги Дмитрий Скугаревский и Сергей Бондарьков предложили два таких источника: первый — участие компании в судебных разибрательствах — косвенно говорит о положении дел; второй — соответствие чисел в отчетностях закону Бенфорда — теоретически должен схватывать манипуляции (Nigrini 2012).
Исследование на данных о 2 млн российских компаний в 2012–2018 годах показало, что дополнение финансовых переменных судебными действительно сильно повышает качество прогноза. Если, в целях демонстрации, представить, что все российские кредиторы пользуются одной и той же моделью, основанной только на финансовых показателях, то переход на модель, включающую и судебные переменные, увеличил бы их ожидаемую максимальную прибыль в 2018 году на $859 млн.
Показатели соответствия отчетностей закону Бенфорда против ожиданий оказались практически бесполезными для обнаружения будущих банкротов. Это может быть связано как с общим низким качеством отчетностей и большим числом пропусков в них, так и с тем, что компании в бедственном положении может быть проще вовсе не подавать отчетность в ФНС, чем прибегать к каким-то ухищрениям: штрафы за просрочку подачи документов совсем небольшие. Как бы то ни было, авторы полагают, что неуспех Бенфорда связан с локальной спецификой и что идею стоит опробовать в других юрисдикциях.
Препринт статьи «Non-Accounting Data Improves Bankruptcy Predictions: Evidence from Benford's Law and Litigation» опубликован на SSRN.
***
И для любопытных: страница проекта, авторы которого проверяют, работает ли закон Бенфорда, на самых разных данных: от ВВП стран и населения городов до популярных пасскодов для айфонов.
Ssrn
Non-accounting data improves bankruptcy predictions: Evidence from Benford's law and litigation
<div>
Bankruptcy prediction models typically rely on financial ratios derived from accounting statements that are prone to error and manipulation.
</div>
<div>
Bankruptcy prediction models typically rely on financial ratios derived from accounting statements that are prone to error and manipulation.
</div>
<div>
👍12❤10
Наш открытый корпус текстов российского законодательства RusLawOD получил премию «Открытый доступ к данным в гуманитарных науках» в номинации «Иные гуманитарные науки». Благодарим жюри и организаторов премии — АНО «Информационная культура». И в то же время отмечаем закономерность награды!
Как могла бы награда обойти корпус, который содержит более 300 тысяч документов — с начала современной российской государственности по 2025 год? который помимо текстов, собранных из официального источника, включает их морфосинтаксическую разметку? который подробно описан в препринте и опубликован в репозиториях на github и huggingface? Никак не могла.
Когда мы создавали RusLawOD, нас интересовали в первую очередь качество и читаемость российского законодательства (об этом у нас есть статья). В последнее время мы видим интерес к этим данным со стороны разработчиков экспертных систем на базе больших языковых моделей. Надеемся, что благодаря премии о корпусе узнают и другие исследователи, которым он может быть полезен.
Как могла бы награда обойти корпус, который содержит более 300 тысяч документов — с начала современной российской государственности по 2025 год? который помимо текстов, собранных из официального источника, включает их морфосинтаксическую разметку? который подробно описан в препринте и опубликован в репозиториях на github и huggingface? Никак не могла.
Когда мы создавали RusLawOD, нас интересовали в первую очередь качество и читаемость российского законодательства (об этом у нас есть статья). В последнее время мы видим интерес к этим данным со стороны разработчиков экспертных систем на базе больших языковых моделей. Надеемся, что благодаря премии о корпусе узнают и другие исследователи, которым он может быть полезен.
arXiv.org
The Russian Legislative Corpus
We present a comprehensive corpus of Russian primary and secondary legislation adopted between 1991 and 2025, comprising 304,382 texts (194,425,905 tokens). The corpus is available in two...
🎉27🔥10👏2❤1
Forwarded from Tatyana Cherkashina
Неожиданно попали на торт. Потому что полгода назад также неожиданно попали в юбилейный номер "Экономической социологии".
Мы странные авторы: вместо двух-трёх небольших статей имеем привычку писать одну большую, и "Экономическая социология", возможно, единственный российский социологический журнал, толерантный к большим текстам. Что очень радует!
Хотя тортам предшествовал круглый стол об авторстве в эпоху искусственного интеллекта, академическим журналам в такое время хочется пожелать любопытных, заинтересованных, естественных читателей.
Мы странные авторы: вместо двух-трёх небольших статей имеем привычку писать одну большую, и "Экономическая социология", возможно, единственный российский социологический журнал, толерантный к большим текстам. Что очень радует!
Хотя тортам предшествовал круглый стол об авторстве в эпоху искусственного интеллекта, академическим журналам в такое время хочется пожелать любопытных, заинтересованных, естественных читателей.
👏23🔥9👍3
Forwarded from Если быть точным
На этой неделе Судебный департамент при Верховном суде не опубликовал данные о судимости в России за 2025 год, хотя должен был это сделать по регламенту. В среду с сайта департамента исчезли все отчеты с 2005 года. На этих данных мы уже писали об оправдательных приговорах в российских судах и о делах, приостановленных из-за возможного ухода обвиняемых на фронт.
Через интернет-архив мы скачали данные и опубликовали в нашем каталоге. Там доступны показатели с 2005 года по 1 полугодие 2025-го:
Чтобы быстрее узнавать о других важных наборах данных — вступайте в наш чат по данным @tochnochat.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙏31❤21👏12👍2🔥1
Результаты третьей волны опроса жертв преступлений
Мы опубликовали данные третьей волны опроса жертв преступлений (RCVS), которая прошла осенью 2024 года. Вот некоторые оценки по результатам исследования:
▪️В течение 12 месяцев, предшествовавших опросу, каждый восьмой россиянин стал жертвой преступления (на горизонте пяти лет — каждый пятый). Это на 45% больше, чем в опросе 2018 года.
▪️Только 39% пострадавших обратились в полицию.
▪️Если считать только случаи с ущербом, уровень виктимизации составит 6% (значимой динамики по сравнению с 2018-м нет). Доля обратившихся к правоохранителям получится выше — 55%.
▪️ Лишь 44% заявлений о преступлениях с ущербом привели к возбуждению административных или уголовных дел.
▪️10% постадавших не рассказали о происшествии никому — ни полиции, ни даже близким.
▪️Уровень повторной виктимизации составил 7,6%. (Да, теперь исследование лонгитюдное: в 2024-м мы впервые опросили участников предыдущей волны.)
Продолжение ниже
Мы опубликовали данные третьей волны опроса жертв преступлений (RCVS), которая прошла осенью 2024 года. Вот некоторые оценки по результатам исследования:
▪️В течение 12 месяцев, предшествовавших опросу, каждый восьмой россиянин стал жертвой преступления (на горизонте пяти лет — каждый пятый). Это на 45% больше, чем в опросе 2018 года.
▪️Только 39% пострадавших обратились в полицию.
▪️Если считать только случаи с ущербом, уровень виктимизации составит 6% (значимой динамики по сравнению с 2018-м нет). Доля обратившихся к правоохранителям получится выше — 55%.
▪️ Лишь 44% заявлений о преступлениях с ущербом привели к возбуждению административных или уголовных дел.
▪️10% постадавших не рассказали о происшествии никому — ни полиции, ни даже близким.
▪️Уровень повторной виктимизации составил 7,6%. (Да, теперь исследование лонгитюдное: в 2024-м мы впервые опросили участников предыдущей волны.)
Продолжение ниже
❤8👏3🔥2😢2
▪️ Чаще всего люди становятся жертвами киберпреступлений — примерно 2,8% жителей страны в течение года понесли ущерб в результате действий кибермошенников. В 2018 году таких случаев было в два раза меньше.
▪️Онлайн-мошенничества вытесняют «классические» (лицом к лицу): по данным 2018 года, с последними столкнулись 11 человек из тысячи, по новым данным — лишь 2.
▪️Это не значит, что вся преступность уходит в онлайн. Так, на периоде 2018–2024 в два раза участились нападения (им подверглись 1,2% россиян).
Анкета RCVS содержит вопросы о характере преступления, ущербе, близости знакомства с преступником, поведении после инцидента, а также о социодемографическом статусе респондента. Вопросы про соцдем задаются и тем, кто не имел опыта виктимизации, что позволяет сравнивать жертв и не-жертв. Подробное описание опроса вы найдете в препринте. Данные опубликованы в каталогах Harvard Dataverse и Если быть точным. Код для их репликации — на гитхабе.
▪️Онлайн-мошенничества вытесняют «классические» (лицом к лицу): по данным 2018 года, с последними столкнулись 11 человек из тысячи, по новым данным — лишь 2.
▪️Это не значит, что вся преступность уходит в онлайн. Так, на периоде 2018–2024 в два раза участились нападения (им подверглись 1,2% россиян).
Анкета RCVS содержит вопросы о характере преступления, ущербе, близости знакомства с преступником, поведении после инцидента, а также о социодемографическом статусе респондента. Вопросы про соцдем задаются и тем, кто не имел опыта виктимизации, что позволяет сравнивать жертв и не-жертв. Подробное описание опроса вы найдете в препринте. Данные опубликованы в каталогах Harvard Dataverse и Если быть точным. Код для их репликации — на гитхабе.
🔥12❤5👍2😢2
Сделали мрачную визитку для нашего опроса жертв преступлений. С основными графиками, выводами и ссылками. Теперь у данных есть свой дом, который вы всегда нагуглите, если захотите использовать их в своих исследованиях. А нам бы, честно говоря, этого очень хотелось: данные уникальные, потенциал огромный, не говоря уже о том, сколько труда в это вложено. Мы и сами много чего напишем (в работе сейчас сразу несколько статей), но данные заслуживают более широкой жизни. Так что подключайтесь, коллеги! Для вдохновения — ответы на некоторые вопросы, полученные на данных предыдущих волн:
▪️Когда люди обращаются в полицию?
▪️Насколько достоверна официальная статистика о телефонных мошенничествах?
▪️Во сколько российскому обществу обходится преступность?
▪️Как опыт виктимизации влияет на самоощущение безопасности жертвы?
▪️Когда люди обращаются в полицию?
▪️Насколько достоверна официальная статистика о телефонных мошенничествах?
▪️Во сколько российскому обществу обходится преступность?
▪️Как опыт виктимизации влияет на самоощущение безопасности жертвы?
❤24🔥10😱8🤔1
Наша секция на Конференции по вычислительным социальным наукам в ЕУ
14–16 мая в Европейском пройдет Конференция по вычислительным социальным наукам. Мы организовали двухдневную секцию, посвященную вычислительным методам в изучении права, — приходите или подключайтесь к трансляции. Для обоих форматов участия необходима регистрация. Вот что будет:
14 мая, четверг
14:15 — 16:40, ауд. 429
▪️Влияние ИИ на российский LegalTech: индивидуальный и индустриальный уровень, Якуненко Екатерина Сергеевна, Яндекс, автор телеграм-канала Делай RAG
▪️ИИ-агент для задач правовой экспертизы и регуляторной политики, Рахмеева Ирина Игоревна, УрГЭУ
▪️Суды окружного уровня влияют на размещение юридических фирм, Сёмин Павел Олегович, ПГНИУ
▪️Правонарушения акционеров и директоров как беловоротничковое преступление, Леденев Виктор Владимирович, ЕУ СПб
15 мая, пятница
12:15 — 17:45, ауд. 429
▪️Платформа Телеграм в современных социальных исследованиях: база данных и примеры применения, Седашов Евгений Александрович, НИУ ВШЭ
▪️Когда диплом не спасает: нелинейные эффекты образования в российском правосудии (на примере ст. 264 УК РФ), Жучкова Светлана Васильевна, Янкевич Семён Васильевич, НИУ ВШЭ
▪️Профессиональный бэкграунд судей как экстралегальный фактор вынесения судебных решений, Капустина Лика Владимировна, НИУ ВШЭ
▪️Влияние антимонопольного правоприменения на вход новых компаний в России, Зварич Андрей Александрович, Ставнийчук Анна Юрьевна, Маркова Ольга Анатольевна, МГУ им. М.В. Ломоносова
▪️Цена преступности, Скугаревский Дмитрий Анатольевич, ЕУ СПб
Программа конференции обширная, там еще много чего интересного: шесть других секций, мастер-классы, открытые лекции, — полный список вот здесь.
14–16 мая в Европейском пройдет Конференция по вычислительным социальным наукам. Мы организовали двухдневную секцию, посвященную вычислительным методам в изучении права, — приходите или подключайтесь к трансляции. Для обоих форматов участия необходима регистрация. Вот что будет:
14 мая, четверг
14:15 — 16:40, ауд. 429
▪️Влияние ИИ на российский LegalTech: индивидуальный и индустриальный уровень, Якуненко Екатерина Сергеевна, Яндекс, автор телеграм-канала Делай RAG
▪️ИИ-агент для задач правовой экспертизы и регуляторной политики, Рахмеева Ирина Игоревна, УрГЭУ
▪️Суды окружного уровня влияют на размещение юридических фирм, Сёмин Павел Олегович, ПГНИУ
▪️Правонарушения акционеров и директоров как беловоротничковое преступление, Леденев Виктор Владимирович, ЕУ СПб
15 мая, пятница
12:15 — 17:45, ауд. 429
▪️Платформа Телеграм в современных социальных исследованиях: база данных и примеры применения, Седашов Евгений Александрович, НИУ ВШЭ
▪️Когда диплом не спасает: нелинейные эффекты образования в российском правосудии (на примере ст. 264 УК РФ), Жучкова Светлана Васильевна, Янкевич Семён Васильевич, НИУ ВШЭ
▪️Профессиональный бэкграунд судей как экстралегальный фактор вынесения судебных решений, Капустина Лика Владимировна, НИУ ВШЭ
▪️Влияние антимонопольного правоприменения на вход новых компаний в России, Зварич Андрей Александрович, Ставнийчук Анна Юрьевна, Маркова Ольга Анатольевна, МГУ им. М.В. Ломоносова
▪️Цена преступности, Скугаревский Дмитрий Анатольевич, ЕУ СПб
Программа конференции обширная, там еще много чего интересного: шесть других секций, мастер-классы, открытые лекции, — полный список вот здесь.
🔥16❤9👍2
Зачем в законодательстве Российской Федерации словосочетание «Российская Федерация» упоминается 5 миллионов раз
В журнале «Закон», очередной номер которого посвящен качеству законопроектной работы, вышла статья нашего научного сотрудника Дениса Савельева о повторах в текстах российского законодательства. Эта работа не содержит сложных методик лингвистического исследования, как это было в других статьях ИПП о читаемости. Напротив, она построена таким образом, чтобы максимально просто продемонстрировать: повторы делают юридические тексты нечитаемыми.
Словосочетание «Российская Федерация» повторяется в законах чаще, чем какое-либо другое, — что, с одной стороны, ожидаемо, а с другой, очень странно для непосвященного в тонкости юридического языка: ясно ведь, что в законодательстве России речь идет о России. Автор приходит к выводу, что причины нечитаемости — в отношении к юридическому тексту как к своего рода технической формуле, в которой все переменные должны упоминаться в неизменном виде. Стремление добиться юридической точности формулировок и не допустить потенциально неправильное толкование и применение приводит к избыточным упоминаниям различных субъектов права и других устойчивых выражений, которые в противном случае просто имелись бы в виду.
В журнале «Закон», очередной номер которого посвящен качеству законопроектной работы, вышла статья нашего научного сотрудника Дениса Савельева о повторах в текстах российского законодательства. Эта работа не содержит сложных методик лингвистического исследования, как это было в других статьях ИПП о читаемости. Напротив, она построена таким образом, чтобы максимально просто продемонстрировать: повторы делают юридические тексты нечитаемыми.
Словосочетание «Российская Федерация» повторяется в законах чаще, чем какое-либо другое, — что, с одной стороны, ожидаемо, а с другой, очень странно для непосвященного в тонкости юридического языка: ясно ведь, что в законодательстве России речь идет о России. Автор приходит к выводу, что причины нечитаемости — в отношении к юридическому тексту как к своего рода технической формуле, в которой все переменные должны упоминаться в неизменном виде. Стремление добиться юридической точности формулировок и не допустить потенциально неправильное толкование и применение приводит к избыточным упоминаниям различных субъектов права и других устойчивых выражений, которые в противном случае просто имелись бы в виду.
👍19❤16🐳4😁3😢2
Когда The Onion еще был смешным, у них была прекрасная шутка про то, что «Парамаунт» собирается снять полнометражный фильм по трейлеру «Железного человека» и что фанаты трейлера беспокоятся, не испортит ли кинокомпания идеальную 90-секундную историю.
Сегодня мы испытываем похожие чувства: программа нашей секции на конференции CSS выглядит так хорошо (особенно гордимся полными ФИО), что, может быть, надо было ограничиться ее публикацией. Но деваться уже некуда, первые доклады прозвучат уже через несколько часов — приходите разделить с нами этот опыт (регистрация тут, онлайн тоже можно).
Сегодня мы испытываем похожие чувства: программа нашей секции на конференции CSS выглядит так хорошо (особенно гордимся полными ФИО), что, может быть, надо было ограничиться ее публикацией. Но деваться уже некуда, первые доклады прозвучат уже через несколько часов — приходите разделить с нами этот опыт (регистрация тут, онлайн тоже можно).
😱10❤🔥6😁4❤2
Рюмочная ИПП
Наша секция на Конференции по вычислительным социальным наукам в ЕУ 14–16 мая в Европейском пройдет Конференция по вычислительным социальным наукам. Мы организовали двухдневную секцию, посвященную вычислительным методам в изучении права, — приходите или подключайтесь…
Начинаем через полчаса, ссылка на конференцию в зуме: https://us06web.zoom.us/j/89248945264?pwd=snR67NSIUEFb99KmVXf2v6NUElnuso.1
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
👏12👍6
Рюмочная ИПП
Наша секция на Конференции по вычислительным социальным наукам в ЕУ 14–16 мая в Европейском пройдет Конференция по вычислительным социальным наукам. Мы организовали двухдневную секцию, посвященную вычислительным методам в изучении права, — приходите или подключайтесь…
Ссылка на сегодняшнюю трансляцию, начало в 12:15: https://us06web.zoom.us/j/84820021230?pwd=QtnCawlomrWByJcSR09ARffMYvm2DV.1
Zoom
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise cloud communications.
👏6❤2👍2
Дорогого доктора Алексея Кнорре произвели в члены редколлегии The Journal of Quantitative Criminology — поздравляем с ответственным назначением!
❤40🔥32🎉16👏4❤🔥2
Наша Российская база бухгалтерской отчетности (РББО) победила в номинации «Данные в естественно-научных и гуманитарных исследованиях» универитетской премии Гравитация. РББО — это первый открытый набор данных с более чем 58 млн наблюдений по нефинансовым фирмам за 2011–2024 годы. Мы уже писали здесь о нем, не станем повторяться.
Лучше предупредим популярный вопрос: большинство фирм закончили передавать в ФНС отчетности за 2025 год (срок подачи — до конца марта, но какая-то часть, в том числе исправления, каждый год передается в апреле-мае) — прямо сейчас мы работаем над их обработкой и скоро выпустим обновление.
Скачать РББО можно на Hugging Face, Zenodo и в каталоге проекта Если быть точным.
Лучше предупредим популярный вопрос: большинство фирм закончили передавать в ФНС отчетности за 2025 год (срок подачи — до конца марта, но какая-то часть, в том числе исправления, каждый год передается в апреле-мае) — прямо сейчас мы работаем над их обработкой и скоро выпустим обновление.
Скачать РББО можно на Hugging Face, Zenodo и в каталоге проекта Если быть точным.
🔥25👏9👍4🐳2