Национальный цифровой архив

Forwarded from Российская государственная библиотека (Ленинка)

⚠️ Уважаемые читатели!
С 28 апреля и до отдельного объявления в связи с техническими проблемами будут недоступны:

- сайт РГБ,
- электронная библиотека РГБ, поиск по электронному каталогу и электронным ресурсам,
- электронный заказ документов,
- запись в библиотеку,
- Национальная электронная библиотека (НЭБ).

В библиотеке можно будет:
- получить книги, заказанные ранее,
- воспользоваться заказом на документы, изданные до 2015 года, через консультантов при помощи бумажных требований,
- получить издания из открытых и подсобных фондов.

По мере решения технических проблем будем информировать вас о подключении электронных услуг.

Приносим свои извинения!

🤔14🕊4🌚2❤1

1.32K views05:25

Национальный цифровой архив

У CommonCrawl, некоммерческого проекта поискового индекса Интернета, появился новый набор данных cc-host-index [1].

В новом индексе хостов есть одна строка для каждого известного нам веб-хостинга в каждом отдельном обходе. Он содержит сводную информацию из обхода, индексов, веб-графика и наших необработанных журналов обхода. Вы можете использовать его непосредственно из AWS с помощью инструментов SQL, таких как Amazon Athena или duckdb, или загрузить на свой собственный диск (24 обхода по 7 гигабайт каждый).

Вот пример запроса к этому набору данных на получение всех хостов Ватикана где более 50% страниц на языках отличных от английского.

Подробнее в их блоге [2].

Ссылки:
[1] https://github.com/commoncrawl/cc-host-index
[2] https://commoncrawl.org/blog/introducing-the-host-index

#opendata #webarchives #datasets

🔥8❤2

3.55K views17:45

Национальный цифровой архив

В связи с грядущей реформой статистического учёта в России и тем что до конца 2025 года планируется вывод из эксплуатации системы статистики ЕМИСС (fedstat.ru) мы начали архивацию всех их общедоступных ресурсов Росстата включая сайты ЕМИСС, Росстата и его территориальных подразделений, на случай если их материалы "случайно потеряются".

Если Вы знаете какие-либо онлайн ресурсы Росстата помимо перечисленных которые необходимо подвергнуть архивации, напишите в чате к этому телеграм каналу и мы их обязательно учтём при архивации.

#webarchives #digitalpreservation #statistics #rosstat #russia

🔥19👍15💯4

4.01K views18:55

Национальный цифровой архив

Forwarded from Ivan Begtin (Ivan Begtin)

Для тех кто работает с веб архивами я обновил инструмент metawarc [1] это утилита для извлечения метаданных из файлов WARC (формат файлов веб архива).

Инструмент нужен для тех кто извлекает метаданные и файлы из WARC файлов, например, можно скачать WARC файл архива сайта Минспорта за 2019 г. , он небольшой, всего около 1ГБ, проиндексировать его и извлечь все PDF файлы, или файлы MS Word, или сразу извлечь все метаданные из документов и изображений.

Штука которая полезна для OSINT задач анализа сайтов организаций, но тема OSINT меня интересует мало.

А основное применение - это анализ больших архивов и организация поиска по ним и поиск интересных данных.

Когда-то давно я делал эту штуку и через неё находил массовое использование пиратского офисного ПО на российских госсайтах, но это было давно и уже давно малоинтересно. Внутри там использовалась база sqlite и при индексации всех метаданных размер этой базы мог достигать до 20% от размера WARC файла. То есть для коллекции в 1ТБ WARC'ов это получалось до 200GB база. А это совсем никуда не годится. После переписывания всё на связку DuckDB + Parquet после индексации объём уменьшился на порядки. Для WARC файла в 4.5ГБ извлеченные метаданные занимают 3.5МБ. А это 0.07%. Реальное сжатие в 285 раз (!), не говоря уже о ускорении операций по анализу и извлечению документов.

Ссылки:
[1] https://github.com/datacoon/metawarc

#opensource #webarchives

🔥13👍9🙏3

1.22K views17:52

Национальный цифровой архив

Forwarded from Цифровой архив госфинансов и госуправления

Проект «Цифровой архив госфинансов и госуправления» запускает регулярные посты в телеграм-канале

Наш телеграм-канал был создан весной 2024 года - одновременно с запуском веб-сайта проекта. Все это время мы разрабатывали наш сайт, создавали наборы открытых данных и накапливали базу документов, агрегируя общедоступные источники. И вот сейчас наступил тот самый момент, когда мы наконец определили, каким этот канал должен быть, и готовы делиться нашими обновлениями, находками в книгах и инсайтами в данных.

Большинство постов в канале будут базироваться на коллекции книг и документов «Цифрового архива госфинансов и госуправления (ЦАГГ)». Мы будем рассказывать о редких и уникальных изданиях, об авторах книг и государственных деятелях, будем публиковать интересные факты и данные. Наши творческие планы уже сейчас содержат порядка десяти тематических направлений, но начнем мы с трех основных — «Книги», «Персоны» и «Датасеты». Кроме этого, мы будем рассказывать о работе с финансовыми данными, о найденных особенностях исторической финансовой системы и многом другом.

Откроем регулярные публикации в Телеграм-канале мы текстом о Сергее Юльевиче Витте — министре путей сообщения (1892), министре финансов (1892-1903), а впоследствии и премьер-министре (1903-1906) России.

И, конечно, напоминаем ссылку на сайт нашего проекта, в котором собрано уже более 8 тыс. документов и 175 наборов данных: finlibrary.ru

🤓6👍4❤‍🔥3❤1🤔1

1.29K views10:00

Национальный цифровой архив

Похоже организаторы конференции Dialog по компьютерной лингвистике ~~продолбали~~ потеряли сайт с материалами конференций с 2008 по 2022 годы - www.dialog-21.ru, вместо сайта теперь заглушка, на новом сайте dialogue-conf.org есть материалы только за 2025 год.

Что там случилось неизвестно, но может быть кто-то в контакте с их организаторами и есть возможность материалы восстановить?

#webarchives

⚡4🌚3

2.58K views08:13

Национальный цифровой архив

С 25 августа перестанут работать короткие ссылки в сокращателе ссылок от Google, сам сервис перестал работать с 2019 года, но ранее созданные ссылки действовали, теперь же и ссылки действовать перестанут. Чем вызвана такая срочность и закрытие непонятно, у корпорации однозначно были и есть ресурсы сервис поддерживать.

Команда ArchiveTeam занимается архивацией этих ссылок и всего собрано 84ТБ данных. Прогресс архивации можно отследить в трекере и там же присоединиться к архивации развернув собственный экземпляр ArchiveTeam Warrior, специальной виртуальной машины для выполнения задач в рамках проектов с распределенной архивацией цифровых материалов.

#opendata #digitalpreservation #webarchive

🔥8❤6

5.47K views11:42

Национальный цифровой архив

Важный вопрос, как для развития Ruarxive.org, так и для сообщества по цифровой архивации в том как мы могли сообщество развивать и поддерживать? Как можно было бы сделать текущую работы по архивации более полезной, удобной и востребованной? Для чего обязательно проведём опрос тут в телеграм канале, но прежде это хотелось бы обсудить.

У инициатив по архивации, увы, немного ресурсов и удаётся сохранить далеко не всё что хотелось бы

Вот неполный список идей которые "витают в воздухе":
1. Обновить сайт ruarxive.org и выложить туда в более удобном виде все накопленные архивы.
2. Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и дал бы возможность не терять трэды обсуждения.
3. Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Например, делать обязательную копию всего в Интернет архив
4. Организовать курсы/семинары по обучению самостоятельной архивации (материалы есть, они даже использовались для курсов в одном из университетов).
5. Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента
6. Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые
7. Организовать конкурс на создание инструментов архивации типовых сайтов/соц сетей/иных цифровых источников данных, может быть добавить конкурс на создание гайдов и курсов по архивации от сообщества

Возможно какие-то ещё идеи? Предлагаю обсудить их в чате @ruarxivechat и все их выставим на голосование в ближайшее время

#ideas #community

🔥12❤7👍2

2.78K viewsedited 16:15

Национальный цифровой архив

Давайте выберем приоритеты в развитии сообщества по цифровой архивации и проекта Ruarxive.org (множественный выбор)

Anonymous Poll

53%

Более удобный доступ к архивам и удобный сайт ruarxive.org

14%

Сделать форум для обсуждений который бы дополнял чат @ruarxivechat и

39%

Больше интегрироваться с Archive.org и ArchiveTeam и ориентироваться на них в архивных задачах. Н

30%

Организовать курсы/семинары по обучению самостоятельной архивации

22%

Регулярно организовывать митапы или ежегодную конференцию по теме архивации цифрового контента

50%

Актуализировать гайды по архивации цифрового контента разного типа и подготовить новые

18%

Организовать конкурс на создание инструментов архивации

16%

Консорциум по выбору способов и форматов хранения

45%

Развивать кросс-интеграцию решений, чтобы разные приложения могли понимать форматы друг-друга

37%

Усилить взаимодействие с разработчиками популярных инструментов, чтобы улучшить интеграцию с ними.

👍5

120 voters2.66K views16:15

Национальный цифровой архив

Не про цифровые архивы,но про доступ к обычным архивам.В России ограничили доступ к архивным делам репрессированных,теперь их предоставляют только родственникам https://www.rbc.ru/politics/02/10/2025/68dd692a9a7947ce9062c969

РБК

В российских архивах изменили правила доступа к делам о репрессиях

Архивы изменили правила доступа историков и исследователей к делам репрессированных, без длительной процедуры согласований их теперь выдают только родственникам. Почему это происходит — в материале

👎16👍3🌚3🤔2❤‍🔥1😍1

1.07K views13:19

Национальный цифровой архив

Forwarded from Математические этюды

Новый сайт журнала «Квант» — https://www.kvant.digital/ !

7 октября 2025 года, Москва. Лаборатория популяризации и пропаганды математики Математического института им. В. А. Стеклова РАН запустила новый современный сайт журнала «Квант» со сканами высокого качества и возможностями поиска: https://www.kvant.digital/ . Журнала, в котором собраны бесценные материалы, журнала, тиражи которого в 1970-х годах доходили до 385 000 экземпляров в месяц (история журнала, неразрывно связанная с историей нашей страны, представлена в разделе «История»).

Старые номера журнала отсканированы заново, по возможности исправлены типографские огрехи. Сайт позволяет искать по автоматически распознанным изображениям представленных номеров журнала. Попробуйте на странице «Архив номеров» ввести интересующее вас словосочетание. В качестве примера: кубик Рубика. По клику на номер с жёлтым фоном открывается страница номера с подсвеченными найденными словами. А если вы школьником отправляли решения в «Задачник „Кванта“», то можете попробовать найти свою фамилию в списках читателей, приславших решения.

Возможности нового сайта кратко описаны на странице «О сайте».

Цель проекта: представить уникальные материалы журнала в удобном для пользователя виде – в том числе, в виде выверенных html/TeX-текстов. В качестве примера – первые номера журнала и новый номер, некоторые другие материалы. Полистать журнал — занятие увлекательное, затягивающее и полезное: находишь для себя много нового интересного. Предлагаем пользователям совместить изучение материалов с участием в создании html-версии опубликованных материалов: представить в формате TeX понравившиеся тексты. В частности, это может быть школьный проект или студенческая практика. Так постепенно все статьи будут переведены в формат, которым действительно удобно пользоваться, в том числе, с мобильных устройств.

Неизменная с 1970 года надпись на обложке журнала «Квант»: научно-популярный физико-математический журнал. Интересных открытий!

Архив журнала «Квант»

Архив журнала «Квант» объединяет все выпуски с 1970 года — бесценные материалы по физике и математике в удобной электронной форме.

❤11🔥10❤‍🔥1

918 views09:51

Национальный цифровой архив

Рукопись как данные: что нужно исследователю

Что важно учесть в процессе оцифровки архивных документов и подготовке электронных публикаций? Какая аудитория у подобных проектов и какие у них потребности в изучении архивов?

Приглашаем принять участие в опросе о практиках подготовки, организации доступа и публикации материалов и данных архивов в цифровой среде.

Опрос проводится студентами магистратуры НИУ ВШЭ «Цифровые методы в гуманитарных науках».

Пройти опрос: ссылка.

👍6🔥4⚡2

1.12K views10:48

Национальный цифровой архив

Forwarded from Ivan Begtin (Ivan Begtin)

The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects заметка в Nieman Labs о том что с мая 2025 года в Интернет Архиве наблюдается сбой из-за которого резко сократилась архивация как минимум главных страниц ведущих медиа изданий в мире. Иногда вплоть до того что страницы не сохранялись вовсе. Марк Грехэм из Интернет архива это подвердил и упомянул что этот сбой уже был исправлен.

Основная мысль в том насколько все в мире зависят от Интернет Архива при том что у него нет ни стабильного финансирования, ни серьёзных финансовых ресурсов или эндаумента позволяющего не думать о фандрайзинге постоянно. Все национальные инициативы в нац архивах и библиотеках, крупнейшие из них в США и во Франции, многократно, думаю что на два порядка не дотягивают по масштабам.

При этом не все знают и понимают что интернет архив охватывает далеко не всё. Чем меньше ссылок на конкретную страницу на сайте тем меньше вероятность что её актуальная версия есть в индексе Интернет Архива, туда же не попадают большая часть видеозаписей, сжатые файлы (zip/rar/gz и др.), файлы большого объёма, содержание динамически подгружающихся сайтов и многое другое.

#webarchives #digitalpreservation #data

Nieman Lab

The Wayback Machine’s snapshots of news homepages plummet after a “breakdown” in archiving projects

Between May and October 2025, homepage snapshots fell by 87% across 100 news publications.

👍7❤3🤔1

755 views11:12

Национальный цифровой архив

Forwarded from Ivan Begtin (Ivan Begtin)

Говоря о исчезающих материалах/данных/информации в России я как-то ранее упускал что творится в российских регионах, а зря. Интернет архив уже более чем 3 года не охватывает огромное число региональных и муниципальных сайтов, например, сайт администрации г. Белгорода beladm.ru не индексировался с конца марта 2022 года.

Но это только половина беды, сейчас этот сайт явно и как-то очень криво мигрировали на ГосВеб в поддомене Госуслуг да так что его новый адрес должен быть beladm.gosuslugi.ru, а редирект идет на belgorod-r31.gosweb.gosuslugi.ru что выглядит как-то, через одно место.

Старый сайт, конечно же, недоступен, государственного архива сайтов в РФ нет, со старого сайта материалы перенесены совершенно точно не все.

Масштабы потерь пока сложно измерить, скорее всего они весьма велики.

#russia #opendata #digitalpreservation #webarchives #closeddata

🤔10👍4

666 views13:35

Национальный цифровой архив

Forwarded from Ivan Begtin (Ivan Begtin)

Кстати, как человек любящий не только цифровые архивы, но и исторические книжки тоже не могу не упомянуть про очень интересный проект от Банка России с виртуальной выставкой по истории Банка. Мало какие центральные банки в мире делают такие проекты, так что это хорошо что такое появляется (если знаете аналогичные проекты в других странах, то напишите плз). Я знаю только Federal Reserve History в США.

Но интересность материалов и их доступность омрачает то что материалы есть, а можно ли их использовать? В основном нет.

Вот самые очевидные проблемы:
1. Нет нигде явным образом указанных условий использования материалов. Можно ли использовать их на своём сайте? Можно ли на их основе писать учебные материалы? Можно ли цитировать и тд. Понятно что у разных материалов может быть разный статус, но не надо забывать насколько это важно можно ли использовать такие материалы.
2. Просмотр материалов только на сайте - это никуда не годится. Возможность скачать исторические книжки нужна для бесконечного числа задач: внутренних библиотек университетов, таких проектов как Цифровой архив госфинансов и госуправления, возможность почитать книги оффлайн, возможность обучить на них ИИ, возможность создать наборы данных и многое другое.

Если делать хорошо, то делать до конца, не надо останавливаться на полпути.

#digitalpreservation #books #finances #digitalhumanities #openaccess

👍6🔥4

795 views14:18

Национальный цифровой архив

Forwarded from Инфокультура

Объявлен приём заявок на Премию «Открытый доступ к данным в гуманитарных науках»

АНО «Инфокультура» приглашает студентов, аспирантов, преподавателей, исследователей и сотрудников вузов и научных организаций принять участие в конкурсе проектов, способствующих развитию открытой науки в гуманитарной сфере.

📌 Что можно подать:
– результаты научных исследований,
– цифровые проекты, связанные с гуманитарными дисциплинами,
– дипломные и курсовые проекты,
– иные работы, представляющие гуманитарные данные в открытом доступе.

📚 Номинации Премии:
• История
• Филология
• Культура
• Искусство
• Иные гуманитарные науки

Номинировать проект может как сам автор (или коллектив авторов), так и любой человек или организация, знакомые с проектом. Год публикации работы не имеет значения.

🏅 Лауреаты получат памятные награды, сертификаты и специальные призы от организаторов и партнёров Премии.
📝 Приём заявок уже открыт!

🔗 https://humawards.ru

#opendata #openaccess #humanitarian #contest

❤5👍5🔥4

673 views12:52

Национальный цифровой архив

Большое обновление сайта Ruarxive.org. Добавили много новых статей, лучше структурировали сам сайт, добавили поиск, обновили до последней версии Docusaurus'а (движка на котором сайт построен).

В том числе можно обратить внимание на статьи:
- Быстрый старт: архивация за 5 минут
- Как создать цифровой архив сайтов
- Экстренная архивация: когда счет идет на часы
- Курс по цифровой архивации

И многие другие, включая статьи по использованию конкретных инструментов и обзоры наиболее известных сервисов.

Новое содержимое сайта собрано из публикаций в телеграм канале @ruarxive, других публикаций об исчезновении интернет-ресурсов, презентаций курса по цифровой архивации и других материалов.

Среди других изменений:
- обновлена главная страница для большей понятности содержания сайта
- добавлен поиск по контенту

Да, структура сайта ещё не идеальна, а поскольку многие статьи преобразованы из презентаций, то там больше буллетов чем текста, и они ещё будут обновляться.

Если у Вы найдете какие-либо ошибки, если возникли идеи или если Вы готовы дополнить и расшрить материалы, пишите в @ruarxivechat и в issues на github

P.S. Сейчас в работе систематизация всех собранных ранее сайтов и других результатов архивных кампаний. Все это будет собрано в единый набор данных с базой архивов и далее доступно или через специальный интерфейс или на hubofdata.ru (там уже есть раздел с архивами сайтов и другими архивами).

#digitalpreservation #webarchives #knowledgebase

👍8🔥5❤1

1.71K views05:41

Национальный цифровой архив

Forwarded from Ivan Begtin (Ivan Begtin)

К вопросу про российский мессенжер Max, помимо достаточно очевидных проблем с тем что он "как бы государственный, но не государственный", с его довольно бесцеремонным продвижением используя административный ресурс и массой других уже написанных многими проблем, я подниму ещё одну тему о которой не пишут.

Это архивация. В сравнении с телеграмом у Max'а есть два очень существенных отличия:
1. Отсутствует возможность просматривать содержание каналов онлайн без авторизации
2. Отсутствует возможность делать data takeout хотя бы для своих данных, а в идеале и для любых каналов и чатов

Первое влияет на то что содержание из Max не индексируется поисковиками и Интернет Архивом (они собирают только общедоступные матералы доступные через https/http). К примеру, в телеграм можно смотреть без авторизации, вот так выглядит там мой телеграм канал https://xn--r1a.website/s/begtin

Второе на то что невозможно сделать архив ни своих чатов, ни своих каналов, ни читаемых каналов. Просто не предусмотрено.

В итоге Max - это закрытое контролируемое не архивируемое пространство где даже чтение постов прошедших авторизацию каналов идет только под контролем (только после авторизации) даже в веб клиенте.

Вопрос остается в том будет ли там хоть что-то полезное, не продублированное в Телеграм'е? Насколько реально велик риск блокировки телеграма в ближайшее время и переход части авторов каналов туда?

Если велик, то видимо надо заморачиваться придумыванием организации архивации материалов в Max'е для чего документированного API не наблюдается и нужен дотошный разработчик готовый такой инструмент разработать.

#digitalpreservation #thoughts

🤔7👍5🌚4❤2

533 views09:23

Национальный цифровой архив

Forwarded from Пиратская партия России А++

Anna’s Archive решила создать резервную копию Spotify

🎵Проектом заархивированы метаданные и музыкальные файлы платформы Spotify. Архив занимает ~300 ТБ, распространяется через торренты и включает около 86 миллионов музыкальных файлов

Это первый подобный открытый «архив сохранения» музыки такого масштаба, доступный для зеркалирования и резервирования любым пользователем с достаточным дисковым пространством.

https://annas-archive.li/blog/backing-up-spotify.html

🏴‍☠️ Anna’s Archive - некоммерческая метапоисковая система для теневых библиотек с открытым исходным кодом, созданная командой анонимных архивистов Pirate Library Mirror и запущенная как прямой ответ на усилия правоохранительных органов по закрытию Z-Library в 2022 году. Проект ставит себе целью «каталогизацию всех существующих книг и отслеживание прогресса человечества на пути к тому, чтобы сделать все эти книги легкодоступными в цифровой форме».

В статье «Критическое окно теневых библиотек» они объяснили , что делают это потому, что текст обладает самой высокой плотностью информации. Но их миссия (сохранение знаний и культуры человечества) не делает различий между типами носителей. Иногда появляется возможность работать вне текстовой среды. Копирование Spotify - это именно такой случай.

🎉18🔥11😍4👍2🥰1

348 views11:17

About

Blog

Apps

Platform