Ivan Begtin

Международная неделя любви к данным пройдет с 9 по 13 февраля. Это событие чем-то похожее на дни/недели открытых данных, но с акцентом данных для исследователей и организует его межуниверситетский консорциум ICPSR

Ключевое тут в акцентах, дни открытых данных посвящены именно открытым данным, а Love data week использованию данных в научной среде, где многое про открытые данные, но далеко не все

В основном участники там - это университеты США входящие в ICPSR.

Также напомню что мероприятия Open Data Day пройдут с 7 по 13 марта, а в Нью Йорке 22-29 марта пройдет Open Data Week

Если у вас есть идеи о чем можно было бы провести Open Data Day в России и/или в Армении - напишите! Мы планируем оба этих мероприятия

#opendata #opengov #events

👍11🔥3

1.65K viewsIvan Begtin, 07:02

Ivan Begtin

Ivan Begtin pinned a photo

07:43

Ivan Begtin

AliSQL новая СУБД с открытым кодом от Alibaba. Совместима с MySQL, внутри движок от DuckDB и есть векторный поиск.

Во первых то что MySQL это необычно в нынешнем мире захваченным PostgreSQL и использование DuckDB.

#opensource #rdbms

👍1

1.23K viewsIvan Begtin, 12:47

Ivan Begtin

ecosystem.ckan.org - свежий реестр каталогов открытых данных на базе CKAN, всего 695 сайтов построенных на CKAN и на которых публикуются открытые данные. Создано компанией datHere в рамках научного гранта POSE в США выданного на создание экосистемы открытого ПО.

До него в сообществе было еще несколько попыток такой систематизации. Есть Datashades.info от Link Digital, которые довольно халтурно следят за достоверностью и полнотой реестра и также сделали фокус на расширения для CKAN (CKAN - это опенсорсный продукт с большим числом расширений), а до этого был dataportals.org тоже уже устаревший реестр не только порталов на базе CKAN, но и других порталов открытых данных, а ещё был ныне не работающий Open Data Monitor www.opendatamonitor.eu

Попыток мониторинга порталов открытых данных было много, каждая новая делается чуть ли не с нуля.

И тут не могу не напомнить что в реестре каталогов данных Dateno dateno.io/registry чуть менее 13 тысяч порталов и каталогов открытых данных, каталогов геоданных, баз статистических индикаторов и научных репозиториев данных. Сам реестр открыт и распространяется как открытый набор данных.

#opendata #datacatalogs #ckan

✍4

1.29K viewsIvan Begtin, 06:12

Ivan Begtin

Substack взломали, но вроде как утечка без чувствительных данных (пишут что пароли, данные платежей и тд. не утекли)

Тем не менее поменять пароли будет не лишним.

UPD: Ах да, в в Substack нет паролей. Ну не молодцы ли?;)

#security #blogging

🔥2

1.36K viewsIvan Begtin, edited 07:06

Ivan Begtin

Давно хочу написать про пуризм в определениях и бесконечные терминологические споры. Значительное число споров вокруг данных и многое в ИТ связано в тем что терминология это то чем очень любят манипулировать пиарщики и маркетологи придавая продвигаемым продуктам свойства схожие с продуктами обладающие ценностными характеристиками, но при этом де-факто ими не обладающие.

Самое популярное искажение вокруг открытого кода. Открытый код - это общедоступный исходный код публикуемый под свободными лицензиями такими как MIT, Apache, BSD и им подобные. Слово открытый, в данном случае, говорит не о том что код можно посмотреть, а о том что он может свободно использоваться в том числе в коммерческих целях.

Но для многих компаний открытость кода - это маркетинговая манипуляция. Они придумывают термины вроде open core, двойное лицензирование и так далее. Всё это делает их продукты не открытым кодом, а кодом доступным онлайн, но лицензии несвободны. Или же есть случаи когда код декларируется как открытый и под свободной лицензией, но доступ к нему можно получить только по запросу. Это тоже не открытый код, чтобы там не говорили те кто пишет что он таков.

С открытыми данными такая же ситуация. Они доступны не по запросу, не после регистрации, не имеют ограничения на коммерческое использование. Принципы открытых данных для того и разрабатывались чтобы создать юридически значимую процедуру публикации данных для их повторного использования. Ожидаемо многие эксплуатируют термин для того чтобы притворяться что они относятся к открытости, сами данные не публикуя. Данные не под свободными лицензиями открытыми не являются, данные доступные по запросу также, их называют данными с регламентированным доступом. Open Data Institute называет их данными в Public Access или Group Based Access. Это нормально если кто-то не хочет давать данные как открытые, но не надо никого обманывать и называть открытыми данными то что таким не является.

Термин большие данные вообще является маркетинговым, он был придуман для продажи инструментов для работы с данными которые достаточно велики чтобы с ними было неудобно работать на десктопе. Его применение довольно широко, определение весьма условно и сейчас, в 2026 году, им пользуются, в основном, те кто не имеет отношения к дата инженерии, data science и тд. В профессиональном обиходе его уже нет, используют его те кто, или оторван от рынка данных, или пытаются напихнуть buzzword'ов в свою речь. Разговоры в стиле мы используем большие данные быстро выдают непрофессионала.

В России часто придумывание новых терминов происходит как оборонительная тактика при защите бюджета. Упоминая одни термины можно оказаться в ситуации что они относятся к сфере которая уже регламентирована или к теме у которой есть владелец и при придумывании новых госпрограмм и госпроектов немало усилий придумщики тратян на то чтобы избежать использования одних терминов и использовать новые.

А с какими терминологическими искажениями вы сталкиваетесь? Что с ними делаете?

#opendata #opensource #thoughts #questions

The ODI

The Data Spectrum

Discover the Data Spectrum and how it can help you understand the language of data, from close, to shared, to open.

👍15🔥2👏2💯2❤‍🔥1❤1

1.68K viewsIvan Begtin, 16:40

Ivan Begtin

ЦРУ (CIA) закрыли свой проект World Factbook с информацией по странам собираемой ими из своих источников.

Архивы его остались в Интернет-архиве, а также Саймон Уилсон успел заархивировать его последнюю версию и выложить в открытый доступ.

Factbook не так уж велик, около 384МБ ZIP архив за 2020 год, но был полезным источником информации для многих и немало тех кто называет удаление сайта актом культурного вандализма. Тем более что в США, в отличие от многих стран, есть практика передачи материалов включая сайты в Библиотеку Конгресса и Национальный архив, они умеют сохранять переданное и обеспечивать долгосрочную доступность. Вообще администрация Трампа активно нарушает многие устоявшиеся хорошие практики в США.

P.S. Надеюсь ссылаться на сайт ЦРУ и читать его в России ещё не запретили😎

#cia #digitalpreservation #usa

Please open Telegram to view this post

VIEW IN TELEGRAM

1😱11💔7✍2⚡2🌚2🔥1🤣1

1.32K viewsIvan Begtin, 07:05

Ivan Begtin

The Better Deal for Data Standard свежий стандарт по управлению данными (data governance) для социального и некоммерческого сектора. Написан в НКО Technology Matters из США и там почти все про организацию сбора и хранения данных, без какого-либо технического погружения.

Это полезный текст для тех кто ищет ответ что делать с управлением данными в НКО, но надо понимать что законодательство он вообще никак не учитывает и стандарт управления данными в США для НКО и для стран ЕС и для РФ и для других стран будут разные. Кстати, на мой взгляд, авторы сделали большое упущение сразу начав писать стандарт. Тут вначале надо формулировать принципы.

#data #datagovernance #datamanagement

🔥3👍1

1.08K viewsIvan Begtin, 10:36

Ivan Begtin

В рубрике как это устроено у них ASEANStats портал статистических данных стран входящих АСЕАН. Включает данные нескольких сотен индикаторов, в том числе метаданные, возможность экспорта в Excel, отображение в виде графиков и тд. Из особенностей - это акцент на экономических индикаторах. Из минусов - нет документированного API, нет массовой выгрузки. Из плюсов - все данные доступны под свободной лицензией CC-BY 4.0 что явно указано.

У АСЕАН нет портала открытых данных да и вообще не у всех межгосударственных блоков они есть, но есть вот такой портал статистики приближенный к тому что можно было бы назвать порталом с открытыми данными.

#opendata #datacatalogs #statistics #ASEAN

👍4✍1

1.04K viewsIvan Begtin, 07:12

Ivan Begtin

Также в рубрике как это устроено у них у Всемирной организации здравоохранения (WHO) существует множество информационных систем и банков данных, начиная с центральной data.who.int и продолжая информационным и системами по региональным блокам. Большая часть из них - это довольно консервативные системы отображения графиков и дашбордов статистики. Но отдельно стоит Western Pacific Health Data Platform (Западно-Тихоокеанская платформа данных о здоровье). Она относительно недавно была обновлена и является гибридом между системой управления статистистикой, визуализации данных и каталога открытых данных. Она содержит 2433 показателя по 38 странам, опубликованные в 4051 наборе данном доступном в форматах CSV, JSON, XLSX, RDATA, Parquet.

Достоинства - современные форматы доступности данных, свободные лицензии (WHO Data Policy = CC BY 4.0), большое число индикаторов

Недостатки - недокументированое REST API, нет bulk download (компенсируется наличием bulk download и API у самого WHO)

#opendata #datasets #WHO #datacatalogs

👍3✍2❤1

1.12K viewsIvan Begtin, 08:00

Ivan Begtin

Forwarded from Неискусственный интеллект (Ruslan Dz)

Выжженная китайцами земля

Алармизма пост. Китайский бигтех и лабы открывают веса своих LLM, но совсем не от доброты душевной.

К концу 2025 года доля китайских open source моделей в глобальном использовании выросла с 1,2% до 30%. По данным OpenRouter и a16z, из топ-5 открытых моделей четыре китайские: MiniMax, Alibaba, DeepSeek, Z.ai.

Стартапы Кремниевой долины тихо пересаживаются на китайский фундамент. Cursor: нашли токенизатор DeepSeek. Cognition (аналог курсора под названием Devin): судя по всему, использует GLM от Zhipu AI под капотом. CEO Airbnb Брайан Чески прямо говорит Bloomberg: «Мы сильно полагаемся на Qwen от Alibaba», а модели OpenAI «обычно не так много используем в продакшене, есть быстрее и дешевле». Чамат Палихапития, венчурный инвестор и сооснователь Social Capital, перетащил рабочие нагрузки на Kimi K2 от Moonshot AI. Потому что «значительно производительнее и просто намного дешевле, чем OpenAI и Anthropic».

Экономика простая. Даже через API китайские модели стоят в пять раз дешевле западных. MiniMax M2 выдаёт производительность на уровне Claude Sonnet 4.5 за 8% его цены. Внутри Китая ещё жёстче: ценовая война обрушила стоимость токенов на 92% с мая 2024. DeepSeek начал, Alibaba подхватила, ByteDance добила.

Но дело не только в цене. Каждый китайский гигант раздаёт веса бесплатно, потому что монетизация этажом ниже. Alibaba: PAI + Alibaba Cloud. Baidu: PaddlePaddle + Kunlun. Huawei: MindSpore + Ascend. Модель это воронка, инфраструктура это бизнес. Ровно как Google отдавал Android бесплатно, а зарабатывал на Play Services. Только здесь каждый строит свой Android.

Стратегия читается в три хода. Сначала модели становятся стандартом, на основе Qwen построено уже 170 000 производных моделей. Потом разработчики привыкают к фреймворкам. Потом фреймворки оптимизируются под китайское железо. Мягкая сила в чистом виде: сначала удобно, потом привычно, потом безальтернативно.

Удар приходится точно по бизнес-модели западных лаб. У OpenAI и Anthropic нет своего железа, а монетизация идёт на уровне модели и API. Именно этот слой китайцы целенаправленно коммодитизируют. Microsoft и Google в лучшей позиции за счёт облаков. Чистые LLM-провайдеры в тисках. Миша Ласкин, которого мы уже упоминали, поднял $8 млрд на Reflection AI ровно на тезисе, что Америке нужна своя открытая альтернатива. Сам факт существования такого стартапа это признание масштаба проблемы.

В сухом остатке: Китай коммодитизирует слой, на котором зарабатывает Запад. Стартапы считают деньги и выбирают Qwen. Разработчики привыкают к китайским стекам. Все получают бесплатные модели, никто не задумывается о зависимости. Классическая мягкая сила с ценником «бесплатно». Пока что бесплатно. Как всегда у китайцев.

@anti_agi

👍24😱3🌚3❤2🤝2😁1

1.06K viewsIvan Begtin, 15:38

Ivan Begtin

Forwarded from Радио Земля

🗺Недавно при составлении социально-экономической карты региона возникла трудность – примерно в середине 2025 года федеральная служба государственной статистики прекратила обновлять данные по ключевым категориям, а те, что уже были сейчас засекречены. Карта, все же получилась, но не такая, как задумывалась. Этот момент заставил задуматься о том, где брать данные для социально-экономических карт и как их составлять в ближайшем будущем, потому что хороших аналогов росстата вроде как нет.
Тем не менее, вот несколько источников данных на РФ:
1. Каталог каталогов. База данных из каталогов, геопорталов и других источников данных. Датасеты разделены по тематикам, странам и регионам.
2. Dateno. Сервис от создателей каталога каталогов, здесь собраны открытые данные на весь мир, регулярно обновляются.
3. Федеральный портал пространственных данных. Портал с картографическими и геодезическими материалами, хранящихся в государственных фондах.
4. Хаб открытых данных. Почти 10 тысяч наборов данных из официальных источников в различных форматах.
5. Пространственные данные МГИМО. Несколько открытых датасетов на социально-экономическую тематику.
6. ИКИ РАН покрытие лесов РФ. Карты лесного покрова. Возможно, есть что-то еще во вкладке архивы данных.

В комментариях можете делиться, какие источники данных можно упомянуть еще. Ставьте реакции, если было полезно, у меня есть еще много источников на другие тематики и страны, буду знать, если интересно.

#материалы@radio_Earth

1👍15🙏4❤3⚡2✍1

1K viewsIvan Begtin, 07:45

Ivan Begtin

Я тут уже не раз рассказывал про то как работаю над реестром каталогов данных который воплотился в Dateno registry и который доступен в открытом репозитории.

Я только-только закончил релиз версии 1.4.0 в которую добавил 208 новых каталогов с данными и общее число достигло 12 489, существенная их часть была добавлено из ecosystem.ckan.org нового проекта OKFN с карточками сайтов на базе CKAN - это примерно 80 каталогов. Кроме того много изменений с исправлением ошибок в метаданных, обновлением документации, переходу к спецификациям OpenSpec.

По своей природе этот реестр можно отнести к проектам контролируемых справочников или справочных баз данных. Он несколько сложнее чем простые одномерные справочники, тем не менее, он подходит под эту категорию и на его основе можно делать много чего. И он лежит в ядре системы индексации данных внутри Dateno, конечно же.

Сейчас практически полностью он обновляется с помощью Cursor, Antigravity и последующими ручными правками. Это не идеальный процесс, эти инструменты тоже делают ошибки, но с их помощью очень хорошо отрабатываются задачи в стиле добавления новых каталогов данных и исправления ошибок в имеющихся.

На старте Dateno я оценивал работу по чистке и расширению этого реестра в 4-6 человека месяца и не меньше двух аналитиков мне в помощь и то что у меня самого это занимало бы 20-25% времени, в итоге оказалось что сейчас у меня это занимает 5% и привлекать аналитиков к его ведению не потребовалось. Экономия времени в человеко-часах примерно в 25 раз. Без преувеличений.

Но также важно что качество реестра сильно выросло за счет внутреннего инструмента валидации его качества. Скрипт создает отчеты по большому перечню правил контроля качества записей что важно поскольку огромное число записей в реестре создавались вручную или импортом и многих метаданных просто не было или было трудоемко собирать вручную. Сейчас почти все они есть.

Я лично веду несколько проектов таких контролируемых справочников и могу сказать что такой подход себя очень оправдывает.

#opendata #datasets #dateno #data #datacatalogs

👍12❤‍🔥3🔥3

1.07K viewsIvan Begtin, edited 10:42

Ivan Begtin

ИИ по факсу в Германии https://simple-fax.de/fax-ki

Внутри LLM модели от OpenAI.

Как ответ на вопрос "использует ли ещё кто-то факсы?"😎

Никто еще не подключил ИИ к СМС?

#ai #curiosities #germany

Please open Telegram to view this post

VIEW IN TELEGRAM

😁21🔥2

2.81K viewsIvan Begtin, 11:33

Ivan Begtin

Ещё немного рефлексии по поводу применения ИИ в разработке и не только:
1. Важная проблема с ИИ сейчас - психологическая. Изменения происходят значительно быстрее чем многие могут к ним адаптироваться. И если в ИТ все более-менее привыкли уже к быстрым изменениям, то во многих других профессиях это происходит существенно тяжелее и с большой психологической нагрузкой. Разница в работе тех кто использует ИИ постоянно и тех кто сопротивляется очень заметна. Скоро потребуются курсы адаптации к этим изменениям (психологам работы прибавится).

2. В ИТ видно что ИИ ассистенты хорошо охватили блоки дизайна и разработки ПО, существенно эффективны в задачах devOps, продвигаются в задачах дата инженерии, но пока не видно специализированных продуктов по тестированию ПО. Но возможно я этого пласта применения просто не вижу, хотя он всё важнее.

3. Свежий доклад World Bank про распространение ИИ в развивающихся странах о том что есть новая форма неравенства в том как ИИ создается и применяется в странах с невысокими доходами. Акцент на малых моделях SLM работающих на повседневных устройствах. Тут важно не забывать что ИИ модели - это не только инструменты, но и де-факто срез мировых знаний локальные страновые модели будут применяться для цензурирования контента. Регуляторы к этому медленно адаптируются, они просто не успевают за потоком изменений, но этот поток не вечно будет столь изменчивым. Когда поток изменений поубавится или хотя бы станет предсказуемым жесткое регулирование будет неизбежным.

#thoughts #ai #itmarket

World Bank

Strengthening AI Foundations: Emerging Opportunities for Developing Countries

The World Bank’s Digital Progress and Trends Report 2025 explores how AI is accelerating growth in developing countries, while highlighting persistent gaps in access, infrastructure, and skills. Discover key trends, challenges, and the ‘Four Cs’ needed to…

👍11🔥4🤝3

1.21K viewsIvan Begtin, 18:37

Ivan Begtin

Судя по новостям в России начали банить Telegram и я мог бы много чего сказать про глупость этого, про то что по рядовым чиновникам и госслужащим это бьет не меньше чем по всем остальными о том что внутри российских госорганов недоверие MAX'у не меньшее чем у простых и продвинутых россиян. Политическая целесообразность, тем не менее, в РФ абсолютно затмевает экономическую.

Тем не менее я не сомневаюсь что аудиторию мой канал не потеряет как и большая часть коммуникаций сохранится. Самое очевидное и значимое то что:
1. Многие команды работающие в РФ частично или полностью будут вынуждены теперь повсеместно использовать VPN. Я, кстати, не испытываю сомнений что пока SSH протокол не начали замедлять будет сложно заблокировать что VPN'ы что прокси для отдельных приложений.
2. Не только в контексте РФ, но и других стран есть явная ниша для zero-config сервисов вроде Tailscale или Twingate для организации внутрикорпоративных сетей. Применительно к РФ их главный недостаток сейчас в том что они работают с использованием Wireguard как основного протокола.

#thoughts

❤26💯14🤝4🤔2

1.45K viewsIvan Begtin, 14:48

Ivan Begtin

Для меня один из давних вопросов в том могут ли LLM работать с двоичными данными и делать это хорошо. Но если я только задумывался об этом то ребята из Quesma проделали серию тестов с внедрением вредоносов в несколько бинарников популярных серверных продуктов и попробовали с помощью разных LLM их выявить используя опенсорные инструменты Ghidra и Radare2. А по итогам они написали подробный отчет в котором есть еще и ссылки на детали замеров и исходники.

В качестве короткого резюме - да, возможно. Лучше всего себя показал последняя модель Claude Opus 4.6, хуже всего Grok-4.1-fast. Впрочем использование Claude Opus 4.6 было самым дорогим, его использование вышло в $300, но и выявил он 49% всего вредоносного кода (бинарного в исполняемых файлах)

Результат интересен еще и его обратимостью, если ИИ ассистенты так хороши в обнаружении вредоносного кода в бинарниках, то они же могут быть хороши и в его сокрытии. А значит и хакеры могут получить более опасные инструменты и борьба с ними станет тяжелее.

#opensource #ai #itsecurity

❤5👍5

1K viewsIvan Begtin, 19:09

Ivan Begtin

Ещё в рубрике как это устроено у них о том что порталы и каталоги открытых данных даже со свободными лицензиями не всегда содержат открытые данные.

Портал открытых данных The AIDS Data Repository содержит 598 наборов данных которые организованы так что для доступа к ним нужна регистрация в их внутренней системе. На портале доступны карточки метаданных, но сами ресурсы вынесены в отдельную систему с авторизацией.

Проект OpenHeritage3D содержит 3D модели многочисленных культурных объектов по всему миру, как правило на условиях CC BY-NC-ND, довольно ограничивающих, но дело не только в них. Данные напрямую скачать нельзя, нужно заполнить Download Submission Form и только после этого получить ссылки на закачку данных на почту.

Собственно это одна из причин почему открытыми данными называют то что соответствует Open Data Principles, а не все что де факто так называется или общедоступно.

#opendata #datacatalogs

❤‍🔥2🔥1

608 viewsIvan Begtin, 09:41

About

Blog

Apps

Platform