FlowDataGouv проект с открытым кодом с результатами анализа 74 тысяч наборов и 384 тысяч ресурсов опубликованных во Франции на портале data.gouv.fr. Результаты доступны в репозитории и в виде PDF отчета.
Если коротко, то данных много, охватывают все регионы Франции, какие-то больше, какие-то меньше
Большая часть данных доступны, мертвых только 14 тысяч ссылок на ресурсы.
Тексты на французском языке, но всё довольно понятно и так.
Такие исследования стало сильно проще проводить используя ИИ ассистенты, в данном случае автор использовал Mistal + Claude и проделал исследование за январь-март 2026 года
#opendata #france
Если коротко, то данных много, охватывают все регионы Франции, какие-то больше, какие-то меньше
Большая часть данных доступны, мертвых только 14 тысяч ссылок на ресурсы.
Тексты на французском языке, но всё довольно понятно и так.
Такие исследования стало сильно проще проводить используя ИИ ассистенты, в данном случае автор использовал Mistal + Claude и проделал исследование за январь-март 2026 года
#opendata #france
👍4🔥2❤1
Forwarded from Институт Гайдара
📱«Персональные данные ценнее чем нефть?»
Друзья! Институт Гайдара запускает цикл лекций в нашей Библиотеке на Газетном.
Открываем темой, которая касается каждого: поговорим о том, как компании используют наши персональные данные, как это влияет на конкуренцию, манипулирует нашим выбором и что делать с доступом к информации в эпоху ИИ и чрезвычайных ситуаций.
🎤 Лектор:
Антонина Левашенко, заведующая лаборатории анализа лучших международных практик Института Гайдара
👥 Участники дискуссии:
Алексей Мунтян, генеральный директор Privacy Advocates
Иван Бегтин, директор АНО «Информационная культура»
📅 16 апреля (чт), 19:00–20:30
📍 Библиотека на Газетном (Москва, Газетный пер., 3-5, стр. 1)
Вход свободный, но нужна регистрация. Для входа возьмите с собой паспорт.
#Институт_Гайдара
👉 Подписывайтесь на канал Института Гайдара | Читайте нас в Max
Друзья! Институт Гайдара запускает цикл лекций в нашей Библиотеке на Газетном.
Открываем темой, которая касается каждого: поговорим о том, как компании используют наши персональные данные, как это влияет на конкуренцию, манипулирует нашим выбором и что делать с доступом к информации в эпоху ИИ и чрезвычайных ситуаций.
🎤 Лектор:
Антонина Левашенко, заведующая лаборатории анализа лучших международных практик Института Гайдара
👥 Участники дискуссии:
Алексей Мунтян, генеральный директор Privacy Advocates
Иван Бегтин, директор АНО «Информационная культура»
📅 16 апреля (чт), 19:00–20:30
📍 Библиотека на Газетном (Москва, Газетный пер., 3-5, стр. 1)
Вход свободный, но нужна регистрация. Для входа возьмите с собой паспорт.
#Институт_Гайдара
👉 Подписывайтесь на канал Института Гайдара | Читайте нас в Max
👍4❤3🔥2✍1
Forwarded from Ревизская сказочница (Elena Korchmina Ревизская сказочница)
Статистика как боевой вид спорта
Готовлюсь к лекциям, читаю чудесную книгу Дайан Койл GDP: A Brief but Affectionate History. Начинается с одной из лучших историй для книги по экономике.
«В Греции статистика — это боевой вид спорта». Это сказал Андреас Георгиу после того, как против него выдвинули уголовные обвинения и начали парламентское расследование. Георгиу, специалист, много лет проработавший в МВФ, в 2010 году стал главой новой греческой статистической службы Elstat. Фактически его назначили ЕС и МВФ. Через несколько недель его почту взломали. Через несколько месяцев бывшие сотрудники старой службы обвинили его в действиях против национальных интересов Греции. Прокуратура предъявила обвинения в служебной халатности, даче ложных показаний и фальсификации официальных данных.
В чём его преступление? Он пытался представить точную статистику о состоянии греческой экономики после десятилетий, в течение которых официальные статистики искажали данные по указанию политиков.
Ставки были высоки. Средства для спасения греческого правительства зависели от достижения жёстких целевых показателей по сокращению государственных расходов и заимствований. Эти показатели выражались как отношение бюджетного дефицита к ВВП.
Официальное расследование Европейской комиссии подтвердило: греческие данные годами подвергались манипуляциям. Глава предыдущей статистической службы в отчаянии обратился к европейским чиновникам в Брюсселе, заявив о вмешательстве. Расследование пришло к выводу: показатели неоднократно искажались, правительство не могло должным образом отслеживать собственные расходы, существуют серьёзные сомнения в подотчётности греческой институциональной системы.
Любой статистик мог сказать это и без расследования. Просто посмотрев на данные. Например, в 2006 году Греция объявила, что ВВП оказался на 25% выше, чем считалось ранее. Включили в расчёты оценку объёма теневой экономики, скрытой от налоговых органов. Удобный момент для увеличения ВВП, поскольку размер ВВП напрямую влияет на оценку кредиторами способности страны обслуживать долг.
Книга Койл рассказывает историю того, как ВВП стал столь важным показателем!
Источник: Diane Coyle. GDP: A Brief but Affectionate History. Princeton University Press, 2014.
Готовлюсь к лекциям, читаю чудесную книгу Дайан Койл GDP: A Brief but Affectionate History. Начинается с одной из лучших историй для книги по экономике.
«В Греции статистика — это боевой вид спорта». Это сказал Андреас Георгиу после того, как против него выдвинули уголовные обвинения и начали парламентское расследование. Георгиу, специалист, много лет проработавший в МВФ, в 2010 году стал главой новой греческой статистической службы Elstat. Фактически его назначили ЕС и МВФ. Через несколько недель его почту взломали. Через несколько месяцев бывшие сотрудники старой службы обвинили его в действиях против национальных интересов Греции. Прокуратура предъявила обвинения в служебной халатности, даче ложных показаний и фальсификации официальных данных.
В чём его преступление? Он пытался представить точную статистику о состоянии греческой экономики после десятилетий, в течение которых официальные статистики искажали данные по указанию политиков.
Ставки были высоки. Средства для спасения греческого правительства зависели от достижения жёстких целевых показателей по сокращению государственных расходов и заимствований. Эти показатели выражались как отношение бюджетного дефицита к ВВП.
Официальное расследование Европейской комиссии подтвердило: греческие данные годами подвергались манипуляциям. Глава предыдущей статистической службы в отчаянии обратился к европейским чиновникам в Брюсселе, заявив о вмешательстве. Расследование пришло к выводу: показатели неоднократно искажались, правительство не могло должным образом отслеживать собственные расходы, существуют серьёзные сомнения в подотчётности греческой институциональной системы.
Любой статистик мог сказать это и без расследования. Просто посмотрев на данные. Например, в 2006 году Греция объявила, что ВВП оказался на 25% выше, чем считалось ранее. Включили в расчёты оценку объёма теневой экономики, скрытой от налоговых органов. Удобный момент для увеличения ВВП, поскольку размер ВВП напрямую влияет на оценку кредиторами способности страны обслуживать долг.
Книга Койл рассказывает историю того, как ВВП стал столь важным показателем!
Источник: Diane Coyle. GDP: A Brief but Affectionate History. Princeton University Press, 2014.
✍9❤8😱6👍5
Forwarded from Национальный цифровой архив
Какие альтернативные способы трансляции информации канала ruarxive стоит добавить на случай блокировки Telegram? (можно несколько ответов)
Final Results
24%
Сделать блог-рассылку, например, на Substack
20%
Создать отдельный современный форум для новостей и обсуждений
64%
Ничего делать не надо, все кому надо в Telegram зайти смогут
12%
Мигрировать на Mastodon сервер англоязычных цифровых архивистов (digipress.club). Из РФ недоступен
24%
Развернуть свой Mastodon сервер и интегрировать его в общий мировой Fediverse
9%
... всё таки сделать сообщество в VK
5%
... всё таки сделать сообщество в Max
11%
Просто хочу посмотреть ответы или предложить свою идею в чате @ruarxivechat
👍7
Great Data Products ещё один взгляд на открытые данные от основателей source.coop, платформы для публикации данных большого объёма, преимущественно геоданных. Автор делает экскурс в историю открытости данных, с акцентом на данные для исследователей публикуемые в США, с отсылками к первым большим изменениям в регулировании к 2003 году. Но при этом автор говорит о неопределенности слова "open" и предлагает ввести понятие "great" и акцент не на открытых датасетах, а на дата продуктах. Разница в том что дата продукты документированы, сопровождаются, имеют измеримую стоимость создания и поддержания и понятную стоимость для потребителей.
Это очень похоже на концепцию 3-й волны открытых данных (publish with the purpose) и акценте на понимании пользователей и ценности данных для пользователей.
Собственно он приводит в пример Scoop.coop, CommonCrawl, Open Supply Hub и другие специализированные НКО созданные вокруг дата продуктов и экосистемы вокруг дата продуктов.
Ко всему автор ведет и любопытный подкаст с одноименным названием.
И вдогонку к этому тексту пример проекта в виде дата продукта базы штормовых событий на основе данных NOAA с API и специализированным веб интерфейсом для их отображения.
Сама идея дата продуктов не нова, я склоняюсь что за ней однозначное будущее как переход к ценностному отношению к данным - неважно, открытым, регламентированным, для внутреннего использования.
#opendata #dataengineering #dataproducts #data
Это очень похоже на концепцию 3-й волны открытых данных (publish with the purpose) и акценте на понимании пользователей и ценности данных для пользователей.
Собственно он приводит в пример Scoop.coop, CommonCrawl, Open Supply Hub и другие специализированные НКО созданные вокруг дата продуктов и экосистемы вокруг дата продуктов.
Ко всему автор ведет и любопытный подкаст с одноименным названием.
И вдогонку к этому тексту пример проекта в виде дата продукта базы штормовых событий на основе данных NOAA с API и специализированным веб интерфейсом для их отображения.
Сама идея дата продуктов не нова, я склоняюсь что за ней однозначное будущее как переход к ценностному отношению к данным - неважно, открытым, регламентированным, для внутреннего использования.
#opendata #dataengineering #dataproducts #data
👍5🔥3
В рубрике как это устроено у них могу сказать что для меня открытие этого года в том сколько спешно-успешно распространяются сервисы для доступа к геоданным на базе спецификации STAC (SpatioTemporal Asset Catalogs). Я как раз обновляю реестр каталогов данных Dateno и у меня сервисов поддерживающих спецификацию STAC накопилось уже 168. Скорее будет больше. При этом изначально я их классифицировал как отдельное ПО, потому что большая часть сервисов были на базе референсных реализаций, а правильнее классифицировать как протокол, а ПО определять иначе. Например, после появления расширения STAC для Geoserver (ПО с открытым кодом для создания OGC совместимых API, используется по всему миру)
Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.
И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.
P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.
#opendata #geodata #datasets
Особенность спецификации STAC в том что из нее сложно преобразовывать в другие спецификации и отсюда сложность в индексации в Dateno. То что обычно называют датасетом в STAC называется каталогом, в рамках этого каталога публикуются ресурсы охватывающие территорию заданную этим каталогом, но в разные промежутки времени (еженедельно, ежедневно, ежечасно и тд). В результате внутри одного набора данных могут быть тысячи и миллионы файлов. Рассматривать ресурсы как отдельные наборы данных будет некорректно, а как отображать карточки с таким числом файлов непонятно.
И, кстати, перечень каталогов STAC сервисов на StacIndex неполон, у нас в реестре Dateno полнее будет, а в живой природе их сильно больше потому что, как я упоминал, он теперь поддерживается расширением GeoServer'а, а этих инсталляций в мире очень много.
P.S. Кстати, у Роскосмоса тоже есть открытый STAC каталог, с декларируемыми примерно 200ТБ данными. Явление необычное при нынешнем тренде в РФ на закрытость.
#opendata #geodata #datasets
stacspec.org
STAC: SpatioTemporal Asset Catalogs
The STAC specification is a common language to describe geospatial information, so it can more easily be worked with, indexed, and discovered.
👍3✍2❤1🔥1🤝1
Я ранее уже писал про Digital Public Infrastructure, то что государства создают цифровую инфраструктуру которую можно рассматривать как одну из форм общественной инфраструктуры и общественного блага, примерно как дороги, или общественные здания и тому подобное.
Оказывается существует The Digital Infrastructure Map проект по мэппингу национальных цифровых проектов по идентификации пользователей, цифровым платежам и инфраструктуре обмена данными и там же есть датасет с данными. Данных там количественно немного, а вот качественно немало.
Что можно оттуда узнать:
1. В большинстве стран создана или создается инфраструктура обмена данными
2. Самый популярный инструмент для этого вышедший из Эстонии X-Road и относительно недавно превращенный в Digital Public Good (не так уж недавно, на самом деле)
3. Во многих странах есть прямая архитектурная зависимость от одного из облачных провайдеров (Microsoft или Oracle). Не говоря уже о инфраструктурной зависимости, но её исследование вроде как никто пока не проводил
4. Ожидаемо российские технологии где-либо за пределами РФ отсутствуют.
#opendata #dpi #datasets #government
Оказывается существует The Digital Infrastructure Map проект по мэппингу национальных цифровых проектов по идентификации пользователей, цифровым платежам и инфраструктуре обмена данными и там же есть датасет с данными. Данных там количественно немного, а вот качественно немало.
Что можно оттуда узнать:
1. В большинстве стран создана или создается инфраструктура обмена данными
2. Самый популярный инструмент для этого вышедший из Эстонии X-Road и относительно недавно превращенный в Digital Public Good (не так уж недавно, на самом деле)
3. Во многих странах есть прямая архитектурная зависимость от одного из облачных провайдеров (Microsoft или Oracle). Не говоря уже о инфраструктурной зависимости, но её исследование вроде как никто пока не проводил
4. Ожидаемо российские технологии где-либо за пределами РФ отсутствуют.
#opendata #dpi #datasets #government
Telegram
Ivan Begtin
Я регулярно смотрю и слушаю выступления, читаю статьи и изучаю курсы про подготовке госслужащих в мире, сказывается то что я сам много лет выступал перед российскими госслужащими про работу с данными внутри гос-ва. Так вот поделюсь прочитанным, одна из наиболее…
👍6❤1
В рубрике как это устроено у них портал открытых научных данных Швеции Researchdata.se
Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.
Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.
Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.
Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).
#opendata #data #datasets #researchdata #sweden
Был запущен в марте 2025 года, сейчас включает 6362 наборов данных преимущественно в виде таблиц, текстов и геоданных.
Более половины данных происходят из области естественных наук, много лингвистических данных из Språkbanken Text.
Не все данные размещены на самом портале, многие ведут на оригинальные публикации в национальных и международных репозиториях данных.
Шведы не единственные кто создает национальные агрегаторы научных данных, в некоторых странах существуют агрегаторы любых результатов научной деятельности (Евросоюз, Германия), в других именно данных (Китай, Венгрия).
#opendata #data #datasets #researchdata #sweden
👍7✍1⚡1
Разные мысли вслух:
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.
#opendata #ai #thoughts
- инструменты мониторинга потребления токенов и запросов к LLM становятся всё более актуальными. Что-то вроде deepeval или phoenix и других. Характерно, что в мире такие решения существуют и интегрированы со всеми основными сервисами, а российские сервисы типа Яндекса и Сбера исключены из мировой экосистемы. Это отдельная тема для размышлений: изменится ли это как-либо или нет.
- единственные по-настоящему успешные бизнесы, связанные с открытыми данными, не являются бизнесами на самих открытых данных, а бизнесами на инфраструктуре вокруг них. Hugging Face сейчас крупнейший хостинг данных для обучения ИИ, но это не бизнес на открытых данных, хотя портал и наполнен ими. Другой пример — Esri. Я наблюдаю, как всё больше городских порталов данных и геоданных создаются на их платформе, но бизнес Esri не в них, а в том, что создатели порталов используют их сервисы, а портал по открытости данных/геоданных создают в довесок.
#opendata #ai #thoughts
GitHub
GitHub - confident-ai/deepeval: The LLM Evaluation Framework
The LLM Evaluation Framework. Contribute to confident-ai/deepeval development by creating an account on GitHub.
👍5❤4
Полезные ссылки про данные, технологии и не только:
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекаявнимания санитаров выделенного аналитика. Выглядит как минимум любопытно, открытый код, AGPL. Но завязано на платформу MindsDB командой которой он и создан. У MindsDB минимальная подписка это $35 в месяц с привязкой карты, что для работы немного, а для тестирования, особенно когда тестируешь много сервисов, себя не оправдывает. Был бы аналогичный platform-agnostic инструмент - ценность его была бы выше для пользователей. Думаю что еще появится если еще не появился. P.S. Не понимаю тех кто называет продукты распространенными человеческими именами, не любят они людей.
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
- anton ИИ агент для анализа данных и построения дашбордов. Позволяет быстро сделать дашборды не привлекая
- OpenScreen многоплатформенный инструмент для создания демок к софтверным продуктам. Открытый код, MIT, выглядит как наглядный и зрелый продукт. На практике надо проверять, если все как в его демо то можно использовать для создания пользовательской документации, презентаций инвесторам и тд.
- whylogs библиотека для ведения логов в задачах машинного обучения. Существует достаточно давно и, кроме всего прочего, умеет суммаризировать датасеты и выдавать их статистические профили. Не так много таких инструментов существует, как ни странно, а для данных очень большого объёма их практически нет, поскольку почти всегда они работают через датафреймы. Whylogs тоже основан на датафреймах поэтому и применимость его ограничена.
- Nicholas Carlini - Black-hat LLMs | [un]prompted 2026 о том как применять LLM (в данном случае Anthropic) для поиска 0-day уязвимостей. Полезно для тех кто занимается безопасностью ПО в любой шляпе.
- parallel.ai онлайн ИИ агент с ориентацией на машинное использование (хотя формат вывода для людей тоже есть) и умеющий в поиск, deep research и тд. Как продукт выглядит интересно и в части вывода промежуточной информации в процессе работы над задачами и в части в том что он сделан в формате machine-first и API-first (машинная выдача и доступ через API/MCP выведены в приоритет). Я его на автоматических задачах еще не проверял, только сравнивал работу в режиме deep research с другими сервисами.
P.S. И про deep research инструменты некоторые размышления вдогонку
У меня есть типовая задача по deep research с тестированием одной из идей развития Dateno. Она неплохо структурировано для аналитики результатом которой должна быть и оценка бизнес ниши и техническое проектирование. Я регулярно проверяю новые ИИ агенты на этой задаче. Что хорошо - оценку бизнес ниши parallel.ai выдал очень четкую, не идеальную, но логичную. А вот с техническим проектированием не очень. Я до этого сравнивал с десяток сервисов способных в deep research (Perplexity, ChatGPT, Kimi, MiroMind, Gemini, Antigravity, Cursor и др.) и пока только Kimi и MiroMind выдавали наиболее интересный результат в части продумывания архитектуры ПО.
#opensource #datatools #ai #thoughts
GitHub
GitHub - mindsdb/anton at producthunt
Most advanced AI coworker. Contribute to mindsdb/anton development by creating an account on GitHub.
👍6🔥5✍3❤1
Еще немного размышлений вслух про дата продукты и открытые данные. Я поизучал спецификацию ODPS (Open Data Product Specification) в её последней редакции версии 4.1. Её, кстати, правильно читать не как спецификацию про открытые дата продукты, а как открытую спецификацию на дата продукты. Это, конечно, неплохой документ и чуть ли не единственный описывающий данные именно к продукт и спецификация сама по себе имеет ценность не только для технического описания, но и как шаблона для внутреннего описания дата продуктов. Условно хороший документ спецификации для API к доступу к данным на этапе проектирования (скорее продуктового чем технического).
Но, при этом, со своими ограничениями:
1. Малая экосистема. У дата продукта может быть более одного интерфейса, это могут быть данные доступные через REST API, в формате для массовой выгрузки (bulk download), в формате специализированного API (WFC и OGC совместимые). Хотя в спецификации это всё предусмотрено, но каждый из этих интерфейсов, но нехватает инструментов тестирования этих множественных интерфейсов на основе спецификации.
2. Интеграция с ИИ агентами. Наличие ссылок на документацию - это важно, и, ИМХО, важно не просто наличие human-readable документации, но и документации для ИИ агента (в виде markdown похоже) для автоматизированного доступа к дата продукту.
Как я понимаю в части работы с общедоступными данными у ODPS есть реализация внутри X-Road, но при этом общедоступно действующих примеров нет и нет примеров её использования наиболее продвинутыми создателями открытых дата продуктов в госсекторе, к примеру, государственные API во Франции не описываются через ODPS хотя их описание и документация наиболее близки именно к описанию дата продуктов.
В принципе лично меня это смущает более всего, я знаю довольно много дата продуктов которые могли бы быть описаны с помощью ODPS, но не описываются по какой-то причине. Я подозреваю по той что за спецификацией не стоит кто-то достаточно крупный кто внедрил бы это в свой достаточно популярный каталог дата продуктов. К примеру достаточно крупных агрегатор сервисов API (но им спецификация не вполне подходит) или дата маркетплейс (таких крупных не так много). Кто-то вроде бывшего Quandl'а мог бы использовать подобную спецификацию.
#thoughts #data #specifications #dataengineering
Но, при этом, со своими ограничениями:
1. Малая экосистема. У дата продукта может быть более одного интерфейса, это могут быть данные доступные через REST API, в формате для массовой выгрузки (bulk download), в формате специализированного API (WFC и OGC совместимые). Хотя в спецификации это всё предусмотрено, но каждый из этих интерфейсов, но нехватает инструментов тестирования этих множественных интерфейсов на основе спецификации.
2. Интеграция с ИИ агентами. Наличие ссылок на документацию - это важно, и, ИМХО, важно не просто наличие human-readable документации, но и документации для ИИ агента (в виде markdown похоже) для автоматизированного доступа к дата продукту.
Как я понимаю в части работы с общедоступными данными у ODPS есть реализация внутри X-Road, но при этом общедоступно действующих примеров нет и нет примеров её использования наиболее продвинутыми создателями открытых дата продуктов в госсекторе, к примеру, государственные API во Франции не описываются через ODPS хотя их описание и документация наиболее близки именно к описанию дата продуктов.
В принципе лично меня это смущает более всего, я знаю довольно много дата продуктов которые могли бы быть описаны с помощью ODPS, но не описываются по какой-то причине. Я подозреваю по той что за спецификацией не стоит кто-то достаточно крупный кто внедрил бы это в свой достаточно популярный каталог дата продуктов. К примеру достаточно крупных агрегатор сервисов API (но им спецификация не вполне подходит) или дата маркетплейс (таких крупных не так много). Кто-то вроде бывшего Quandl'а мог бы использовать подобную спецификацию.
#thoughts #data #specifications #dataengineering
opendataproducts.org
Open Data Product Specification | Leading Data Product Standard
Discover how to transform your data strategy with the Open Data Product Specification (ODPS), driving value and innovation in the modern data economy.
🔥5👍2
Для тех кто интересуется регулированию ИИ в других странах, обзор последних правил закупок ИИ госорганами в США, скорее критичный чем хвалящий. Основная мысль в том что правила госзакупок исходят из того что государства получают лучшие (самые дешевые часто) сервисы на тех же условиях что они предоставляются на рынке и выигрывают за счет того что за счет рыночных внедрений у продуктов есть устоявшиеся цены, условия и тд. А в данном случае госорганы устанавливают большое число ограничений включая политические, ограничения на "Woke AI" и запрет на сбор телеметрии необходимой основным ИИ провайдерам. Все очень похоже на то что ИИ в госорганы в США будут поставлять, или ИИ-бигтех договариваясь об особых условиях, или "классические господрядчики" используя открытые модели и инфраструктуру внутри госинфраструктуры.
Сравнивать это регулирование с российским, к примеру, сложно. Российское регулирование, в форме ранее упомянутого законопроекта, предполагает жесткие ограничения не только для ИИ для гос-ва, но и для любых разработчиков ИИ в принципе и выведено оно в регулирование подзаконными актами Пр-ва, которые могут быть как весьма облегченными, так и убивающими рынок для всех кроме пары компаний (конечно никакой коррупции тут не может быть, даже думать об этом ни-ни).
Но возвращаясь к регулированию в США, оно далеко от идеала и говорит про тренд на усиление госконтроля к ИИ продуктам используемым госорганами, что для практики закупки ПО в США если не странно, то не общепринято.
#usa #ai #regulation
Сравнивать это регулирование с российским, к примеру, сложно. Российское регулирование, в форме ранее упомянутого законопроекта, предполагает жесткие ограничения не только для ИИ для гос-ва, но и для любых разработчиков ИИ в принципе и выведено оно в регулирование подзаконными актами Пр-ва, которые могут быть как весьма облегченными, так и убивающими рынок для всех кроме пары компаний (конечно никакой коррупции тут не может быть, даже думать об этом ни-ни).
Но возвращаясь к регулированию в США, оно далеко от идеала и говорит про тренд на усиление госконтроля к ИИ продуктам используемым госорганами, что для практики закупки ПО в США если не странно, то не общепринято.
#usa #ai #regulation
Default
The GSA’s Draft AI Clause Is Governance by Sledgehammer
The General Services Administration’s draft AI clause gets the governance problem right—then blows right past it.
✍4❤3❤🔥1
Да, но... собрал наблюдения за происходящим:
- Github - это крупнейшая платформа для разработки, хранения кода и тд. Это большой плюс. Минус в растущем объёме технологического спама основанного на активности на ней. Например, ты лайкаешь какой-то репозиторий, а потом тебе приходят письма "Я знаю что тебе нравится такой-то продукт, а я делаю альтернативный. Посмотри на него пожалуйста". Или "Я обнаружил что ты активен в таком то репозитори, а мы делаем альтернативный проект вот такой. Попробуй его". Это не личные письма, а полностью автоматизированные рассылаемые массово. Со временем их число растет.
- когда open source проект набирает популярность - это повод к нему присмотреться, там часто нужный код, нужная функциональность и отзывчивые к запросам разработчики. Как только проект получает венчурные инвестиции - это повод начинать искать альтернативы, потому что инвестиции в 99% случаях идут на создание облачного сервиса и разработчики приоритетно начинают развивать именно его, забрасывая или искажая имеющиеся функции к KPI переданным инвесторами
- цифровая суверенизация по которой идут некоторые страны в мире - это не то чтобы однозначно плохо, те кто ратуют и продвигают её могут быть правы со своей колокольни. Но важно не забывать что это губительно для той быстрой гонки в разработке что сейчас есть в мире и исключают многие интересные продукты из глобальных экосистем. К примеру, как бы ни были хороши российские ИИ продукты, в мире они представлены минимально
- многие принципиально правильные идеи вроде стандартов описания данных на RDF маргинализируются несмотря на опору на многие внедрения и институциональную основу потому что разработка ИИ, дата инженерия, ИИ инженерия воспринимает их исключительно как жесткое легаси и все стандарты исходящие от практиков игнорируют институциональные стандарты везде где это возможно
- корпоративные каталоги данных выглядят хорошей идеей и очень логичной, но правильнее сказать что казались. После попыток заменить их на идею data discovery видно что и она не особенно приживается. А теперь вместе со снижением стоимости внутренней разработки ПО еще и возникает ситуация когда сделать с помощью ИИ свой внутренний каталог данных/конвееров и тд. быстрее, дешевле и проще чем внедрить внешний. Похоже этот рынок будет быстро меняться
#thoughts
- Github - это крупнейшая платформа для разработки, хранения кода и тд. Это большой плюс. Минус в растущем объёме технологического спама основанного на активности на ней. Например, ты лайкаешь какой-то репозиторий, а потом тебе приходят письма "Я знаю что тебе нравится такой-то продукт, а я делаю альтернативный. Посмотри на него пожалуйста". Или "Я обнаружил что ты активен в таком то репозитори, а мы делаем альтернативный проект вот такой. Попробуй его". Это не личные письма, а полностью автоматизированные рассылаемые массово. Со временем их число растет.
- когда open source проект набирает популярность - это повод к нему присмотреться, там часто нужный код, нужная функциональность и отзывчивые к запросам разработчики. Как только проект получает венчурные инвестиции - это повод начинать искать альтернативы, потому что инвестиции в 99% случаях идут на создание облачного сервиса и разработчики приоритетно начинают развивать именно его, забрасывая или искажая имеющиеся функции к KPI переданным инвесторами
- цифровая суверенизация по которой идут некоторые страны в мире - это не то чтобы однозначно плохо, те кто ратуют и продвигают её могут быть правы со своей колокольни. Но важно не забывать что это губительно для той быстрой гонки в разработке что сейчас есть в мире и исключают многие интересные продукты из глобальных экосистем. К примеру, как бы ни были хороши российские ИИ продукты, в мире они представлены минимально
- многие принципиально правильные идеи вроде стандартов описания данных на RDF маргинализируются несмотря на опору на многие внедрения и институциональную основу потому что разработка ИИ, дата инженерия, ИИ инженерия воспринимает их исключительно как жесткое легаси и все стандарты исходящие от практиков игнорируют институциональные стандарты везде где это возможно
- корпоративные каталоги данных выглядят хорошей идеей и очень логичной, но правильнее сказать что казались. После попыток заменить их на идею data discovery видно что и она не особенно приживается. А теперь вместе со снижением стоимости внутренней разработки ПО еще и возникает ситуация когда сделать с помощью ИИ свой внутренний каталог данных/конвееров и тд. быстрее, дешевле и проще чем внедрить внешний. Похоже этот рынок будет быстро меняться
#thoughts
⚡6❤4🤔4✍1
На всякий случай регулярные напоминания:
- параллельно телеграм каналу я веду блог/рассылку на Substack begtin.substack.com и в последнее время я веду её куда регулярнее, как правила объединяя 3-4 поста из телеграм канала в одну публикацию там
- время от времени я публикую заметки на английском в LinkedIn, там меня довольно легко найти и пишу я в основном про Dateno
- хотя я пишу на многие темы тут, основная моя работа связана с проектами и продуктами по дата инженерии, а теперь и ИИ, но не все из того что я делаю анонсировано и публично, предпочитаю рассказывать не о планах, а о том что сделано. Остальное о чем я пишу - это скорее хобби чем работа. Например это все что касается цифровой архивации. Очень важное дело и очень безденежное
- параллельно телеграм каналу я веду блог/рассылку на Substack begtin.substack.com и в последнее время я веду её куда регулярнее, как правила объединяя 3-4 поста из телеграм канала в одну публикацию там
- время от времени я публикую заметки на английском в LinkedIn, там меня довольно легко найти и пишу я в основном про Dateno
- хотя я пишу на многие темы тут, основная моя работа связана с проектами и продуктами по дата инженерии, а теперь и ИИ, но не все из того что я делаю анонсировано и публично, предпочитаю рассказывать не о планах, а о том что сделано. Остальное о чем я пишу - это скорее хобби чем работа. Например это все что касается цифровой архивации. Очень важное дело и очень безденежное
Dateno
Dateno - datasets search engine
A next-generation data search service provides fast, comprehensive access to open datasets worldwide, with powerful filters and an API-first architecture for seamless integration.
👍5❤🔥1❤1
We The People свежий открытый проект по мониторингу лоббизма в США, отслеживающий по открытым источникам расходы крупных компания на лоббизм, их контракты с гос-вом, патенты и много другое. Проект с открытым исходным кодом, охватывает 11 секторов экономики, всех сенаторов и конгрессменов, 2.6 триллионов долларов контрактов и множество других значимых объектов гражданского интереса.
Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте
И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL
Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.
Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.
#opendata #governmenttransparence #opengovernment #opensource
Сделан с помощью кодирующего ИИ ассистента, включает возможность делать промпты с помощь ИИ чат бота прямо на сайте
И с открытым кодом https://github.com/Obelus-Labs-LLC/WeThePeople под AGPL
Пока малоизвестный, но выглядит как реинкарнация общественных проектов по прозрачности государства.
Можно сказать что это новое поколение таких проектов. Для США такое реализовать было проще всего так как очень много открытых источников данных, но это не значит что для других стран такое или близкое по идеологии нельзя реализовать. Важно что стоимость такой разработки резко снизилась. Теперь самой сложной задачей будет не собрать все и упаковать в один продукт, а получить сами данные на которых можно такое собрать.
#opendata #governmenttransparence #opengovernment #opensource
❤8🔥7❤🔥3🗿1
Полезное чтение про данные, технологии и не только:
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.
Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.
Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python
#opendata #ai #datatools #readings
Тексты для обдумывания
- A Fourth Wave of Open Data? Exploring the Spectrum of Scenarios for Open Data and Generative AI одна из немногих попыток переосмыслить подход к открытым данным в эпоху генеративного ИИ. Тексту уже почти 2 года, его авторы когда-то описывали концепцию 3-й волны открытых данных, а теперь пытаются нащупать основу для 4-й. С одной стороны это про полезный взгляд на мир, с другой стороны он скорее смотрит с регуляторной, а не с инженерной практики.
- Can AI Strengthen Policy Dialogue? Lessons from Building ReguLens рассказ про ReguLens, инструмент оценки регуляторных документов с помощью ИИ. Сам инструмент пока представлен только этим текстом и скриншотами и позиционируется как помощник специалиста, а не автономный агент. Достаточно очевидно что таким подходом очень скоро будут оценивать разные международные рейтинги в которых анализируется национальное регулирование.
Про ИИ
- Introducing Muse Spark: Scaling Towards Personal Superintelligence новая ИИ модель от Meta, в этот раз без открытого кода и похоже что бренд Llama пошел в утиль, а к этой модели надо присмотреться. Хотя выбирая между открытыми и закрытыми моделями, открытые предпочтительнее, если он немного, а не сильно хуже.
Сугубо технологическое
- Announcing General Availability of ClickHouse Full-text Search в Clickhouse появился/существенно обновился полнотекстовый поиск. Надо как можно скорее проверять и смотреть можно ли с его помощью заменить поиск в других продуктах. Использовать его вместо эластика в первую очередь
- Why I'm replacing Polars with DuckDB автор пишет про миграцию с Polars на DuckDB, текст короткий, но отражает и мои впечатления. Качество разработки у DuckDB существенно выше.
- profiling-explorer инструмент для визуализации файлов pstats при отладке приложений на Python. Полезный для отладки серверных и пользовательских приложений. Простая штука, хорошо дополняющая работу с profiling.tracing в Python
#opendata #ai #datatools #readings
❤3⚡3👍2🔥2
Полезные ссылки про exploratory data analysis с открытым кодом:
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
- pygwalker инструмент для Jupyter Notebook для исследования датафреймов, интегрирован с Graphic Walker опенсорсным аналогом Tableau
- ydata-profiling инструмент для анализа данных, работает как код для Python с экспортом в интерактивный HTML или в Jupyter Notebook. Умеет работать с командной строки
- Rath еще один аналог Tableau от той же команды что и pygwalker. В том числе умеет подготавливать данные
- sweetviz еще один, отчасти упрощенный визуализатор датафреймов, тоже умеет создавать HTML или интегрироваться в тетрадки
- dataprep давно не обновлявшийся инструмент для подготовки данных в режиме low code.
- cleanvision инструмент анализа наборов данных с изображениями, умеет находить разные ошибки вроде дубликатов и изображений плохого качества
- openrefine давний инструмент с богатой экосистемой расширений для чистки и обогащения данных и просмотра датасетов для этих задач. Не дает аналитику, но дает возможность приводить данные в порядок
- kangas инструмент для визуального анализа наборов данных с изображениями
- marmot малоизвестный каталог для корпоративных данных
#opensource #data #datatools #eda
GitHub
GitHub - Kanaries/pygwalker: PyGWalker: Turn your dataframe into an interactive UI for visual analysis
PyGWalker: Turn your dataframe into an interactive UI for visual analysis - Kanaries/pygwalker
👍6✍5🔥5