BritLab

Часто приходится работать с большими потоками данных, и это требует постоянных исследований новых инструментов и идей.

Иногда нахожу проекты, которые для работы кажутся бесполезными, но содержат уникальные идеи, которые могут быть полезны кому-то другому.

Один из таких проектов — TGeocoder (https://github.com/MJCruickshank/TGeocoder).
Идея довольно интересная: автоматически собирать данные из Telegram-каналов, отправлять их на анализ в ChatGPT, чтобы с помощью LLM извлечь координаты и наложить их на карту. В результате на карте появляются метки, при нажатии на которые можно увидеть текст поста.

Использовать этот проект для реальных задач я бы точно не рекомендовал. Он ещё сырой, а взглянув на код, могу уверенно сказать, что при таком способе сбора данных из Telegram ваш аккаунт может быть заблокирован очень быстро. Однако сама идея извлечения геопозиции из текста с помощью LLM выглядит многообещающе.

P.S. Я бы ещё подумал над добавлением парсинга метаданных файлов, в них также может содержаться много полезной информации

#DataScience #AI #LLM #Telegram #Tech #Innovation #Geocoding #AItools

🔥5⚡3🤝2

902 viewsedited 17:06

BritLab

7️⃣ Января, пока большинство людей отмечало Рождество и готовилось к завершению новогодних каникул, произошла довольно любопытная ситуация.

🔍 На платформе HackerOne (это платформа для поиска уязвимостей, где исследователи безопасности сообщают о найденных проблемах и могут зарабатывать на вознаграждениях) появился отчет от пользователя, который рассказал, что нашел в публичном Google документе секретные данные Министерства обороны США.
Ссылка на отчет: https://hackerone.com/reports/2926447

Организация подтвердила факт утечки и в течение нескольких дней удалила все данные.

Правда это или нет - неизвестно, но эта ситуация подняла важную проблему, с которой сталкиваются не только крупные компании, но и рядовые пользователи: публикация приватной информации в открытых местах.

📄 Особенно опасно, что в случае с Google Документами, доступ к данным можно получить через прямую ссылку. Эти ссылки могут быть довольно длинными, что делает невозможным перебор всех вариантов за адекватное время. И да, некоторые документы со временем удаляются, но это не всегда решает проблему.

Так как же защитить свою организацию от подобных утечек?

🚀 Есть организация под названием Common Crawl. Она занимается сбором и хранением огромных объемов данных со всего Интернета. Собираемые данные включают не только текстовое содержимое, но и метаданные, такие как ссылки, структура страниц и другая информация. По завершению сбора, данные сохраняются и становятся доступными для общего пользования.

Уже смекаете, к чему подходим ❓

Некоторые исследователи, скачивают эти данные себе и запускают поиск по ключевым словам, например, поиск по подстроке "https://docs.google.com/document/d/". Таким образом, исследователи получают множество прямых ссылок на документы, а в некоторых случаях и их содержимое.

Мой посыл в том, что если использовать домен вашей компании в качестве ключевого слова, то можно относительно быстро выявлять утечки данных (которые могут не замечать другие средства защиты) и оперативно их устранять.

Но есть и большие минусы:
1️⃣Common Crawl собирает не все страницы Интернета. И, скорее всего, документа из отчета HackerOne в его данных вы не найдете.
2️⃣ Исходных данных в Common Crawl — сотни терабайт, и обработать их на одном компьютере невозможно. Да, можно скачивать данные частями, например, по 10 ГБ, но проанализировать весь объём за один раз у вас не получится.

Если вам интересно, как работать с Common Crawl, ставьте реакции и подписывайтесь на канал! Если на этом посте наберется 40 реакций, то выпущу гайд, в котором будет описано, как упростить работу с Common Craw

#Безопасность #Common #Crawl #Google #DataScience

🔥11

772 viewsedited 17:47

BritLab

Исследуем репутацию IP адресов

Сетевая безопасность - это далеко не мой профиль, но ресурс, о котором я расскажу далее, весьма удивил меня своим контентом и функционалом.

NERD — это инновационная база, разработанная командой CESNET, которая помогает анализировать репутацию сетевых объектов, таких как IP-адреса, доменные имена и URL-адреса.

Как это работает?
Ресурс агрегирует данные из множества источников, включая:
1️⃣Открытые базы данных угроз.
2️⃣Данные от honeypots (систем, имитирующих уязвимые сервисы для сбора информации о атаках).
3️⃣Результаты анализа сетевого трафика.

Затем данные обрабатываются и предоставляются в удобном формате, который можно интегрировать в свои системы или использовать для аналитики.

Ссылки:
🔗Основной интерфейс:https://nerd.cesnet.cz/nerd/ips/
🔗Выгрузка данных: https://nerd.cesnet.cz/nerd/data/
🔗Расширенная информация об интересуемом IP (в комплекте ко всему прочему ещё статистика из Shodan и DNS history): https://nerd.cesnet.cz/nerd/ip/

Реакции:
👍 - не знал о таком, мне нравится
🔥 - огонь, начинаю на этом пилить стартап
🦧 - ресурс плохой, как и пост

#Кибербезопасность #Стартап #Инновации #IPанализ #NERD #Технологии #DataScience #ИнтернетБезопасность

👍10❤1🔥1

1.1K viewsedited 11:29

BritLab

Как WayBack Machine помог мне стать мидл-программистом

Многие знают, что с помощью WayBack Machine можно посмотреть, как выглядел сайт в прошлом. Но мало кто догадывается, что этот инструмент может быть полезен для поиска скрытых возможностей ресурсов, включая API и другие данные. Сегодня я хочу поделиться историей, как WayBack Machine помог мне в карьере.

📖 Пять лет назад я работал младшим программистом и занимался разработкой ETL-пайплайнов. Основные задачи заключались в автоматизированном сборе данных с различных ресурсов и их последующей обработке. Однажды, с одним из ресурсов возникла проблема: почти на каждый запрос выскакивала капча, а сайт был напичкан сложным JavaScript, что делало невозможным сбор данных через стандартные инструменты вроде requests и Selenium. Через некоторое время эту задачу поручили мне.

После нескольких неудачных попыток я понял, что "в лоб" задачу не решить. Тогда я вспомнил о WayBack Machine . Я ввёл URL ресурса в поисковую строку и добавил в конце /*, чтобы получить список всех когда-либо обработанных URL. Среди результатов оказался URL, ведущий на скрытый от поисковиков API этого ресурса.
Это был настоящий клад: никаких капч, никакого JavaScript, только чистый JSON с данными. После согласования использования этой находки с владельцем ресурса, я смог использовать найденный API для сбора данных. Задача была выполнена за пару дней, а через несколько недель я получил повышение до мидл-программиста.

С того момента этот способ очень часто помогал и помогает мне в решении различных задач.

Его также можно использовать в Bug Bounty для поиска скрытых возможностей ресурсов, которые не отображаются в поисковиках. Однажды я нашёл кейс, где у ресурса несколько лет назад был открытый Swagger с описанием всего функционала. Хотя доступ к Swagger позже закрыли, API остался прежним.

🎯Вывод
WayBack Machine — это не только инструмент для просмотра старых версий сайтов, но и мощный ресурс для поиска скрытых данных, API и других возможностей. Он может стать вашим секретным оружием в решении сложных задач, будь то автоматизация, Bug Bounty или просто поиск информации. Не ограничивайтесь стандартными подходами — иногда стоит копнуть глубже!
Не бойся искать нестандартные пути. Иногда именно они приводят к самым крутым результатам.🔥

P.S. приведу описанный выше способ поиска на примере сайта Microsoft (см. скрин)

#WayBackMachine #Программирование #Автоматизация #BugBounty #API #DataScience #КарьераИТ #MiddleDeveloper #Лайфхаки

🔥8👍5👏2

8.19K viewsedited 03:43

About

Blog

Apps

Platform