Разработка ждёт балета
1.65K subscribers
516 photos
5 videos
15 files
1.56K links
What I cannot create, I do not understand.

DM: @alexey_mileev
PeerLab: https://xn--r1a.website/+e2ND1tAa0lU2ZTli
Download Telegram
Скрэперы, собирающие данные для обучения нейронок прямо-таки охренели. Не уважают robots.txt, ходят с сотен тысяч "домашних" IP, играют с User-Agent.
- Тут можно почитать, как сильно это напрягает мейнтейнеров опен сорса и как Anubis некоторым из них помог (и что это вообще за Anubis такой).
- А тут Cloudflare сделали тул (даже для бесплатных юзеров), чтобы направить этих ботов в бесконечное множество залинкованных страниц чепухи.

#scraper #ai #llm
👍5
Тут чел тоже своеобразно и весело борется с разными нехорошими ботами, атакующими его сайт. Когда запрос выглядит подозрительно, он отвечает на него gzip-нутым стримом в 1-10 Мб, которые разворачиваются в 1-10 Гб на другом конце и роняют бота.

#scraper #bot
👍23😁10😱3🔥1
Помните Anubis? Та аниме-девочка, которая не пустит на сайт, пока браузер не решит SHA-256 задачку по типу Bitcoin. Тут вот немного критикуют саму идею. Если AI компании нужно будет что-то такое скрэпить, с их датацентрами не составит никакого труда этот челлендж решить. Ну и заодно пишут крошечную программку, которая эту задачку решает. Для отщепенцев, которые почему-то не хотят открывать эти сайты через обычный браузер.

#browser #ai #scraper
🤔1