Naukowcy z University of Adelaide opracowali zestaw wytycznych dla lokalnych środowisk naukowych, które mają pomóc w bezpiecznym i legalnym korzystaniu z web scrapingu i web crawlingu. Poza kompleksową analizą aspektów etycznych i prawnych wykorzystania narzędzi automatycznego gromadzenia i przetwarzania danych ze stron internetowych, naukowcy zwracają uwagę na pilną potrzebę zapewnienia odpowiednich ram prawnych oraz uniwersalnych wytycznych, określających sposób, w jaki narzędzia powinny być stosowane.
Web crawlery, czyli programy, które automatycznie przeglądają i indeksują zawartość określonych stron, działają zwykle wspólnie z narzędziami do web scrapingu, których celem jest pozyskiwanie i przechowywanie określonych danych. Automatyczne pozyskiwanie i przetwarzanie danych internetowych zyskuje na świecie coraz większą popularność. Pozwala nie tylko zwiększyć efektywność pracy, ale też pozyskiwać cenne informacje i monitorować różne zjawiska lub trendy. Co więcej, rozwój sztucznej inteligencji dodatkowo zwiększa potrzebę poszukiwania różnych sposobów automatycznego wykorzystywania informacji pochodzących bezpośrednio z sieci.
Stosowanie web scrapingu i web crawlingu budzi jednak wiele wątpliwości, szczególnie w kontekście ochrony własności intelektualnej, możliwego naruszenia praw osobistych i prywatności, ochrony danych osobowych i danych wrażliwych. Etyka tego typu działań zależy również od przyjętego celu badawczego oraz rodzaju analizowanych zasobów. Naukowcy podkreślają, że web scraping w celach naukowych może być działaniem zarówno etycznym, jak i legalnym, pod warunkiem, że na wszystkich etapach gromadzenia, przechowywania i raportowania danych podejmowane są odpowiednie działania. Są to, m.in.:
- odpowiednie zaprogramowanie narzędzi, tak aby koncentrowały się tylko na określonych danych,
- ograniczanie liczby zapytań, aby zminimalizować ryzyko zbytniego obciążania stron internetowych,
- uzyskanie zgody od właścicieli portali,
- unikanie gromadzenia i analizowania jakichkolwiek danych osobowych lub danych wrażliwych,
- dokonanie analizy warunków korzystania ze stron internetowych oraz reguł określających, jakie informacje na stronie mogą być indeksowane,
- jasne sprecyzowanie i komunikowanie celu prowadzonych badań,
- zachowanie zasad bezpieczeństwa, związanych z przechowywaniem i korzystaniem ze zgromadzonych danych,
- korzystanie z API (Application Programming Interface) zamiast web scrapingu, jeśli tylko jest to możliwe, a zarazem efektywne rozwiązanie.
Więcej na temat prawidłowego korzystania z narzędzi do web scrapingu i web crawlingu w artykule >> link