Pomiń nawigację

31 października 2022

Web-scraping. Jak prawidłowo korzystać z treści dostępnych w Internecie?

Udostępnij

Internet to niewątpliwie kopalnia informacji dostępnych „od ręki”. Dzięki globalnej sieci mogą one być pozyskiwane, przetwarzane i wykorzystywane w różnych celach, czyli zarówno osobistych, jak i komercyjnych. Nic więc dziwnego, że dane już od jakiegoś czasu są nazywane walutą przyszłości. Jednocześnie rozwój technologii doprowadził do tego, że istnieją sposoby, które umożliwiają automatyczne pozyskiwanie informacji ze stron internetowych. Jednym z nich jest web-scraping.

Czym jest web-scraping?

Istotą web-scrapingu jest pobieranie danych z witryny internetowej w sposób zautomatyzowany, przy wykorzystaniu dedykowanych narzędzi (oprogramowania – tzw. „botów”), które w szybkim tempie mogą pobrać znaczną ilość informacji. Są one zbierane, a następnie eksportowane do formatu, który jest bardziej przydatny dla użytkownika i przechowywane w ustrukturyzowanej formie. Takie działanie umożliwia zebranie danych z różnych źródeł w jedną całość. Pozwala to na oszczędzenie czasu, który w przeciwnym wypadku należałoby poświęcić na ręczne kopiowanie poszczególnych stron.

Obecnie ta technika jest coraz bardziej popularna i ma szereg zastosowań. Jest popularna wśród konsumentów wyszukujących okazji w sklepach internetowych, najtańszych biletów lotniczych, czy zapoznających się ze statystykami sportowymi w zakładach bukmacherskich, ale również jest wykorzystywana w biznesie. Firmy często pobierają dane w celu analizy produktów i usług konkurencji czy pozyskiwania danych finansowych do badań rynkowych.

Obok web-scrapingu występuje też zjawisko web-crawlingu, czyli indeksowania, które polega na przeszukiwaniu całości informacji zgromadzonych na stronie internetowej za pomocą botów zwanych również crawlerami. Najbardziej powszechnym zastosowaniem web-crawlingu są wyszukiwarki internetowe. Gdy bot (web-crawler) indeksuje stronę internetową, przechodzi przez każdą jej stronę i link, aż do ostatniej strony, w poszukiwaniu jakichkolwiek informacji. Zasadnicza różnica polega więc na tym że web-crawler zwykle przechwytuje wszystkie informacje zgromadzone na stronie, podczas gdy web-scraping koncentruje się na konkretnych fragmentach zbioru danych.

Łatwy dostęp do danych konkurencji został szybko dostrzeżony i wykorzystany komercyjnie przez podmioty trzecie, np. w postaci porównywarek cenowych, bankowych, ubezpieczeniowych czy pożyczkowych. Podmioty te gromadzą informacje z wielu stron internetowych dając przy tym możliwość porównania towarów czy usług różnych przedsiębiorców.

Choć duża część danych i informacji jest publicznie dostępna w Internecie, to jednak tworzenie własnych baz danych na podstawie zebranych informacji podmiotów trzecich rodzi wiele pytań natury prawnej, np.: czy można tworzyć bazy danych i je wykorzystywać bez ograniczeń do celów wewnętrznych i zewnętrznych firmy, czy zebrane informacje służą tylko konsumentom czy także konkurencji, czy istnieje ryzyko, że taki sposób działania jest sprzeczny z dobrymi obyczajami?

Z prawnego punktu widzenia, czyli czy web-scraping jest legalny

Nie ulega wątpliwości, że głównym celem web-scrapingu jest pozyskanie cudzych danych bez ponoszenia z tego tytułu kosztów. Motywacją do takiego działania jest oczywiście chęć osiągnięcia zysku, a także uzyskanie przewagi konkurencyjnej. Jednocześnie zjawisko to nie zostało wprost uregulowane w żadnej ustawie. Nie oznacza to jednak, że nie istnieją przepisy, które powinny zostać wzięte pod uwagę przed rozpoczęciem  tzw. scrapowania. W szczególności będzie to:

  1. ustawa z 4 lutego 1994 r. o prawie autorskim i prawach pokrewnych („Prawo autorskie”);
  2. ustawa z 27 lipca 2001 r. o ochronie baz danych („u.o.b.d.”);
  3. ustawa z 16 kwietnia 1993 r. o zwalczaniu nieuczciwej konkurencji („UZNK”);
  4. Rozporządzenie Parlamentu Europejskiego i Rady (UE) 2016/679 z dnia 27 kwietnia 2016 r. w sprawie ochrony osób fizycznych w związku z przetwarzaniem danych osobowych i w sprawie swobodnego przepływu takich danych oraz uchylenia dyrektywy 95/46/WE (ogólne rozporządzenie o ochronie danych) („RODO”).

Ochrona baz danych w prawie autorskim

Na mocy ustawy o Prawie autorskim ochronie podlegają bazy danych spełniające cechy utworu, tj. mające charakter twórczy, indywidualny i które zostały ustalone w jakiejkolwiek postaci. W tym przypadku wspomniane cechy powinny dotyczyć doboru jej zawartości, układu lub zestawienia. Dlatego też na gruncie Prawa autorskiego co do zasady ochronie nie będą podlegać bazy danych umieszczone na stronach internetowych, zawierające standardowe informacje, zebrane w prostej, niewyszukanej formie, np. zestawienie dwóch drużyn, pomiędzy którymi odbywa się rozgrywka, kurs za wytypowanie zwycięskiej lub przegranej drużyny oraz kolejnych bramek. Wspomniane przykłady nie świadczą bowiem o stworzeniu nowego, obiektywnie uchwytnego rezultatu samodzielnej twórczości, który w sposób kreatywny połączyłby już istniejące elementy. Taka baza ma charakter powtarzalny, rutynowy, a więc przymioty charakterystyczne dla pracy typowej, schematycznej. Trudno będzie uznać ją za utwór w rozumieniu Prawa autorskiego. Dlatego też ustawa ta raczej nie będzie stanowiła przeszkody w stosowaniu web-scrapingu, choć należy uważać na pobieranie treści, które same w sobie mogą stanowić utwory, jak np. fragmenty artykułów. W takim przypadku wyłączne prawo do rozporządzania utworem, w tym do jego zwielokrotniania i rozpowszechniania ma właściciel autorskich praw majątkowych, a wejście w obszar jego praw może wiązać się z odpowiedzialnością odszkodowawczą, zwłaszcza w sytuacji, gdy pozyskane dane zostaną wykorzystane dla celów zarobkowych, a nie osobistych.

Ochrona baz danych sui generis

Odrębna ochrona baz danych została przewidziana w u.o.b.d. Jest ona niezależna od ochrony przyznanej na podstawie Prawa autorskiego. Bazą danych w rozumieniu tej ustawy jest „zbiór danych lub jakichkolwiek innych materiałów i elementów zgromadzonych według określonej systematyki lub metody, indywidualnie dostępnych w jakikolwiek sposób, w tym środkami elektronicznymi, wymagający istotnego, co do jakości lub ilości, nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji jego zawartości”. Tylko producentowi, czyli osobie, która ponosi ryzyko nakładu inwestycyjnego przy tworzeniu bazy danych, przysługuje wyłączne i zbywalne prawo pobierania danych i wtórnego ich wykorzystania. Oznacza to, że co do zasady nikt nie może wykorzystywać cudzej bazy danych, chyba że nie podlega ona ochronie, czyli nie spełnia wyżej wymienionych przesłanek. Przykładowo zbiór danych dotyczących terminarza zawodów (kompilacja daty, godziny i informacji na temat dwóch drużyn w ramach meczu piłki nożnej) został kilkukrotnie uznany za chronioną bazę danych zgodnie z orzecznictwem Trybunału Sprawiedliwości Unii Europejskiej („TSUE”) z uwagi na niezależną wartość informacyjną oraz systematyczne lub metodyczne uporządkowanie oraz indywidualny dostęp do danych zawartych w bazie danych.

Najwięcej problemów związanych jest z pojęciem „istotnego, co do jakości lub ilości, nakładu inwestycyjnego w celu sporządzenia, weryfikacji lub prezentacji zawartości”. Jest to pojęcie niezdefiniowane ustawowo, dlatego trudno jednoznacznie stwierdzić, w jakiej wysokości nakład inwestycyjny będzie uznany za istotny. Należy przyjąć szerokie rozumienie wspomnianej inwestycji. Będzie nią nie tylko nakład finansowy, lecz także każdy nakład o charakterze gospodarczym, w tym zaangażowanie znacznych zasobów ludzkich, środków technicznych i finansowych, koszty pracy, nabycie sprzętu czy oprogramowania, know-how, koszty pozyskania danych lub ich przetworzenia, koszty udostępnienia bazy online, np. hostingu, druku itp. Nakłady inwestycyjne obejmować mogą nie tylko stworzenie bazy danych, lecz także inne czynności, w tym kontrolę lub utrzymywanie aktualności takiej bazy czy prezentację jej zawartości (wydatki na systemy wyszukiwawcze, tezaurusy, wygląd zestawienia, grafikę interfejsu itp.). Dlatego takim nakładem nie będą koszty, które w rzeczywistości służą realizacji innych działań producenta, np. wytworzenia samych danych. Istotny jest zatem cel poniesienia kosztu. TSUE wyraźnie rozróżnił inwestycje związane z tworzeniem bazy, w tym pozyskanie danych, od nakładów na stworzenie danych, wskazując, że pojęcie inwestycji związanej z uzyskaniem zawartości bazy danych należy rozumieć jako nakłady na poszukiwanie już istniejących elementów i ich gromadzenie w tej bazie danych[1]. Z taką sytuacją będziemy mieli do czynienia w szczególności w przypadku książki telefonicznej przedsiębiorcy telekomunikacyjnego, bazy dotyczącej wyścigów konnych czy rozgrywek ligi piłkarskiej przygotowanych przez organizatora zawodów.

Kwestią „istotności” bazy danych zajmował się Sąd Apelacyjny w Szczecinie[2]. Sprawa dotyczyła pobierania i wtórnego wykorzystywania elektronicznej bazy danych pojazdów poprzez ich publiczne udostępnianie. Serwis, który wykorzystywał inną, chronioną bazę danych, umożliwiał użytkownikom dostęp do informacji dotyczących ofert sprzedaży samochodów za pomocą szeregu kryteriów - marki pojazdu, roku produkcji, przedziału cenowego, pojemności i mocy silnika czy przebiegu kilometrów. Po kliknięciu przez użytkownika na wybraną ofertę był on przekierowywany na stronę zawierającą pełną treść ogłoszenia. Sąd uznał, że doszło do korzystania z nieistotnej części bazy danych, o czym świadczy fakt, że taki zakres nie mógł doprowadzić do powstania konkurencyjnej bazy informacyjnej, zaś celem pozwanej spółki nie było przedstawianie ofert użytkownikom, a jedynie ułatwienie dotarcia do nich.

Do innego wniosku doszedł natomiast TSUE[3]. Stwierdził on, że podmiot, który udostępnia w Internecie metawyszukiwarkę ukierunkowaną, dokonuje wtórnego wykorzystania w całości lub w istotnej części zawartości chronionej bazy danych, jeśli ta wyszukiwarka udostępnia użytkownikowi końcowemu formularz wyszukiwania oferujący tę samą funkcjonalność, co formularz bazy danych, przekazuje „w czasie rzeczywistym” polecenia użytkowników końcowych do wyszukiwarki, w którą wyposażona jest baza danych, oraz pokazuje użytkownikowi końcowemu wyniki wyszukiwania w porządku opartym na kryteriach porównywalnych do kryteriów używanych przez wyszukiwarki bazy danych.

Nie da się więc jednoznacznie przesądzić, czy dana baza będzie objęta ochroną w u.o.b.d. czy też nie. Dlatego, aby zmitygować ryzyko naruszenia praw wyłącznych producenta, należałoby uzyskać od niego uprzednią zgodę na takie działanie w postaci licencji, jeżeli korzystanie z danych ma charakter komercyjny. W przypadku wykorzystywania treści dla celów osobistych można skorzystać z wyjątków określonych w u.o.b.d., które w określonych sytuacjach nie wymagają pozyskania zgody producenta bazy danych. Do takich wyjątków zalicza się w szczególności wykorzystanie baz danych do własnego użytku osobistego czy w celach dydaktycznych lub badawczych.

W kontekście baz danych warto również zwrócić uwagę na implementację Dyrektywy DSM[4] do polskiego porządku prawnego[5]. W projekcie implementacji przewidziano dodatkowe wyjątki w zakresie dozwolonego korzystania z baz danych oraz utworów chronionych prawem autorskim na potrzeby eksploracji tekstów i danych. Zmiany są dopiero na etapie uzgodnień, dlatego trudno przesądzić, jaki będzie ostateczny kształt przepisów w tym zakresie.

Czyn nieuczciwej konkurencji

UZNK reguluje kwestie związane z dokonywaniem czynów nieuczciwej konkurencji, tj. działaniem sprzecznym z prawem lub dobrymi obyczajami, jeżeli zagraża ono lub narusza interes innego przedsiębiorcy lub klienta. Web-scraping czy szeroko pojęte korzystanie z treści w Internecie, zasadniczo nie zalicza się do stypizowanych czynów nieuczciwej konkurencji, którymi są w szczególności wprowadzające w błąd oznaczenie towarów lub usług czy naruszenie tajemnicy przedsiębiorstwa. Opisany sposób działania mógłby jednak zostać uznany za sprzeczny z dobrymi obyczajami, a jednocześnie zagrażający lub naruszający interes innego przedsiębiorcy. Co istotne, omawiana odpowiedzialność dotyczy wyłącznie przedsiębiorcy, a więc nie znajdzie zastosowania w sytuacji, gdy web-scraping jest wykorzystywany dla celów własnych.

Przepisy nie definiują pojęcia „dobrych obyczajów”. Jest to więc klauzula generalna, której treści nie da się określić wiążąco w sposób wyczerpujący. Sąd Najwyższy wskazał, że przy ocenie działań konkurencyjnych pod kątem sprzeczności z dobrymi obyczajami istotny jest nie sam fakt zagrożenia lub powstania straty po stronie innego przedsiębiorcy, lecz sposób realizacji mechanizmu rywalizacji pomiędzy konkurentami[6]. Sposób ten, weryfikowany każdorazowo w okolicznościach konkretnego przypadku, powinien być analizowany przy uwzględnieniu zwyczajów dochodzenia przez przedsiębiorców do osiągania korzyści gospodarczych – tak, aby zapewnić niezakłócone funkcjonowanie konkurencji, poprzez rzetelne i niezafałszowane współzawodnictwo jakością, ceną i innymi pożądanymi przez klientów cechami.

Przed przyznaniem ochrony na gruncie UZNK należy rozważyć nie tylko interesy stron sporu, ale także interes publiczny oraz ogólne interesy przedsiębiorców i klientów. Za czyny naruszające dobre obyczaje uznawano w szczególności wykorzystanie cudzych rozwiązań technicznych, konstrukcyjnych produktu, bez poniesienia nakładów w celu stworzenia własnych rozwiązań czy też czyny zabronione na mocy kodeksu etyki zawodowej. Nie wydaje się więc, aby stosowanie web-scrapingu miało stanowić istotne ryzyko naruszenia dobrych obyczajów, zagrażające lub naruszające jednocześnie interesy innego przedsiębiorcy. Nie jest niczym nowym porównywanie przez przedsiębiorców swoich cen czy ofert, zwłaszcza tych dostępnych publicznie. Natomiast działalność porównywarek cenowych z pewnością niesie szereg korzyści dla konsumentów, co powinno zostać wzięte pod uwagę jako istotny interes publiczny.

Postanowienia regulaminów, czyli świadczenie usług drogą elektroniczną

Przed rozpoczęciem web-scrapingu, należy również zapoznać się z treścią regulaminów udostępnionych na stronach serwisów, z których dane będą pobierane. Jeżeli interesujące nas bazy danych nie są chronione omówionymi ustawami, może dojść także do sytuacji umownego ograniczenia korzystania z danych zawartych na stronie internetowej w ramach świadczenia usług drogą elektroniczną. Takie umowne ograniczenie również może uniemożliwić zgodne z prawem wykorzystanie web-scrapingu.

Ze świadczeniem usługi drogą elektroniczną mamy do czynienia w przypadku jej zamówienia przez odbiorcę na jego indywidualne żądanie, a takim działaniem może być już samo przeglądanie on-line bazy informacyjnej. W konsekwencji dochodzi do zawarcia umowy, która jest uregulowana w regulaminach zawartych na stronie i może zawierać ograniczenia w korzystaniu z danych udostępnianych na portalu internetowym, w tym ograniczenia związane z pobieraniem i wykorzystywaniem tych danych. Możliwość umownego ograniczenia korzystania z baz danych potwierdził także TSUE[7].  Sprawa dotyczyła sporu o to, czy można na swojej stronie sprzedawać bilety lotnicze oferowane przez inny podmiot. TSUE stwierdził, że przepisy nie zabraniają producentowi umownego ograniczenia korzystania z bazy danych, a w związku z tym takie działanie jest w pełni zgodne z prawem.

A co z danymi osobowymi?

Istotnym elementem dotyczącym korzystania z web-scrapingu jest także problematyka danych osobowych i konieczność przestrzegania RODO. Jeżeli nie dochodzi do scrapingu danych osobowych lub dane są pobierane przez osobę fizyczną w ramach czynności o czysto osobistym lub domowym charakterze, to przepisy RODO nie znajdują zastosowania. W przeciwnym wypadku do legalnego przetwarzania danych osobowych, czyli wszelkich danych, które mogą zidentyfikować osobę (np. imię, nazwisko, nazwa użytkownika), konieczna jest odpowiednia podstawa prawna. Uzyskanie zgody podmiotu danych wydaje się w tym przypadku niemożliwe, dlatego też jedyną realną przesłanką przetwarzania jest prawnie uzasadniony interes administratora danych. Wymaga ona jednak szeregu czynności po stronie administratora danych osobowych, w szczególności przeprowadzenia testu równowagi, czyli dokonania oceny, czy interes administratora jest prawnie uzasadniony, a jeśli tak, to czy przetwarzanie jest niezbędne do realizacji celu wynikającego z tego interesu. Na końcu rozważa się czy interesy lub podstawowe prawa i wolności osoby, której dane dotyczą, nie przeważają nad prawnie uzasadnionym interesem administratora lub strony trzeciej. W przypadku web-scrapingu nie wydaje się, aby były realne szanse na pozytywny wynik testu równowagi. Nie można jednak wykluczyć, że w konkretnym stanie faktycznym zaistnieją przesłanki uzasadniające tę podstawę prawną.

Zanim rozpoczniemy web-scraping

Nie da się ukryć, że web-scraping to narzędzie pozwalające na szybkie, proste i efektywne pobieranie i gromadzenie danych dostępnych w Internecie. Nie oznacza to jednak braku ryzyka prawnego związanego z takim działaniem. Odpowiedzialność będzie zależała przede wszystkim od treści pobieranych danych, sposobu ich agregacji, celu, a zwłaszcza szczegółowych okoliczności danego przypadku. Nie wydaje się jednak, aby web-scraping naruszał Prawa autorskie czy mógł stanowić czyn nieuczciwej konkurencji. Natomiast w przypadku przepisów dotyczących ochrony baz danych sui generis sytuacja nie jest oczywista. Wszystko zależy od wysokości i istotności nakładów poniesionych na stworzenie danej bazy, co bywa trudne w oszacowaniu i jest oparte na ocennych kryteriach. Być może implementacja Dyrektywy DSM przyniesie pewne zmiany w tym zakresie poprzez odpowiednie wyłączenia ustawowe. Zanim jednak to nastąpi, na pewno warto zastanowić się nad zawarciem z producentem danej bazy danych odpowiedniej umowy licencji, która pozwoli na korzystanie z jego praw.

Natalia Polańska, radca prawny, APLAW

Artur Piechocki, radca prawny, APLAW


[1] Wyrok TSUE z dnia 9 listopada 2004 r. (C-203/02)

[2] Wyrok Sądu Apelacyjnego w Szczecinie z 2 maja 2012 r. (I ACa 105/12)

[3] Wyrok TSUE z 19 grudnia 2013 r. (C-202/12)

[4] Dyrektywa 2019/790 w sprawie prawa autorskiego i praw pokrewnych na jednolitym rynku cyfrowym oraz zmiany dyrektyw 96/9/WE i 2001/29/WE (tzw. dyrektywy „Digital Single Market”, zwanej dalej „dyrektywą DSM”).

[5] Projekt z dnia 6 czerwca 2022 r. o zmianie ustawy o prawie autorskim i prawach pokrewnych oraz niektórych innych ustaw https://legislacja.rcl.gov.pl/docs//2/12360954/12887989/12887990/dokument561868.pdf

[6] Wyrok Sądu Najwyższego z dnia 2 stycznia 2007 r., sygn. akt V CSK 311/06.

[7] Wyrok TSUE z dnia 15 stycznia 2015 r. (C-30/14)

Zobacz więcej podobnych artykułów