Autor: Grażyna Śleszyńska

Analizuje zjawiska makroekonomiczne i polityczne. Współtworzyła Forum Ekonomiczne w Krynicy

Prawo autorskie hamuje rozwój technologii GenAI

Dane wykorzystywane do szkolenia modeli GenAI często są bezkrytycznie pobierane z internetu. Firmy technologiczne nie traktują zbyt serio kwestii pochodzenia danych i licencjonowania. W konsekwencji borykają się z procesami sądowymi wytaczanymi przez twórców o naruszenie prawa własności intelektualnej.
Prawo autorskie hamuje rozwój technologii GenAI

(©Getty Images)

Rozwój generatywnej sztucznej inteligencji (GenAI) rodzi zapotrzebowanie na wielkie wolumeny danych, o których mówi się, że to złoto XXI w. Większość publicznie dostępnych zbiorów informacji wykorzystywanych do trenowania dużych modeli językowych ma jednak wątpliwy status prawny.

Kłopoty z pozyskiwaniem licencji

Skalę problemu pokazał zespół Data Provenance Initiative, kierowany przez naukowców z Massachusetts Institute of Technology i Cohere for AI – laboratorium badawczego non-profit, utworzonego przez firmę Cohere zajmującą się sztuczną inteligencją. Eksperci skontrolowali ponad 1800 zbiorów danych do uczenia modeli przetwarzania języka naturalnego, które są publicznie dostępne w witrynach hostujących dane, takich jak GitHub, Hugging Face czy Papers With Code. Ustalili, że ponad 70 proc. nie miało żadnych licencji na dane, a w przypadku tych, które je posiadały, mniej więcej połowa była nieprawidłowa. Problem polega bowiem na tym, że wiele dostępnych publicznie zbiorów danych to w rzeczywistości kompilacje wielu mniejszych baz. Często osoby je kompletujące dołączają pojedynczą licencję do ostatecznego zbioru i stąd bierze się owa nieprawidłowość. Są one zatem „przepakowywane” tak często, że korzystający z nich programiści nie mogą być pewni, że używają ich w sposób odpowiedzialny i zgodny z prawem. Ktokolwiek wytrenuje model na takim zbiorze danych, może nieświadomie naruszyć ograniczenia licencyjne. Co więcej, eksperci Data Provenance Initiative stwierdzili, że licencje te wielokrotnie miały charakter bardziej liberalny, niż było to zamiarem twórców zbioru danych.

Zobacz również: 

Generatywna AI kontra twórcy

Wynika z tego, że dostawcy silników GenAI, którzy chcą być fair, nie zawsze mogą się tak zachować, ponieważ pochodzenie danych, nawet w przypadku tych najczęściej używanych zbiorów, jest niepewne. W interesie wszystkich – programistów, użytkowników narzędzi GenAI, ale także twórców –  leży dbanie o oznaczanie pochodzenia danych wykorzystywanych do generowania treści przez sztuczną inteligencję, tak aby móc zrekonstruować historię ich zbioru oraz wszystkich przekształceń, jakim został on poddany. Służyłoby temu np. śledzenie metadanych wejściowych oraz promptów (czyli instrukcji określających, jakiej odpowiedzi oczekujemy od narzędzia GenAI). W ten sposób  można byłoby wykazać, że nowe treści nie powstały w wyniku umyślnego zamiaru kopiowania lub kradzieży.

Poza witrynami hostującymi dane, programiści coraz częściej podpisują umowy z konkretnymi przedsiębiorstwami, które gromadzą i archiwizują rozmaite kategorie danych. Do niedawna rzadko sięgano do archiwalnych zasobów. Teraz, gdy pojawiła się możliwość ich monetyzowania, zaczyna się to zmieniać. Firma OpenAI, twórca modelu ChatGPT, nawiązała współpracę z agencją Associated Press (AP) w celu uzyskania licencji na jej archiwum od 1985 r. W zamian AP otrzymuje wiedzę i technologię w zakresie sztucznej inteligencji. Z OpenAI kooperuje też Shutterstock, dystrybutor zdjęć, ilustracji i ścieżek muzycznych. Z kolei Google nawiązał współpracę z Adobe Firefly z myślą o doskonaleniu Barda – swojej platformy GenAI, która obsługuje już ponad 40 języków.

Im bardziej specjalistyczne dane, tym więcej można na nich zarobić. Dostawcy danych finansowych, tacy jak Standard & Poor’s czy Bloomberg, będą mogli albo sami szkolić własne modele językowe, albo licencjonować zainteresowanym podmiotom zewnętrznym swoje bazy. To samo mogą robić spółki z branży paliwowej, handlu detalicznego, ochrony zdrowia i telekomunikacji. Trudno jednak oczekiwać, aby jakikolwiek konkretny dostawca sztucznej inteligencji był w stanie zawrzeć dostatecznie dużo transakcji licencyjnych. Silniki GenAI muszą być bowiem stale aktualizowane, czyli karmione nowymi wolumenami danych. Rodzi to zapotrzebowanie na ogólnobranżowe rozwiązanie – organizację, która pośredniczyłaby w licencjonowaniu treści na potrzeby rozwoju GenAI.

Lawina spraw sądowych

Od kilkunastu miesięcy w USA narasta liczba sporów na tle zastosowania prawa autorskiego do technologii GenAI. Czołowy amerykański dziennik „The New York Times” złożył pozew przeciwko firmie OpenAI, twierdząc, że kopiowanie na szeroką skalę materiałów dziennikarskich gazety stanowi naruszenie praw autorskich. Podobnie Getty Images, agencja prowadząca bank zdjęć, ujęć filmowych, wideoklipów i muzyki, oskarżyła firmę Stability AI, twórcę Stable Diffusion – modelu GenAI generującego ilustracje na podstawie tekstu, o skopiowanie milionów obrazów bez pozwolenia i odszkodowania. Po sukcesie ChatGPT ruszyła także lawina pozwów indywidualnych twórców, chroniących swoje dzieła przed bezprawnym przetwarzaniem przez narzędzia GenAI.

Nie wiadomo jednak, kto jest właścicielem treści, które tworzą platformy GenAI, ani czy naruszenia praw autorskich, patentów i znaków towarowych mają zastosowanie do dzieł AI. Istniejące prawo autorskie chroni twórcę, będącego człowiekiem, a nie maszyną napędzaną sztuczną inteligencją. Pytanie o status prawny dzieła wytworzonego przez silnik GenAI wcale nie jest tak oczywiste. Z jednej strony, każdy wynik pracy sztucznej inteligencji można traktować jako dzieło pochodne, które może naruszać czyjeś prawo własności intelektualnej. Z drugiej strony, pojawia się i taka interpretacja, że silniki GenAI to narzędzia twórcze realizujące zamysły artystyczne użytkownika. W tym sensie utworom wykreowanym przez sztuczną inteligencję przysługiwałaby ochrona przewidziana  prawem autorskim.

Zobacz również: 

Sztuczna inteligencja w gospodarce – wyzwanie dla etyki

Dane używane do trenowania mogą zatem zawierać utwory chronione prawem autorskim, a sztuczna inteligencja może generować nieautoryzowane dzieła pochodne. Rozstrzygnięcia dotyczące praw autorskich – zarówno licencji na użycie materiałów chronionych prawem autorskim do szkolenia systemów sztucznej inteligencji, jak i statusu dzieł tworzonych przez sztuczną inteligencję lub z jej pomocą – będą miały kluczowe znaczenie dla przyszłości technologii GenAI. I to orzeczenia sądowe w sprawach o ochronę praw autorskich prawdopodobnie nakreślą ramy prawne GenAI szybciej niż regulacje.

Kreatorzy oprogramowania GenAI dopiero się uczą poruszać po tym grząskim gruncie. Dotychczas stali na stanowisku, że wykorzystywanie utworów chronionych prawem autorskim do trenowania modeli GenAI podlega instytucji dozwolonego użytku, więc nie stanowi naruszenia prawa własności intelektualnej. W ramach dozwolonego użytku można korzystać z dzieła bez zgody autora ze względu na interes publiczny oraz potrzeby kulturalno-oświatowe społeczeństwa. Dozwolony użytek nie może jednak uszczuplać dochodów należnych twórcy z tytułu eksploatacji jego dzieła. W 2023 r. w Sądzie Najwyższym USA zapadł istotny z tego punktu widzenia wyrok (w sprawie Andy Warhol Foundation przeciwko Lynn Goldsmith). W uzasadnieniu wskazano, że wykorzystanie utworu w sposób transformacyjny, tj. nadający mu nowy wyraz artystyczny, wzbogacający kulturę, nie kwalifikuje się jako dozwolony użytek, jeśli zarówno oryginalny utwór, jak i ten nowy służą podobnemu celowi komercyjnemu. Podważyło to fundament, na którym opierało się środowisko GenAI. Jeśli utrzyma się ta linia orzecznicza, to będzie to cios w rozwój sztucznej inteligencji, która stanowi wielką nadzieję gospodarki.

Nie mniej zawile przedstawia się sytuacja w Europie. Unijna Dyrektywa dotycząca praw autorskich zawiera zakaz „nieuprawnionego wykorzystania” materiałów chronionych prawem autorskim jako danych wejściowych do celów szkoleniowych. Ale co dokładnie oznacza nieuprawnione wykorzystanie? Zezwala ono bowiem na swobodną „eksplorację” tekstów i danych (tu znowu wielki znak zapytania), o ile właściciele praw autorskich nie zażądają opłat licencyjnych.

Licencjonowanie danych wejściowych do szkolenia silników GenAI stwarza podwójne ryzyko. Z jednej strony grozi zahamowaniem postępu technologicznego: spowalnia generowanie innowacji oraz wzrost produktywności we wszystkich sektorach usług stosujących GenAI. Z drugiej strony – ogranicza pole do konkurowania na tym rynku: sfera GenAI może zostać zawłaszczona przez graczy dysponujących środkami do nabywania licencji na duże ilości danych kosztem mniejszych innowatorów. Wówczas rozwój sztucznej inteligencji może zostać zawężony do podmiotów z głębokimi kieszeniami. Startupy, badacze akademiccy i platformy open source nie będą w stanie rzucić im wyzwania.

Zobacz również: 

Autonomiczne pojazdy na drogach coraz bliżej

Generatywna sztuczna inteligencja zrewolucjonizowała proces tworzenia treści, demokratyzując i automatyzując to, co do tej pory było zarezerwowane dla nielicznych, odpowiednio uzdolnionych. Chodzi teraz o to, by znaleźć punkt równowagi między prawem pierwotnych twórców, dzięki którym technologia GenAI w ogóle się rozwija, a szerszym interesem społecznym, idącym w kierunku promowania innowacji i wzrostu produktywności.

 

(©Getty Images)

Otwarta licencja


Tagi


Artykuły powiązane

Globalny wyścig regulacyjny w zakresie AI

Kategoria: Trendy gospodarcze
Dlaczego UE powinna skoncentrować się na jakości danych i zasadach przypisania odpowiedzialności za jakość produktu?
Globalny wyścig regulacyjny w zakresie AI

Generatywna AI kontra twórcy

Kategoria: Sektor niefinansowy
Eksplozja generatywnej sztucznej inteligencji wywołuje niepokój przedstawicieli zawodów twórczych i w ogóle wszelkich branż kreatywnych. Nic dziwnego – wszak ChatGPT, DALL-E lub Midjourney automatyzują zadania związane z pisaniem, projektowaniem czy produkcją artystyczną. W efekcie coraz więcej twórców traci pracę.
Generatywna AI kontra twórcy

Jak sztuczna inteligencja może zagrozić stabilności finansowej

Kategoria: Trendy gospodarcze
W miarę jak sztuczna inteligencja wkracza do systemu finansowego to pogłębia istniejące kanały niestabilności i tworzy nowe. W niniejszym artykule opisano kilka takich kanałów: złośliwe i dezinformujące wykorzystanie sztucznej inteligencji, niewłaściwe dostosowanie i unikanie kontroli, a także monokulturę ryzyka i oligopole. Wszystkie one pojawiają się, gdy podatność na zagrożenia ze strony sztucznej inteligencji i problemy gospodarcze, takie jak strategiczna komplementarność, problemy z zachętami i niekompletne umowy, wzajemnie na siebie oddziałują.
Jak sztuczna inteligencja może zagrozić stabilności finansowej