![]() |
Autor zdjęcia: Andranik Hakobyan (istockphoto) |
Firma Meta miała wykorzystać nielegalnie pozyskane książki do szkolenia swojego modela językowego AI.
W zeszłym tygodniu ujawniono skalę budzących wątpliwości działań firmy Meta w obszarze nielegalnie pozyskiwanych i gromadzonych treści. Amerykański konglomerat technologiczny miał pobrać 81,7 terabajtów danych z LibGen i przejrzeć drugie tyle danych z innych stron internetowych, które nielegalnie udostępniają treści. Tak przynajmniej twierdzą powodzi. Na początku stycznia pisał już o tej sprawie dziennikarz The Guardian, ale ten proces trwa znacznie dłużej i został nazwany Kadrey et al. v. Meta Platforms. Teraz pojawiły się tylko nowe szczegóły, a także upubliczniono maile pracowników Meta.
Sarah Sarah Silverman, Richard Kadrey, Christopher Goden oraz inni w lipcu 2023 r. pozwali amerykański konglomerat technologiczny, Meta. Powodzi uważają, że firma wytrenowała model językowy Llama na tekstach chronionych prawem autorskim. We wrześniu 2024 r. sędzia Vincent Chhabria odrzucić wszystkie pozwy przeciw korporacji, nazywając je nonsensownymi i skrytykował prawników powodów za ,,przeciąganie procesu sądowego". Odrzucił roszczenie twierdzące, że Meta bezprawnie pozbawiła ich książki informacji o zarządzaniu prawami autorskimi (CMI), które odnoszą się do informacji o dziele, w tym tytułu, nazwiska autora i właściciela praw autorskich. Autorom pozostało jedyne roszczenie o bezpośrednie naruszenie praw autorskich i z tego skorzystali. .
W nowym pozwie złożonym w styczniu bieżącego roku w Kalifornii, powodzi twierdzą, że Mark Zuckerberg zatwierdził wykorzystanie przez Meta „pirackich” wersji książek chronionych prawem autorskim do trenowania modeli AI firmy, pomimo ostrzeżeń z zespołu kierowniczego ds. sztucznej inteligencji, że jest to zestaw danych, „o którym wiemy, że jest piracki”.W aktach załączono notatkę wskazującą na udział w zatwierdzeniu decyzji przez właściciela Facebooka i Instagrama. Wcześniej Zuckerberg twierdził, że nie wie nic o LibGen i ani go nie używa. Ponadto autorzy twierdzą, że Meta nie tylko pobierała dane przez torrenty, ale także udostępniała ogromne ilości chronionych prawem autorskim książki. Powodzi uważają, że przedstawione nowe dowody wzmocniły ich roszczenia o naruszenie praw autorskich i uzasadniają wznowienie sprawy CMI, a także dodają nowy zarzut.
Jeden odtajniony dokument ujawnia, że pracownicy Meta zdecydowali się nie korzystać z infrastruktury Facebooka do pobierania danych z pirackich stron, aby „uniknąć ryzyka wyśledzenia seedera/downloadera z serwerów FB”. Ponadto z wewnętrznych wiadomości firmy wynika, że pracownicy uważali, że korzystanie z bazy danych zawierającej pirackie materiały może osłabić negocjacje właściciela Facebooka i Instagrama z organami regulacyjnymi. Więcej wiadomości pracowników Meta i dowodach przeciwko firmie może przeczytać tutaj i tutaj.
Media coverage suggesting we have used a dataset we know to be pirated, such as LibGen, may undermine our negotiating position with regulators.
W zeszłym roku nowojorski sąd federalny nakazał anonimowym biznesmenom LibGen zapłacić grupie wydawców 30 milionów dolarów odszkodowania za naruszenie praw autorskich.
W styczniu przedstawiciele Meta złożyli oświadczenie, w którym zaprzeczyli oskrażeniom o rozpowszechnianiu pirackich książek LibGen. Ponadto twierdzą, że korzystali z materiałów publicznych w ramach prawa do "dozwolonego użytku".
Na początku bieżącego miesiąca gigant technologiczny złożył wniosek o oddalenie dwóch z trzech roszczeń autorów w sprawie.
At the crux of this case is an issue of extraordinary importance to the future of generative AI development in the United States: whether Meta’s use of publicly available datasets to train its open source large language models (LLMs) – transformational technology powering innovation, productivity, and creativity – constitutes fair use under US copyright law.
Sprawa Kadrey et al. v. Meta Platforms nie jest odosobniono przypadkiem. W erze rozwoju modeli AI i zuchwałości wielkich korporacji batalie sądowe z powodu naruszenia praw autorskich stają się coraz głośniejsze i powszechniejsze. Pierwszą grupą zawodową, która głośno stanęła w obronie swoich prac i praw byli graficy i malarze. Karla Ortiz pracująca dla Marvel Studios, Ubisoft, Industrial Light i Magic wraz z innymi artystami pozwała firmy stojące za generatorami: Mindjourney i Stability AI. Proces wciąż jest w toku.
We wrześniu 2023 r. grupa 17 pisarzy, wśród których byli: George R.R. Martin, John Grisham, Jodi Picoult, George Saunders, Jonathan Franzen pod przewodnictwem nowojorskiej organizacji zawodowej zrzeszającej pisarzy – Authors Guild, złożyło pozew przeciwko OpenAI z powodu nielegalnego użycia tekstów chronionych prawem autorskim do szkolenia modeli AI. Firma Microsoft podjęła bardziej legalne i etyczne kroki w rozwoju AI. Gigant technologiczny w listopadzie 2024 r. podpisał umowę z HarperCollins US, dzięki której może pozyskać licencje książek do trenowania dużych modeli językowych, a tydzień później powołała imprint wydawniczy.
Dokumenty sądowe sprawy Kadrey et al. v. Meta Platforms możecie przeczytać tutaj.
Szczerze, jestem w szoku. Jak tak można postepować.
OdpowiedzUsuń