Nvidia Digugat Penulis atas Dugaan Penggunaan 500TB Buku Bajakan untuk Latih AI
Pada 20 Januari 2026, sebuah gugatan class-action yang diperluas terhadap Nvidia mencuat kembali setelah pengajuan amandemen keluhan di Pengadilan Distrik AS untuk Distrik Utara California.
Gugatan ini diajukan oleh sekelompok penulis, termasuk Abdi Nazemian, Brian Keene, Stewart O’Nan, Andre Dubus III, dan Susan Orlean, yang menuduh Nvidia melatih model AI berbasis large language model (LLM) seperti NeMo, Retro-48B, InstructRetro, dan Megatron menggunakan sekitar 500 terabyte arsip buku bajakan dari repositori seperti Anna’s Archive.
Dokumen pengadilan mengungkap komunikasi internal Nvidia, di mana tim strategi data perusahaan menghubungi Anna’s Archive untuk mendapatkan akses berkecepatan tinggi ke jutaan buku berhak cipta, meskipun diperingatkan bahwa konten tersebut diperoleh secara ilegal.
Manajemen Nvidia dilaporkan menyetujui rencana pembayaran dalam waktu seminggu, dengan biaya puluhan ribu dolar untuk akses ke dataset tersebut. Gugatan ini awalnya difokuskan pada penggunaan dataset Books3, yang bersumber dari situs bajakan Bibliotik, tetapi kini diperluas untuk mencakup sumber lain seperti LibGen, Sci-Hub, dan Z-Library.
Para penulis menuntut ganti rugi atas pelanggaran hak cipta langsung, vicarious, dan contributory, termasuk tuduhan bahwa Nvidia mendistribusikan skrip dan tools yang memungkinkan pelanggan korporat mengakses dataset The Pile, yang mengandung Books3.
Nvidia membela diri dengan mengklaim praktiknya sebagai fair use, menyatakan bahwa buku-buku tersebut hanyalah “korelasi statistik” bagi model AI mereka. Kasus ini menjadi yang pertama mengungkap korespondensi antara perusahaan teknologi AS besar dengan Anna’s Archive, menyoroti tekanan kompetitif di industri AI.
Gugatan ini bermula dari tuntutan awal pada awal 2024, ketika para penulis menuduh Nvidia menggunakan dataset Books3—sebuah koleksi sekitar 196.000 buku berhak cipta dari situs bajakan Bibliotik—untuk melatih model AI tanpa izin.
Dataset ini bagian dari The Pile, kumpulan data teks besar yang digunakan Nvidia untuk mengembangkan LLM seperti NeMo dan Retro-48B. Pada fase discovery, dokumen internal Nvidia terungkap, termasuk email dari tim strategi data yang menghubungi Anna’s Archive pada akhir 2024 untuk akses ke 500TB data, yang mencakup jutaan buku dari Internet Archive’s digital lending system.
Anna’s Archive, yang dikenal sebagai “perpustakaan bayangan” terbesar di dunia, memperingatkan Nvidia bahwa kontennya ilegal, tetapi perusahaan tetap melanjutkan setelah persetujuan internal.
Amandemen keluhan pada akhir 2025 memperluas cakupan, menambahkan lebih banyak buku, penulis, dan model AI, serta tuduhan baru terkait sumber bajakan lain seperti LibGen dan Z-Library.
Para penggugat mengklaim tekanan kompetitif di industri AI mendorong Nvidia ke praktik ini, dengan potensi ratusan penulis bergabung dalam class-action. Nvidia, yang mendominasi pasar hardware AI, menghasilkan pendapatan dari pelanggan yang menggunakan tools mereka untuk mengakses data bajakan, menambah klaim vicarious infringement.
Kasus ini menyoroti perdebatan global tentang batas penggunaan data dalam AI generatif, di mana perusahaan seperti Nvidia, Meta, dan Anthropic sering dituduh mengabaikan hak cipta untuk keuntungan kompetitif.
Jika terbukti, Nvidia bisa menghadapi ganti rugi miliaran dolar, memengaruhi valuasi sahamnya dan strategi pengembangan AI. Secara lebih luas, ini bisa mendorong regulasi baru di AS dan Eropa, seperti EU AI Act, yang menekankan transparansi sumber data.
Di Indonesia, di mana AI berkembang pesat, kasus ini relevan bagi pengembang lokal yang bergantung pada hardware Nvidia, mendorong diskusi tentang etika data domestik.Kritik dan Debat EtikaKritikus menuduh Nvidia mengabaikan hak intelektual, dengan kutipan dari gugatan: “Tekanan kompetitif mendorong Nvidia ke piracy.”
Ini memperburuk perdebatan etika AI, di mana penggunaan data bajakan dianggap merugikan kreator asli sambil memperkaya perusahaan teknologi. Pendukung fair use berargumen bahwa pelatihan AI mirip dengan analisis data manusia, tapi bukti kesadaran Nvidia atas ilegalitas data melemahkan argumen ini. Secara keseluruhan, kasus ini bisa menjadi preseden untuk membatasi penggunaan “shadow libraries” dalam AI, mendorong sumber data yang lebih etis dan berlisensi.
Detail Gugatan Books3 terhadap Nvidia
Gugatan class-action atas dataset Books3 terhadap Nvidia, secara resmi berjudul Nazemian v. NVIDIA Corporation, diajukan di Pengadilan Distrik AS untuk Distrik Utara California. Para penggugat, termasuk penulis Abdi Nazemian, Brian Keene, Stewart O’Nan, Andre Dubus III, dan Susan Orlean, menuduh Nvidia melatih model AI seperti NeMo Megatron, Retro-48B, InstructRetro, dan Nemotron menggunakan dataset Books3—sebuah koleksi sekitar 196.640 buku berhak cipta yang bersumber dari situs bajakan Bibliotik—tanpa izin, kredit, atau kompensasi.
Books3 merupakan bagian dari dataset lebih besar bernama The Pile, yang digunakan Nvidia untuk mengembangkan large language models (LLM). Gugatan ini diperluas melalui amandemen akhir 2025, menambahkan tuduhan bahwa Nvidia menghubungi Anna’s Archive untuk akses berkecepatan tinggi ke sekitar 500 terabyte data buku bajakan, meskipun diperingatkan bahwa konten tersebut ilegal.
Nvidia diduga membayar puluhan ribu dolar untuk akses ini, dan manajemen memberikan “green light” dalam seminggu. Tuduhan mencakup pelanggaran hak cipta langsung, kontributif, dan vicarious, karena Nvidia juga mendistribusikan skrip dan tools yang memungkinkan pelanggan mengunduh The Pile.
Para penulis menuntut ganti rugi, injuksi, dan penghancuran salinan infringing. Nvidia membela diri dengan klaim fair use, menyatakan buku-buku hanyalah “korelasi statistik” bagi model AI mereka. Kasus ini sedang berlangsung, dengan potensi ratusan penulis bergabung sebagai class members.
Ulasan Mendalam: Latar Belakang, Implikasi, dan Kritik Gugatan Books3Latar Belakang GugatanGugatan ini dimulai pada 8 Maret 2024, ketika para penulis mengajukan tuntutan awal atas penggunaan Books3 dalam pelatihan NeMo Megatron yang dirilis Nvidia pada September 2022.
Books3, yang dihosting di Hugging Face hingga Oktober 2023 sebelum dihapus karena laporan pelanggaran hak cipta, berasal dari Bibliotik—sebuah “shadow library” yang mendistribusikan materi berhak cipta tanpa lisensi.
Dataset ini termasuk karya spesifik seperti Like a Love Story (Nazemian), Ghost Walk (Keene), Last Night at the Lobster (O’Nan), The Garden of Last Days dan Townie: A Memoir (Dubus III), serta The Orchid Thief dan The Library Book (Orlean).
Amandemen keluhan pada akhir 2025 memperluas ruang lingkup, menambahkan lebih banyak buku, penulis, dan model AI, serta tuduhan atas penggunaan shadow libraries lain seperti LibGen, Sci-Hub, Z-Library, dan Anna’s Archive.
Bukti kunci berasal dari komunikasi internal Nvidia: tim strategi data menghubungi Anna’s Archive pada 2023 untuk akses ke 500TB data, termasuk jutaan buku dari Internet Archive, meskipun diperingatkan ilegal.
Manajemen Nvidia menyetujui dalam seminggu, dan perusahaan diduga menggunakan data ini untuk model seperti Nemotron-4 340B yang dilatih pada 8-9 triliun token, dengan 4,6% dari buku. Nvidia juga dituduh memfasilitasi pelanggaran melalui framework seperti NeMo Megatron dan BigNLP, yang digunakan pelanggan seperti Amazon dan Writer Inc. untuk mengunduh The Pile.
Implikasi Geopolitik dan EkonomiKasus ini menyoroti tekanan kompetitif di industri AI, di mana perusahaan seperti Nvidia, OpenAI, Meta, dan Anthropic diduga beralih ke sumber bajakan setelah gagal mendapatkan lisensi dari penerbit. Jika terbukti, Nvidia bisa menghadapi ganti rugi miliaran dolar, termasuk statutory damages di bawah 17 U.S.C. § 504, serta injuksi dan penghancuran model AI. Ini berpotensi memengaruhi valuasi saham Nvidia dan mendorong regulasi global, seperti EU AI Act, yang menuntut transparansi sumber data.
Di Indonesia, di mana AI berkembang, kasus ini relevan untuk pengembang lokal yang bergantung pada hardware Nvidia, memicu diskusi tentang etika data dan hak cipta domestik. Secara lebih luas, ini bisa menjadi preseden untuk membatasi penggunaan “shadow libraries” dalam pelatihan AI, mendorong model berlisensi yang lebih etis. Kritikus menuduh Nvidia melakukan “power grab” atas konten kreator, dengan tekanan kompetitif mendorong ke piracy.
Pembelaan fair use Nvidia dianggap lemah karena bukti kesadaran atas ilegalitas data, termasuk warning dari Anna’s Archive. Debat etika berfokus pada apakah pelatihan AI merupakan transformasi yang adil atau pencurian intelektual, dengan implikasi bagi industri kreatif yang merasa dirugikan oleh AI generatif. Secara keseluruhan, gugatan ini mencerminkan konflik antara inovasi AI dan perlindungan hak cipta, dengan potensi mengubah praktik pengembangan teknologi global.
Sumber: Dataconomy, Indian Express, Saveri Law Firm
AI: Grok



Post Comment