ChatGPT je veštačka inteligencija koja uči od dostupnih podataka. Neki od tih podataka možda se nalaze na vašim web sajtovima.
Kako blokirati ChatGPT da ne koristi vaš sadržaj
AI mašine mogu stvoriti na hiljade tekstova dnevno prateći samo vaše naredbe, ali odakle im zapravo znanje?
Large Language Models (LLMs) uče na podacima koji dolaze iz više izvora, od kojih je većih tzv. open source i dozvoljeno je njihovo korištenje za treniranje veštačke inteligencije.
Ovo su samo neki od izvora informacije koje AI koristi za učenje:
- Wikipedia
- Knjige
- Forumi
- Izveštaji
- Web sajtovi
Postoji dosta web sajtova koje besplatno nude ogroman broj informacija, a jedan od njih je i Amazonov Registry of Open Data on AWS.
Baze podataka od kojih uči ChatGPT
ChatGPT se temelji na GPT-3.5, poznatoj i pod nazivom InstructGPT. Ranija verzija GPT-3 koja je temeljena na imititaciji ljudskog ponašanja tj. govora neretko je nudila netačne ili uvredljive rezultate nakon davanja naredbi. Model GPT-3 bio je treniran da predvidi sledeću reč u rečenici.
InstructGPT je rezultat poboljšanja GPT-3 modela pomoću ljudskog feedbacka. Konkretno, Oen AI koristi tehniku kojoj proverava svoje učenje tako da se oslanja na povratne reakcije pravih ljudi. I to putem Redddita. Njihova baza podataka WebText2 oslanja se upravo na ovaj ogroman internet forum.
Baze podataka koje su korišćene za treniranje GPT-3.5 su:
- Common Crawl (filtrirani)
- WebText2
- Books1
- Books2
- Wikipedia
Od ovih pet baza podataka, dve su povezane sa sadržajem na internetu:
- Common Crawl
- WebText2
WebText2 je privatna baza podataka firme OpenAI koja je napravila ChatGPT, a svoje podatke vuče iz linkova sa Reddita koji imaju barem 3 glasa (upvotes). Ako neki link ima minimalno tri glasa, taj se URL smatra pouzdanim izvorom kvalitetnog sadržaja. Upravo su se na ovoj bazi podataka trenirali GPT-3 i GPT-3.5
Kako možete blokirati ovu bazu podataka? Nije poznato.
Ono što se zna jest da ako je link na vašu stranicu završio na Redditu i dobio minimalno 3 glasa, verovatno je sadržaj vaše stranice uključen u bazu podataka od koje ChatGPT uči.
Common Crawl je baza podataka koju je napravila neprofitna organizacija Common Crawl.
Podaci iz ove baze podataka dolaze od bota koji pretražuje (crawla) celi Internet. Podatke koje organizacije žele koristiti spremaju se i zatim čiste od spama.
Ima bota Common Crawla je CCBot.
CCBot prati protokol robots.txt datoteke pa ga je moguće i blokirati. Robots Exclusion Protocol ili Robots.txt je datoteka na web stranici koja govori pretraživaču da ignoriše određene delove web stranice. Na primer, robots.txt file sprečava Google da indeksira neki sadržaj na vašim web stranicama i prikaže među rezultatima pretrage. Najčešće blokiramo stranice poput administratorskih delova, “Dodaj u korpu” ili pak Politiku privatnosti.
Valja napomenuti da ukoliko je CCBot već ranije pristupio vašoj stranici, verojatno je već indeksirao i pohranio u razne baze podataka dostupne informacije i tu ne možete ništa. Možete ga blokirati da ne koristi nove informacije na vašim web stranicama.
Dodajte ovo u robots.txt datoteku:
User-agent: CCBot
Disallow: /