Pastebimas šalutinis poveikis naujajai duomenų protekcionizmo bajui internete, reaguojant į AI įrankius, išrinčius bet kokius duomenis, kuriuos jie gali, yra tai, ką gali reikšti prieiga prie duomenų plačiau, ir galimybė ištirti istorinę medžiagą, egzistuojančią visame internete.
Šiandien „Reddit“ paskelbė, kad pradės blokuoti robotus iš interneto archyvo „Wayback Machine“ dėl susirūpinimo, kad AI projektai naudojo „Reddit“ turinį iš šio šaltinio, o tai taip pat yra labai svarbus atskaitos taškas daugeliui žurnalistų ir tyrėjų internete.
Interneto archyvas yra skirtas saugoti tikslius viso turinio įrašus (arba kiek įmanoma daugiau jo), kuris yra bendrinamas internete, o tai yra vertingas tikslas gaunant ir kryžminio patikrinimo duomenis. Ne pelno siekiantis projektas šiuo metu palaiko duomenis apie maždaug 866 milijardus tinklalapių ir su 38% visų tinklalapių, kurie buvo prieinami 2013 m., Dabar nebegalima pasiekti, projektas vaidina vertingą vaidmenį palaikant mūsų skaitmeninę istoriją.
Ir nors praeityje tai susiduria su įvairiais iššūkiais, šis naujausias gali būti reikšmingas smūgis, nes duomenų apsaugos vertė tampa didesniu internetinių šaltinių aspektu.
„Reddit“ jau nustatė daugybę priemonių duomenų prieigai kontroliuoti, įskaitant jos API kainų reformaciją dar 2023 m.
Ir dabar tai siekia kitų prieigos prie duomenų šaltinių.
Kaip „Reddit“ paaiškino Verge:
„Interneto archyvas teikia paslaugą atvirame internete, tačiau mes žinojome apie atvejus, kai AI kompanijos pažeidžia platformos politiką, įskaitant mūsų, ir nuskandinti duomenis iš„ Wayback “mašinos“.
Dėl to „Wayback“ aparatas nebegalės nuskaityti įvairių „Reddit“ bendruomenių detalių, ji galės indeksuoti tik „Reddit.com“ pagrindinį puslapį. Tai žymiai apribos jo pajėgumą šiame fronte, o „Reddit“ gali būti pirmasis iš daugelio, įgyvendinančių griežtesnius prieigos apribojimus.
Be abejo, kai kurios pagrindinės socialinės platformos jau užrakino savo vartotojo duomenis tiek, kiek gali, kad sustabdytų trečiųjų šalių įrankius nuo savo įžvalgų pavogti ir naudoti juos alternatyviais tikslais.
Pavyzdžiui, „LinkedIn“ neseniai turėjo teismo pergalę prieš verslą, kuris subraižė vartotojų duomenis, ir panaudojo juos savo HR platformai maitinti. Tiek „LinkedIn“, tiek „Meta“ siekė kelių paslaugų teikėjų, o šie mūšiai kuria aiškesnį teisinį precedentą nuo grandymo ir neteisėtos prieigos.
Tačiau iššūkis išlieka viešai paskelbtame turinyje, o teisiniai klausimai, kuriems priklauso tai, kas laisvai prieinama internete.
Interneto archyvas ir kiti panašūs projektai yra nemokamai prieinami pagal dizainą, o tai, kad jie išvalo bet kokius puslapius ir informaciją, kurią jie gali padaryti, kelia rizikos lygį, atsižvelgiant į prieigą prie duomenų. Ir jei teikėjai nori išlaikyti savo informaciją ir kontroliuoti, kaip tai naudojama, prasminga, kad jiems reikės įgyvendinti priemones, kad būtų galima uždaryti tokią prieigą.
Tačiau tai taip pat reikš mažiau skaidrumo, mažiau įžvalgos ir mažiau istorinių atskaitos taškų tyrėjams. Ir vis daugiau ir daugiau mūsų sąveikos vyksta internete, laikui bėgant tai gali sukelti didelę nuostolį.
Tačiau duomenys yra nauja nafta, ir atsiranda vis daugiau AI projektų, patentuotų duomenų vertė tik padidės.
Atrodo, kad rinkos spaudimas diktuoja šį elementą, kuris galėtų apriboti tyrėjus stengdamiesi suprasti pagrindinius pokyčius.