Nepenthes

Comunque, chi sia sia l’azienda, la gente si sta sempre più rompendo scatoline del fatto che ci siano in giro questi aggressivissimi web scraper a fini di IA, che si prendono dati da ogni dove, ignorando le direttive Robots Exclusion Protocol, e tutto… E quindi, certi webmaster con poteri magici, a ragion veduta, hanno deciso che s’ann arripija tutt’ chell’ ch’è ‘o ‘llor… e allora si inizia a combattere il software malevolo usando del software malevolo. Tipo la NATO (e io amo le armi), ma qui digresso.

Questo nuovo #Nepenthes, sostanzialmente, è un software di tipo “tarpit“, cioè “fossa di catrame” (rido) che, quando messo su un server, restituisce testo senza senso (generato anche con catene di Markov) in dell’HTML che alla fine ha dei link, che portano ad altre pagine con altro testo senza senso e altri link, e così all’infinito, sprecando risorse degli #scraper finché o non le finiscono (RIDO) o si arrendono (dopo mesi di spreco, forse). E, non so, è secondo me fighissimo, realissimo, bellissimo vedere i modi in cui si può combattere questa piaga!!!

Ovviamente, questo non è un buon metodo né dal punto di vista ambientale, né se ti interessa che i tuoi siti restino indicizzati sui motori di ricerca legittimi… almeno, così dice il creatore, nonostante il suo sito sia ancora su Google e Bing, ed appaiano anche centinaia di pagine della tarpit (ma, probabilmente, o si decide ad impostare il robots.txt per non indurre i #crawler benigni in errore, oppure a breve sparirà; per ora ha tirato su la sua demo del software con negligenza).