sussoso archiviotto internettico de blogotti warpressini!

sussoso archiviotto internettico de blogotti warpressini!

Oggi ho fatto per caso un’altra scoperta che, a seconda delle sensibilità individuali di ognuno, potrebbe essere utilissima quanto terrificante: Pare che tutti (tutti!) i siti su WordPress.com vengano automaticamente conservati sull’Internet Archive quando dei post vengono pubblicati o modificati, e accade in tempo reale o quasi; è davvero qualcosa di assurdo. Ma l’ho visto davvero per caso eh, non è che è capitato che sono nella merda e questa cosa su cui sono capitata cercando con un preciso intento è la mia sola salvezza per non perdere dei dati a breve… (…prefigurazione!) 👻

Cercando un sito di WordPress.com su Archive.org, appunto, è probabile che nel box informazioni “Collected by” si legga che una data pagina è stata archiviata dall’organizzazione Internet Archive (NO404) per la collezione WordPress Blogs and the Pages They Link To (NO404-WP). Dice che “la cattura […] avviene su base continua da un feed di pagine nuove o modificate ospitate da WordPress.com o da pagine WordPress ospitate da siti che eseguono un plugin Jetpack correttamente configurato“; ed a quanto pare esiste dal 2013, per via dell’iniziativa Fixing Broken Links on the Internet“: https://blog.archive.org/2013/10/25/fixing-broken-links/! E io come cazzo facevo a non saperlo??? 🤯

Ho trovato giusto un (1) articolo sul web che spiega questa campagna: How does Internet Archive know?https://timotijhof.net/posts/2022/internet-archive-crawling/. Non mi interessa al momento il funzionamento tecnico, ma una cosa estremamente interessante che qui si legge, e che personalmente si può confermare, è che vengono archiviate persino le risorse esterne incorporate negli articoli salvati… tra cui i video YouTube, che notoriamente non funzionano mai quando archiviati tramite il “Save Page Now” di #Archive! E con questo, siamo ben oltre l’utilissimo: siamo quasi alla fantascienza. 👾

Tuttavia, essendo questa cosa non gestita né dal software di WordPress né da Automattic, immagino che ci sarà tanta gente che scrive robe, credendo queste non siano archiviate perché nota che magari non vengono lette, e a loro insaputa ecco che gli archivisti salvano tutto! E potrebbe essere (non per me, ma per chi è distratto si) un leggerissimo problema il fatto che vengono archiviate (nel possibile) tutte le revisioni delle pagine immediatamente, perché correggere un post pochi secondi dopo averlo pubblicato, a questo punto non basta a rimediare se, per esempio, si è inserito accidentalmente qualcosa che non andava inviato. 💣

Credo abbia comunque qualche problema tecnico questo affare, perché innanzitutto sembra archiviare di meno e con minore frequenza i siti che, da comunque hostati sul servizio SaaS di Automattic, hanno un dominio proprio… ma comunque un minimo lo fa. Invece, sui siti #WordPress self-hostati dal resto di Internet, sembra proprio non lavorare: il mio sito Altervista sembra non venir cagato affatto da questo scraper, e nemmeno quello del CEO di WordPress (che ha sicuramente più occhi sopra del mio)… ma io il plugin Jetpack lo ho (e Matt non so, ma spero di si, altrimenti che minchia lo ha creato a fare?), quindi bah. 🥱

Schermata di https://web.archive.org/web/*/https://octomediajournal.wordpress.com/*, https://web.archive.org/web/20250106220244/http://octomediajournal.wordpress.com/2025/01/06/im-a-maker-yamamoto-cacapoco-feat-hatsune-miku/, https://web.archive.org/web/20250106195602/http://octomediajournal.wordpress.com/2025/01/06/se-il-numero-della-vostra-carta-di-credito-fosse-un-pokemon-che-pokemon-sareste/, https://archive.org/details/NO404-WP?tab=about
Qui in foto si vede bene un esempio del sorprendente ambaradan per il vecchio sito dell’Octo Media Journal (prefigurazione, foreshadowing…): non riceveva tante visite, eppure è stato archiviato di continuo… a giudicare dal numero degli URL (518, circa metà articoli e il resto media), al 100% o quasi (e io allo scuro di tutto). E, appunto, anche i video YouTube embeddati sono archiviati sui loro server, funziona tutto. Buono a sapersi. 🌐