Ho per lungo tempo cercato un plugin che mi aiutasse a preservare le pagine a cui linko su queste pagine, e mi evitasse lo scenario corrente: linkrot pervasivo negli archivi del blog. I permalink, in realtà, sono molto poco permanenti. Provate a leggere un post di alcuni anni fa, dagli archivi, e molto probabilmente conterrà un link ad una pagina che non esiste più — perché è stata spostata, perché la piattaforma su cui il contenuto era stato pubblicato è stata chiusa o venduta, perché il blog non esiste più, o per altre ragioni ancora.

Fortunatamente il Berkman Center for Internet & Society se ne è uscito con un progetto, Amber, che aiuta a evitare la situazione corrente. Amber è distribuito anche sotto forma di plugin di WordPress: installandolo, il vostro blog conserverà uno snapshot (una copia) di ogni pagina a cui linkate — rendendola così accessibile in futuro, qualunque cosa succeda al sito originario, che sia o meno conservato sull’Internet Archive.

L’archivio digitale del MoMA

Interessantissimo post dal blog del MoMA sulle misure adottate dal museo per preservare le opere digitali:

The packager addresses the most fundamental challenge in digital preservation: all digital files are encoded. They require special tools in order to be understood as anything more than a pile of bits and bytes. Just as a VHS tape is useless without a VCR, a digital video file is useless without some kind of software that understands how to interpret and play it, or tell you something about its contents. At least with a VHS tape you can hold it in your hand and say, “Hey, this looks like a VHS tape and it probably has an analog video signal recorded on it.” But there is essentially nothing about a QuickTime .MOV file that says, “Hello, I am a video file! You should use this sort of software to view me.” We rely on specially designed software—be it an operating system or something more specialized—to tell us these things. The problem is that these tools may not always be around, or may not always understand all formats the way they do today. This means that even if we manage to keep a perfect copy of a video file for 100 years, no one may be able to understand that it’s a video file, let alone what to do with it. To avoid this scenario, the “packager” analyzes all digital collections materials as they arrive, and records the results in an obsolescence-proof text format that is packaged and stored with the materials themselves. We call this an “archival information package.”

Invece che su hard-disk hanno preferito salvare le opere su nastro magnetico. Questo per la natura dell’archivio: tantissimi dati usati molto raramente. Un museo (in generale) mostra al pubblico una minuscola frazione della propria collezione, mentre la maggior parte delle opere — a parte quando vi è un’esposizione o mostra specifica — vengono accantonate nell’archivio per anni.

In quest’ottica, la scelta del nastro magnetico ha senso. In più, per ogni opera verrà generata una versione di qualità inferiore disponibile on demand, in ogni momento, e salvata (in questo caso) su hard-disk.

It would be irresponsibly expensive to continue using hard drive storage, as it was not quite intended for this scale of data. We are currently in the final stages of designing a completely new “warehouse” with a company called Arkivum. This system will include a small cluster of hard drives, but for primary long-term storage it adds a very cool new element to the mix: data tapes. When archival packages are first stored, they land on the cluster of disks, but are shortly thereafter copied to data tape, a process that is automated by software (and robots!).

Un video di un archivio a nastro molto simile a quello descritto:

La Entertainment Software Association (abbreviata ESA, che ha fra i membri: Nintendo, Disney Interactive Studios, Microsoft e Electronic Arts) non vuole che i vecchi videogame vengano modificati in modo da mantenerli funzionanti — impedendone quindi anche la preservazione.

Dalla Electronic Frontier Foundation:

They say that modifying games to connect to a new server (or to avoid contacting a server at all) after publisher support ends—letting people continue to play the games they paid for—will destroy the video game industry. They say it would “undermine the fundamental copyright principles on which our copyright laws are based.” […]

It’s a serious problem for archives like the Internet Archive, museums like Oakland, California’s Museum of Art and Digital Entertainment, and researchers who study video games as a cultural and historical medium. Thanks to server shutdowns, and legal uncertainty created by Section 1201, their objects of study and preservation may be reduced to the digital equivalent of crumbling papyrus in as little as a year. That’s why an exemption from the Copyright Office is needed.

Come si progetta la biblioteca del futuro?

Un articolo della Oxford University, su Medium, motiva le decisioni prese nel corso della ristrutturazione della Weston Library, andando a cercare il ruolo delle biblioteche (accademiche) — nonostante Internet:

The Library of Celsus was built in 135AD in honour of a Roman senator. It stored 12,000 scrolls and those who wished to read them would travel long distances to visit. They would stay until their work was complete, sometimes for weeks at a time, and were given a place to eat, sleep and do some sort of athletic activity. Now that so many students use the library as a place to do their own work, libraries are thinking more about how to accommodate the varying needs of their users. (…)

‘For the last 150 years academic libraries have seen themselves as information-centred storehouses of books and I think that was a mistake. We need to return to the original purpose of the library, which is to support all the various needs of the scholar and provide him or her with a place to come up with ideas and make breakthroughs that would not otherwise have happened.’

(Relativo: Come il Regno Unito immagina le biblioteche del futuro)

Il pezzo contiene anche un video interessante sulla preservazione, e sul processo di digitalizzazione, dei manoscritti conservati nella Bodleian Library:

In aggiunta, giusto perché collegata al video sopra: la foto che ho fatto due settimane fa alla sede dell’Internet Archive alla Wellcome Library, di Londra:

Per gli interessati, Vice ha un bel racconto fotografico del posto.

Per anni, la missine di Google includeva l’importante compito di preservare il passato. Google Books, lanciato nel 2004, aveva come obiettivo la digitalizzazione e preservazione di ogni libro mai pubblicato, al ritmo di 1.000 pagine all’ora. Il Google News Archive, lanciato nel 2006 con notizie risalenti fino a 200 anni fa, rappresenta uno sforzo nella medesima direzione.

Quando l’obiettivo di Google era organizzare l’informazione del mondo, e renderla accessibile, preservarla — chiedersi cosa ne sarà fra 10 anni delle pagine web indicizzate — era parte e sforzo fondamentale per raggiungere tale obiettivo. Uno sforzo non particolarmente remunerativo, ma molto apprezzato, che purtroppo negli anni è andato diminuendo.

Due mesi fa Larry Page ha detto che l’azienda non si sente più rappresentata dal “mission statement” di 14 anni fa. L’obiettivo è cambiato. “Organise the world’s information and make it universally accessible and useful” è del 1998, e male si adatta alla Google odierna. Il focus è sul social e sull’oggi, del passato interessa meno. Scrive Andy Baio:

Google in 2015 is focused on the present and future. Its social and mobile efforts, experiments with robotics and artificial intelligence, self-driving vehicles and fiberoptics.

As it turns out, organizing the world’s information isn’t always profitable. Projects that preserve the past for the public good aren’t really a big profit center. Old Google knew that, but didn’t seem to care.

The desire to preserve the past died along with 20% timeGoogle Labs, and the spirit of haphazard experimentation.

Preservare la conoscenza non è remunerativo, ma è necessario.

Per fortuna che c’è l’Internet Archive. Il nome è fuorviante: molti pensano che il suo scopo sia preservare Internet, ma seppure quel compito sia fra i principali svolti dall’organizzazione, l’Internet Archive è soprattutto una biblioteca digitale. Lo scopo è più ampio; è preservare, e garantire accesso futuro, alla conoscenza. Ciò include anche preservare le pagine web, ma il motto e l’obiettivo dell’Internet Archive è più generico, inclusivo e caotico. È “Universal access to all knowledge“.