Per anni, la missine di Google includeva l’importante compito di preservare il passato. Google Books, lanciato nel 2004, aveva come obiettivo la digitalizzazione e preservazione di ogni libro mai pubblicato, al ritmo di 1.000 pagine all’ora. Il Google News Archive, lanciato nel 2006 con notizie risalenti fino a 200 anni fa, rappresenta uno sforzo nella medesima direzione.

Quando l’obiettivo di Google era organizzare l’informazione del mondo, e renderla accessibile, preservarla — chiedersi cosa ne sarà fra 10 anni delle pagine web indicizzate — era parte e sforzo fondamentale per raggiungere tale obiettivo. Uno sforzo non particolarmente remunerativo, ma molto apprezzato, che purtroppo negli anni è andato diminuendo.

Due mesi fa Larry Page ha detto che l’azienda non si sente più rappresentata dal “mission statement” di 14 anni fa. L’obiettivo è cambiato. “Organise the world’s information and make it universally accessible and useful” è del 1998, e male si adatta alla Google odierna. Il focus è sul social e sull’oggi, del passato interessa meno. Scrive Andy Baio:

Google in 2015 is focused on the present and future. Its social and mobile efforts, experiments with robotics and artificial intelligence, self-driving vehicles and fiberoptics.

As it turns out, organizing the world’s information isn’t always profitable. Projects that preserve the past for the public good aren’t really a big profit center. Old Google knew that, but didn’t seem to care.

The desire to preserve the past died along with 20% timeGoogle Labs, and the spirit of haphazard experimentation.

Preservare la conoscenza non è remunerativo, ma è necessario.

Per fortuna che c’è l’Internet Archive. Il nome è fuorviante: molti pensano che il suo scopo sia preservare Internet, ma seppure quel compito sia fra i principali svolti dall’organizzazione, l’Internet Archive è soprattutto una biblioteca digitale. Lo scopo è più ampio; è preservare, e garantire accesso futuro, alla conoscenza. Ciò include anche preservare le pagine web, ma il motto e l’obiettivo dell’Internet Archive è più generico, inclusivo e caotico. È “Universal access to all knowledge“.

Possiamo archiviare Internet?

Un po’ di tempo fa un utente di Pinboard aveva provato a importare sul servizio la sua collezione di bookmark risalente al 1995–1997: dopo 17 anni il 91% degli indirizzi non risultava più raggiungibile. L’entità più grossa che sta provando a trovare una soluzione a questo problema è l’Internet Archive, il cui tentativo di preservare il web per il futuro è stato recentemente raccontato dal New Yorker.

L’articolo è pieno di spunti interessanti (ad esempio, sarebbe utile aggiungere una terza dimensione, temporale, al browser? Introducendo così una sorta di version control), ma siccome qui non siamo seri riporto il passaggio più simpatico — ovvero di quando Kahle (il fondatore dell’Internet Archive) mise il web in un container, per misurarlo:

I was on a panel with Kahle a few years ago, discussing the relationship between material and digital archives. When I met him, I was struck by a story he told about how he once put the entire World Wide Web into a shipping container. He just wanted to see if it would fit. How big is the Web? It turns out, he said, that it’s twenty feet by eight feet by eight feet, or, at least, it was on the day he measured it. How much did it weigh? Twenty-six thousand pounds. He thought that meant something. He thought people needed to know that.

Un utente di Pinboard ha provato a importare sul servizio una sua vecchia collezione di bookmarks, datati fra il 1995 e il 1997. Quello che ha scoperto — sarebbe meglio dire: ci ha riconfermato — è che i permalink non sono poi così permanenti: il 91% degli indirizzi salvati a distanza di 17 anni non esiste più.

However, despite reporting 200 on the rest, many URLs weren’t the original content. As one example, “serve.com” was a web host named DataRealm, and is now an American Express prepaid card. As another, a VRML tutorial is now a video about birth control. Some of these 200s are only so because of repeated 3xx redirections to ultimately unrelated content, or because of domain name hoarders serving ads

Ed Summers:

So how to wrap up this strange, fragmented, incomplete tour through Web preservation? I think libraries, museums and archives that realize that they are custodians of the Web, and align their mission with the grain of the Web, will be the ones that survive, and prosper.

Un compito così importante e oneroso non può ricadere su un’unica organizzazione (Internet Archive).