4. Ricerca storica e recupero di documenti rimossi, modificati o nascosti

Se un documento o una pagina Web precedentemente pubblicati su un sito sono stati poi rimossi o modificati, oppure sono inaccessibili a causa di un numero eccessivo di visitatori, spesso è possibile recuperarne lo stesso il contenuto utilizzando le cosiddette copie cache e le copie archiviate.

Copia cache di una pagina o di un sito

Quando un motore di ricerca esplora il Web per indicizzarlo, solitamente registra nei propri server una copia temporanea di ogni singola pagina esplorata. Questa copia si chiama copia cache e in alcuni casi è consultabile.*

* Per anni, l’enorme cache di Google è stata consultabile digitando in Google la parola cache: seguita (senza spazi) dal nome del sito o dall’indirizzo della pagina specifica desiderata oppure cliccando sul triangolino o sui tre puntini che erano presenti accanto a un normale risultato di ricerca, in modo da far comparire l’opzione copia cache. Questa utilissima funzione è stata però rimossa da Google gradualmente intorno a febbraio 2024 (fonti: The Verge, Ars Technica).

La copia cache è utile perché mostra com’era una data pagina quando è stata visitata dal motore di ricerca e quindi costituisce una sorta di “eco” temporanea, che persiste anche se la pagina originale viene cambiata o addirittura rimossa. Questo consente di andare indietro nel tempo a vedere, per esempio, qual era il contenuto di un sito oscurato, sequestrato, alterato oppure rimosso.

Questa copia è utile anche quando desideriamo esplorare un sito senza lasciare traccia del nostro interessamento. Ogni normale visita a un sito, infatti, lascia all’amministratore del sito una serie di informazioni tecniche che permettono di identificare il visitatore.

Per esempio, in alcuni casi può essere sconsigliabile che un giornalista sfogli, da un computer connesso alla rete della redazione, un sito sul quale sta indagando: i titolari del sito potrebbero accorgersi della visita e dedurne che è in corso un’inchiesta (capitò a dei miei colleghi durante un’indagine giornalistica su un caso di truffa sanitaria). L’uso della copia cache consente al giornalista di consultare il sito senza lasciare traccia della propria visita.

Copie archiviate

Oltre alla copia cache dei motori di ricerca ci possono essere altre copie archiviate presso altri siti:

NOTA: Le edizioni passate dell’Efficercatore includevano in questo elenco anche Coralcdn.org, che però attualmente (2023/03) risulta inaccessibile. Secondo gli archivi della Wayback Machine di Archive.org, la sua ultima attività risale a ottobre 2020. Coralcdn effettuava copie automatiche temporanee delle pagine del Web.

Archive.org colleziona periodicamente, automaticamente e permanentemente una copia delle pagine Web di Internet. Le copie multiple custodite presso Archive.org possono andare indietro nel tempo anche fino agli anni Novanta del secolo scorso.

Archive.is, invece, archivia in modo permanente solo le pagine che gli vengono richieste manualmente e fornisce un link breve utile per citare una copia permanente di un contenuto online.

Esempio: recupero del contenuto di un sito sottoposto a sequestro

Per ottenere un elenco dei siti sequestrati dalle autorità italiane si può usare l’operatore intitle di Google per cercare tutti i siti che hanno come titolo l’espressione standard usata in Italia in questi casi, ossia l’esatta sequenza di parole "sito sottoposto a sequestro". La sintassi della ricerca in Google diventa quindi:

In Canton Ticino la dicitura può avere il formato “Il sito è stato oscurato per ordine della Magistratura del Cantone Ticino”, come in questo caso concreto.

A questo punto si sceglie un sito sequestrato fra quelli elencati da Google e si immette il suo link in Archive.org, che solitamente ne contiene una copia risalente a prima del sequestro. Questa copia consente di avere un’immagine del sito prima del sequestro, di fare ipotesi sulle ragioni del sequestro stesso e anche di determinarne la data approssimativa.

Un risultato di ricerca in Google di siti sottoposti a sequestro.
L’avviso attualmente presente sul sito Uniservice.info, sequestrato nel 2015.
La Wayback Machine dell’Internet Archive (Archive.org) mostra la cronologia delle istantanee del sito Uniservice.info che ha archiviato nel corso degli anni.
Il contenuto del sito sequestrato com’era prima del sequestro e conservato dalla Wayback Machine.
Esempio: ritrovamento di documenti spostati altrove (2019)

Un collega divulgatore scientifico sta cercando di ritrovare dei documenti della NASA che hanno da poco cambiato indirizzo. Sa qual è quello vecchio ma non sa qual è quello nuovo.

Quello vecchio è https://www.jsc.nasa.gov/history/oral_histories/participants.htm.

Con quest’informazione e Archive.org si può risolvere il problema:

  • Si va ad Archive.org e si immette l’indirizzo vecchio per vedere se ne esiste una copia archiviata (sì, questa)
  • Da questa copia archiviata si copia un campione di testo caratterizzante (un titolo, una frase saliente): per esempio, “This is a complete list of archived and released Oral History interviews conducted for the NASA Oral History Projects”
  • Si immette questo campione di testo in Google, mettendolo fra virgolette.
  • Google restituisce il link del nuovo indirizzo (https://historycollection.jsc.nasa.gov/JSCHistoryPortal/history/oral_histories/participants_full.htm)

Può essere utile ed efficiente installare nel proprio browser l’estensione ufficiale della Wayback Machine, che è reperibile cercando in Google “Official Wayback Machine Extension”: se una data pagina non è più disponibile, quest’estensione cerca automaticamente se una copia di quella pagina è stata archiviata presso Archive.org e la propone. L’estensione consente anche di salvare una pagina Web in Archive.org.

Esempio: reperimento di una sentenza medica rimossa (2022)

Circola online una foto che mostra un titolo di giornale clamorosamente antiscientifico: “Si ammala dopo il vaccino”. La notizia parla di una bambina che alla data dell’articolo ha 12 anni ed è nata sana; le sarebbe stata diagnosticata la sindrome di Down dopo aver fatto la vaccinazione trivalente. I genitori avrebbero fatto causa al Ministero della Salute.

Si pone il problema di:

  1. verificare che non si tratti di un fotomontaggio;
  2. identificare la testata responsabile;
  3. risalire alla data di pubblicazione;
  4. scoprire l’esito legale della vicenda.

L’immagine mostra chiaramente l’indicazione della testata: il giornale gratuito Nuovo Quotidiano di Rimini. Ma la foto è autentica? Per verificarlo si può cercare in Google, tra virgolette, una parte saliente del testo (per esempio “La bimba ora ha 12 anni e due sorelle perfettamente in salute”). Questa ricerca fornisce una pagina del sito Pianetadown.org risalente al 26 maggio 2012 che riporta il testo dell’articolo e indica che si tratta di una notizia apparsa il giorno stesso.

Il link fornito da Pianetadown.org (che porta a Virtualnewspaper.it) è obsoleto, ma indica che si tratta quasi sicuramente di un articolo reale, visto che Virtualnewspaper.it è un sito che si occupa di pubblicare i giornali in formato digitale.

Il sito del Nuovo Quotidiano di Rimini era Nqnews.it: al momento in cui scrivo queste righe ospita altri contenuti, ma Archive.org ci permette di vedere com’era per esempio a giugno del 2012.

Leggendo i commenti alla pagina di Pianetadown.org se ne trova uno, datato 7 marzo 2013, che riporta un link (www.comilva.org/node/12919) a un commento dell’avvocato che ha affrontato la causa e che contiene anche la copia della sentenza.

Il link porta a una pagina vuota, ma su Archive.org se ne trova una copia d’archivio datata 10 luglio 2012, che parla della sentenza. Questa sentenza ha riconosciuto un nesso giuridico (non scientifico) di causalità fra la vaccinazione e l’autismo (non la sindrome di Down). Archive.org ha anche archiviato una copia della scansione della sentenza (PDF). Tuttavia la Cassazione nel 2015 ha annullato la sentenza del tribunale di Rimini (Salute.gov.it).

In sintesi: l’articolo è stato realmente pubblicato da un giornale gratuito di Rimini, risale al 2012 ed è sbagliato perché parla di sindrome di Down quando in realtà la condizione diagnosticata è autismo. La vicenda si è conclusa nel 2015 con l’annullamento della sentenza che inizialmente aveva disposto il riconoscimento del danno e i benefici di indennizzo previsti dalla legge. Maggiori informazioni sono nella Bufalopedia.

Ricerca e recupero di documenti confidenziali con Google

Talvolta le autorità o le aziende commettono l’errore di pubblicare su Internet, presso indirizzi non pubblicizzati, documenti che sono sotto embargo. Scaduto l’embargo, annunciano l’indirizzo al pubblico.

Tuttavia Google vede e indicizza anche quasi tutti i documenti pubblicati sui siti Web, anche se si trovano presso indirizzi non linkati o annunciati, per cui i documenti sono comunque già reperibili prima della fine dell’embargo se si immettono in Google le parole chiave pertinenti.

I documenti usano spesso diciture come le seguenti:

  • embargo oppure embargoed until seguito da una data
  • do not disseminate
  • strictement confidentiel
  • ne pas diffuser
  • ne pas devoiler
  • streng vertraulich
  • streng vertraulich und rechtlich geschützt

La ricerca di queste espressioni, specialmente se accompagnata da una data, dall’operatore site: che restringa la ricerca ai siti di un ente o di un’azienda e dall’operatore filetype:PDF e/o filetype:DOC (perché di norma i documenti vengono pubblicati come file PDF o DOC), produce spesso frutti inattesi.

Un esempio limite è dato da questa ricerca:

intext:password intext:username filetype:xls inurl:.xls

che trova i file contenenti elenchi di password incautamente custoditi in una cartella pubblica accessibile a Google. Al posto di inurl:.xls si può anche specificare inurl:.csv.

Un altro esempio altrettanto estremo è il seguente:

“Your password is * Remember this for later use”

Ricerca storica di vocaboli: Google Ngram Viewer

Google offre un servizio che consente di fare ricerche sulla diffusione o popolarità di un termine, un nome di persona o di azienda o un’espressione nel corso del tempo: Google Ngram Viewer (books.google.com/ngrams).

Confronto fra il numero di citazioni di “George Lucas” rispetto a “Elon Musk” dal 1944 (anno di nascita di Lucas) al 2019.

Questo strumento estremamente potente va usato tenendo presente alcune limitazioni:

  • il suo corpus, ossia l’archivio di testi che ha catalogato, è suddiviso per lingue e quindi va scelta la lingua di interesse.
  • La catalogazione si ferma intorno al 2019, per cui qualunque testo pubblicato dopo quell’anno non viene considerato.
  • Nel caso di testi catalogati facendo riconoscimento ottico dei caratteri, gli errori di riconoscimento sono frequenti e possono essere estremamente fuorvianti (The Pitfalls of using Google Ngram to Study Language, Wired.com, 2015).

Google Hacking vero e proprio

Le ricerche avanzate in Google possono essere utilizzate per rivelare dati e vulnerabilità informatiche di ogni sorta. Una delle fonti più ricche di suggerimenti di ricerca è il Google Hacking Database, che offre varie categorie di ricerche estremamente penetranti:

  • documenti sensibili
  • log di sicurezza
  • dispositivi connessi: stampanti, telecamere, impianti
  • nomi di utenti
  • password

Attenzione: se si usano ripetutamente richieste di ricerca come quelle proposte dal Google Hacking Database, Google potrà chiedere di confermare tramite Captcha che si tratta di richieste fatte da un essere umano e non da un sistema automatico.

_____