2. Quello che un motore di ricerca non mostra

È importante tenere presente che Google non è Internet, anche se è vero che per la maggior parte degli utenti quello che Google non vede (o non mostra) in pratica non esiste. C’è un’enorme parte di Internet che sfugge completamente a una ricerca tramite Google o quasi tutti gli altri motori di ricerca.

Infatti Google vede e indicizza (ossia cataloga) fondamentalmente tutte le pagine del Web e tutti i documenti che sarebbero accessibili a un normale utente dotato di browser (ossia programmi come Internet Explorer, Microsoft Edge, Firefox, Google Chrome, Safari, Opera). La parte di Internet che è accessibile a un comune motore di ricerca come Google è denominata Web di superficie (surface Web) e corrisponde grosso modo a tutte le pagine Web che sarebbero visibili a un utente che passasse la vita a cliccare sistematicamente su ogni link in ogni pagina.

Ma Google, come gli altri motori di ricerca generalisti, non può vedere/indicizzare:

  • il contenuto non pubblico dei principali social network (Facebook, Twitter, Ask.fm, Instagram.com, LinkedIn, Pinterest);
  • il contenuto delle pagine in formati nei quali il testo è reso graficamente invece di usare caratteri (per esempio tramite immagini, documenti PDF contenenti immagini delle pagine anziché testo, oppure animazioni nei vecchi formati Flash o Silverlight, un tempo molto popolari ma ormai non più supportati dai browser moderni);
  • le pagine Web che includono uno speciale codice di divieto contenuto in un file di nome robots.txt che viene pubblicato da ciascun sito;
  • le pagine oscurate dal “diritto all’oblio” secondo le disposizioni dell’Unione Europea;
  • il deep web;
  • il dark web.

Diritto all’oblio

A partire da maggio 2014 l’Unione Europea ha imposto a Google di rimuovere dai propri risultati i link che ledono il cosiddetto “diritto all’oblio” se ne riceve richiesta dalla parte lesa, come spiegato in questa pagina di Google. La rimozione avviene se i diritti di privacy del richiedente superano le esigenze dell’interesse pubblico ad accedere alle informazioni in questione. Di conseguenza, chi consulta Google dall’Europa (Svizzera compresa) ottiene talvolta risultati incompleti o parzialmente oscurati in base a questa norma.

Esistono tuttavia varie tecniche, descritte in seguito, che consentono di eludere questa limitazione.

Deep Web e Dark Web

Si fa spesso confusione fra deep Web e dark Web.

Qualunque contenuto che sfugga all’esplorazione compiuta da un motore di ricerca è definito Web sommerso (deep Web). Se un contenuto è accessibile soltanto dopo aver digitato qualcosa in una casella di ricerca di un sito (come nel caso di un dizionario online, le cui definizioni sono accessibili solo se si immette il lemma cercato), allora è deep Web.

Pertanto è deep Web, per esempio:

  • qualunque contenuto di un sito della pubblica amministrazione accessibile solo dopo aver immesso un riferimento in una casella (per esempio il nome dell’azienda nei registri del commercio, il numero di brevetto o il nome dell’inventore nell’archivio dell’Ufficio Brevetti Europeo);
  • il catalogo di una biblioteca;
  • un dizionario online;
  • qualunque pagina Web consultabile solo dopo aver immesso login e/o password.

Questi contenuti non sono stati nascosti volutamente all’occhio dei motori di ricerca: semplicemente sono inaccessibili a causa di limitazioni tecniche. Quello che è importante sottolineare è che il contenuto del deep Web non è necessariamente illecito e pericoloso come viene spesso asserito dai media.

All’interno di questo deep Web c’è una parte, relativamente piccola, che invece è stata nascosta intenzionalmente ai motori di ricerca e non è accessibile tramite i normali browser: questa parte è denominata Web oscuro (dark Web).

Un esempio piuttosto noto di questo dark Web è la rete Tor, che è una rete anonimizzata alla quale si accede soltanto usando un particolare browser, denominato Tor e scaricabile presso Torproject.org. Questa è la parte di Internet spesso associata ad attività illecite, per via dell’anonimato quasi totale che consente, ma in realtà è anche un rifugio per persone e organizzazioni soggette a persecuzioni, restrizioni o censure, comprese le testate giornalistiche. L’uso di Tor per le ricerche verrà descritto più avanti.

Semplificando:

  • è deep web qualunque sito che non può essere esplorato dai motori di ricerca per motivi tecnici;
  • è dark web qualunque sito che non vuole essere esplorato dai motori di ricerca.

La bolla di filtraggio (filter bubble)

Nel tentativo di offrire ai propri utenti un servizio sempre più efficiente, i motori di ricerca ricorrono a una sofisticata personalizzazione dei risultati offerti. Questo vuol dire che un utente può ottenere risultati differenti da un altro.

Questa personalizzazione attinge per esempio alle informazioni accumulate sull’utente dal motore:

  • la sua ubicazione geografica;
  • la cronologia delle sue ricerche;
  • i suoi clic passati;
  • i suoi interessi, dedotti dalle ricerche precedenti e dai clic sulle pubblicità;
  • il tipo di dispositivo (telefonino, tablet, computer);
  • il tipo di browser utilizzato;
  • il tipo di sistema operativo (macOS, Windows, Linux, Android, iOS/iPadOS, altro);
  • la lingua usata;
  • e molto altro ancora.

Dato che questo approccio privilegia i risultati che si conformano ai bisogni e ai punti di vista correnti dell’utente, si forma quindi intorno a ciascun utente una “bolla di filtraggio” (filter bubble) che lo separa dalle informazioni che non concordano con il suo punto di vista o sono al di fuori dei suoi interessi (per come li ha dedotti Google). È una sorta di ghetto culturale e ideologico autorinforzante, che impedisce una visione obiettiva e pertanto va contrastato se si desiderano risultati di ricerca non falsati.

_____

Capitolo successivo: 3. Google: ricerca avanzata