1. Come funziona un motore di ricerca: le cose da sapere

Un motore di ricerca, come Google o Bing, è un grande sistema informatico che esplora metodicamente e automaticamente tutte le parti pubblicamente accessibili di Internet e ne cataloga e archivia il contenuto.

Questo catalogo e questo archivio vengono aggiornati costantemente e sono consultabili dagli utenti di Internet visitando il sito del motore di ricerca (per esempio Google.com).

Spider e algoritmi

Ogni motore di ricerca è composto da due elementi fondamentali:

  • il software “esploratore”, denominato spider (“ragno”, dato che esplora il Web, che in inglese significa “ragnatela”);
  • l’algoritmo, che decide i criteri d’importanza con i quali vengono presentati agli utenti i risultati dell’esplorazione.

L’“esploratore” ha vari nomi, a seconda del motore di ricerca al quale appartiene: per esempio, Googlebot per Google, Bingbot per Bing e Yahoo, BaiduSpider per Baidu o YandexBot per Yandex.

L’algoritmo, invece, di solito non ha un nome, tranne nel caso di Google, che lo chiama PageRank perché determina il rango (rank in inglese) delle pagine del Web.

Il funzionamento esatto di questi componenti è un segreto commerciale, ma i documenti brevettuali pubblicati da Google, per esempio, gettano un po’ di luce sull’argomento: i link presenti nelle pagine esplorate da Googlebot contribuiscono fortemente a determinare l’importanza di una pagina nei risultati del motore di ricerca.

Il concetto di fondo è che se una pagina Web viene linkata da un’altra, vuol dire che la pagina linkata è considerata importante: è una sorta di voto di approvazione (o, per analogia con Facebook, è una sorta di “Mi piace”). Più “voti” ha un link, più è probabile che sarà in cima alla classifica dei risultati del motore di ricerca.

Ma anche l’importanza della pagina che ospita il link è determinante. Per esempio, se il sito di una testata giornalistica autorevole linka una data pagina Web, quella pagina Web sale di rango nella classifica dei risultati del motore di ricerca. Se un blog di un utente qualsiasi linka quella stessa pagina, l’effetto promozionale è molto più debole.

In parole povere:

più una pagina è linkata da altre pagine importanti e autorevoli del Web, più quella pagina diventa a sua volta importante ed emerge in cima ai risultati presentati dal motore di ricerca.

Il meccanismo è simile a quello usato dalle riviste scientifiche: più un articolo viene citato, e più viene citato da riviste autorevoli, più viene considerato meritevole.

Per saperne di più:

Accanto a questo criterio fondamentale, tuttavia, quasi tutti i motori di ricerca ne usano anche altri, che personalizzano i risultati in base a chi li richiede o al luogo nel quale vengono richiesti. Uno degli scopi di questa guida è evitare questa personalizzazione, che può rendere irreperibili o nascondere i risultati che in realtà interessano maggiormente a un utente.

Google, gigante incontrastato ma generalista

In termini di quota di mercato, Google sovrasta di gran lunga tutti gli altri motori di ricerca (figura qui sotto) e offre un maggior numero di opzioni di ricerca selettiva. Per questo motivo è opportuno dedicare a questo colosso buona parte di questa guida ai motori di ricerca, perché in pratica l’universo dei motori di ricerca è costituito da Google più le briciole.

Queste sono le quote di mercato dei principali motori di ricerca a gennaio 2024 (fonte: Worldwide desktop market share of leading search engines, Statista.com).

Differenze fra motori di ricerca

Anche se Google è il gigante del settore, gli altri motori possono a volte essere più efficienti su temi specifici, per cui nessuno di loro va trascurato completamente: ognuno ha le proprie particolarità sfruttabili.

Per esempio:

  • Google (Google.com) eccelle nel fornire i cosiddetti “dieci link blu”, ossia una pagina scarna nella quale sono elencati i dieci risultati che con maggiore probabilità soddisfano la richiesta dell’utente, e offre la possibilità di effettuare ricerche estremamente complesse.
  • Bing (Bing.com) è maggiormente specializzato di Google nella copertura degli argomenti più popolari e offre più grafica e informazioni direttamente sulla pagina iniziale; offre inoltre risposte a formule matematiche complesse tramite Wolfram Alpha (sito specializzato nella risoluzione di quesiti di statistica e matematica).
  • Yahoo! Search (search.yahoo.com) usa Bing e Google, ma ne modula diversamente i risultati.
  • Baidu (baidu.com) è specializzato nelle ricerche in cinese.
  • Yandex (yandex.com) copre le ricerche nei paesi russofoni; esiste anche in versione turca (yandex.com.tr), kazaka (yandex.kz) e bielorussa (yandex.by)*.
  • * Al momento in cui aggiorno questo capitolo (2024/03) la versione ucraina (yandex.ua) è irraggiungibile, probabilmente a causa dell’invasione russa dell’Ucraina.

  • DuckDuckGo (Duckduckgo.com) si distingue perché, a differenza di Google e degli altri motori di ricerca, non personalizza i risultati in base all’utente ed è più rispettoso della privacy**, anche se non è perfetto; inoltre fornisce risultati che sono un ibrido di quelli forniti da Yandex, Yahoo, Bing, Wolfram Alpha e Yummly (quest’ultimo è un motore specializzato in alimentazione, cucina e ricette, che consente ricerche in base a ingredienti, diete, allergie, prezzo, sapori e “impara” i gusti dell’utente). Inoltre è disponibile sul dark web tramite Tor.
  • Startpage (Startpage.com), come DuckDuckGo, è un motore di ricerca che non raccoglie dati personali; diversamente da DuckDuckGo, è basato soltanto su Google.

** Alcune forti motivazioni per preoccuparsi della schedatura sistematica delle ricerche effettuate dagli utenti ad opera di Google e altri motori di ricerca, con implicazioni a lungo termine sia personali sia politiche, sono descritte in questo articolo risalente al 2011 ma tuttora attuale.

ChatGPT e intelligenze artificiali per la ricerca di informazioni

All’inizio del 2023 sia Google sia Microsoft hanno iniziato ad adottare sistemi di intelligenza artificiale (IA), o più propriamente grandi modelli linguistici (large language models, LLM), in grado di generare risposte a domande scritte in linguaggio naturale, anche in italiano, integrandoli nei loro prodotti, compresi i motori di ricerca (Bloomberg, 8/3/2023). Lo hanno fatto sulla scia dell’enorme popolarità di sistemi di IA come ChatGPT di OpenAI.

Al momento attuale i risultati di questi sistemi sono inaffidabili e non è opportuno usarli per ricerche significative. Queste IA tendono a fornire risposte inventate o non corrispondenti ai fatti, che in gergo si chiamano allucinazioni (hallucinations).

Le versioni a pagamento o specializzate sono invece leggermente meno inaffidabili: danno risultati con poche allucinazioni, ma forniscono spesso risposte incomplete che comunque vanno verificate sistematicamente.

Per esempio, ChatGPT 3.5, la versione gratuita, ha un tasso di allucinazione molto elevato; la versione 4, a pagamento, è notevolmente più potente ed è meno inaffidabile, ma comunque è necessario controllare i suoi risultati.

_____