I furbetti della trasparenza e la manipolazione dei motori di ricerca

Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere.

Di trasparenza se ne parla da tempo e il buon Brunetta ne ha fatto un suo cavallo di battaglia chiedendo che siano resi pubblici i dati relativi a  curriculum, stipendi, tassi di assenteismo dei dirigenti pubblici e molte altre cose. Una splendida ventata di civiltà per il nostro paese.

In particolare si cita

La legge n. 69 del 18 giugno 2009 (“Disposizioni per lo sviluppo economico, la semplificazione, la competitività nonché in materia di processo civile”) impone, all’art. 21, comma 1, che tutte le pubbliche amministrazioni debbano rendere note, attraverso i propri siti internet, alcune informazioni relative ai dirigenti (curriculum vitae, retribuzione, recapiti istituzionali) e i tassi di assenza e di presenza del personale, aggregati per ciascun ufficio dirigenziale.

Ma c’è qualcosa che non quadra. Nei giorni scorsi abbiamo ricevuto una segnalazione da un amico espertissimo di cose di rete che ci consigliava di dare una occhiata  al file robots.txt di molti siti di importanti enti pubblici. Come spiega bene Wikipedia robots.txt è un file creato dai gestori di un sito per imporre ai motori di ricerca, compreso ovviamente Google, delle restrizioni nella indicizzazione delle pagine del proprio sito.  Non è difficile capire la sua sintassi: se per esempio troviamo in robots.txt la direttiva

User-agent: *
Disallow: /pippo/

vuol dire che il gestore del sito comunica a tutti gli spider dei motori di ricerca di non leggere la cartella che si chiama pippo ed i suoi contenuti. Tutto chiaro ? Speriamo di sì, perchè ora dobbiamo vedere degli interessanti casi concreti.

Incominciamo proprio dal sito del ministero di Brunetta: arrivano le prime sorprese.

www.innovazione.gov.it/robots.txt

User-agent: *
Disallow:/operazionetrasparenza/

In pratica i gestori del sito non vogliono che i motori di ricerca indicizzino tutti i file  con i curricula dei dirigenti e le altre informazioni legate  alla trasparenza aministrativa. Per fare sempre un esempio. Se volete leggere i dati del capo del dipartimento dovete andate qui per scaricare il file pdf che si trova nella cartella che i motori di ricerca non debbono analizzare.
Una  inconguenza di fondo basata su un uso tecnicamente lecito, ma deontologicamente discutibile delle tecnologie di ricerca.

Questo dal punto di vista pratico che cosa vuol dire ? Se cercate su Google o su altri motori di ricerca informazioni su qualche dirigente usando nome o carica molto probabilmente non troverete praticamente nulla. Alla faccia della trasparenza !

Passiamo a un altro sito importante: quello del Governo.

www.governo.it/robots.txt è piuttosto elaborato, ma si apre  con un

User-agent: *
Disallow: /Presidenza/operazione_trasparenza/dirigenti/
Disallow: /Presidenza/operazione_trasparenza/consulenti/

Oramai avrete capito come funziona la cosa. Le sezioni nascoste ai motori riguardano curricula ed emolumenti dei dirigenti e
e consulenze ed incarichi della Presidenza del Consiglio. Nuovamente alla faccia della trasparenza vera, oltre le parole e gli intenti moralizzanti lanciati nei comunicati stampa

A questo punto abbiamo visitato tutti i siti dei ministeri scoprendo anche in questi casi delle manipolazioni

www.giustizia.it/robots.txt

User-agent: *
Disallow: /resources/cms/documents/cv_

oppure cose per lo meno curiose

www.mef.gov.it/robots.txt

User-agent: *
# Non voglio che i motori di ricerca ficchino
# il naso nella mia directory personale.

Siamo poi passati ai siti delle regioni e anche qui un evidente fuggi fuggi dai motori di ricerca delle pagine legate alla trasparenza

www.regione.lombardia.it/robots.txt

User-agent: *
Disallow: /

www.regione.piemonte.it/robots.txt

User-agent: *
Disallow: /boll_leggi/trasparenza/
Disallow: /boll_leggi/incarichi/

www.regione.liguria.it/robots.txt

User-agent: *
Disallow: /MenuSezione.asp?Parametri=1_1_2_2500_$1_1_2_2500_$Organigramma$1_1_2_2500_-1$dirigenti_giunta2009.htm$
Disallow: /MenuSezione.asp?Parametri=1_1_2_2538_$1_1_2_2538_$Organigramma$1_1_2_2538_-1$assenza_presenza_giunta2009.htm$
Disallow: /operazionetrasparenza/dirigenti_giunta2009/

Passiamo ora ai comuni importanti
www.comune.torino.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/

www.comune.firenze.it/robots.txt

User-Agent: *
Disallow: /opencms/export/sites/retecivica/materiali/trasparenza/

www.comune.bologna.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/*

www.comune.ancona.it/robots.txt

User-agent: *
Disallow: /ankonline/Temi/Trasparenza/
Disallow: /ankonline/Temi/Incarichi/

www.comune.roma.it/robots.txt

User-agent: *
Disallow: /was/wps/portal/!ut/p/_s.7_0_A/7_0_DC5/

E ora a voi lettori trovare altri robots.txt:  parte una nuova moda: il robots watching …

Nel frattempo qualche amministratore pubblico dovrà dare delle spiegazioni.

E’ stato un passaparola fra tecnici o una precisa direttiva dal’alto per celare la trasparenza che in fondo fa tanta paura ?

UPDATE 1: nei commenti si segnala che è  lo stesso Ministero dell’Innovazione a spiegare con un documento pdf gli Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca

UPDATE 2; il file del sito della Regione Sardegna in effetti non disabilita l’accesso a pagine

www.regione.sardegna.it/robots.txt

User-agent:  *
Disallow:

UPDATE 3:
Letture utili a contorno

circolare Brunetta Pagina 3 – punto 3
http://www.innovazione.gov.it/ministro/pdf_home/circolare_5_09.pdf

Garante della privacy
http://www.garanteprivacy.it/garante/doc.jsp?ID=1639950