I furbetti della trasparenza e la manipolazione dei motori di ricerca

8 Marzo 201018 Febbraio 2010 di blog

Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere.

Di trasparenza se ne parla da tempo e il buon Brunetta ne ha fatto un suo cavallo di battaglia chiedendo che siano resi pubblici i dati relativi a curriculum, stipendi, tassi di assenteismo dei dirigenti pubblici e molte altre cose. Una splendida ventata di civiltà per il nostro paese.

In particolare si cita

La legge n. 69 del 18 giugno 2009 (“Disposizioni per lo sviluppo economico, la semplificazione, la competitività nonché in materia di processo civile”) impone, all’art. 21, comma 1, che tutte le pubbliche amministrazioni debbano rendere note, attraverso i propri siti internet, alcune informazioni relative ai dirigenti (curriculum vitae, retribuzione, recapiti istituzionali) e i tassi di assenza e di presenza del personale, aggregati per ciascun ufficio dirigenziale.

Ma c’è qualcosa che non quadra. Nei giorni scorsi abbiamo ricevuto una segnalazione da un amico espertissimo di cose di rete che ci consigliava di dare una occhiata al file robots.txt di molti siti di importanti enti pubblici. Come spiega bene Wikipedia robots.txt è un file creato dai gestori di un sito per imporre ai motori di ricerca, compreso ovviamente Google, delle restrizioni nella indicizzazione delle pagine del proprio sito. Non è difficile capire la sua sintassi: se per esempio troviamo in robots.txt la direttiva

User-agent: *
Disallow: /pippo/

vuol dire che il gestore del sito comunica a tutti gli spider dei motori di ricerca di non leggere la cartella che si chiama pippo ed i suoi contenuti. Tutto chiaro ? Speriamo di sì, perchè ora dobbiamo vedere degli interessanti casi concreti.

Incominciamo proprio dal sito del ministero di Brunetta: arrivano le prime sorprese.

www.innovazione.gov.it/robots.txt

User-agent: *
Disallow:/operazionetrasparenza/

In pratica i gestori del sito non vogliono che i motori di ricerca indicizzino tutti i file con i curricula dei dirigenti e le altre informazioni legate alla trasparenza aministrativa. Per fare sempre un esempio. Se volete leggere i dati del capo del dipartimento dovete andate qui per scaricare il file pdf che si trova nella cartella che i motori di ricerca non debbono analizzare.
Una inconguenza di fondo basata su un uso tecnicamente lecito, ma deontologicamente discutibile delle tecnologie di ricerca.

Questo dal punto di vista pratico che cosa vuol dire ? Se cercate su Google o su altri motori di ricerca informazioni su qualche dirigente usando nome o carica molto probabilmente non troverete praticamente nulla. Alla faccia della trasparenza !

Passiamo a un altro sito importante: quello del Governo.

www.governo.it/robots.txt è piuttosto elaborato, ma si apre con un

User-agent: *
Disallow: /Presidenza/operazione_trasparenza/dirigenti/
Disallow: /Presidenza/operazione_trasparenza/consulenti/

Oramai avrete capito come funziona la cosa. Le sezioni nascoste ai motori riguardano curricula ed emolumenti dei dirigenti e
e consulenze ed incarichi della Presidenza del Consiglio. Nuovamente alla faccia della trasparenza vera, oltre le parole e gli intenti moralizzanti lanciati nei comunicati stampa

A questo punto abbiamo visitato tutti i siti dei ministeri scoprendo anche in questi casi delle manipolazioni

www.giustizia.it/robots.txt

User-agent: *
Disallow: /resources/cms/documents/cv_

oppure cose per lo meno curiose

www.mef.gov.it/robots.txt

User-agent: *
# Non voglio che i motori di ricerca ficchino
# il naso nella mia directory personale.

Siamo poi passati ai siti delle regioni e anche qui un evidente fuggi fuggi dai motori di ricerca delle pagine legate alla trasparenza

www.regione.lombardia.it/robots.txt

User-agent: *
Disallow: /

www.regione.piemonte.it/robots.txt

User-agent: *
Disallow: /boll_leggi/trasparenza/
Disallow: /boll_leggi/incarichi/

www.regione.liguria.it/robots.txt

User-agent: *
Disallow: /MenuSezione.asp?Parametri=1_1_2_2500_$1_1_2_2500_$Organigramma$1_1_2_2500_-1$dirigenti_giunta2009.htm$
Disallow: /MenuSezione.asp?Parametri=1_1_2_2538_$1_1_2_2538_$Organigramma$1_1_2_2538_-1$assenza_presenza_giunta2009.htm$
Disallow: /operazionetrasparenza/dirigenti_giunta2009/

Passiamo ora ai comuni importanti
www.comune.torino.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/

www.comune.firenze.it/robots.txt

User-Agent: *
Disallow: /opencms/export/sites/retecivica/materiali/trasparenza/

www.comune.bologna.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/*

www.comune.ancona.it/robots.txt

User-agent: *
Disallow: /ankonline/Temi/Trasparenza/
Disallow: /ankonline/Temi/Incarichi/

www.comune.roma.it/robots.txt

User-agent: *
Disallow: /was/wps/portal/!ut/p/_s.7_0_A/7_0_DC5/

E ora a voi lettori trovare altri robots.txt: parte una nuova moda: il robots watching …

Nel frattempo qualche amministratore pubblico dovrà dare delle spiegazioni.

E’ stato un passaparola fra tecnici o una precisa direttiva dal’alto per celare la trasparenza che in fondo fa tanta paura ?

UPDATE 1: nei commenti si segnala che è lo stesso Ministero dell’Innovazione a spiegare con un documento pdf gli Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca

UPDATE 2; il file del sito della Regione Sardegna in effetti non disabilita l’accesso a pagine

www.regione.sardegna.it/robots.txt

User-agent:  *
Disallow:

UPDATE 3:
Letture utili a contorno

circolare Brunetta Pagina 3 – punto 3
http://www.innovazione.gov.it/ministro/pdf_home/circolare_5_09.pdf

Garante della privacy
http://www.garanteprivacy.it/garante/doc.jsp?ID=1639950

47 commenti su “I furbetti della trasparenza e la manipolazione dei motori di ricerca”

Fabrizio T.

18 Febbraio 2010 alle 16:21

Direi direttiva/suggerimento dall’alto, nel sito del ministero nella pagina dedicata all’operazione trasparenza http://www.innovazione.gov.it/dirigenti2009/index.htm c’è un link ad un documento che spiega proprio come usare il robots.txt per impedire l’indicizzazione
- blog
  
  18 Febbraio 2010 alle 16:31
  
  grazie per la segnalazione: e allora ch serve metterli in rete ? E perche qualcuno li cela e altri no ?
massimo

18 Febbraio 2010 alle 20:45

E soprattutto su che norma si basa la richiesta del ministero di impedire l’indicizzazione? Io non ho trovato riferimenti. Presumo che qualcuno si sia trovato su Google e non abbia gradito… sollecitando chi di dovere ad intervenire.
Enrico

19 Febbraio 2010 alle 01:38

Solo una nota curiosa: quello strano testo citato dal file robots.txt del sito http://www.mef.gov.it (“Non voglio che i motori di ricerca ficchino il naso nella mia directory personale.”) non è altro che un testo ripreso da una vecchissima guida italiana sul funzionamento dei motori di ricerca.

Chi ha realizzato il file robots.txt per il sito http://www.mef.gov.it ha copia-e-incollato un esempio della guida mantenendo quella frase, come se fosse funzionale a qualcosa, quando in realtà era solo un commento che l’autore aveva usato per fini didattici. ;-)

Segnalo anche che, contrariamente a quanto suggerito nel post, il robots.txt della regione Sardegna non blocca nulla, anzi dà via libera a tutti gli spider.

Articolo molto interessante. Complimenti per l’indagine! :-)
mogol_gr

19 Febbraio 2010 alle 02:45

Se si riesce a coniugare la trasparenza (Gorbaciov?) in morale dall’alto
e motori di ricerca il gozzoviglio orgiastico di eccesso di consenso e
fiducia (religione?) si ha uno scenario ancora più inquietante.
marcello

19 Febbraio 2010 alle 08:48

notevole questo del sito unito
http://www.unito.it/robots.txt

che nasconde scientificamente gli emolumenti dei dirigenti
.mau.

19 Febbraio 2010 alle 17:06

secondo voi, sarebbe deontologicamente corretto fare uno spider che non guardi il robots.txt e copi da qualche altra parte tutte queste directory?
- blog
  
  19 Febbraio 2010 alle 17:13
  
  Buona idea !
Pingback: Breaking Zen: il blog di Zeno Tomiolo » Brunetta e i furbetti della trasparenza
Folletto Malefico

19 Febbraio 2010 alle 17:53

Quindi… possiamo leggere i robots.txt per localizzare rapidamente quei dati con uno spider ad-hoc, no? :)
Pingback: Attenti al leopardo - manteblog
Pasquale

19 Febbraio 2010 alle 19:11

Probabilmente copiare i contenuti, sia pure pubblici, e riprodurli su un altro sito non è legale. Non credo si commetta un illecito se si crea una pagina in cui si riportano nomi e mansioni dei dirigenti in questioni con accanto il link al documento nascosto ai crawlers.
E questa pagina avrebbe tutto il diritto di esistere e di essere indicizzata, aggirando in un certo senso il banale trucchetto usato da questi furbacchioni.
Giu

19 Febbraio 2010 alle 19:36

Vergogna.

Grazie per suo post.
dipendente

19 Febbraio 2010 alle 23:00

la circolare del ministro dice di utilizzare i robots per un problema di privacy. Chiedete al garante il perchè di questa scelta e non al ministro ….. studiate e studiate prima di commentare in maniera non appropriata…………. pasteris questa volta hai fatto una bella figura!!! ah!!!!!!!! la prossima volta documentati sul perchè delle cose….. prima di pubblicarle…. !!!
roberto flan

19 Febbraio 2010 alle 23:42

caro signor dipendente, le rispondo senza voler fare le difese di ufficio di Pasteris. Sarà colpa del garante della privacy, ma resta il fatto che allora tutta questa retorica sulla trasparenza si spegne nel nulla di fatto dimostrando che in questo paese la cosa pubblica non vuole essere trasparente, ma ad uso di chi la usa come cosa propria
Pingback: We are the robots | Gery Palazzotto
enrico

20 Febbraio 2010 alle 01:01

Dio, ma in che paese viviamo?
Pingback: links for 2010-02-19
Nereo

20 Febbraio 2010 alle 11:04

Approfitto dell’argomento per condividere una considerazione più profonda: come vedete leggendo questo post e i suoi commenti, siamo tutti dipendenti dalla ricerca come mediatore e la sostituiamo – come state facendo adesso – al fatto stesso che le informazioni esistano (!).
Una sorta di “sono su Google quindi esisto”.

In realtà anche se le pagine sono fuori dall’indice di Google sono rintracciabili navigando sul sito. Quindi le info ci sono, esistono e sarebbero raggiungibili.

Non sto dando ragione a nessuno, solo vi spingo a una riflessione.

PS: che senso avrebbe disindicizzare i contenuti per una norma sulla privacy se poi sono pubblicati sul sito comunque?
In altre parole: esiste solo una privacy su Google (visto che i contenuti sono comunque pubblicati)? Quindi anche il garante è caduto nell’errore comune di dare diritto di esistenza solo a quello che finisce su G?

Bah!
Peter Knurd

20 Febbraio 2010 alle 13:31

Gli è che sui siti queste informazioni sono sì formalmente presenti, ma non indicizzate, seminascoste e dunque difficilmente accessibili a meno di non sapere già dove si trovino.
AlbertoR

20 Febbraio 2010 alle 18:23

Non esiste nessun problema di privacy come asserisce ‘dipendente’ – e tanto per intenderci io non solo studio queste cose ma le insegno. Le pagine esistono, certo Nereo, ma se non sono indicizzate, di fatto, non sono raggiungibili; è solo un modo per fingere trasparenza.
Larry

20 Febbraio 2010 alle 20:22

@.mau.: per me seguire il robot.txt non ha alcun valore nemmeno morale, figuriamoci legale. Se una pagina o un documento è liberamente accessibile, allora deve essere indicizzabile. I motori di ricerca devono essere al servizio di chi fa ricerche, non di chi fa i siti.

E comunque se estendiamo il discorso anche agli spider “personali” oltre a quelli dei motori di ricerca, ne conosco almeno un paio che hanno un’opzione per ignorare robots.txt. Ad esempio httrack (http://www.httrack.com/).
Pingback: Linkati da leggere…per chi ne ha voglia
Stefano / The Catcher

21 Febbraio 2010 alle 11:57

Bè egregio Pasteris, da informatico e ricercatore del settore devo segnalarle che ci sono milioni di blocchi di informazioni, accorgimenti e permessi assegnati (grant) o negati (disallowed) in informatica sui siti e sui sistemi. Provi ad informarsi sui criteri di classificazione di certi siti che si pregiano di metrizzare (classificare) i siti blog. Non li otterrà.

Si sta agitando in un bicchiere d’acqua mi pare. La pagina sarà leggibile dalle persone, anyway. Che non sono robot. Lei l’ha letta no? Poi parliamoci chiaro, la burocrazia poi di oggi e di sempre le regole le applica mai a favore del cittadino?

Io mi preoccupo di più di una amministrazione che è altro che trasparente: è inesistente.
Pingback: Del diritto di esistere di una informazione
Luca Bove

22 Febbraio 2010 alle 15:56

Beh in realtà anche GOOGLE oramai ignora il file robots.txt ….
Basta che qualcuno linki quei file e Google Ignora beatamente quanto scritto nel robots.txt
Ecco il video del Vescovo di Google che illustra come il robots.txt sia scavalcato dal motore di ricerca: http://www.youtube.com/watch?v=KBdEwpRQRD0
I tecnici del ministero non sono aggiornato. Brunetta falli aggiornare o rivolgiti a professionisti
Nereo

22 Febbraio 2010 alle 18:57

Luca, ti ricordo pubblicamente che per ogni citazione della parola “Vescovo” al posto di “Matt Cutts” dovresti pagare royalties (non di sicuro a me!) :-D
Carla Crivello

22 Febbraio 2010 alle 22:39

Luca Bove “Basta che qualcuno linki quei file e Google Ignora beatamente quanto scritto nel robots.txt” Me lo può spiegare?Comunque… mi sono imbattuta casualmente in un “buon esempio”, quello dell’IFO di Roma : l’operazione trasparenza è messa in rilievo sulla home page.
Alberto Cottica

23 Febbraio 2010 alle 19:26

Sono in disaccordo con la posizione espressa da alcuni commentatori, come Stefano/The Catcher e Nereo. Mi occupo di web 2.0 e politiche pubbliche, e la maggior parte dei miei colleghi ritiene che una cosa sia trasparente non quando è in qualche modo accessibile, ma quando è accessibile FACILMENTE e IMMEDIATAMENTE, da macchine e non solo da umani, e quindi “remixabile” per permettere ai cittadini di riaggregarla. Questa è, per esempio, la posizione della Open declaration on European public services presentata alla conferenza di Malmo. Quindi il disallow è un atto poco trasparente, anche se c’è il pdf, anche se l’informazione è leggibile da un umano, e anche se esistono spider che ignorano robot.txt. E come tale, censurabile. Vediamo se il ministro censura o no.
Renato Gelforte

24 Febbraio 2010 alle 00:05

Calma Calma Calma!
State facendo un gran casino per niente.

Punto Primo. Chiunque faccia siti sa come si possa disabilitare pagine e directory dall’indicizzazione dei crawler (siano essi di Google o di altri motori di ricerca.) Non è necessario leggersi le spiegazioni che da il Ministero dell’Innovazione nel suo documento pdf (Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca)! Basta leggersi le indicazioni che da Google stessa!
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412

Punto Secondo. Matt Cutts di Google, citato da Luca Bove due commenti più sopra, spiega a tutti coloro che usano robots.txt, il perché non sia sufficiente prevenire l’indicizzazione delle directories o dell’intero sito con il solo file robots.txt.
Chiunque sviluppi siti dovrebbe sapere che i criteri di indicizzazione dei motori non si basano solo sui risultati dei semplici crawler ma anche sulla pertinenza, sulla rilevanza, sulla referenzialità e su tante altre cose!
Matt Cutts usa esplicitamente nel video citato da Luca l’esempio del Governo della California. “Molti altri siti linkano a quel sito e noi non possiamo ignorarlo” afferma!

Conclusioni.
Nessuna conclusione affrettata! Solo ipotesi.
Ipotesi:
1) Hanno messo il disallow temporaneamente in attesa che l’intera faccenda si definisca meglio.
2) Hanno trovato forti resistenze da parte dei dipendenti pubblici! Quanti di voi hanno mai saputo il nome di un funzionario quando si sono recati di persona negli uffici pubblici pur vigendo una legge che li obbliga a portare un badge e a farsi riconoscere?
Figuriamoci ora che si vuole mostrare anche il loro cedolino.
pizzican

24 Febbraio 2010 alle 12:10

Sono molto d’accordo con Alberto Cottica. Il problema è perché impedire una indicizzazione automatica che faciliterebbe il riuso di quella informazione. C’è pure una direttiva europea sul riuso dell’informazione pubblica e ormai una diffusa tendenza a rendere disponibili in modo aperto i dati che la PA possiede. Oltre alla open declaration citata da Alberto, ci sono le iniziative su open data di US, New Zealand e altri.
romak

24 Febbraio 2010 alle 14:32

Grande!!!
Fabio

24 Febbraio 2010 alle 15:11

Non capisco alcuni discorsi: ha senso che un’amministrazione pubblica nasconda alcune cose? NO, IN ALCUN MODO!
Punto, il problema è tutto li.
Pingback: La via italiana alla trasparenza
Pingback: I furbetti della trasparenza | Homo sapiens
Pingback: Is transparency compatible with “robots.txt”? « Benchmarking e-government in web 2.0
Pingback: I furbetti della trasparenza « Blog del circolo online del PD “Barack Obama”
Bais

31 Marzo 2011 alle 15:27

Avete notato che ora hanno “Bloccato” ogni richiesta di robots.txt ?

Mi da un 404… su

Richiesta:

(Request-Line) GET /robots.txt HTTP/1.1

Host http://www.innovazionepa.gov.it
User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0) Gecko/20100101 Firefox/4.0

Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3

Accept-Encoding gzip, deflate

Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7

Keep-Alive 115

Proxy-Connection keep-alive

DNT 1

—————–

Risposta:

(Status-Line) HTTP/1.1 404 Not Found

Content-Type text/html

Server Microsoft-IIS/6.0

X-Powered-By ASP.NET

Date Thu, 31 Mar 2011 14:25:19 GMT

Content-Length 1635

Proxy-Connection Keep-Alive

Connection Keep-Alive

Age 0

——–
Bais

31 Marzo 2011 alle 15:34

Ho fatto un test “camuffandomi da googlebot” per vedere se almeno lui lo accettano:

Richiesta:
—–
(Request-Line) GET /robots.txt HTTP/1.1
Host http://www.innovazionepa.gov.it
User-Agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding gzip, deflate
Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive 115
Proxy-Connection keep-alive
DNT 1
—–

Risposta:
————–
(Status-Line) HTTP/1.1 404 Not Found
Content-Type text/html
Server Microsoft-IIS/6.0
X-Powered-By ASP.NET
Date Thu, 31 Mar 2011 14:31:54 GMT
Content-Length 1635
Proxy-Connection Keep-Alive
Connection Keep-Alive
Age 0
—————-

niente… se non c’e’ robots.txt si naviga ovunque quindi?
cibigibi

13 Aprile 2012 alle 14:05

Non solo, molti siti pubblicano sì i pdf dei documenti, ma solo come immagini in modo che il testo non venga indicizzato.
Marco

13 Aprile 2012 alle 15:15

Se erano intelligenti e volevano non far indicizzare le pagine dovevano usare i tag noindex e nofollow nelle pagine suddette :)
@lorello

13 Aprile 2012 alle 16:18

a me adesso il robots.txt si apre… significa che sono tornati a fare finta di nulla?
No perché se no mi levo il gusto di fare un mirror di tutti quei path e farli indicizzare a forza a google… ma ti pare che si possa farsi prendere in giro cosi'…
Pingback: I furbetti della trasparenza e del robottino! | VoIP and Hacking | Consulenza Documentazione
Pingback: Il futuro dei Social Network in una Public Company? « Giovanni Pola – mezzi di conversazione di massa
Pingback: Pubbliche Amministrazioni reticenti, ovvero "I furbetti della trasparenza" | Giorgio Jannis
Pingback: Pubbliche Amministrazioni reticenti, ovvero "I furbetti della trasparenza" | Giorgio Jannis
Pingback: Lettera al Presidente Mattarella – Anti Digital Divide

I commenti sono chiusi.

Altri articoli per te

47 commenti su “I furbetti della trasparenza e la manipolazione dei motori di ricerca”

Cookie Policy