I furbetti della trasparenza e la manipolazione dei motori di ricerca
Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere.
Di trasparenza se ne parla da tempo e il buon Brunetta ne ha fatto un suo cavallo di battaglia chiedendo che siano resi pubblici i dati relativi a curriculum, stipendi, tassi di assenteismo dei dirigenti pubblici e molte altre cose. Una splendida ventata di civiltà per il nostro paese.
In particolare si cita
La legge n. 69 del 18 giugno 2009 (“Disposizioni per lo sviluppo economico, la semplificazione, la competitività nonché in materia di processo civile”) impone, all’art. 21, comma 1, che tutte le pubbliche amministrazioni debbano rendere note, attraverso i propri siti internet, alcune informazioni relative ai dirigenti (curriculum vitae, retribuzione, recapiti istituzionali) e i tassi di assenza e di presenza del personale, aggregati per ciascun ufficio dirigenziale.
Ma c’è qualcosa che non quadra. Nei giorni scorsi abbiamo ricevuto una segnalazione da un amico espertissimo di cose di rete che ci consigliava di dare una occhiata al file robots.txt di molti siti di importanti enti pubblici. Come spiega bene Wikipedia robots.txt è un file creato dai gestori di un sito per imporre ai motori di ricerca, compreso ovviamente Google, delle restrizioni nella indicizzazione delle pagine del proprio sito. Non è difficile capire la sua sintassi: se per esempio troviamo in robots.txt la direttiva
User-agent: * Disallow: /pippo/
vuol dire che il gestore del sito comunica a tutti gli spider dei motori di ricerca di non leggere la cartella che si chiama pippo ed i suoi contenuti. Tutto chiaro ? Speriamo di sì, perchè ora dobbiamo vedere degli interessanti casi concreti.
Incominciamo proprio dal sito del ministero di Brunetta: arrivano le prime sorprese.
www.innovazione.gov.it/robots.txt
User-agent: * Disallow:/operazionetrasparenza/
In pratica i gestori del sito non vogliono che i motori di ricerca indicizzino tutti i file con i curricula dei dirigenti e le altre informazioni legate alla trasparenza aministrativa. Per fare sempre un esempio. Se volete leggere i dati del capo del dipartimento dovete andate qui per scaricare il file pdf che si trova nella cartella che i motori di ricerca non debbono analizzare.
Una inconguenza di fondo basata su un uso tecnicamente lecito, ma deontologicamente discutibile delle tecnologie di ricerca.
Questo dal punto di vista pratico che cosa vuol dire ? Se cercate su Google o su altri motori di ricerca informazioni su qualche dirigente usando nome o carica molto probabilmente non troverete praticamente nulla. Alla faccia della trasparenza !
Passiamo a un altro sito importante: quello del Governo.
www.governo.it/robots.txt è piuttosto elaborato, ma si apre con un
User-agent: * Disallow: /Presidenza/operazione_trasparenza/dirigenti/ Disallow: /Presidenza/operazione_trasparenza/consulenti/
Oramai avrete capito come funziona la cosa. Le sezioni nascoste ai motori riguardano curricula ed emolumenti dei dirigenti e
e consulenze ed incarichi della Presidenza del Consiglio. Nuovamente alla faccia della trasparenza vera, oltre le parole e gli intenti moralizzanti lanciati nei comunicati stampa
A questo punto abbiamo visitato tutti i siti dei ministeri scoprendo anche in questi casi delle manipolazioni
User-agent: * Disallow: /resources/cms/documents/cv_
oppure cose per lo meno curiose
User-agent: * # Non voglio che i motori di ricerca ficchino # il naso nella mia directory personale.
Siamo poi passati ai siti delle regioni e anche qui un evidente fuggi fuggi dai motori di ricerca delle pagine legate alla trasparenza
www.regione.lombardia.it/robots.txt
User-agent: * Disallow: /
www.regione.piemonte.it/robots.txt
User-agent: * Disallow: /boll_leggi/trasparenza/ Disallow: /boll_leggi/incarichi/
www.regione.liguria.it/robots.txt
User-agent: * Disallow: /MenuSezione.asp?Parametri=1_1_2_2500_$1_1_2_2500_$Organigramma$1_1_2_2500_-1$dirigenti_giunta2009.htm$ Disallow: /MenuSezione.asp?Parametri=1_1_2_2538_$1_1_2_2538_$Organigramma$1_1_2_2538_-1$assenza_presenza_giunta2009.htm$ Disallow: /operazionetrasparenza/dirigenti_giunta2009/
Passiamo ora ai comuni importanti
www.comune.torino.it/robots.txt
User-agent: * Disallow: /operazionetrasparenza/
www.comune.firenze.it/robots.txt
User-Agent: * Disallow: /opencms/export/sites/retecivica/materiali/trasparenza/
www.comune.bologna.it/robots.txt
User-agent: * Disallow: /operazionetrasparenza/*
www.comune.ancona.it/robots.txt
User-agent: * Disallow: /ankonline/Temi/Trasparenza/ Disallow: /ankonline/Temi/Incarichi/
User-agent: * Disallow: /was/wps/portal/!ut/p/_s.7_0_A/7_0_DC5/
E ora a voi lettori trovare altri robots.txt: parte una nuova moda: il robots watching …
Nel frattempo qualche amministratore pubblico dovrà dare delle spiegazioni.
E’ stato un passaparola fra tecnici o una precisa direttiva dal’alto per celare la trasparenza che in fondo fa tanta paura ?
UPDATE 1: nei commenti si segnala che è lo stesso Ministero dell’Innovazione a spiegare con un documento pdf gli Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca
UPDATE 2; il file del sito della Regione Sardegna in effetti non disabilita l’accesso a pagine
www.regione.sardegna.it/robots.txt
User-agent: * Disallow:
UPDATE 3:
Letture utili a contorno
circolare Brunetta Pagina 3 – punto 3
http://www.innovazione.gov.it/ministro/pdf_home/circolare_5_09.pdf
Garante della privacy
http://www.garanteprivacy.it/garante/doc.jsp?ID=1639950
Tag:Internet, italia, trasparenza
Commenti
Comment from blog
Data e ora : 18 febbraio 2010, 16:31
grazie per la segnalazione: e allora ch serve metterli in rete ? E perche qualcuno li cela e altri no ?
Comment from massimo
Data e ora : 18 febbraio 2010, 20:45
E soprattutto su che norma si basa la richiesta del ministero di impedire l’indicizzazione? Io non ho trovato riferimenti. Presumo che qualcuno si sia trovato su Google e non abbia gradito… sollecitando chi di dovere ad intervenire.
Comment from Enrico
Data e ora : 19 febbraio 2010, 01:38
Solo una nota curiosa: quello strano testo citato dal file robots.txt del sito http://www.mef.gov.it (“Non voglio che i motori di ricerca ficchino il naso nella mia directory personale.”) non è altro che un testo ripreso da una vecchissima guida italiana sul funzionamento dei motori di ricerca.
Chi ha realizzato il file robots.txt per il sito http://www.mef.gov.it ha copia-e-incollato un esempio della guida mantenendo quella frase, come se fosse funzionale a qualcosa, quando in realtà era solo un commento che l’autore aveva usato per fini didattici. ;-)
Segnalo anche che, contrariamente a quanto suggerito nel post, il robots.txt della regione Sardegna non blocca nulla, anzi dà via libera a tutti gli spider.
Articolo molto interessante. Complimenti per l’indagine! :-)
Comment from mogol_gr
Data e ora : 19 febbraio 2010, 02:45
Se si riesce a coniugare la trasparenza (Gorbaciov?) in morale dall’alto
e motori di ricerca il gozzoviglio orgiastico di eccesso di consenso e
fiducia (religione?) si ha uno scenario ancora più inquietante.
Comment from marcello
Data e ora : 19 febbraio 2010, 08:48
notevole questo del sito unito
http://www.unito.it/robots.txt
che nasconde scientificamente gli emolumenti dei dirigenti
Comment from .mau.
Data e ora : 19 febbraio 2010, 17:06
secondo voi, sarebbe deontologicamente corretto fare uno spider che non guardi il robots.txt e copi da qualche altra parte tutte queste directory?
Comment from blog
Data e ora : 19 febbraio 2010, 17:13
Buona idea !
Pingback from Breaking Zen: il blog di Zeno Tomiolo » Brunetta e i furbetti della trasparenza
Data e ora : 19 febbraio 2010, 17:24
[...] Vittorio conduce una ricerca sulla tanto sbandierata, quanto meritevole, riforma Brunetta sulla trasparenza nelle PA, e scopre che le pagine dove sono presenti queste informazioni sono invisibili ai motori di ricerca, che poi sono il principale modo con cui le persone accedono all’informazione.In Italia, si fa cosi’: si mantengono onorevolmente le promesse, ma poi si fa in modo di nascondere la polvere sotto il tappeto di un codice html, per chiudere gli occhi e continuare a fingere di cambiare. Dal Paese del Gattopardo, non ci si puo’ aspettare che questo.Lo si legga e si diffonda. Per metodologia e rigore c’e’ molto da imparare e soprattutto fa capire che non serve il tema sensazionalistico, il grande personaggio o la soffiata per fare del buon giornalismo. Grazie Vittorio. [...]
Comment from Folletto Malefico
Data e ora : 19 febbraio 2010, 17:53
Quindi… possiamo leggere i robots.txt per localizzare rapidamente quei dati con uno spider ad-hoc, no? :)
Pingback from Attenti al leopardo – manteblog
Data e ora : 19 febbraio 2010, 18:45
[...] che le pagine che li contengono sono state tenute lontane dai motori di ricerca. Se ne è accorto Vittorio Pasteris e ne parla con anche .mau. con una meravigliosa citazione da Douglas Adams: – Ma i piani erano ben [...]
Comment from Pasquale
Data e ora : 19 febbraio 2010, 19:11
Probabilmente copiare i contenuti, sia pure pubblici, e riprodurli su un altro sito non è legale. Non credo si commetta un illecito se si crea una pagina in cui si riportano nomi e mansioni dei dirigenti in questioni con accanto il link al documento nascosto ai crawlers.
E questa pagina avrebbe tutto il diritto di esistere e di essere indicizzata, aggirando in un certo senso il banale trucchetto usato da questi furbacchioni.
Comment from Giu
Data e ora : 19 febbraio 2010, 19:36
Vergogna.
Grazie per suo post.
Comment from dipendente
Data e ora : 19 febbraio 2010, 23:00
la circolare del ministro dice di utilizzare i robots per un problema di privacy. Chiedete al garante il perchè di questa scelta e non al ministro ….. studiate e studiate prima di commentare in maniera non appropriata…………. pasteris questa volta hai fatto una bella figura!!! ah!!!!!!!! la prossima volta documentati sul perchè delle cose….. prima di pubblicarle…. !!!
Comment from roberto flan
Data e ora : 19 febbraio 2010, 23:42
caro signor dipendente, le rispondo senza voler fare le difese di ufficio di Pasteris. Sarà colpa del garante della privacy, ma resta il fatto che allora tutta questa retorica sulla trasparenza si spegne nel nulla di fatto dimostrando che in questo paese la cosa pubblica non vuole essere trasparente, ma ad uso di chi la usa come cosa propria
Pingback from We are the robots | Gery Palazzotto
Data e ora : 20 febbraio 2010, 00:12
[...] giorno, dopo aver letto questo post, mi è venuta la curiosità di andare a sbirciare in giro tra i file robots.txt di vari siti. [...]
Comment from enrico
Data e ora : 20 febbraio 2010, 01:01
Dio, ma in che paese viviamo?
Pingback from links for 2010-02-19
Data e ora : 20 febbraio 2010, 06:03
[...] I furbetti della trasparenza e la manipolazione dei motori di ricerca Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere. [...]
Comment from Nereo
Data e ora : 20 febbraio 2010, 11:04
Approfitto dell’argomento per condividere una considerazione più profonda: come vedete leggendo questo post e i suoi commenti, siamo tutti dipendenti dalla ricerca come mediatore e la sostituiamo – come state facendo adesso – al fatto stesso che le informazioni esistano (!).
Una sorta di “sono su Google quindi esisto”.
In realtà anche se le pagine sono fuori dall’indice di Google sono rintracciabili navigando sul sito. Quindi le info ci sono, esistono e sarebbero raggiungibili.
Non sto dando ragione a nessuno, solo vi spingo a una riflessione.
PS: che senso avrebbe disindicizzare i contenuti per una norma sulla privacy se poi sono pubblicati sul sito comunque?
In altre parole: esiste solo una privacy su Google (visto che i contenuti sono comunque pubblicati)? Quindi anche il garante è caduto nell’errore comune di dare diritto di esistenza solo a quello che finisce su G?
Bah!
Comment from Peter Knurd
Data e ora : 20 febbraio 2010, 13:31
Gli è che sui siti queste informazioni sono sì formalmente presenti, ma non indicizzate, seminascoste e dunque difficilmente accessibili a meno di non sapere già dove si trovino.
Comment from AlbertoR
Data e ora : 20 febbraio 2010, 18:23
Non esiste nessun problema di privacy come asserisce ‘dipendente’ – e tanto per intenderci io non solo studio queste cose ma le insegno. Le pagine esistono, certo Nereo, ma se non sono indicizzate, di fatto, non sono raggiungibili; è solo un modo per fingere trasparenza.
Comment from Larry
Data e ora : 20 febbraio 2010, 20:22
@.mau.: per me seguire il robot.txt non ha alcun valore nemmeno morale, figuriamoci legale. Se una pagina o un documento è liberamente accessibile, allora deve essere indicizzabile. I motori di ricerca devono essere al servizio di chi fa ricerche, non di chi fa i siti.
E comunque se estendiamo il discorso anche agli spider “personali” oltre a quelli dei motori di ricerca, ne conosco almeno un paio che hanno un’opzione per ignorare robots.txt. Ad esempio httrack (http://www.httrack.com/).
Pingback from Linkati da leggere…per chi ne ha voglia
Data e ora : 21 febbraio 2010, 00:03
[...] furbetti della trasparenza e i manipolatori dei motori di ricerca” sul blog ParoleFattiPensieri Tags: [...]
Comment from Stefano / The Catcher
Data e ora : 21 febbraio 2010, 11:57
Bè egregio Pasteris, da informatico e ricercatore del settore devo segnalarle che ci sono milioni di blocchi di informazioni, accorgimenti e permessi assegnati (grant) o negati (disallowed) in informatica sui siti e sui sistemi. Provi ad informarsi sui criteri di classificazione di certi siti che si pregiano di metrizzare (classificare) i siti blog. Non li otterrà.
Si sta agitando in un bicchiere d’acqua mi pare. La pagina sarà leggibile dalle persone, anyway. Che non sono robot. Lei l’ha letta no? Poi parliamoci chiaro, la burocrazia poi di oggi e di sempre le regole le applica mai a favore del cittadino?
Io mi preoccupo di più di una amministrazione che è altro che trasparente: è inesistente.
Pingback from Del diritto di esistere di una informazione
Data e ora : 22 febbraio 2010, 15:16
[...] Tutto parte da un post di Vittorio Pasteris intitolato “I furbetti della trasparenza e la manipolazione dei motori di ricerca“. [...]
Comment from Luca Bove
Data e ora : 22 febbraio 2010, 15:56
Beh in realtà anche GOOGLE oramai ignora il file robots.txt ….
Basta che qualcuno linki quei file e Google Ignora beatamente quanto scritto nel robots.txt
Ecco il video del Vescovo di Google che illustra come il robots.txt sia scavalcato dal motore di ricerca: http://www.youtube.com/watch?v=KBdEwpRQRD0
I tecnici del ministero non sono aggiornato. Brunetta falli aggiornare o rivolgiti a professionisti
Comment from Nereo
Data e ora : 22 febbraio 2010, 18:57
Luca, ti ricordo pubblicamente che per ogni citazione della parola “Vescovo” al posto di “Matt Cutts” dovresti pagare royalties (non di sicuro a me!) :-D
Comment from Carla Crivello
Data e ora : 22 febbraio 2010, 22:39
Luca Bove “Basta che qualcuno linki quei file e Google Ignora beatamente quanto scritto nel robots.txt” Me lo può spiegare?Comunque… mi sono imbattuta casualmente in un “buon esempio”, quello dell’IFO di Roma : l’operazione trasparenza è messa in rilievo sulla home page.
Comment from Alberto Cottica
Data e ora : 23 febbraio 2010, 19:26
Sono in disaccordo con la posizione espressa da alcuni commentatori, come Stefano/The Catcher e Nereo. Mi occupo di web 2.0 e politiche pubbliche, e la maggior parte dei miei colleghi ritiene che una cosa sia trasparente non quando è in qualche modo accessibile, ma quando è accessibile FACILMENTE e IMMEDIATAMENTE, da macchine e non solo da umani, e quindi “remixabile” per permettere ai cittadini di riaggregarla. Questa è, per esempio, la posizione della Open declaration on European public services presentata alla conferenza di Malmo. Quindi il disallow è un atto poco trasparente, anche se c’è il pdf, anche se l’informazione è leggibile da un umano, e anche se esistono spider che ignorano robot.txt. E come tale, censurabile. Vediamo se il ministro censura o no.
Comment from Renato Gelforte
Data e ora : 24 febbraio 2010, 00:05
Calma Calma Calma!
State facendo un gran casino per niente.
Punto Primo. Chiunque faccia siti sa come si possa disabilitare pagine e directory dall’indicizzazione dei crawler (siano essi di Google o di altri motori di ricerca.) Non è necessario leggersi le spiegazioni che da il Ministero dell’Innovazione nel suo documento pdf (Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca)! Basta leggersi le indicazioni che da Google stessa!
http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412
Punto Secondo. Matt Cutts di Google, citato da Luca Bove due commenti più sopra, spiega a tutti coloro che usano robots.txt, il perché non sia sufficiente prevenire l’indicizzazione delle directories o dell’intero sito con il solo file robots.txt.
Chiunque sviluppi siti dovrebbe sapere che i criteri di indicizzazione dei motori non si basano solo sui risultati dei semplici crawler ma anche sulla pertinenza, sulla rilevanza, sulla referenzialità e su tante altre cose!
Matt Cutts usa esplicitamente nel video citato da Luca l’esempio del Governo della California. “Molti altri siti linkano a quel sito e noi non possiamo ignorarlo” afferma!
Conclusioni.
Nessuna conclusione affrettata! Solo ipotesi.
Ipotesi:
1) Hanno messo il disallow temporaneamente in attesa che l’intera faccenda si definisca meglio.
2) Hanno trovato forti resistenze da parte dei dipendenti pubblici! Quanti di voi hanno mai saputo il nome di un funzionario quando si sono recati di persona negli uffici pubblici pur vigendo una legge che li obbliga a portare un badge e a farsi riconoscere?
Figuriamoci ora che si vuole mostrare anche il loro cedolino.
Comment from pizzican
Data e ora : 24 febbraio 2010, 12:10
Sono molto d’accordo con Alberto Cottica. Il problema è perché impedire una indicizzazione automatica che faciliterebbe il riuso di quella informazione. C’è pure una direttiva europea sul riuso dell’informazione pubblica e ormai una diffusa tendenza a rendere disponibili in modo aperto i dati che la PA possiede. Oltre alla open declaration citata da Alberto, ci sono le iniziative su open data di US, New Zealand e altri.
Comment from romak
Data e ora : 24 febbraio 2010, 14:32
Grande!!!
Comment from Fabio
Data e ora : 24 febbraio 2010, 15:11
Non capisco alcuni discorsi: ha senso che un’amministrazione pubblica nasconda alcune cose? NO, IN ALCUN MODO!
Punto, il problema è tutto li.
Pingback from La via italiana alla trasparenza
Data e ora : 24 febbraio 2010, 19:56
[...] Beh, Vittorio Pasteris è andato a leggere sui vari siti i file robots.txt che governano l’esclusione e ha scoperto esclusioni molto interessanti. [...]
Pingback from I furbetti della trasparenza | Homo sapiens
Data e ora : 27 febbraio 2010, 11:18
[...] Fatta la legge, trovato l’inganno Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere. [...]
Pingback from Is transparency compatible with “robots.txt”? « Benchmarking e-government in web 2.0
Data e ora : 27 febbraio 2010, 19:21
[...] transparency compatible with “robots.txt”? Alberto pointed me to a great piece of news, again from Italy.THE CONTEXTThe Italian government launched some time ago a “transparency [...]
Pingback from I furbetti della trasparenza « Blog del circolo online del PD “Barack Obama”
Data e ora : 21 marzo 2010, 11:13
[...] Pasteris ha fatto una ricerchina e ha scoperto una cosa molto interessante, che potete leggere da lui. In effetti, se uno entra nei siti istituzionali a partire da quello del mininistro, le [...]
Comment from Bais
Data e ora : 31 marzo 2011, 15:27
Avete notato che ora hanno “Bloccato” ogni richiesta di robots.txt ?
Mi da un 404… su
Richiesta:
(Request-Line) GET /robots.txt HTTP/1.1
Host http://www.innovazionepa.gov.it
User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0) Gecko/20100101 Firefox/4.0
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding gzip, deflate
Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive 115
Proxy-Connection keep-alive
DNT 1
—————–
Risposta:
(Status-Line) HTTP/1.1 404 Not Found
Content-Type text/html
Server Microsoft-IIS/6.0
X-Powered-By ASP.NET
Date Thu, 31 Mar 2011 14:25:19 GMT
Content-Length 1635
Proxy-Connection Keep-Alive
Connection Keep-Alive
Age 0
——–
Comment from Bais
Data e ora : 31 marzo 2011, 15:34
Ho fatto un test “camuffandomi da googlebot” per vedere se almeno lui lo accettano:
Richiesta:
—–
(Request-Line) GET /robots.txt HTTP/1.1
Host http://www.innovazionepa.gov.it
User-Agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3
Accept-Encoding gzip, deflate
Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7
Keep-Alive 115
Proxy-Connection keep-alive
DNT 1
—–
Risposta:
————–
(Status-Line) HTTP/1.1 404 Not Found
Content-Type text/html
Server Microsoft-IIS/6.0
X-Powered-By ASP.NET
Date Thu, 31 Mar 2011 14:31:54 GMT
Content-Length 1635
Proxy-Connection Keep-Alive
Connection Keep-Alive
Age 0
—————-
niente… se non c’e’ robots.txt si naviga ovunque quindi?
18 febbraio, 2010






















Comment from Fabrizio T.
Data e ora : 18 febbraio 2010, 16:21
Direi direttiva/suggerimento dall’alto, nel sito del ministero nella pagina dedicata all’operazione trasparenza http://www.innovazione.gov.it/dirigenti2009/index.htm c’è un link ad un documento che spiega proprio come usare il robots.txt per impedire l’indicizzazione