I furbetti della trasparenza e la manipolazione dei motori di ricerca

Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere.

Di trasparenza se ne parla da tempo e il buon Brunetta ne ha fatto un suo cavallo di battaglia chiedendo che siano resi pubblici i dati relativi a  curriculum, stipendi, tassi di assenteismo dei dirigenti pubblici e molte altre cose. Una splendida ventata di civiltà per il nostro paese.

In particolare si cita

La legge n. 69 del 18 giugno 2009 (“Disposizioni per lo sviluppo economico, la semplificazione, la competitività nonché in materia di processo civile”) impone, all’art. 21, comma 1, che tutte le pubbliche amministrazioni debbano rendere note, attraverso i propri siti internet, alcune informazioni relative ai dirigenti (curriculum vitae, retribuzione, recapiti istituzionali) e i tassi di assenza e di presenza del personale, aggregati per ciascun ufficio dirigenziale.

Ma c’è qualcosa che non quadra. Nei giorni scorsi abbiamo ricevuto una segnalazione da un amico espertissimo di cose di rete che ci consigliava di dare una occhiata  al file robots.txt di molti siti di importanti enti pubblici. Come spiega bene Wikipedia robots.txt è un file creato dai gestori di un sito per imporre ai motori di ricerca, compreso ovviamente Google, delle restrizioni nella indicizzazione delle pagine del proprio sito.  Non è difficile capire la sua sintassi: se per esempio troviamo in robots.txt la direttiva

User-agent: *
Disallow: /pippo/

vuol dire che il gestore del sito comunica a tutti gli spider dei motori di ricerca di non leggere la cartella che si chiama pippo ed i suoi contenuti. Tutto chiaro ? Speriamo di sì, perchè ora dobbiamo vedere degli interessanti casi concreti.

Incominciamo proprio dal sito del ministero di Brunetta: arrivano le prime sorprese.

www.innovazione.gov.it/robots.txt

User-agent: *
Disallow:/operazionetrasparenza/

In pratica i gestori del sito non vogliono che i motori di ricerca indicizzino tutti i file  con i curricula dei dirigenti e le altre informazioni legate  alla trasparenza aministrativa. Per fare sempre un esempio. Se volete leggere i dati del capo del dipartimento dovete andate qui per scaricare il file pdf che si trova nella cartella che i motori di ricerca non debbono analizzare.
Una  inconguenza di fondo basata su un uso tecnicamente lecito, ma deontologicamente discutibile delle tecnologie di ricerca.

Questo dal punto di vista pratico che cosa vuol dire ? Se cercate su Google o su altri motori di ricerca informazioni su qualche dirigente usando nome o carica molto probabilmente non troverete praticamente nulla. Alla faccia della trasparenza !

Passiamo a un altro sito importante: quello del Governo.

www.governo.it/robots.txt è piuttosto elaborato, ma si apre  con un

User-agent: *
Disallow: /Presidenza/operazione_trasparenza/dirigenti/
Disallow: /Presidenza/operazione_trasparenza/consulenti/

Oramai avrete capito come funziona la cosa. Le sezioni nascoste ai motori riguardano curricula ed emolumenti dei dirigenti e
e consulenze ed incarichi della Presidenza del Consiglio. Nuovamente alla faccia della trasparenza vera, oltre le parole e gli intenti moralizzanti lanciati nei comunicati stampa

A questo punto abbiamo visitato tutti i siti dei ministeri scoprendo anche in questi casi delle manipolazioni

www.giustizia.it/robots.txt

User-agent: *
Disallow: /resources/cms/documents/cv_

oppure cose per lo meno curiose

www.mef.gov.it/robots.txt

User-agent: *
# Non voglio che i motori di ricerca ficchino
# il naso nella mia directory personale.

Siamo poi passati ai siti delle regioni e anche qui un evidente fuggi fuggi dai motori di ricerca delle pagine legate alla trasparenza

www.regione.lombardia.it/robots.txt

User-agent: *
Disallow: /

www.regione.piemonte.it/robots.txt

User-agent: *
Disallow: /boll_leggi/trasparenza/
Disallow: /boll_leggi/incarichi/

www.regione.liguria.it/robots.txt

User-agent: *
Disallow: /MenuSezione.asp?Parametri=1_1_2_2500_$1_1_2_2500_$Organigramma$1_1_2_2500_-1$dirigenti_giunta2009.htm$
Disallow: /MenuSezione.asp?Parametri=1_1_2_2538_$1_1_2_2538_$Organigramma$1_1_2_2538_-1$assenza_presenza_giunta2009.htm$
Disallow: /operazionetrasparenza/dirigenti_giunta2009/

Passiamo ora ai comuni importanti
www.comune.torino.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/

www.comune.firenze.it/robots.txt

User-Agent: *
Disallow: /opencms/export/sites/retecivica/materiali/trasparenza/

www.comune.bologna.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/*

www.comune.ancona.it/robots.txt

User-agent: *
Disallow: /ankonline/Temi/Trasparenza/
Disallow: /ankonline/Temi/Incarichi/

www.comune.roma.it/robots.txt

User-agent: *
Disallow: /was/wps/portal/!ut/p/_s.7_0_A/7_0_DC5/

E ora a voi lettori trovare altri robots.txt:  parte una nuova moda: il robots watching …

Nel frattempo qualche amministratore pubblico dovrà dare delle spiegazioni.

E’ stato un passaparola fra tecnici o una precisa direttiva dal’alto per celare la trasparenza che in fondo fa tanta paura ?

UPDATE 1: nei commenti si segnala che è  lo stesso Ministero dell’Innovazione a spiegare con un documento pdf gli Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca

UPDATE 2; il file del sito della Regione Sardegna in effetti non disabilita l’accesso a pagine

www.regione.sardegna.it/robots.txt

User-agent:  *
Disallow:

UPDATE 3:
Letture utili a contorno

circolare Brunetta Pagina 3 – punto 3
http://www.innovazione.gov.it/ministro/pdf_home/circolare_5_09.pdf

Garante della privacy
http://www.garanteprivacy.it/garante/doc.jsp?ID=1639950

47 commenti su “I furbetti della trasparenza e la manipolazione dei motori di ricerca”

  1. E soprattutto su che norma si basa la richiesta del ministero di impedire l’indicizzazione? Io non ho trovato riferimenti. Presumo che qualcuno si sia trovato su Google e non abbia gradito… sollecitando chi di dovere ad intervenire.

  2. Solo una nota curiosa: quello strano testo citato dal file robots.txt del sito http://www.mef.gov.it (“Non voglio che i motori di ricerca ficchino il naso nella mia directory personale.”) non è altro che un testo ripreso da una vecchissima guida italiana sul funzionamento dei motori di ricerca.

    Chi ha realizzato il file robots.txt per il sito http://www.mef.gov.it ha copia-e-incollato un esempio della guida mantenendo quella frase, come se fosse funzionale a qualcosa, quando in realtà era solo un commento che l’autore aveva usato per fini didattici. ;-)

    Segnalo anche che, contrariamente a quanto suggerito nel post, il robots.txt della regione Sardegna non blocca nulla, anzi dà via libera a tutti gli spider.

    Articolo molto interessante. Complimenti per l’indagine! :-)

  3. Se si riesce a coniugare la trasparenza (Gorbaciov?) in morale dall’alto
    e motori di ricerca il gozzoviglio orgiastico di eccesso di consenso e
    fiducia (religione?) si ha uno scenario ancora più inquietante.

  4. secondo voi, sarebbe deontologicamente corretto fare uno spider che non guardi il robots.txt e copi da qualche altra parte tutte queste directory?

  5. Probabilmente copiare i contenuti, sia pure pubblici, e riprodurli su un altro sito non è legale. Non credo si commetta un illecito se si crea una pagina in cui si riportano nomi e mansioni dei dirigenti in questioni con accanto il link al documento nascosto ai crawlers.
    E questa pagina avrebbe tutto il diritto di esistere e di essere indicizzata, aggirando in un certo senso il banale trucchetto usato da questi furbacchioni.

  6. la circolare del ministro dice di utilizzare i robots per un problema di privacy. Chiedete al garante il perchè di questa scelta e non al ministro ….. studiate e studiate prima di commentare in maniera non appropriata…………. pasteris questa volta hai fatto una bella figura!!! ah!!!!!!!! la prossima volta documentati sul perchè delle cose….. prima di pubblicarle…. !!!

  7. caro signor dipendente, le rispondo senza voler fare le difese di ufficio di Pasteris. Sarà colpa del garante della privacy, ma resta il fatto che allora tutta questa retorica sulla trasparenza si spegne nel nulla di fatto dimostrando che in questo paese la cosa pubblica non vuole essere trasparente, ma ad uso di chi la usa come cosa propria

  8. Approfitto dell’argomento per condividere una considerazione più profonda: come vedete leggendo questo post e i suoi commenti, siamo tutti dipendenti dalla ricerca come mediatore e la sostituiamo – come state facendo adesso – al fatto stesso che le informazioni esistano (!).
    Una sorta di “sono su Google quindi esisto”.

    In realtà anche se le pagine sono fuori dall’indice di Google sono rintracciabili navigando sul sito. Quindi le info ci sono, esistono e sarebbero raggiungibili.

    Non sto dando ragione a nessuno, solo vi spingo a una riflessione.

    PS: che senso avrebbe disindicizzare i contenuti per una norma sulla privacy se poi sono pubblicati sul sito comunque?
    In altre parole: esiste solo una privacy su Google (visto che i contenuti sono comunque pubblicati)? Quindi anche il garante è caduto nell’errore comune di dare diritto di esistenza solo a quello che finisce su G?

    Bah!

  9. Gli è che sui siti queste informazioni sono sì formalmente presenti, ma non indicizzate, seminascoste e dunque difficilmente accessibili a meno di non sapere già dove si trovino.

  10. Non esiste nessun problema di privacy come asserisce ‘dipendente’ – e tanto per intenderci io non solo studio queste cose ma le insegno. Le pagine esistono, certo Nereo, ma se non sono indicizzate, di fatto, non sono raggiungibili; è solo un modo per fingere trasparenza.

  11. @.mau.: per me seguire il robot.txt non ha alcun valore nemmeno morale, figuriamoci legale. Se una pagina o un documento è liberamente accessibile, allora deve essere indicizzabile. I motori di ricerca devono essere al servizio di chi fa ricerche, non di chi fa i siti.

    E comunque se estendiamo il discorso anche agli spider “personali” oltre a quelli dei motori di ricerca, ne conosco almeno un paio che hanno un’opzione per ignorare robots.txt. Ad esempio httrack (http://www.httrack.com/).

  12. Bè egregio Pasteris, da informatico e ricercatore del settore devo segnalarle che ci sono milioni di blocchi di informazioni, accorgimenti e permessi assegnati (grant) o negati (disallowed) in informatica sui siti e sui sistemi. Provi ad informarsi sui criteri di classificazione di certi siti che si pregiano di metrizzare (classificare) i siti blog. Non li otterrà.

    Si sta agitando in un bicchiere d’acqua mi pare. La pagina sarà leggibile dalle persone, anyway. Che non sono robot. Lei l’ha letta no? Poi parliamoci chiaro, la burocrazia poi di oggi e di sempre le regole le applica mai a favore del cittadino?

    Io mi preoccupo di più di una amministrazione che è altro che trasparente: è inesistente.

  13. Beh in realtà anche GOOGLE oramai ignora il file robots.txt ….
    Basta che qualcuno linki quei file e Google Ignora beatamente quanto scritto nel robots.txt
    Ecco il video del Vescovo di Google che illustra come il robots.txt sia scavalcato dal motore di ricerca: http://www.youtube.com/watch?v=KBdEwpRQRD0
    I tecnici del ministero non sono aggiornato. Brunetta falli aggiornare o rivolgiti a professionisti

  14. Luca, ti ricordo pubblicamente che per ogni citazione della parola “Vescovo” al posto di “Matt Cutts” dovresti pagare royalties (non di sicuro a me!) :-D

  15. Luca Bove “Basta che qualcuno linki quei file e Google Ignora beatamente quanto scritto nel robots.txt” Me lo può spiegare?Comunque… mi sono imbattuta casualmente in un “buon esempio”, quello dell’IFO di Roma : l’operazione trasparenza è messa in rilievo sulla home page.

  16. Sono in disaccordo con la posizione espressa da alcuni commentatori, come Stefano/The Catcher e Nereo. Mi occupo di web 2.0 e politiche pubbliche, e la maggior parte dei miei colleghi ritiene che una cosa sia trasparente non quando è in qualche modo accessibile, ma quando è accessibile FACILMENTE e IMMEDIATAMENTE, da macchine e non solo da umani, e quindi “remixabile” per permettere ai cittadini di riaggregarla. Questa è, per esempio, la posizione della Open declaration on European public services presentata alla conferenza di Malmo. Quindi il disallow è un atto poco trasparente, anche se c’è il pdf, anche se l’informazione è leggibile da un umano, e anche se esistono spider che ignorano robot.txt. E come tale, censurabile. Vediamo se il ministro censura o no.

  17. Calma Calma Calma!
    State facendo un gran casino per niente.

    Punto Primo. Chiunque faccia siti sa come si possa disabilitare pagine e directory dall’indicizzazione dei crawler (siano essi di Google o di altri motori di ricerca.) Non è necessario leggersi le spiegazioni che da il Ministero dell’Innovazione nel suo documento pdf (Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca)! Basta leggersi le indicazioni che da Google stessa!
    http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412

    Punto Secondo. Matt Cutts di Google, citato da Luca Bove due commenti più sopra, spiega a tutti coloro che usano robots.txt, il perché non sia sufficiente prevenire l’indicizzazione delle directories o dell’intero sito con il solo file robots.txt.
    Chiunque sviluppi siti dovrebbe sapere che i criteri di indicizzazione dei motori non si basano solo sui risultati dei semplici crawler ma anche sulla pertinenza, sulla rilevanza, sulla referenzialità e su tante altre cose!
    Matt Cutts usa esplicitamente nel video citato da Luca l’esempio del Governo della California. “Molti altri siti linkano a quel sito e noi non possiamo ignorarlo” afferma!

    Conclusioni.
    Nessuna conclusione affrettata! Solo ipotesi.
    Ipotesi:
    1) Hanno messo il disallow temporaneamente in attesa che l’intera faccenda si definisca meglio.
    2) Hanno trovato forti resistenze da parte dei dipendenti pubblici! Quanti di voi hanno mai saputo il nome di un funzionario quando si sono recati di persona negli uffici pubblici pur vigendo una legge che li obbliga a portare un badge e a farsi riconoscere?
    Figuriamoci ora che si vuole mostrare anche il loro cedolino.

  18. Sono molto d’accordo con Alberto Cottica. Il problema è perché impedire una indicizzazione automatica che faciliterebbe il riuso di quella informazione. C’è pure una direttiva europea sul riuso dell’informazione pubblica e ormai una diffusa tendenza a rendere disponibili in modo aperto i dati che la PA possiede. Oltre alla open declaration citata da Alberto, ci sono le iniziative su open data di US, New Zealand e altri.

  19. Non capisco alcuni discorsi: ha senso che un’amministrazione pubblica nasconda alcune cose? NO, IN ALCUN MODO!
    Punto, il problema è tutto li.

  20. Avete notato che ora hanno “Bloccato” ogni richiesta di robots.txt ?

    Mi da un 404… su

    Richiesta:

    (Request-Line) GET /robots.txt HTTP/1.1

    Host http://www.innovazionepa.gov.it
    User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0) Gecko/20100101 Firefox/4.0

    Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

    Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3

    Accept-Encoding gzip, deflate

    Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7

    Keep-Alive 115

    Proxy-Connection keep-alive

    DNT 1

    —————–

    Risposta:

    (Status-Line) HTTP/1.1 404 Not Found

    Content-Type text/html

    Server Microsoft-IIS/6.0

    X-Powered-By ASP.NET

    Date Thu, 31 Mar 2011 14:25:19 GMT

    Content-Length 1635

    Proxy-Connection Keep-Alive

    Connection Keep-Alive

    Age 0

    ——–

  21. Ho fatto un test “camuffandomi da googlebot” per vedere se almeno lui lo accettano:

    Richiesta:
    —–
    (Request-Line) GET /robots.txt HTTP/1.1
    Host http://www.innovazionepa.gov.it
    User-Agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3
    Accept-Encoding gzip, deflate
    Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7
    Keep-Alive 115
    Proxy-Connection keep-alive
    DNT 1
    —–

    Risposta:
    ————–
    (Status-Line) HTTP/1.1 404 Not Found
    Content-Type text/html
    Server Microsoft-IIS/6.0
    X-Powered-By ASP.NET
    Date Thu, 31 Mar 2011 14:31:54 GMT
    Content-Length 1635
    Proxy-Connection Keep-Alive
    Connection Keep-Alive
    Age 0
    —————-

    niente… se non c’e’ robots.txt si naviga ovunque quindi?

  22. Non solo, molti siti pubblicano sì i pdf dei documenti, ma solo come immagini in modo che il testo non venga indicizzato.

  23. Se erano intelligenti e volevano non far indicizzare le pagine dovevano usare i tag noindex e nofollow nelle pagine suddette :)

  24. a me adesso il robots.txt si apre… significa che sono tornati a fare finta di nulla?
    No perché se no mi levo il gusto di fare un mirror di tutti quei path e farli indicizzare a forza a google… ma ti pare che si possa farsi prendere in giro cosi'…

I commenti sono chiusi.