X
    Categories: DirittiInternetItalia

I furbetti della trasparenza e la manipolazione dei motori di ricerca

Benvenuto nel blog di Vittorio Pasteris ! Se vuoi essere aggiornato sulle ultime notizie di questo blog seguimi via Twitter o via Facebook o via Google+ o Iscriviti al feed RSS

Raccomandare la trasparenza, ma evitare che qualsiasi informazione che deriva dalla sua attuazione sia indicizzata dai motori di ricerca. Questa è la morale – immorale della storia che state per leggere.

Di trasparenza se ne parla da tempo e il buon Brunetta ne ha fatto un suo cavallo di battaglia chiedendo che siano resi pubblici i dati relativi a  curriculum, stipendi, tassi di assenteismo dei dirigenti pubblici e molte altre cose. Una splendida ventata di civiltà per il nostro paese.

In particolare si cita

La legge n. 69 del 18 giugno 2009 (“Disposizioni per lo sviluppo economico, la semplificazione, la competitività nonché in materia di processo civile”) impone, all’art. 21, comma 1, che tutte le pubbliche amministrazioni debbano rendere note, attraverso i propri siti internet, alcune informazioni relative ai dirigenti (curriculum vitae, retribuzione, recapiti istituzionali) e i tassi di assenza e di presenza del personale, aggregati per ciascun ufficio dirigenziale.

Ma c’è qualcosa che non quadra. Nei giorni scorsi abbiamo ricevuto una segnalazione da un amico espertissimo di cose di rete che ci consigliava di dare una occhiata  al file robots.txt di molti siti di importanti enti pubblici. Come spiega bene Wikipedia robots.txt è un file creato dai gestori di un sito per imporre ai motori di ricerca, compreso ovviamente Google, delle restrizioni nella indicizzazione delle pagine del proprio sito.  Non è difficile capire la sua sintassi: se per esempio troviamo in robots.txt la direttiva

User-agent: *
Disallow: /pippo/

vuol dire che il gestore del sito comunica a tutti gli spider dei motori di ricerca di non leggere la cartella che si chiama pippo ed i suoi contenuti. Tutto chiaro ? Speriamo di sì, perchè ora dobbiamo vedere degli interessanti casi concreti.

Incominciamo proprio dal sito del ministero di Brunetta: arrivano le prime sorprese.

www.innovazione.gov.it/robots.txt

User-agent: *
Disallow:/operazionetrasparenza/

In pratica i gestori del sito non vogliono che i motori di ricerca indicizzino tutti i file  con i curricula dei dirigenti e le altre informazioni legate  alla trasparenza aministrativa. Per fare sempre un esempio. Se volete leggere i dati del capo del dipartimento dovete andate qui per scaricare il file pdf che si trova nella cartella che i motori di ricerca non debbono analizzare.
Una  inconguenza di fondo basata su un uso tecnicamente lecito, ma deontologicamente discutibile delle tecnologie di ricerca.

Questo dal punto di vista pratico che cosa vuol dire ? Se cercate su Google o su altri motori di ricerca informazioni su qualche dirigente usando nome o carica molto probabilmente non troverete praticamente nulla. Alla faccia della trasparenza !

Passiamo a un altro sito importante: quello del Governo.

www.governo.it/robots.txt è piuttosto elaborato, ma si apre  con un

User-agent: *
Disallow: /Presidenza/operazione_trasparenza/dirigenti/
Disallow: /Presidenza/operazione_trasparenza/consulenti/

Oramai avrete capito come funziona la cosa. Le sezioni nascoste ai motori riguardano curricula ed emolumenti dei dirigenti e
e consulenze ed incarichi della Presidenza del Consiglio. Nuovamente alla faccia della trasparenza vera, oltre le parole e gli intenti moralizzanti lanciati nei comunicati stampa

A questo punto abbiamo visitato tutti i siti dei ministeri scoprendo anche in questi casi delle manipolazioni

www.giustizia.it/robots.txt

User-agent: *
Disallow: /resources/cms/documents/cv_

oppure cose per lo meno curiose

www.mef.gov.it/robots.txt

User-agent: *
# Non voglio che i motori di ricerca ficchino
# il naso nella mia directory personale.

Siamo poi passati ai siti delle regioni e anche qui un evidente fuggi fuggi dai motori di ricerca delle pagine legate alla trasparenza

www.regione.lombardia.it/robots.txt

User-agent: *
Disallow: /

www.regione.piemonte.it/robots.txt

User-agent: *
Disallow: /boll_leggi/trasparenza/
Disallow: /boll_leggi/incarichi/

www.regione.liguria.it/robots.txt

User-agent: *
Disallow: /MenuSezione.asp?Parametri=1_1_2_2500_$1_1_2_2500_$Organigramma$1_1_2_2500_-1$dirigenti_giunta2009.htm$
Disallow: /MenuSezione.asp?Parametri=1_1_2_2538_$1_1_2_2538_$Organigramma$1_1_2_2538_-1$assenza_presenza_giunta2009.htm$
Disallow: /operazionetrasparenza/dirigenti_giunta2009/

Passiamo ora ai comuni importanti
www.comune.torino.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/

www.comune.firenze.it/robots.txt

User-Agent: *
Disallow: /opencms/export/sites/retecivica/materiali/trasparenza/

www.comune.bologna.it/robots.txt

User-agent: *
Disallow: /operazionetrasparenza/*

www.comune.ancona.it/robots.txt

User-agent: *
Disallow: /ankonline/Temi/Trasparenza/
Disallow: /ankonline/Temi/Incarichi/

www.comune.roma.it/robots.txt

User-agent: *
Disallow: /was/wps/portal/!ut/p/_s.7_0_A/7_0_DC5/

E ora a voi lettori trovare altri robots.txt:  parte una nuova moda: il robots watching …

Nel frattempo qualche amministratore pubblico dovrà dare delle spiegazioni.

E’ stato un passaparola fra tecnici o una precisa direttiva dal’alto per celare la trasparenza che in fondo fa tanta paura ?

UPDATE 1: nei commenti si segnala che è  lo stesso Ministero dell’Innovazione a spiegare con un documento pdf gli Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca

UPDATE 2; il file del sito della Regione Sardegna in effetti non disabilita l’accesso a pagine

www.regione.sardegna.it/robots.txt

User-agent:  *
Disallow:

UPDATE 3:
Letture utili a contorno

circolare Brunetta Pagina 3 – punto 3
http://www.innovazione.gov.it/ministro/pdf_home/circolare_5_09.pdf

Garante della privacy
http://www.garanteprivacy.it/garante/doc.jsp?ID=1639950

blog :

View Comments (32)

  • Sono in disaccordo con la posizione espressa da alcuni commentatori, come Stefano/The Catcher e Nereo. Mi occupo di web 2.0 e politiche pubbliche, e la maggior parte dei miei colleghi ritiene che una cosa sia trasparente non quando è in qualche modo accessibile, ma quando è accessibile FACILMENTE e IMMEDIATAMENTE, da macchine e non solo da umani, e quindi "remixabile" per permettere ai cittadini di riaggregarla. Questa è, per esempio, la posizione della Open declaration on European public services presentata alla conferenza di Malmo. Quindi il disallow è un atto poco trasparente, anche se c'è il pdf, anche se l'informazione è leggibile da un umano, e anche se esistono spider che ignorano robot.txt. E come tale, censurabile. Vediamo se il ministro censura o no.

  • Calma Calma Calma!
    State facendo un gran casino per niente.

    Punto Primo. Chiunque faccia siti sa come si possa disabilitare pagine e directory dall'indicizzazione dei crawler (siano essi di Google o di altri motori di ricerca.) Non è necessario leggersi le spiegazioni che da il Ministero dell’Innovazione nel suo documento pdf (Accorgimenti tecnici per impedire l’indicizzazione nei motori di ricerca)! Basta leggersi le indicazioni che da Google stessa!
    http://www.google.com/support/webmasters/bin/answer.py?hl=en&answer=156412

    Punto Secondo. Matt Cutts di Google, citato da Luca Bove due commenti più sopra, spiega a tutti coloro che usano robots.txt, il perché non sia sufficiente prevenire l'indicizzazione delle directories o dell'intero sito con il solo file robots.txt.
    Chiunque sviluppi siti dovrebbe sapere che i criteri di indicizzazione dei motori non si basano solo sui risultati dei semplici crawler ma anche sulla pertinenza, sulla rilevanza, sulla referenzialità e su tante altre cose!
    Matt Cutts usa esplicitamente nel video citato da Luca l'esempio del Governo della California. "Molti altri siti linkano a quel sito e noi non possiamo ignorarlo" afferma!

    Conclusioni.
    Nessuna conclusione affrettata! Solo ipotesi.
    Ipotesi:
    1) Hanno messo il disallow temporaneamente in attesa che l'intera faccenda si definisca meglio.
    2) Hanno trovato forti resistenze da parte dei dipendenti pubblici! Quanti di voi hanno mai saputo il nome di un funzionario quando si sono recati di persona negli uffici pubblici pur vigendo una legge che li obbliga a portare un badge e a farsi riconoscere?
    Figuriamoci ora che si vuole mostrare anche il loro cedolino.

  • Sono molto d'accordo con Alberto Cottica. Il problema è perché impedire una indicizzazione automatica che faciliterebbe il riuso di quella informazione. C'è pure una direttiva europea sul riuso dell'informazione pubblica e ormai una diffusa tendenza a rendere disponibili in modo aperto i dati che la PA possiede. Oltre alla open declaration citata da Alberto, ci sono le iniziative su open data di US, New Zealand e altri.

  • Non capisco alcuni discorsi: ha senso che un'amministrazione pubblica nasconda alcune cose? NO, IN ALCUN MODO!
    Punto, il problema è tutto li.

  • Avete notato che ora hanno "Bloccato" ogni richiesta di robots.txt ?

    Mi da un 404... su

    Richiesta:

    (Request-Line) GET /robots.txt HTTP/1.1

    Host http://www.innovazionepa.gov.it
    User-Agent Mozilla/5.0 (Windows NT 6.1; WOW64; rv:2.0) Gecko/20100101 Firefox/4.0

    Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8

    Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3

    Accept-Encoding gzip, deflate

    Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7

    Keep-Alive 115

    Proxy-Connection keep-alive

    DNT 1

    -----------------

    Risposta:

    (Status-Line) HTTP/1.1 404 Not Found

    Content-Type text/html

    Server Microsoft-IIS/6.0

    X-Powered-By ASP.NET

    Date Thu, 31 Mar 2011 14:25:19 GMT

    Content-Length 1635

    Proxy-Connection Keep-Alive

    Connection Keep-Alive

    Age 0

    --------

  • Ho fatto un test "camuffandomi da googlebot" per vedere se almeno lui lo accettano:

    Richiesta:
    -----
    (Request-Line) GET /robots.txt HTTP/1.1
    Host http://www.innovazionepa.gov.it
    User-Agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Accept text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language it-it,it;q=0.8,en-us;q=0.5,en;q=0.3
    Accept-Encoding gzip, deflate
    Accept-Charset ISO-8859-1,utf-8;q=0.7,*;q=0.7
    Keep-Alive 115
    Proxy-Connection keep-alive
    DNT 1
    -----

    Risposta:
    --------------
    (Status-Line) HTTP/1.1 404 Not Found
    Content-Type text/html
    Server Microsoft-IIS/6.0
    X-Powered-By ASP.NET
    Date Thu, 31 Mar 2011 14:31:54 GMT
    Content-Length 1635
    Proxy-Connection Keep-Alive
    Connection Keep-Alive
    Age 0
    ----------------

    niente... se non c'e' robots.txt si naviga ovunque quindi?

  • Non solo, molti siti pubblicano sì i pdf dei documenti, ma solo come immagini in modo che il testo non venga indicizzato.

  • Se erano intelligenti e volevano non far indicizzare le pagine dovevano usare i tag noindex e nofollow nelle pagine suddette :)

  • a me adesso il robots.txt si apre... significa che sono tornati a fare finta di nulla?
    No perché se no mi levo il gusto di fare un mirror di tutti quei path e farli indicizzare a forza a google... ma ti pare che si possa farsi prendere in giro cosi'...