Nasce InsulaR, la comunità cagliaritana di utilizzatori di R.

insularÈ nata da poche settimane InsulaR, la comunità cagliaritana deidicata a  “R”, il famoso e potentissimo software libero per la realizzazione di analisi statistiche. Sulle pagine di questo blog ospitiamo uno dei primi post scritti da uno dei i fondatori di InsulaR e nostro collaboratore in diverse iniziative,  Davide Massidda che ci spiega lo stretto rapporto, necessario ma non ancora concreto, tra open data e scienza .

La scienza oggi: molti “data” poco “open”

Quando si parla di “open data” ci si riferisce a una pratica di condivisione dei dati che ne consenta il libero accesso, in maniera semplice, veloce e senza limitazioni. Il detentore dei dati rilascia gli stessi in modo tale da poter essere rielaborati liberamente da chiunque così da poter essere riutilizzati per altri scopi, e quindi generare nuove conoscenze ed aprire nuove strade di sviluppo sociale ed economico.

L’idea che sta alla base del fenomeno è che i dati in possesso di pubbliche amministrazioni, enti e centri di ricerca, sono stati prodotti con i soldi dei contribuenti, e a questi andrebbero resi. Ciò consentirebbe ai cittadini sia di creare dei nuovi prodotti basati sui dati, sia di controllare l’operato di chi li governa.

Parlando di open data è molto comune imbattersi in tematiche inerenti politiche amministrative, economiche, sociali e, in misura minore, sanitarie. Ma decisamente più difficile è invece sentir parlare di open data in campo scientifico. La cosa suona quantomeno strana, visto che le comunità scientifiche hanno alle spalle ormai diversi secoli di esperienza nella produzione e nell’utilizzo dei dati. È veramente cosa rara trovare, insieme a una pubblicazione scientifica, la tabella di dati sulla base dei quali è stato impostato il lavoro.

Eppure, anche sulla pagina di Wikipedia dedicata all’open data, viene ripetutamente sottolineato l’importante ruolo che la divulgazione dei dati può svolgere nel rendere più efficace il processo scientifico e nell’accelerare le scoperte scientifiche.

Ma perché un ricercatore dovrebbe pubblicare i dati dei proprio studi?

1. Per garantire la trasparenza del proprio operato

Chi conosce il concetto di open data sa bene come questo sia strettamente connesso a quello di trasparenza. E la trasparenza è anche un punto chiave della divulgazione scientifica. Ogni articolo scientifico che presenta una ricerca basata sui dati deve descrivere in maniera rigorosa e dettagliata tutto il protocollo di ricerca, dagli strumenti utilizzati ai metodi di raccolta dei dati, fino ai risultati. Non sonomancati – e purtroppo continueranno a non mancare – casi di frode scientifica, in cui ricercatori in malafede hanno distorto o generato artificialmente i dati per ottenere dei risultati che non rispecchiano il reale comportamento del fenomeno sotto analisi.

Ma il metodo scientifico ha già in sé gli anticorpi per combattere questo genere di fenomeni: se altri ricercatori non riescono a replicare gli stessi risultati, allora questi saranno rifiutati. Quindi, se gli studi “truffaldini” possono già essere individuati dalla prassi scientifica, a cosa serve pubblicare i dati, visto che tra l’altro questi possono anche essere dolosamente contraffatti? Non basta già la pubblicazione dei protocolli di ricerca e dei risultati? Cosa ha da guadagnare la scienza nel perseguire una politica “open”?

La disponibilità dei dati di uno studio, pur non essendo sufficiente a rendere una pubblicazione scientifica trasparente al 100%, mette rapidamente altri ricercatori in grado di rielaborare gli stessi dati utilizzando tecniche statistiche diverse o raffinando le stesse analisi già proposte dal lavoro originario. Difatti, per giungere a un risultato, di norma sui dati scientifici viene realizzato uno studio statistico. E le vie che si possono seguire nell’elaborazione statistica sono molteplici e diversificate: la robustezza di una ricerca emerge se più metodologie di analisi convergono verso lo stesso risultato.

Inoltre, pur anche in assenza di frode, evidenze empiriche deboli mascherate all’interno di un articolo scientifico possono essere facilmente messe in luce da analisti esperti del settore. Ma per fare questo, ovviamente, i dati devono essere disponibili.

2. Per aumentarne la visibilità dei propri lavori

La trasparenza è solo una parte del discorso, e forse neanche la più importante. La pubblicazione dei dati non è semplicemente un elemento probatorio da utilizzare in sede di processo contro un ricercatore fraudolento. Lo stesso ricercatore, in realtà, ha tanto da guadagnare dalla pubblicazione dei propri dati.

Una volta pubblicati, i dati di una ricerca possono essere integrati all’interno di altri studi e confrontati con dati di terze parti. Quando un ricercatore realizza e pubblica un nuovo studio utilizzando dati prodotti da un altro ricercatore, esso si troverebbe costretto a citare la fonte originaria dei dati e gli articoli già pubblicati che ne fanno uso. Questo ha la diretta conseguenza di far crescere il numero di citazioni – e quindi la rilevanza – delle pubblicazioni del primo ricercatore. Considerando che uno dei più importanti parametri sui quali la carriera di un ricercatore viene valutata è proprio il numero di citazioni delle proprie pubblicazioni, questo aspetto non è di poco conto.

3. Per dare un decisivo contributo agli studi meta-analitici

Una meta-analisi è uno studio condotto con lo scopo di mettere insieme il risultato di più studi realizzati con gli stessi obiettivi. Questi studi vengono quindi integrati con il fine di trarre delle conclusioni generali. Realizzare una meta-analisi è un po’ un “tirare le somme”; tipicamente, questo genere di studi viene realizzato in campo sanitario per valutare l’efficacia di determinati tipi di trattamento.

Purtroppo, il ricercatore che deve mettere insieme lo storico degli studi clinici in un dato settore si trova puntualmente davanti allo scoglio della scarsa reperibilità dei dati di molti studi. Non sempre i pochi indici riportati negli articoli sono sufficienti, e questo aspetto limita molto gli studi meta-analitici.

Se ad ogni pubblicazione scientifica fosse associata una tabella di dati, i ricercatori che si occupano di meta-analisi risparmierebbero tantissimo tempo, e il lavoro ne guadagnerebbe in precisione e raffinatezza.

In conclusione, bisogna ammettere che l’open data oggi non è una semplice moda, ma un’esigenza. E le società scientifiche, da sempre all’avanguardia su tutto ciò che concerne i numeri, non dovrebbero stare a guardare. Per comprensibili esigenze economiche, la maggior parte delle pubblicazioni scientifiche sono consultabili solo previo pagamento di una variabile somma di denaro. Un articolo scientifico quindi non è proprio “open”, ma ci piacerebbe che i dati, almeno quelli, lo fossero.

2 pensieri su “Nasce InsulaR, la comunità cagliaritana di utilizzatori di R.

  1. Bravo Davide. Ottimo articolo!
    Non si capisce però se per “open data” intendi il database o i dati sintetici. Presumo il primo ma non è tanto chiaro. Per fare una meta-analisi, infatti, non è affatto necessario l’intero database, a meno che si voglia fare una meta-analisi al livello dei casi. Non so però quanto sia più vantaggiosa di una meta-analisi al livello degli studi.

    • Ciao Gian Mauro, mi fa piacere che tu sia arrivato a leggere il post!
      In realtà io intendevo proprio il database con i dati grezzi. Capisco la perplessità: per realizzare una meta-analisi in realtà non sono necessari i dati grezzi ma ci si basa sugli indici già riportati nei lavori. Diverse volte però mi è stato detto che non sempre gli indici necessari sono descritti negli articoli, e talvolta avere i dati grezzi sarebbe molto utile per poter ottenere i valori di cui si ha bisogno.
      Il discorso è questo: se per poter realizzare la meta-analisi mi manca qualcosa, avendo i dati grezzi disponibili me la posso calcolare. Ma se i dati non ci sono, la cosa diventa più problematica…
      Non posso però entrare troppo nel merito della questione statistica perché non conosco approfonditamente gli indici che vengono utilizzati in questi casi.
      Grazie per l’interessamento!

Lascia un commento

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...