Salta al contenuto principale

Condivisione di dati: Genomica & Trascrittomica

Condivisione di dati su COVID-19

Il sequenziamento dell’intero genoma è uno strumento fondamentale per il monitoraggio dei patogeni e il controllo delle epidemie. Confrontando le sequenze genomiche è possibile capire se e quando si sono evolute “nuove varianti” del patogeno, studiarne le caratteristiche e tracciarne la diffusione. Questo processo noto come “sorveglianza genomica” è in grado di fornire indicazioni preziose per lo sviluppo di vaccini e farmaci. Per questo motivo è indispensabile che le nuove sequenze del genoma di SARS-CoV-2 prodotte in diversi paesi vengano rese disponibili alla comunità scientifica mondiale nella maniera più rapida ed efficiente possibile.

Metadati

I metadati sono i “dati dei dati”, cioè le informazioni aggiuntive di cui bisogna corredare un insieme di dati per poterlo correttamente interpretare, gestire e conservare nel tempo. I metadati generalmente includono informazioni sui campioni, sulla metodologia utilizzata per produrre i dati e sulle procedure utilizzate per eseguire le analisi, come unità di misura, ipotesi e assunzioni che hanno guidato le analisi, il software utilizzato per raccogliere e / o elaborare i dati e il formato e il tipo di file dei dati stessi. Queste informazioni possono essere raccolte in semplici file di testo o in altri formati ed essere salvati in un archivio che accompagnerà i dati per tutta la loro vita.

I ricercatori sono fortemente incoraggiati a utilizzare gli standard dei metadati della comunità laddove siano presenti. Si consiglia vivamente, sin dall’inizio del progetto, di strutturare e raccogliere metadati legati ai campioni sperimentali, possibilmente seguendo le linee guida di riferimento della banca dati in cui questi saranno depositati (ad es. ENA).

Lo standard per i dati di trascrittomica è chiamato Minimal Information about a high throughput SEQuencing Experiment (MINSEQE). L’adozione dello standard MINSEQE faciliterà l’integrazione dei risultati ottenuti da esperimenti condotti con diverse modalità, massimizzando così i la possibilità di riutilizzare i dati e di riprodurre i risultati.

Per i dati di SARS-CoV-2 è consigliato utilizzare la ERC000033 checklist (metadati standard per dati di virus patogeni, definiti da ENA).

Maggiori informazioni su formati di dati e standard di metadati sono raccolti nella risorsa FAIRsharing.org.

Repository

Si suggerisce di sottomettere a ENA i dati primari di sequenziamento del genoma virale così come i genomi assemblati e annotati. La documentazione di riferimento è disponibile a SARS-CoV-2 submission. Dal momento che i dati genetici umani sono considerati dati personali ai sensi del GDPR, si raccomanda di applicare procedure ad-hoc per verificare la presenza di, ed eventualmente rimuovere, possibili sequenze “contaminanti” umane prima di inviare i propri dati a ENA. Un workflow adatto per eseguire questo tipo di analisi è disponibile a: https://workflowhub.eu/projects/25. Il workflow è basato sugli strumenti incorporati nel COVID-Galaxy, e può esservi facilmente importato ed eseguito.

Per quanto riguarda invece i dati genetici umani, la risorsa di riferimento è la banca dati (EGA). Istruzioni puntuali e dettagliate su come sottomettere i propri dati in questa risorsa sono disponibili a: https://www.ebi.ac.uk/ega/submission. Per questa tipologia di dati è probabile che le singole istituzioni forniscano anche la possibilità di archiviazione presso un repository locale. Si suggerisce di mettersi in contatto con il proprio servizio di Data Management o IT per ottenere supporto.

Studi che integrano dati genetici virali e umani

Le raccomandazioni riportate nella sezione precedente rimangono valide anche per gli studi che producono dati di sequenza sia del patogeno che dell’ospite che ne è infettato (ES: studi di sequenziamento combinato del trascrittoma dell’ospite e del genotipo virale). In questo caso si consiglia di utilizzare la banca dati BioSamples per tenere traccia dei campioni biologici da cui sono stati prodotti i dati.

Dati di trascrittomica

Per quanto i dati di sequenziamento primario rimangono valide le linee guida indicate in precedenza. I dati processati (profili di espressione genica) dovrebbero invece essere sottomessi nella banca dati Expression Atlas.


Repository Locali

Repository locali possono essere disponibili a livello di singola istituzione, università, istituto.

Suggeriamo di contattare il proprio servizio di Data Stewardship o servizio IT per avere maggiori informazioni a riguardo.

Segnalaci un Repository locale compilando questo form. Aumenta la tua visibilità, crea sinergie con altri laboratori e fai crescere l’impatto della tua ricerca.