Salta al contenuto principale

Dati di Genomica & Trascrittomica

Vedi anche: Condivisione di dati su COVID-19 | Servizi per la ricerca su COVID-19

Dati disponibili su COVID-19

Dati accessibili tramile il COVID-19 Data Portal Europeo

Dati di sequenziamento e sequenze genomiche complete di SARS-CoV-2 e altri coronavirus

Dati di sequenziamento umani e di altre specie ospite

Dati prodotti da gruppi di ricerca italiani

Dati di sequenziamento e sequenze genomiche complete di SARS-CoV-2 e altri coronavirus

Segnalaci un dataset compilando questo form. Aumenta la tua visibilità, crea sinergie con altri laboratori e fai crescere l’impatto della tua ricerca. NOTA: la lista è curata manualmente e potrebbe non essere completa. Contattaci a covid19.helpdesk@lists.covid19dataportal.it per segnalare errori o imprecisioni, il tuo aiuto è importante!

Risorse di riferimento

Sono di seguito elencate le principali banche dati e risorse di riferimento a livello europeo e internazionale per i dati genomici e trascrittomici. Molte delle risorse europee elencate di seguito sono mantenute dal European Bioinformatics Institute (EMBL-EBI) e sono state classificate come ELIXIR Core Data Resources, ossia sono state riconosciute dall’infrastruttura ELIXIR come risorse di importanza fondamentale per la comunità scientifica internazionale al fine di conservare e rendere accessibili diverse tipologie di dati biologici.

  • ENA: “European Nucleotide Archive (ENA)” è una delle più complete banche dati di sequenze di DNA a livello mondiale e parte dell’iniziativa INSDC (International Nucleotide Sequence Database Collaboration insieme a GenBank e DDBJ). Il portale raccoglie sia dati di sequenziamento primari, che dati secondari, come ad esempio sequenze genomiche e relative annotazioni. Per facilitare la sottomissione di sequenze genomiche di SARS-CoV-2 ENA ha predisposto un helpdesk dedicato. Le banche dati GenBank e DDBJ sono le omologhe rispettivamente di USA e Giappone di ENA. Generalmente i dati sottomessi ad una qualsiasi delle tre banche dati INSDC diventano disponibili anche nelle altre due nel giro di pochi giorni.

  • EGA: “European Genome-phenome Archive (EGA)” è la banca dati europea di riferimento per i dati di sequenziamento di campioni biologici umani. I dati genetici sono riconosciuti come una forma particolarmente sensibile di dati personali dalle vigenti normative sulla privacy (GDPR). In quanto tali, necessitano di forme di protezione speciali. EGA implementa una serie di misure e cautele necessarie affinchè questi dati rimangano salvaguardati e possano essere analizzati solo per comprovati motivi scientifici. La banca dati dbGaP costituisce l’omologa di EGA in USA, le importanti differenze nelle normative a protezione dei dati sensibili tra UE e USA rendono le procedure di deposizione e accesso ai dati abbastanza diverse tra le due banche dati e, naturalmente, i dati contenuti nell’una non sono solitamente disponibili nell’altra.

  • Ensembl COVID-19: i genome browser, o browser genomici sono speciali strumenti che consentono di “navigare” lungo il genoma i degli organismi visualizzando in maniera grafica la posizione dei geni e di eventuali altre annotazioni. Ensembl, il browser genomico sviluppato e mantenuto da EBI, ha rilasciato una speciale versione del proprio genome browser per facilitare lo studio del genoma di SARS-CoV-2. Altri popolari browser genomici che consentono di navigare nel genoma di SARS-CoV-2 sono ad esempio l’UCSC Genome Browser e quello di NCBI.

  • COVID-19 Cell Atlas: Il “Single Cell Expression Atlas” è il portale di riferimento che raccoglie i profili di espressione dei geni dei diversi tipi di cellule del nostro corpo. Questi dati possono essere particolarmente utili per capire le dinamiche con cui diverse cellule rispondono all’infezione virale. Per questo motivo il Sanger Institute ha sviluppato una versione del single cell atlas specifico per COVID-19. Il portale contiene profili di espressione sia di cellule infette che non infette.

  • Expression Atlas: è la banca dati che rende disponibili alla comunità scientifica dati di espressione genica (a livello di mRNA e di proteine) in diverse condizioni, tessuti,tipi cellulari e condizioni patologiche. Lo strumento consente una rapida aggregazione dei dati, per tipo, per tessuto o per gene, facilitando l’esecuzione di analisi comparative e confronti. Il GEO (Gene Expression Omnibus) è la banca dati USA corrispondente.

  • Covid-Galaxy: le analisi dei dati di sequenziamento genomici richiedono l’applicazione di diversi software bioinformatici. Per facilitare l’esecuzione di questo tipo di analisi, ELIXIR ed il Galaxy Project hanno sviluppato una istanza pubblica dedicata del popolare workflow manager Galaxy, completa di molti strumenti utili o necessari ad analizzare dati di sequenziamento di SARS-CoV-2 o ad eseguire analisi chemoinformatiche per l’identificazione di molecole utili contro il virus.

Risorse sviluppate in Italia

  • ViruSurf: è una banca dati dedicata, sviluppata dal gruppo di ricerca del prof Stefano Ceri, del politecnico di Milano. Lo strumento aggrega le sequenze genomiche attualmente disponibili e fornisce informazioni sulle principali varianti genetiche e i possibili effetti funzionali. Allineamenti delle sequenze e file con relative annotazioni possono essere ottenuti con facilità

  • CorGAT: CorGAT è uno strumento bioinformatico che facilita il confronto tra sequenze genomiche virali e la relativa annotazione. Lo strumento è disponibile sia come software “stand-alone” che attraverso una interfaccia wed dedicata. Le annotazioni fornite da CorGAT sono curate manualmente e vengono regolarmente aggiornate dagli sviluppatori

  • Laniakea: è un servizio cloud che offre la possibilità ai ricercatori di generare e utilizzare istanze Galaxy private per analizzare in autonomia i propri dati. Gli utenti possono creare una propria versione personalizzata di Covid-Galaxy e utilizzare gli strumenti bioinformatici disponibili per l’analisi delle sequenze del genoma virale e della sua evoluzione in un ambiente di lavoro di cui hanno il completo controllo.

  • Docker4seq: è un completo workflow che consente ai ricercatori di eseguire analisi RNAseq di interi campioni. La disponibilità di una GUI consente l’accesso ad analisi rapide e riproducibili anche a scienziati senza esperienza di scripting.

  • rCASC: è un completo workflow che consente ai ricercatori di eseguire analisi RNAseq a singola cellula.