• Document: Secondo Progetto. Corso di Big Data
  • Size: 2.23 MB
  • Uploaded: 2019-03-24 11:17:56
  • Status: Successfully converted


Some snippets from your converted document:

Secondo Progetto Corso di Big Data Obiettivi  Risolvere problemi attinenti alle tematiche Big Data  Sperimentare metodologie di Big Data  Analizzare e confrontare tecnologie di Big Data Template di un progetto  Obiettivi:  Risolvere un problema di big data  Sperimentare nuove tecnologie  Approccio:  Selezionare un problema di big data  Individuare uno o più metodi per risolvere il problema  Scegliere le tecnologie più adatta  Implementare i metodi con le tecnologie scelte  Fare delle sperimentazioni (e dei confronti) Modalità di scelta  Scelta di un progetto tra i vari argomenti proposti  Alcuni dei progetti hanno specifiche lasche  in modo da poter essere scelti da più gruppi  ma soprattutto per favorire la libertà di inventiva  E’ possibile proporre autonomamente un proprio progetto  I progetti sono esclusivi  non possono esserci due progetti con stesse specifiche  affrettatevi nella scelta del vostro progetto!!!  In ogni caso, per l’assegnazione è necessaria l’approvazione del docente TOPIC 0: (ANY KIND OF) DATA ANALYTICS  Cercare autonomamente uno scenario applicativo e dei dati reali (possibili sorgenti in fondo alla presentazione)  Individuare uno o più metodi di analisi dei dati individuati  Scegliere la o le tecnologie più adatte (tra quelle viste a lezione o anche altre)  Implementare i metodi con le tecnologie scelte (in ambiente distribuito)  Fare delle sperimentazioni discutendo efficacia ed efficienza dei metodi TOPIC 1: POLYGLOT PERSISTENCE  Creazione di uno o più scenari poliglotti (gestione di dati con sistemi diversi) per applicazioni  Implementazione operazioni (join distribuito, transazioni)  Sperimentando sistemi di storage (SQL/NoSQL/NewSQL)  Confronto tra architetture diverse  message passing (es. BDMPI), publish/subscribe (es. Kafka)  Sperimentando tools (UnQL, Apache MetaModel, ...) TOPIC 2: “ONE SIZE FITS A BUNCH”  Sistemi che nascono per risolvere diversi problemi di big data  Multi-modal databases (ArangoDB, OrientDB, FoundationDB, ...)  AsterixDB  Apache Drill  Sperimentazione, benchmarking e confronto tra le varie soluzioni TOPIC 3: GDBMS  Assessment di graph databases (secondo benchmark noti)  Benchmarking di graph databases in-browser/in-memory  LevelGraph: implementazione e sperimentazione di funzionalità per la scalabilità  Compressione di graph database  Testing su Neo4j  Testing su reachability queries, DFS, BFS, shortest path  Testing suVoltDB  Sperimentazione scalabilità orizzontale di GDBMSs  Blazegraph/BigData, Neo4j, Titan, ...  ... TOPIC 4: GRAPH ANALYTICS  Analisi di grafi di grandi dimensioni  Applicazione a dati provenienti da social networks  Implementazione di algoritmi per individuare comunità all'interno delle social network (es. clique, k-clique, k-plex, ecc.)  Sperimentazione di sistemi di graph processing con accelerazione GPU (es. Medusa, MapGraph on Blazegraph)  ... TOPIC 5: NoSQL & NewSQL  Confronto sperimentale fra sistemi NoSQL  Confronto sperimentale fra sistemi NewSQL  NewSQL vs SQL  NoSQL vs NewSQL TOPIC 6: NoSQL database design  Sperimentazione di metodologie di progetto  Esistono metodologie di riferimento sviluppate a Roma Tre  Servono risultati sperimentali massivi TOPIC 7: SEMANTIC WEB  Gestione di dati semantici in formato RDF/RDFS con query SPARQL  Sperimentazione scalabilità RDF systems  Virtuoso, Blazegraph/BigData, CliqueSquare, Ontotext GraphDB, Apache Marmotta  Strumenti per federare SPARQL Endpoint  ... TOPIC 8: SCIENTIFIC DATA ANALYSIS  Creazione a piacere di uno scenario di calcolo scientifico e sperimentazione di prodotti (es. SciDb)  Sperimentazione di array databases  Confronto fra sistemi: array-databases vs database relazionali vs altre soluzioni (es. Matlab) TOPIC 9: STREAMS  Creazione di uno o più scenari (es. con le API Twitter)  Sperimentazione di una o più tecnologie di data streaming (es. Storm, Flume, Impala, Spark Streaming, FuelDB, Apache Ignite, ecc.)  Confronto con tecnologie alternative (es. vs NewSQL)  Analisi di un'architettura lambda TOPIC 10: GENOMIC DATA ANALYSIS  Nell’ambito dei progetti GenData e TCGA  Seguiti dall’ing. Weitschek  Seguono in questa presentazione Project: GenData and TCGA • Gendata tools installation http://www.bioinformatics.deib.polimi.it/genomic_computing • Data extraction with gmql http://www.bioinformatics.deib.polimi.it/genomic_computing/GMQL/ 2 Project: TCGA and case control studies • Data extraction and analysis from the TCGA database: – http://cancergenome.nih.gov/ – TCGA contains a comprehensive collection of genomic, clinical and patient data affected by different cancer types – Focus on

Recently converted files (publicly available):