Hadoop: Implementazione Algoritmo Clustering K-means

Grazie all’esame di Programmazione Concorrente ,che spero sosterro’ a breve :P, mi sono cimentato con l’implementazione dell’Algoritmo di Clustering K-means utilizzando il framework Hadoop ed i suoi costrutti per la programmazione parallela, l’esempio in javascript puo’ aiutarvi nella comprensione reale dei problemi che e’ possibile risolvere utilizzando K-means.

Nel caso non conosceste ancora Hadoop vi consiglio di leggere il nostro articolo su Hadoop per avere un’idea di base del funzionamento di Hadoop e del paradigma Map-Reduce e sulla configurazione sul proprio computer

Il tutto e’ stato sviluppato con il linguaggio di programmazione Java ed utilizzando il paradigma Map-Combiner-Reduce.

 

 

Vi allego subito il codice delle varie classi, dato che sara’ molto piu’ chiaro di una mia eventuale spiegazione ( caspita come mi butto a terra da solo 😀 ).

Purtroppo a causa della paginazione del blog il codice sara’ poco chiaro.. per cui vi bastera’ cliccare sul nome della classe per visualizzare il file sorgente .java

Leggi tutto “Hadoop: Implementazione Algoritmo Clustering K-means”

Hadoop: Guida all’uso e alla Configurazione (single node)

Vi siete mai chiesti come fanno i grandi motori di ricerca (Google, Yahoo)  e/o i grandi social network (Facebook, MySpace ecc..) ad indicizzare ed elaborare le grosse quantità di dati che giornalmente immagazzinano nei loro server!?

Hadoop è uno dei framework più utilizzati per tali scopi,  sviluppato con tecnologia Java, è stato pensato per l’elaborazione di grosse quantità di dati in applicazioni distribuite.

Tanto per avere un idea di cosa stiamo parlando, vi incollo alcuni dati presi da cloudera sulla quantità di dati che giornalmente vengono elebarati con questo framework open source:

• 2007 Data processed by Google every month: 400 PB
(400 PetaByte corrispondono a 400.000.000 GigaByte)
• 2007 Ny Times processed 4 TB archives on 64 nodes EC2s in 26 hours
( 4 TeraByte corrisposdono a 4000 GigaByte)
• 2009 Yahoo sort 1 PB of data in 16.46hours over 3658 nodes

Leggi tutto “Hadoop: Guida all’uso e alla Configurazione (single node)”