In questi ultimi giorni si sta parlando molto di deduplicare lo storage primario.

La deduplication è una tecnologia relativamente nuova sul mercato che permette di scrivere i dati/blocchi una sola volta e poi di indicizzare tutti i dati/blocchi identici al primo. il vantaggio è un grosso risparmio di spazio (soprattutto nei sistemi di backup) lo svantaggio sono la complessità degli algoritmi e la necessità di una notevole potenza di calcolo per ottenere performance valide.

La tecnologia, fino a poco fà, era usata solo per le VTL (Virtual Tapre Library) ma ora che i prodotti stanno maturando si stanno esplorando nuove vie.

L’implementazione più famosa è sicuramente quella di riverbed, che produce appliance per il networking con ottimi risultati e soddisfazione dei clienti (fra l’altro hanno annunciato anche loro che stanno lavorando ad un oggetto per la deduplicazione dello storage). Mentre un player di sicuro successo nel mondo delle VTL deduplicate è Datadomain.

Perchè deduplicare lo storage?

La risposta più facile è: perchè la maggioranza dei dati vengono acceduti poco o nulla e quindi si otterrebbe un grande incremento di spazio sul sistema.

Ne ho conferma, per l’ennesima volta, anche da un post su storagemojo che ho letto oggi.

Infatti il primo ad annunciare una cosa del genere è stato NetApp.. che, come tutti sappiamo, è costretta a vendere 2,5TB raw per ottenerne 1 utile!!!

C’è anche un problema: le performance! la prima cosa, banale, che mi viene in mente è il backup (pensa ad un backup full… significa leggere tutto il contenuto del disco e quindi una importante necessità di potenza di calcolo…. o performance vergognose).

Ma allora mi chiedo perchè non appoggiarsi su un sistema che, come Compellent, ha una utillizzabilità dello storage raw molto più alta e con la Data Progression ti dà un vantaggio ancora superiore? (scrivere i dati sempre su dischi veloci e spostamento automatico su dischi più lenti).

Alcune riflessioni:

  • Comprare 2,5 volte i dischi che ti servono significa anche spendere molto di più di corrente elettrica!!!
  • Sarà bene verificare con cura le performance di una funzionalità del genere prima di rischiare e verificare quando e come usarla.
  • Compellent ha già la tecnologia di deduplication on board… la usa in modo similare a Riverbed (sulle connessioni di rete lente per sopstare meno dati possibile) questo permette di usare linee lente per le copie remote dei dati (Diaster Recovery).

Il mio sogno è quello di avere la deduplication su una lun con Dataprogression… significherebbe abbattere ulteriormente i costi dei dati poco usati…. visto che già Compellent ha gli algoritmi per la dedup. network…. speriamo che gli ingegneri stiano lavorando in questo senso.