lunes, 5 de noviembre de 2012

Deduplication - Eliminación de datos duplicados

 Deduplication es una palabra inglesa que se puede traducir como eliminación de datos duplicados o redundantes y es una palabra de moda entre los fabricantes de dispositivos de almacenamiento o de software de backup. La eliminación de duplicidades se refiere a que los datos a guardar son analizados y durante este análisis se identifican segmentos únicos de datos; si más adelante se encuentra el mismo segmento de datos éste se reemplaza por una referencia a la localización original de la información. Como se supone que los mismos patrones de datos ocurren muchas veces, el total de datos a almacenar se reduce mucho. Asimismo, al reducirse el uso del almacenamiento también se reduce el tráfico de red.
 
 La eliminación de redundancias en el almacenamiento es parecido a lo que hacen las herramientas estándar de compresión de ficheros. Sin embargo, estas herramientas de compresión buscan pequeñas subcadenas repetidas dentro de los ficheros en un momento dado mientras la herramientas que se aplican al almacenamiento se fijan en grandes secuencias de datos (+8Kb) o incluso ficheros completos a lo largo de ventanas de comparación más amplias.
 
 Este tipo de eliminación de redundancias se aplica también a las transmisiones de red con los optimizadores de WAN y a las máquinas virtualizadas donde existen muchos ficheros repetidos.
 
 ¿Cuanto supone de verdad este ahorro? Fabricantes como EMC indican que su Data Domain Deduplication Storage puede reducir las necesidades de almacenamiento para backup entre 10 y 30 veces en promedio. Esto significa que una empresa de tamaño medio  con 30 Tb de datos a guardar, podría almacenarlos en tan solo 1 Tb de disco físico, lo que supone un enorme ahorro. Otros fabricantes como Symantec indican para su Backup Exec unos ahorros de almacenamiento hasta el 90% e incluso eliminación de redundancias en origen, antes de que el dato se llegue a enviar, lo que reduce también el tráfico de red.
 
 
Eliminación de redundancias. Se guarda una sola una copia de cada dato único

No hay comentarios:

Publicar un comentario