La deduplicación es una técnica especializada de compresión y eliminación de copias o datos duplicados. Es ideal para operaciones de elevada redundancia como el respaldo de información, que utiliza la copia y el almacenamiento repetidos del mismo conjunto de datos varias veces para fines de recuperación, regularmente por períodos de 30 a 90 días.
La deduplicación segmenta un flujo de datos entrante, identifica los segmentos y los compara con los datos almacenados anteriormente. Si el segmento es único, se almacena en el disco, pero si un segmento de datos entrante es un duplicado de uno almacenado, únicamente se crea una referencia a este; evitando que el segmento se almacene nuevamente. Este proceso reduce las necesidades en cuanto a capacidad de almacenamiento entre 10 a 30 veces aproximadamente. Es decir, una empresa podría almacenar de 10 TB a 30 TB de datos de respaldo en 1 TB de capacidad física de disco. La eliminación de los datos redundantes también mejora la eficiencia del ancho de banda.
Las empresas suelen almacenar muchas versiones de la misma información, de modo que los nuevos empleados puedan reutilizar el trabajo ya hecho. Esto vuelve el respaldo de información extremadamente redundante.
La deduplicación reduce los costos de almacenamiento, ya que se necesitan menos unidades de almacenamiento. También mejora la recuperación ante desastres, debido a que existen menos datos que transferir.
Algunas cosas que se deben considerar para la deduplicación:
Estos sistemas buscan patrones y los sistemas de cifrado eliminan los patrones, así que absténgase de encriptar los datos antes de que los vea el sistema de deduplicación.
No comprima los datos antes, debido a que la información se comprime después de deduplicar, de modo que no está adelantando nada al realizar la compresión. También, podrían mezclarse los datos y dificultar la búsqueda de patrones.
En la mayor parte de los sistemas de deduplicación, los datos creados por un ser humano (como documentos de Office o anotaciones en bases de datos) se deduplican bien. En cambio, los datos generados automáticamente por un equipo de cómputo, no. Considere conservarlos en un sistema de almacenamiento sin deduplicación (algunos sistemas pueden desactivar la deduplicación de determinados conjuntos de datos).
Le invitamos a ponerse en contacto con nosotros para proveerle más información respecto a herramientas de deduplicación, así como los casos de éxito con nuestros clientes.