Novedades en almacenamiento Windows Server 2012–Data Deduplication

image

Data Deduplication. Hoy hablaremos de esta nueva característica disponible en Windows Server 2012. Como su nombre indica nos permitirá ahorrar espacio en disco almacenando una única copia de datos que sean idénticos en un volumen.

Según la teoría Data Deduplication identifica y elimina los datos duplicados dentro de un volumen, sin poner en peligro la integridad de los mismos, lo que nos permitiría tener más datos con una menor ocupación de disco.

Cuando lo habilitamos, una tarea se ejecuta en segundo plano revisando e identificando duplicados, comprimiendo datos, segmentando cadenas de datos, etc. La segmentación la realiza en pedazos de fichero de entre 32 y 128 KB, entonces identifica pedazos duplicados en el volumen. Todos los duplicados son borrados del disco (con una referencia a una copia del pedazo que se mantiene). Y los datos que no son eliminados son comprimidos.

Esta tarea en segundo plano, no consume grandes recursos, no obstante podemos programar cuando se ejecutan los trabajos de Data Deduplication, por ejemplo podemos elegir una hora valle de nuestro servidor (por la noche, que no coincida con el backup) y programar la tarea. También podemos definir que recursos dentro de un volumen queremos incluir, incluso ficheros.

Consideraciones (una vez instalada la característica):

  • Habilitar data deduplication por volumen.
  • Volúmenes no pueden ser volumen de sistema ni de arranque.
  • Volúmenes deben ser particionados como MBR o GUID, y formateados en NTFS el nuevo sistema de ficheros ReFS (Resilient File System) no está soportado … quien sabe si para el SP1 lo incluirán.
  • Volúmenes pueden locales o estar en almacenamiento por red, fibra.
  • Volúmenes CSV (Cluster Shared Volumes) no están soportados.
    ¿Cuando usamos Data Deduplication?
    Como ya hemos comentado en teoría no consume muchos recursos, pero supongo que en volúmenes grandes y con muchos ficheros esto tiene que empezar a consumir memoria. Por eso lo aconsejable es programar los jobs. Además con la instalación por defecto solo los ficheros más antiguos de 30 días serán procesados.

File Shares: Carpetas personales, perfiles de usuario. 30 – 50 % de ahorro en disco.

Software Deployment Shares: binarios, plantillas y actualizaciones (WSUS) son candidatos perfectos para esta característica. 70 – 80 % de ahorro en disco.

Librerías VHD, incluye el almacenamiento VHD para aprovisionamiento de Hyper V. Nos comentan que podemos ahorrar entre un 80 – 95 %.

Existe una herramienta DDPEval.exe que analiza el volumen que indiquemos y nos muestra la información acerca de cuanto espacio en disco podríamos ahorrar en ese volumen habilitando deduplication. La herramienta se instala automáticamente en \\Windows\System32 en los equipos donde se haya habilitado Data Deduplication.

¿Como se instala?

Necesitamos un sistema con Windows Server 2012. Y en el Rol de servicios de archivos y almacenamiento lo buscamos y seleccionamos.

image

Una vez instalado y reiniciado el servidor, ahora podemos habilitar esta característica.

Para ellos vamos a el administrador de discos y sobre el volumen que deseamos habilitarlo marcamos la opción

image

Como veis la configuración es bastante sencilla, podemos definir que se desdupliquen archivos con más de x días, en este caso 30. Excluir extensiones de ficheros, por ejemplo ficheros de Word … Carpetas.

image

Y como podréis observar abajo tenemos el botón de Establecer programación de desduplicación, con todas las opciones disponibles para optimizar el rendimiento.

image

Más información:

 

http://blogs.technet.com/b/filecab/archive/2012/05/21/introduction-to-data-deduplication-in-windows-server-2012.aspx

 

DGM