DATA DEDUPLICACIÓN en Windows Server 2012 R2 – Parte II de II

Antes de nada, invitaros a la web de TechNet de Microsoft en http://technet.microsoft.com/es-es/library/hh831487.aspx donde encontrareis detallada y actualizada información sobre Data de Desduplicación.

Todos hemos experimentado como los datos de almacenamiento aumentan a velocidades increíbles, donde de nuevo incidimos en el coste de almacenamiento en disco, que aun habiendo disminuido, en tiempos de recortes, nunca es lo suficientemente rápido como para compensar el crecimiento en archivos de datos, lo que hace que la eficiencia de almacenamiento sea un requisito crítico.

Para sobrellevar este crecimiento en almacenamiento de datos ó archivos, consolidamos, centralizamos servidores y hablamos de nubes privadas y/o públicas donde nos servimos de la commodity de la virtualización, todo para escalar y optimizar que la capacidad sea un objetivo clave para una plataforma de consolidación. Windows Server 2012 y 2012R2 ofrece como ayuda aliada la deduplicación de datos.

Características Principales

Optimización de capacidad Para ello hace lo que precisamente indica su nombre, almacena más datos en menos espacio físico. La deduplicación de datos usa fragmentación y compresión de tamaño variable de subarchivos, que juntas ofrecen relaciones de optimización de 2:1 para servidores de archivos generales y de hasta 20:1 para datos de virtualización.

Escala y rendimiento. La deduplicación de datos es muy escalable, eficiente en materia de recursos y no intrusiva. Puede ejecutarse en varios volúmenes grandes de datos principales de manera simultánea sin afectar a otras cargas de trabajo en el servidor. Su bajo impacto en las cargas de trabajo del servidor se mantiene al limitar los recursos de CPU y memoria consumidos. Además, como vimos en el post “DATA DEDUPLICACIÓN en Windows Server 2012 R2 – Parte I de II” los usuarios con credenciales de administrador tienen la flexibilidad de establecer los tiempos en que debería ejecutarse la deduplicación de datos, especificar los recursos disponibles y establecer directivas de selección de archivos.

Confiabilidad e integridad de datos. Cuando se aplica la deduplicación de datos, es fundamental mantener la integridad de los datos. Para ello, Windows 2012 y 2012R2, aprovecha la suma de comprobación, la coherencia y la validación de identidad a fin de asegurar la integridad de los datos. Además, para todos los metadatos y los datos referenciados con más frecuencia, ésta deduplicación de datos mantiene la redundancia para garantizar que los datos puedan recuperarse en caso de corrupción de datos.

Mejora de ancho de banda en conjunto con BranchCache. Si además lo integramos con BranchCache, se aplican las mismas técnicas de optimización a los datos transferidos a través de la WAN. El resultado son tiempos de descarga de archivos más rápidos y consumo reducido de banda ancha.

Administración de optimización con herramientas familiares. 2012/2012R2 tiene la funcionalidad de optimización incorporada en el propio Administrador del servidor y por su puesto en PowerShell. Ya con la configuración predeterminada proporciona ahorros de inmediato y puedes optimizar las opciones para obtener mejores resultados.

En todo esto un apunte de Precaución o Advertencia
La deduplicación de datos es una característica que procesará de manera potencial todos los datos en un volumen seleccionado, de modo que debe realizarse una planeación cuidadosa para determinar si un servidor y los volúmenes conectados son candidatos adecuados para la deduplicación antes de habilitar la característica. Importante asegurarnos antes la disponiblidad de un backup-restore.

Por ejemplo, si con todo lo que hemos contado estas pensando en implementar Data Deduplicación en Exchange Server, porque tienes BD de gran tamaño, siento decirte que la deduplicación no esta soportada, puedes optar por ReFS, pensado para archivos grandes, pero tendrías que deshabilitar las características de integridad de las BD, aquí encontrarás más información al respecto: http://technet.microsoft.com/en-us/library/ee832792(v=exchg.150).aspx

Algo más acerca de la deduplicación de datos

La deduplicación de datos implica detectar y quitar la duplicación en los datos sin comprometer su fidelidad o integridad. El objetivo es almacenar más datos en menos espacio al segmentar archivos en pequeños fragmentos de tamaño variable (32–128 KB), identificar fragmentos duplicados y mantener una sola copia de cada fragmento. Las copias redundantes del fragmento se reemplazan por una referencia a una sola copia, los fragmentos se organizan en archivos contenedores y los contenedores se comprimen para lograr una mayor optimización del espacio.

Después de habilitar un volumen para deduplicación y de optimizar los datos, el volumen contiene lo que podemos resumir en cuatro items:

1.- Archivos no optimizados (es decir, archivos omitidos, por ejemplo: archivos de estado del sistema, archivos cifrados, archivos con atributos ampliados, archivos más pequeños que 64 KB y archivos de punto de reanálisis, archivos optimizados previamente que contienen punteros a los fragmentos respectivos en el almacén de fragmentos necesarios para construir el archivo)

2.- Archivos optimizados (almacenados como puntos de reanálisis)

3.- Almacén de fragmentos (los datos de archivos optimizados)

4.- Espacio libre adicional (porque los archivos optimizados y el almacén de fragmentos ocupan mucho menos espacio del que ocupaban antes de la optimización)

El resultado de todo esto es una transformación en disco de cada archivo. Después de la deduplicación, los archivos ya no se almacenan como secuencias de datos independientes, sino que se reemplazan por rutas internas que apuntan a bloques de datos almacenados en un almacén de fragmentos común. Dado que estos archivos comparten bloques, esos bloques solo se almacenan una vez, lo que reduce el espacio en disco necesario para almacenar ambos archivos. Durante el acceso a archivos, los bloques correctos se ensamblan de manera transparente para proporcionar los datos sin que la aplicación que llama ni el usuario tengan conocimiento del cambio en la transformación en disco realizada en el archivo. Esto nos permite a los administradores aplicar la deduplicación a archivos sin tener que preocuparnos por cualquier impacto o cambio en el comportamiento de las aplicaciones o el acceso de los usuarios a esos archivos.

Puedes usar deduplicación de datos en archivos replicados mediante el uso de DFSR (replicación DFS) porque solo se actualizan las partes de los archivos que cambiaron desde la última replicación.

Arquitectura
La característica de deduplicación de datos consiste en un controlador de filtro que supervisa las E/S locales y remotas, y un servicio de deduplicación que controla tres tipos de trabajos que están disponibles (recolección de elementos no utilizados, optimización y limpieza).

Es importante recordar que el ámbito de la deduplicación es compatible con clústeres, y que la característica de deduplicación está diseñada para ofrecer mejores resultados en datos principales con una optimización en segundo plano programada, controlada por politicas.

Inherente a la arquitectura de deduplicación es la resistencia frente a errores de hardware y bloqueos, con validación total de suma de comprobación en datos y metadatos, incluida la redundancia para metadatos y los fragmentos de datos más populares.

También te podría gustar...