NERSC supera los estándares de confiabilidad con archivo activo basado en cintas
- Casos de éxito
El Centro Nacional de Computación Científica de Investigación Energética (NERSC) es la principal instalación de computación científica para la Oficina de Ciencia del Departamento de Energía de EE. UU. Tiene el mandato de proporcionar recursos computacionales y experiencia para la investigación científica a unos 5,000 científicos en laboratorios nacionales y universidades en todo Estados Unidos, así como a sus colaboradores internacionales.
NERSC también presume de tener la octava computadora más rápida del mundo según la lista de noviembre de 2011 de los sitios de supercomputación TOP500, con 1.3 petaflops de poder de procesamiento. La instalación está conectada a una red llamada ESnet, que facilita la transferencia de grandes conjuntos de datos científicos entre NERSC y otros centros de supercomputación y instalaciones experimentales en todo el mundo. El crecimiento de datos suele estar entre un 50 y un 70% cada año. El archivo de NERSC recibe aproximadamente 50 TB de datos cada día, lo que equivale aproximadamente a su volumen anual de datos de hace una década. Con un periodo de retención indefinido para el archivo, los requisitos de capacidad de almacenamiento y confiabilidad de NERSC son significativos.
NERSC almacena datos de algunos de los dispositivos experimentales más grandes del mundo, incluidos el Gran Colisionador de Hadrones en Europa, el detector de neutrinos de Daya Bay en China, el satélite Planck, y el Instituto Conjunto del Genoma en Walnut Creek, cercano a NERSC. Además, el archivo guarda datos de modelos climáticos, plegamiento de proteínas y una amplia gama de simulaciones energéticas y científicas realizadas en NERSC. Debido a que NERSC respalda una amplia gama de proyectos científicos, que van desde algunos de los problemas computacionales más grandes hasta aplicaciones científicas intensivas en datos, necesitaba una solución de almacenamiento archivado flexible y eficiente para satisfacer las diversas necesidades de sus usuarios globales. Proporcionar almacenamiento para los hallazgos científicos era un objetivo clave, al igual que la capacidad de acceder rápidamente a los datos cuando fuera necesario. Para mantener los costes bajo control, NERSC necesitaba una solución de almacenamiento que pudiera mantenerse al ritmo de la proliferación de datos. Y finalmente, debía ser confiable a gran escala para asegurar que los datos de los usuarios estuvieran disponibles cuando los necesitaran.
Dada la fuerte dependencia de la comunidad científica en los datos y su necesidad frecuente de referirse a hallazgos anteriores para respaldar iniciativas actuales, NERSC mantiene los datos archivados de forma indefinida. Confiar únicamente en discos duros sería prohibitivo en términos de costos, dado el crecimiento de datos del centro y sus correspondientes necesidades de escalabilidad de almacenamiento. Para abordar esto, NERSC implementó un archivo activo, una solución de almacenamiento combinada que consta de software de High Performance Storage System, discos y hardware de cintas. El archivo activo ofrece una forma sencilla para que los usuarios accedan a todos sus datos. También simplifica el almacenamiento y la gestión de datos tanto para los investigadores como para los administradores de almacenamiento, manteniendo los costos bajos.
Los usuarios pueden acceder a sus datos desde cualquiera de los sistemas de NERSC, utilizando Lustre para el almacenamiento temporal local y GPFS de IBM como su sistema de archivos centralizado. Las cintas representan más del 75% del entorno de almacenamiento, y el archivo activo basado en cintas tiene una tasa de lectura diaria aproximada del 30%. Esto contrasta notablemente con los archivos tradicionales de cintas, que generalmente manejan un 95% o más de operaciones de escritura. Entre julio de 2009 y diciembre de 2010, NERSC comenzó a reemplazar su infraestructura de cintas existente con versiones más nuevas en su archivo activo.
Los resultados desafiaron la sabiduría convencional: el 99.9991% de las cintas eran 100% legibles, lo que representa una tasa de error del 0.00009%. De las más de 40.000 cintas que fueron leídas, solo 35 contenían algunos datos que no se pudieron acceder. Los datos ilegibles representaron solo 178 metros de los 2.065.763 metros totales de cinta. Alcanzar este nivel de confiabilidad en las cintas no se logra sin esfuerzo, pero tener una sola copia de los datos en cinta fomenta la intervención regular cuando surgen problemas. Las cintas representan la gran mayoría de la capacidad de almacenamiento de NERSC. Los 26 PB de datos de NERSC están divididos entre dos sistemas distintos: un sistema almacena 14 PB de datos de respaldo.
Además de la probada confiabilidad de la infraestructura de cintas del archivo activo de NERSC, la inversión del centro en cintas significa que puede continuar respaldando su crecimiento exponencial de datos sin un presupuesto exponencial. La adopción temprana de nueva capacidad de cintas también ha ofrecido ahorros operativos inmediatos para NERSC. La nueva capacidad de cintas reduce el consumo de medios de cinta y disminuye la necesidad de adquirir más bibliotecas de cintas para almacenar cantidades crecientes de datos. Normalmente, NERSC reduce a la mitad sus costos de medios al adoptar nueva tecnología de cintas de mayor capacidad.
Los usuarios de NERSC también se benefician de tiempos de transferencia de datos de hasta 1 GB/segundo desde el archivo. En un entorno científico que genera y maneja enormes volúmenes de datos de investigación, el acceso rápido a archivos grandes elimina los tiempos de espera y resulta en una mayor productividad. Con una tasa diaria de lectura del 30%, está claro que la comunidad de NERSC está definiendo su sistema de almacenamiento de archivos como un archivo activo. Una de las iniciativas futuras de NERSC incluye una estrategia de recuperación ante desastres de manera remota. Mientras tanto, gracias a las estadísticas que respaldan la confiabilidad, eficiencia y rentabilidad de su actual infraestructura de archivo activo basada en cintas, NERSC continuará con el uso de cintas y mantendrá una única copia de sus datos.
Más información
¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas? Conoce más sobre el software FUJIFILM Object Archive, el almacenamiento sostenible, las tecnologías de soporte de almacenamiento de datos o las cintas LTO de FUJIFILM para estar al día de un sector en crecimiento.