ORNL mejora la integridad y accesibilidad de los datos con soluciones de archivo activo

  • Actualidad

big data almacenamiento generica ©Freepik

El Laboratorio Nacional de Oak Ridge (ORNL), gestionado por UT-Batelle, LLC, es actualmente el mayor laboratorio de ciencia y energía del Departamento de Energía (DOE) de EE. UU., realizando investigaciones básicas y aplicadas para resolver problemas de energía y seguridad.

Desde su fundación en 1943, ORNL ha crecido para emplear a más de 4.500 miembros, incluidos científicos e ingenieros en más de 100 disciplinas. El presupuesto de ORNL, de 1.375 millones de euros, permite que el laboratorio apoye las misiones nacionales del DOE de descubrimiento, energía limpia y seguridad a través del liderazgo en cuatro áreas principales de ciencia y tecnología: neutrones, computación, materiales y energía nuclear. La mayoría de la investigación de ORNL en estas categorías se publica en literatura abierta, y muchas de sus instalaciones están disponibles para investigadores de universidades, otros laboratorios nacionales e industrias.

La supercomputadora Titan de ORNL 
ORNL es el hogar de la supercomputadora más potente de Estados Unidos para la ciencia abierta, Titan. Titan es capaz de realizar 27 petaflops y puede manejar cuadrillones de cálculos simultáneamente para simulaciones científicas. Ubicada en el Centro de Computación de Liderazgo de Oak Ridge (OLCF), una instalación de usuarios de la Oficina de Ciencias del DOE en ORNL, el sistema ofrece la capacidad de simular modelos cada vez más complejos y realistas, reduciendo el tiempo para alcanzar soluciones.

En todo momento, más de 180 proyectos están alojados en el OLCF y más de 1.200 usuarios tienen acceso a la supercomputadora y sus sistemas de almacenamiento de archivos, y los datos de simulación deben almacenarse para que los usuarios puedan acceder rápidamente y de manera eficiente a los conjuntos de datos según sea necesario. Cuando el Centro de Ciencias Computacionales implementó el Sistema Jerárquico de Almacenamiento (HPSS) para su almacenamiento archivado en 1998, el centro producía 300 GB de datos por mes y proporcionaba alrededor de 1 TB de espacio de almacenamiento en disco. Hoy en día, el OLCF produce 3.000 veces más datos (aproximadamente 1 PB de datos por mes). Se predice que el crecimiento de datos continuará debido a los avances tecnológicos en áreas como las ciencias climáticas y la física de alta energía.

Para mantenerse al día con el creciente volumen de datos, el OLCF necesitaba una solución de archivo activo que garantizara la integridad de los datos y permitiera una recuperación rápida de archivos para sus usuarios, quienes acceden a sus datos con frecuencia. También necesitaba una solución que permitiera la redundancia de datos sin duplicar el coste de su archivo. Esta solución debía ser escalable para satisfacer las futuras demandas de datos del centro a medida que se generen datos para algunos de los proyectos científicos más grandes del país.

Soluciones de almacenamiento de archivos activos: RAIT y una gran caché de discos  
El centro eligió implementar una solución de archivo activo que incluía la tecnología de Matriz Redundante de Cintas Independientes (RAIT), así como nuevas unidades de cinta de clase empresarial y una caché de discos de 18 PB. La tecnología RAIT distribuye los datos entrantes en varias cintas e incluye una paridad distribuida entre las cintas, lo que permite la reconstrucción de los datos en caso de que una cinta se dañe o se pierda. RAIT fue una solución atractiva porque el tiempo de montaje general con RAIT es más corto que con el montaje en serie, y el único coste incurrido es la cinta de paridad adicional.

Desde que se implementó RAIT en enero de 2015, el centro ha colocado más de 15 PB y 42.585.959 archivos en cintas RAIT. El centro compra regularmente nuevas tecnologías cuando se lanzan y ahora está utilizando la tecnología de cinta más reciente. Actualmente, el centro cuenta con más de 120 unidades de cinta y la capacidad de almacenar 60.000 cintas. Aunque el archivo tiene una capacidad potencial de 498 PB de datos, actualmente tiene 107 PB de almacenamiento en cinta. De esta cantidad, 59 PB están ocupados en la actualidad.

El OLCF también implementó una gran caché de discos para apoyar su solución de archivo activo. La transición de una caché de discos de 2 PB a una de 18 PB significa que los usuarios pueden acceder a sus datos rápidamente y durante períodos de tiempo más largos. La gran caché de discos ofrece un acceso más rápido a los archivos porque los datos pueden permanecer en el disco durante aproximadamente 18 meses antes de ser eliminados de la caché. La caché actúa como un búfer, por lo que el centro puede ingerir grandes cantidades de datos y luego transferirlos a cinta con el tiempo. Ahora los usuarios pueden mover rápidamente proyectos de múltiples petabytes, beneficiándose de las ventajas de almacenamiento a largo plazo de la cinta. Debido a que algunos investigadores tardan años en analizar conjuntos de datos, implementar nuevas soluciones de almacenamiento de archivos activos es importante para proporcionar a los investigadores un sistema eficiente y rentable para almacenar y recuperar su información durante la duración de sus respectivos proyectos.

El futuro del archivo activo del OLCF  
Actualmente, la tasa de ingestión de datos del OLCF es la más alta que ha tenido. Con miras a las futuras máquinas exascale, el personal está constantemente buscando estrategias como RAIT que también puedan beneficiar las tasas de ingestión y extracción del centro en el futuro. "Todavía necesitamos alcanzar esas tasas de datos", dijo Mitchell. "Pero estamos buscando las mejores soluciones disponibles todo el tiempo, ya sea para la caché de discos, la capa de cinta o para la aplicación que gestione esos sistemas de almacenamiento jerárquicos. Siempre estamos evaluando nuestro sistema de almacenamiento actual para encontrar las mejores soluciones de archivo activo que satisfagan tanto las necesidades de nuestro centro como las necesidades de la próxima generación de científicos computacionales en el OLCF".

Más información

¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas?  Conoce más sobre el software FUJIFILM Object Archive, el almacenamiento sostenible, las tecnologías de soporte de almacenamiento de datos o las cintas LTO de FUJIFILM para estar al día de un sector en crecimiento.