La cinta se convertirá en un elemento clave para la retención masiva de datos
- Actualidad
En los últimos años, los centros de datos se han enfrentado a varios obstáculos, incluyendo la inflación global, fluctuaciones monetarias, escasez persistente de suministros, aumento en el consumo de energía, tensiones geopolíticas constantes y la irrupción agresiva de la inteligencia artificial (IA).
A pesar de los desafíos, en 2024 comenzaron a aparecer signos de recuperación, renovando la confianza y estabilidad en los mercados tradicionales de almacenamiento de datos. Las proyecciones de crecimiento para la cantidad de datos almacenados a nivel mundial continúan sugiriendo un crecimiento compuesto anual de aproximadamente el 20%, lo que equivale a duplicar la cantidad de datos almacenados cada cuatro años.
La avalancha de la IA ha despegado con fuerza, marcando el inicio de la disrupción de la IA. La insaciable sed de recursos de la IA, como computación, memoria, almacenamiento, energía y agua refrigerada, ha puesto el consumo de energía, las emisiones de carbono y el impacto ambiental general de los centros de datos en el punto de mira de la mayoría de las organizaciones. Sin vastas cantidades de datos de alta calidad, incluso el sistema de IA más sofisticado no puede operar; ambos se necesitan mutuamente. Afortunadamente, para gestionar este crecimiento explosivo, la cinta sigue siendo la solución de almacenamiento más económica y respetuosa con el medio ambiente disponible en los centros de datos y será fundamental para retener de forma segura los datos de entrada y salida que respaldan los flujos de trabajo de la IA.
La IA generativa impacta significativamente el almacenamiento empresarial al aumentar los volúmenes de datos y agregar complejidad. Las empresas necesitan adaptar rápidamente sus estrategias de almacenamiento para satisfacer estas nuevas demandas. Aunque el uso de la cinta está en aumento, debido a la inercia y la falta de planificación estratégica, gran parte de los datos no estructurados de baja actividad del mundo continúan residiendo en discos duros (HDD) ineficientes.
Crecimiento de los datos de archivo
El almacenamiento secundario está diseñado para conservar datos importantes pero menos activos en medios más económicos y seguros que no necesitan accederse con tanta frecuencia como los datos de almacenamiento primario. La importancia y el valor de estos datos está aumentando rápidamente debido a la recolección agresiva de la IA. TRENDFOCUS proyecta que la capacidad de almacenamiento instalada en todos los centros de datos empresariales alcanzará aproximadamente 6.4 zettabytes en 2025, con al menos el 80% (aproximadamente 5.12 ZBs) clasificados como datos de archivo o "fríos", lo que convierte al almacenamiento secundario en el mercado de almacenamiento de datos más grande con diferencia. Para 2030, se proyecta que la capacidad instalada total alcanzará aproximadamente 17.4 ZBs, lo que sugiere unos 13.92 ZBs de requisitos de almacenamiento secundario. Para finales de 2025, si nada cambia, aproximadamente el 80% de todos los datos almacenados residirán en costosos y energéticamente ineficientes HDDs. Estas proyecciones indican que la mayor parte de los datos fríos pero valiosos del mundo seguirá residiendo en HDDs ineficientes a menos que las empresas comiencen a aprovechar los beneficios de la tecnología moderna de cintas.
El desafío del big data
El universo masivo del big data se refiere a conjuntos de datos tan grandes o complejos que la mayoría de las herramientas tradicionales de gestión de datos no pueden almacenarlos y procesarlos de manera eficiente. Las aplicaciones de big data pueden generar datos más rápido de lo que pueden analizarse, extendiendo significativamente los plazos de retención de datos y llenando "lagos de datos" sin límites de tamaño. La IA ahora está en el centro de atención y lidera la carrera para explotar estos enormes volúmenes de datos no estructurados, muchos de los cuales residen en almacenamiento secundario.
A medida que la IA impulsa la disrupción y los almacenes de big data se convierten en su principal fuente de datos de entrada, se estima que aproximadamente el 97% de las empresas están invirtiendo en tecnología de IA y aprendizaje automático para extraer valor del big data. Esto es favorable para la IA, que puede aprovechar almacenes de datos aún más grandes para construir sus modelos de entrenamiento complejos.
Almacenamiento en la nube híbrida y cinta
El concepto de repatriación del almacenamiento en la nube está ganando popularidad, lo que implica un movimiento de regreso a infraestructuras híbridas que combinan almacenamiento local con almacenamiento en la nube. Este enfoque permite a las empresas optimizar costes y mejorar la seguridad de los datos, utilizando soluciones avanzadas de almacenamiento en cinta.
El almacenamiento en cinta se integra ahora con tecnologías como la API de S3 Glacier y el Sistema de Archivos de Cinta Lineal (LTFS), facilitando la transición de datos entre entornos locales y la nube. Empresas líderes del sector han lanzado bibliotecas de cintas que aprovechan estas integraciones para proporcionar soluciones de almacenamiento escalables y seguras.
A menos que haya una desaceleración significativa en la implementación de la IA, esta impactará todos los niveles tecnológicos, con el mayor efecto en la computación (GPUs), la memoria (DRAM) y el almacenamiento en flash SSD. Los discos duros (HDD) y las cintas verán un aumento en la demanda para almacenar, recuperar, archivar y proteger toda la producción de la IA. La IA también requiere enormes cantidades de agua y electricidad para enfriar las GPUs, que operan a temperaturas extremadamente altas, lo que agrava aún más los desafíos energéticos de los centros de datos en la gestión y reducción del consumo de energía. Las estimaciones sugieren que las GPUs de gama alta están consumiendo tanta electricidad como varios países pequeños y son responsables de una gran parte de la nueva demanda eléctrica en los Estados Unidos. Para 2027, los servidores de IA podrían usar entre 85 y 134 TWh anuales, una cantidad similar al consumo de Argentina, los Países Bajos o Suecia. Claramente, esta no es una tendencia sostenible a largo plazo.
El uso de cintas modernas para almacenar modelos de IA menos activos podría generar grandes ahorros de energía y optimizar el espacio en discos duros para aplicaciones más activas.
Una simple búsqueda de texto en Google puede requerir aproximadamente 0,5 MB de DRAM (memoria principal), en comparación con un modelo de chat de IA, que puede requerir hasta 1TB para ejecutar una solicitud, lo que incrementa significativamente las necesidades de memoria. Si una gran parte de las búsquedas en Google fueran reemplazadas por modelos de chat, el impacto en la memoria sería considerable. Los modelos típicos de ChatGPT tienen alrededor de 1,8 billones de puntos de datos, aunque están surgiendo modelos más pequeños con solo 2,5 mil millones de puntos de datos que aún pueden proporcionar buenos resultados a las empresas mientras reducen el consumo de energía.
El entrenamiento de la IA consta de un proceso de tres pasos. En la fase de entrenamiento, normalmente los humanos agregan metadatos a los datos no estructurados, que luego se alimentan a un algoritmo para generar predicciones y evaluar su precisión. La fase de validación mide qué tan bien el modelo entrenado funciona con datos no utilizados previamente, que generalmente se almacenan en almacenamiento secundario. Finalmente, se realiza la fase de prueba, donde se decide si el modelo final puede hacer predicciones precisas con nuevos datos que nunca antes ha visto. Estos son procesos que requieren un uso intensivo de computación, almacenamiento y energía.
Más información
¿Cuál es el futuro del mercado de almacenamiento? ¿Qué tecnologías son las más adecuadas? Conoce más sobre el software FUJIFILM Object Archive, el almacenamiento sostenible, las tecnologías de soporte de almacenamiento de datos o las cintas LTO de FUJIFILM para estar al día de un sector en crecimiento.