BLOG

RAG en la era de los LLM con 10 millones de ventanas de contexto de tokens

Miniatura de Hunter Smit
Cazador Smit
Publicado el 9 de abril de 2025

Meta presentó recientemente la versión preliminar de la manada de LLM Llama 4 (Scout, Maverick y Behemoth), que incluye una ventana de contexto de 10 millones de tokens con Scout. Poco después, en X, LinkedIn y otros foros, los comentarios acerca de que la generación aumentada por recuperación (RAG) estaba quedando obsoleta cobraron fuerza, sugiriendo que una ventana de contexto tan amplia podría hacer que la RAG fuera inútil. Sin embargo, creemos que RAG seguirá siendo un patrón de diseño de IA generativa fundamental dados los matices de las ventanas de contexto, los datos corporativos en constante cambio, los almacenes de datos distribuidos, las preocupaciones regulatorias, el rendimiento del modelo y la relevancia de las aplicações de IA a escala empresarial.

RAG es una arquitectura crítica para las empresas.

A pesar del logro de Llama 4 al soportar 10 millones de ventanas de contexto de token, RAG sigue siendo un componente crítico en las aplicações de IA empresarial. Las empresas a menudo operan con conjuntos de datos dinámicos y en constante cambio almacenados en sistemas distribuidos. RAG permite que los modelos obtengan e incorporen la información más actual y relevante de estos vastos depósitos de datos en tiempo real, lo que garantiza que los resultados de IA sean precisos y contextualmente relevantes, todo lo cual es extremadamente único según la organización, el equipo o el usuario.  La recuperación en tiempo real es vital para las aplicações que requieren conocimientos actualizados, como atención al cliente, análisis de mercado y bases de conocimiento.

Depender únicamente de ventanas de contexto grandes sin recuperación externa puede resultar ineficiente y representar un riesgo de seguridad. Cuando se introducen datos de forma continua en un modelo, se vuelve más difícil controlar quién puede acceder a esos datos, si están almacenados de forma segura y cómo podrían exponerse de forma inadvertida a través de registros o salidas del modelo. Las amenazas internas, los avisos maliciosos o las filtraciones accidentales se vuelven más probables a medida que crece el volumen de datos, y las organizaciones corren el riesgo de violar los mandatos de privacidad o cumplimiento si se manejan incorrectamente los registros confidenciales. 

Al adoptar RAG, las empresas pueden recuperar solo los datos más pertinentes para cada consulta, alineándose con las restricciones regulatorias regionales y específicas de la industria que a menudo requieren una selección de datos altamente correlacionados. Este enfoque reduce la superficie de ataque al tiempo que garantiza la aplicación constante de políticas como controles de acceso basados en roles, cifrado en tránsito y mecanismos de auditoría detallados. Esta recuperación selectiva no solo reduce la sobrecarga computacional, sino que también refuerza una postura de seguridad sólida al limitar la exposición de activos sensibles a precisamente lo que se necesita en el momento de la inferencia.

Ventanas de contexto e implicaciones

En los LLM, la ventana de contexto denota la cantidad máxima de tokens que el modelo puede procesar en una sola entrada. Al ampliar esta ventana, el modelo puede considerar información más amplia simultáneamente, lo que da como resultado conversaciones más detalladas, un análisis más completo y una personalización mejorada. Para ponerlo en perspectiva, un texto sin procesar compuesto por 100.000 tokens tiene un tamaño aproximado de 325 KB; un contexto de 10 millones de tokens equivaldría a aproximadamente 32 MB de datos de texto. Esta capacidad permite a Llama 4 Scout manejar grandes cantidades de información en una sola consulta.

Si bien una ventana de contexto extendida ofrece la ventaja de procesar más datos a la vez, presenta desafíos relacionados con el rendimiento, la precisión y la eficiencia del modelo. El procesamiento de millones de tokens exige importantes recursos computacionales, lo que genera una mayor latencia y mayores costos operativos. A medida que aumenta la longitud del contexto, los modelos pueden experimentar dificultades para mantener la atención y la relevancia en toda la entrada, lo que potencialmente afecta la calidad de los resultados de la IA. Sobre este tema, Andriy Burkov, Ph.D., autor y reconocido experto en IA, escribió en X : “El contexto declarado de 10M es virtual porque ningún modelo fue entrenado en indicaciones de más de 256k tokens. “Esto significa que si le envías más de 256k tokens, obtendrás resultados de baja calidad la mayor parte del tiempo”. 

Si bien las ventanas de contexto más grandes presentan nuevas oportunidades, la necesidad de equilibrar el rendimiento y la utilización de recursos es fundamental. El escenario óptimo es presentar toda la información relevante, pero nada que no sea necesario. De hecho, algunos estudios parecen indicar que, al igual que ocurre con los humanos, proporcionar demasiada información a un LLM le impide identificar y concentrarse. Para los interesados, el libro blanco, Perdido en el medio: Cómo los modelos lingüísticos utilizan contextos largos, Explora este tema en profundidad.

Consideraciones de infraestructura para la implementación de modelos avanzados de IA

A muchas empresas les resulta abrumador conectar de forma segura cientos o miles de almacenes de datos ampliamente dispersos para RAG sin comprometer el rendimiento ni la seguridad de los datos en tránsito. El desafío de consolidar ubicaciones de almacenamiento locales, híbridas y basadas en múltiples nubes requiere una estructura de interconexión global de alto rendimiento como la que proporciona F5 Distributed Cloud Services . Al garantizar que solo los puntos finales LLM autorizados puedan acceder a los datos mediante un WAF integrado y controles basados en políticas, las empresas reducen drásticamente los riesgos y los gastos generales asociados con la gestión de múltiples puertas de enlace o VPN. 

Al proporcionar un enfoque unificado para la red y la seguridad, F5 Distributed Cloud Network Connect agiliza las implementaciones de RAG, lo que permite a las organizaciones conectar sin problemas fuentes de datos distribuidas para obtener resultados impulsados por LLM más precisos y oportunos. Además, con F5 AI Gateway , las organizaciones pueden protegerse contra ataques de inyección rápida que podrían violar los límites de seguridad de datos para garantizar un enfoque de defensa en profundidad en el momento de la inferencia.

La implementación de modelos como Llama 4 Scout, con su amplia ventana de contexto, requiere una infraestructura sólida y eficiente. Los servidores proxy de alto rendimiento capaces de gestionar un rendimiento sustancial de datos son esenciales para mantener una baja latencia y garantizar un funcionamiento sin problemas. F5 BIG-IP Next para Kubernetes implementado en DPU NVIDIA BlueField-3 ofrece una solución convincente en este contexto, brindando administración de tráfico de alto rendimiento y seguridad adaptada a la infraestructura de IA a escala de nube y las fábricas de IA .

Al descargar tareas intensivas en datos a las DPU , se liberan recursos de la CPU para los procesos de aplicação principales, lo que mejora la eficiencia general del sistema. Con soporte multi-tenencia, múltiples cargas de trabajo de IA pueden operar de forma segura y eficiente dentro de la misma infraestructura, lo que se alinea bien con nubes de IA, hiperescaladores y proveedores de servicios. Estas capacidades son indispensables para las fábricas de IA que buscan aprovechar modelos con amplias ventanas de contexto y al mismo tiempo mantener un rendimiento y una seguridad óptimos.

Otra consideración importante es que las ventanas de contexto grandes y altamente variables pueden generar fluctuaciones significativas en el consumo de recursos. Esto pone mayor énfasis en equilibrar de forma inteligente las solicitudes entrantes para que coincidan con la capacidad computacional disponible. Las soluciones avanzadas y adaptables de equilibrio de carga ayudan a distribuir estas grandes consultas entre múltiples clústeres o regiones, mitigando los cuellos de botella y manteniendo el rendimiento general en implementaciones de IA complejas, incluso si no reducen directamente los costos informáticos.

RAG sigue aquí para quedarse.

RAG es tan relevante hoy como lo ha sido siempre, por razones que van más allá del escalamiento de las ventanas de contexto. Un beneficio clave es su capacidad de personalizar la recuperación de datos en función de los derechos de acceso del usuario. Otra es su capacidad para incorporar información oportuna sin necesidad de volver a entrenar o ajustar el modelo. Esto se vuelve especialmente importante cuando se considera el enorme tamaño de los datos corporativos, que a menudo abarcan terabytes o incluso petabytes que las empresas pueden intentar integrar con modelos de IA. 

Las impresionantes innovaciones en el aumento del tamaño de la ventana de contexto, como la ventana de contexto de 10 millones de tokens de Llama 4 Scout, son un avance significativo en los LLM, pero el contexto aún debe usarse de manera inteligente. Los tamaños de contexto grandes aumentan el costo y la latencia y pueden incluso, en algunos casos, reducir la calidad de la respuesta final. Igualmente importantes son la infraestructura sólida y los controles de seguridad necesarios para garantizar un alto rendimiento a medida que las organizaciones escalan sus aplicações de IA.

El enfoque de F5 en la IA no termina aquí: explore cómo F5 protege y distribuye aplicaciones de IA en todas partes .