CVE-2025-46570

vLLM is an inference and serving engine for large language models (LLMs). Prior to version 0.9.0, when a new prompt is processed, if the PageAttention mechanism finds a matching prefix chunk, the prefill process speeds up, which is reflected in the TTFT (Time to First Token). These timing differences caused by matching chunks are significant enough to be recognized and exploited. This issue has been patched in version 0.9.0.
Configurations

No configuration.

History

30 May 2025, 16:31

Type Values Removed Values Added
Summary
  • (es) vLLM es un motor de inferencia y entrega para modelos de lenguaje grandes (LLM). Antes de la versión 0.9.0, al procesar una nueva solicitud, si el mecanismo PageAttention encuentra un fragmento de prefijo coincidente, el proceso de precompletado se acelera, lo que se refleja en el TTFT (Tiempo hasta el Primer Token). Estas diferencias de tiempo causadas por la coincidencia de fragmentos son lo suficientemente significativas como para ser detectadas y explotadas. Este problema se ha corregido en la versión 0.9.0.

29 May 2025, 17:15

Type Values Removed Values Added
New CVE

Information

Published : 2025-05-29 17:15

Updated : 2025-05-30 16:31


NVD link : CVE-2025-46570

Mitre link : CVE-2025-46570

CVE.ORG link : CVE-2025-46570


JSON object : View

Products Affected

No product.

CWE
CWE-208

Observable Timing Discrepancy