Skip to content

You are viewing the latest developer preview docs. Click here to view docs for the latest stable release.

vLLM

triton_decode_attention

Initializing search

Home
User Guide
Developer Guide
Benchmarking
API Reference
CLI Reference
Community

vLLM

Home
User Guide
User Guide
- Getting Started
  Getting Started
- General
  General
- Inference and Serving
  Inference and Serving
  - Offline Inference
  - OpenAI-Compatible Server
  - Context Parallel Deployment
  - Data Parallel Deployment
  - Troubleshooting distributed deployments
  - Expert Parallel Deployment
  - Parallelism and Scaling
  - Integrations
    Integrations
    
    Claude Code
    
    LangChain
    
    LlamaIndex
- Deployment
  Deployment
  - Using Docker
  - Using Kubernetes
  - Using Nginx
  - Frameworks
    Frameworks
    
    Anyscale
    
    AnythingLLM
    
    AutoGen
    
    BentoML
    
    Cerebrium
    
    Chatbox
    
    Dify
    
    dstack
    
    Haystack
    
    Helm
    
    Hugging Face Inference Endpoints
    
    LiteLLM
    
    Lobe Chat
    
    LWS
    
    Modal
    
    Open WebUI
    
    Retrieval-Augmented Generation
    
    SkyPilot
    
    Streamlit
    
    NVIDIA Triton
  - Integrations
    Integrations
    
    KAITO
    
    KServe
    
    Kthena
    
    KubeAI
    
    KubeRay
    
    Llama Stack
    
    llm-d
    
    llmaz
    
    Production stack
- Training
  Training
  - Reinforcement Learning from Human Feedback
  - Transformers Reinforcement Learning
- Configuration
  Configuration
- Models
  Models
  - Supported Models
  - Generative Models
  - Pooling Models
  - Extensions
    Extensions
    
    Loading model weights with fastsafetensors
    
    Loading models with Run:ai Model Streamer
    
    Loading models with CoreWeave's Tensorizer
  - Hardware Supported Models
    Hardware Supported Models
    
    CPU - Intel® Xeon®
    
    XPU - Intel® GPUs
    
    TPU
- Features
  Features
Developer Guide
Developer Guide
- General
  General
- Model Implementation
  Model Implementation
- CI
  CI
- Design Documents
  Design Documents
Benchmarking
Benchmarking
API Reference
API Reference
- vllm
  vllm
  - beam_search
  - collect_env
  - connections
  - env_override
  - envs
  - exceptions
  - forward_context
  - logger
  - logits_process
  - logprobs
  - model_inspection
  - outputs
  - pooling_params
  - sampling_params
  - scalar_type
  - scripts
  - sequence
  - tasks
  - version
  - assets
    
    assets
    
    audio
    
    base
    
    image
    
    video
  - benchmarks
    
    benchmarks
    
    datasets
    
    latency
    
    mm_processor
    
    plot
    
    serve
    
    startup
    
    throughput
    
    lib
    
    lib
    
    endpoint_request_func
    
    ready_checker
    
    utils
    
    sweep
    
    sweep
    
    cli
    
    param_sweep
    
    plot
    
    plot_pareto
    
    serve
    
    serve_workload
    
    server
    
    startup
    
    utils
  - compilation
    
    compilation
    
    backends
    
    base_static_graph
    
    caching
    
    compiler_interface
    
    counter
    
    cuda_graph
    
    decorators
    
    monitor
    
    partition_rules
    
    piecewise_backend
    
    wrapper
    
    passes
    
    passes
    
    fx_utils
    
    inductor_pass
    
    pass_manager
    
    vllm_inductor_pass
    
    fusion
    
    fusion
    
    act_quant_fusion
    
    allreduce_rms_fusion
    
    attn_quant_fusion
    
    collective_fusion
    
    matcher_utils
    
    qk_norm_rope_fusion
    
    rms_quant_fusion
    
    rocm_aiter_fusion
    
    rope_kvcache_fusion
    
    sequence_parallelism
    
    utility
    
    utility
    
    fix_functionalization
    
    noop_elimination
    
    post_cleanup
    
    scatter_split_replace
    
    split_coalescing
  - config
    
    config
    
    attention
    
    cache
    
    compilation
    
    device
    
    ec_transfer
    
    kernel
    
    kv_events
    
    kv_transfer
    
    load
    
    lora
    
    model
    
    model_arch
    
    multimodal
    
    observability
    
    offload
    
    parallel
    
    pooler
    
    profiler
    
    scheduler
    
    speculative
    
    speech_to_text
    
    structured_outputs
    
    utils
    
    vllm
    
    weight_transfer
  - device_allocator
    
    device_allocator
    
    cumem
  - distributed
    
    distributed
    
    communication_op
    
    kv_events
    
    parallel_state
    
    stateless_coordinator
    
    utils
    
    device_communicators
    
    device_communicators
    
    all2all
    
    all_reduce_utils
    
    base_device_communicator
    
    cpu_communicator
    
    cuda_communicator
    
    cuda_wrapper
    
    custom_all_reduce
    
    flashinfer_all_reduce
    
    mnnvl_compat
    
    pynccl
    
    pynccl_allocator
    
    pynccl_wrapper
    
    quick_all_reduce
    
    ray_communicator
    
    shm_broadcast
    
    shm_object_storage
    
    symm_mem
    
    xpu_communicator
    
    ec_transfer
    
    ec_transfer
    
    ec_transfer_state
    
    ec_connector
    
    ec_connector
    
    base
    
    example_connector
    
    factory
    
    elastic_ep
    
    elastic_ep
    
    elastic_execute
    
    elastic_state
    
    standby_state
    
    eplb
    
    eplb
    
    async_worker
    
    eplb_state
    
    eplb_utils
    
    rebalance_execute
    
    policy
    
    policy
    
    abstract
    
    default
    
    kv_transfer
    
    kv_transfer
    
    kv_transfer_state
    
    kv_connector
    
    kv_connector
    
    base
    
    factory
    
    utils
    
    v1
    
    v1
    
    base
    
    decode_bench_connector
    
    example_connector
    
    lmcache_connector
    
    lmcache_mp_connector
    
    metrics
    
    multi_connector
    
    nixl_connector
    
    offloading_connector
    
    lmcache_integration
    
    lmcache_integration
    
    multi_process_adapter
    
    utils
    
    vllm_v1_adapter
    
    mooncake
    
    mooncake
    
    mooncake_connector
    
    mooncake_utils
    
    moriio
    
    moriio
    
    moriio_common
    
    moriio_connector
    
    moriio_engine
    
    p2p
    
    p2p
    
    p2p_nccl_connector
    
    p2p_nccl_engine
    
    tensor_memory_pool
    
    weight_transfer
    
    weight_transfer
    
    base
    
    factory
    
    ipc_engine
    
    nccl_engine
    
    packed_tensor
  - engine
    
    engine
    
    arg_utils
    
    async_llm_engine
    
    llm_engine
    
    protocol
  - entrypoints
    
    entrypoints
    
    api_server
    
    chat_utils
    
    constants
    
    grpc_server
    
    launcher
    
    llm
    
    logger
    
    ssl
    
    utils
    
    anthropic
    
    anthropic
    
    api_router
    
    protocol
    
    serving
    
    cli
    
    cli
    
    collect_env
    
    main
    
    openai
    
    run_batch
    
    serve
    
    types
    
    benchmark
    
    benchmark
    
    base
    
    latency
    
    main
    
    mm_processor
    
    serve
    
    startup
    
    sweep
    
    throughput
    
    mcp
    
    mcp
    
    tool
    
    tool_server
    
    openai
    
    openai
    
    api_server
    
    cli_args
    
    orca_metrics
    
    run_batch
    
    server_utils
    
    utils
    
    chat_completion
    
    chat_completion
    
    api_router
    
    protocol
    
    serving
    
    stream_harmony
    
    completion
    
    completion
    
    api_router
    
    protocol
    
    serving
    
    engine
    
    engine
    
    protocol
    
    serving
    
    generate
    
    generate
    
    api_router
    
    models
    
    models
    
    api_router
    
    protocol
    
    serving
    
    parser
    
    parser
    
    harmony_utils
    
    responses_parser
    
    realtime
    
    realtime
    
    api_router
    
    connection
    
    protocol
    
    serving
    
    responses
    
    responses
    
    api_router
    
    context
    
    harmony
    
    protocol
    
    serving
    
    streaming_events
    
    utils
    
    speech_to_text
    
    speech_to_text
    
    api_router
    
    protocol
    
    serving
    
    speech_to_text
    
    pooling
    
    pooling
    
    utils
    
    base
    
    base
    
    protocol
    
    classify
    
    classify
    
    api_router
    
    protocol
    
    serving
    
    embed
    
    embed
    
    api_router
    
    protocol
    
    serving
    
    pooling
    
    pooling
    
    api_router
    
    protocol
    
    serving
    
    score
    
    score
    
    api_router
    
    protocol
    
    serving
    
    utils
    
    sagemaker
    
    sagemaker
    
    api_router
    
    serve
    
    serve
    
    cache
    
    cache
    
    api_router
    
    disagg
    
    disagg
    
    api_router
    
    protocol
    
    serving
    
    elastic_ep
    
    elastic_ep
    
    api_router
    
    middleware
    
    instrumentator
    
    instrumentator
    
    basic
    
    health
    
    metrics
    
    offline_docs
    
    server_info
    
    lora
    
    lora
    
    api_router
    
    protocol
    
    profile
    
    profile
    
    api_router
    
    rlhf
    
    rlhf
    
    api_router
    
    rpc
    
    rpc
    
    api_router
    
    sleep
    
    sleep
    
    api_router
    
    tokenize
    
    tokenize
    
    api_router
    
    protocol
    
    serving
  - grpc
    
    grpc
    
    compile_protos
  - inputs
    
    inputs
    
    data
    
    parse
    
    preprocess
  - kernels
    
    kernels
    
    helion
    
    helion
    
    config_manager
    
    register
    
    utils
    
    ops
    
    ops
    
    silu_mul_fp8
  - logging_utils
    
    logging_utils
    
    access_log_filter
    
    dump_input
    
    formatter
    
    lazy
    
    log_time
  - lora
    
    lora
    
    lora_model
    
    lora_weights
    
    model_manager
    
    peft_helper
    
    request
    
    resolver
    
    utils
    
    worker_manager
    
    layers
    
    layers
    
    base
    
    base_linear
    
    column_parallel_linear
    
    fused_moe
    
    logits_processor
    
    replicated_linear
    
    row_parallel_linear
    
    utils
    
    vocal_parallel_embedding
    
    ops
    
    ops
    
    torch_ops
    
    torch_ops
    
    lora_ops
    
    triton_ops
    
    triton_ops
    
    fused_moe_lora_fp8_op
    
    fused_moe_lora_op
    
    kernel_utils
    
    lora_expand_op
    
    lora_kernel_metadata
    
    lora_shrink_op
    
    utils
    
    xpu_ops
    
    xpu_ops
    
    lora_ops
    
    punica_wrapper
    
    punica_wrapper
    
    punica_base
    
    punica_cpu
    
    punica_gpu
    
    punica_selector
    
    punica_xpu
    
    utils
  - model_executor
    
    model_executor
    
    custom_op
    
    parameter
    
    utils
    
    kernels
    
    kernels
    
    linear
    
    linear
    
    mixed_precision
    
    mixed_precision
    
    allspark
    
    conch
    
    cpu
    
    cutlass
    
    dynamic_4bit
    
    exllama
    
    MPLinearKernel
    
    machete
    
    marlin
    
    xpu
    
    scaled_mm
    
    scaled_mm
    
    aiter
    
    cpu
    
    cutlass
    
    flashinfer
    
    pytorch
    
    rocm
    
    ScaledMMLinearKernel
    
    triton
    
    xpu
    
    layers
    
    layers
    
    activation
    
    attention_layer_base
    
    batch_invariant
    
    conv
    
    kda
    
    layernorm
    
    lightning_attn
    
    linear
    
    logits_processor
    
    mla
    
    resampler
    
    sparse_attn_indexer
    
    utils
    
    vocab_parallel_embedding
    
    attention
    
    attention
    
    attention
    
    chunked_local_attention
    
    cross_attention
    
    encoder_only_attention
    
    kv_transfer_utils
    
    mla_attention
    
    mm_encoder_attention
    
    static_sink_attention
    
    fla
    
    fla
    
    ops
    
    ops
    
    chunk
    
    chunk_delta_h
    
    chunk_o
    
    chunk_scaled_dot_kkt
    
    cumsum
    
    fused_recurrent
    
    index
    
    kda
    
    l2norm
    
    layernorm_guard
    
    op
    
    solve_tril
    
    utils
    
    wy_fast
    
    fused_moe
    
    fused_moe
    
    activation
    
    all2all_utils
    
    batched_deep_gemm_moe
    
    config
    
    cpu_fused_moe
    
    cutlass_moe
    
    deep_gemm_moe
    
    deep_gemm_utils
    
    deepep_ht_prepare_finalize
    
    deepep_ll_prepare_finalize
    
    fallback
    
    flashinfer_a2a_prepare_finalize
    
    flashinfer_cutedsl_moe
    
    flashinfer_cutlass_moe
    
    flashinfer_trtllm_moe
    
    fused_batched_moe
    
    fused_marlin_moe
    
    fused_moe
    
    fused_moe_method_base
    
    fused_moe_modular_method
    
    gpt_oss_triton_kernels_moe
    
    layer
    
    modular_kernel
    
    moe_align_block_size
    
    moe_permute_unpermute
    
    mori_prepare_finalize
    
    prepare_finalize
    
    rocm_aiter_fused_moe
    
    routed_experts_capturer
    
    shared_fused_moe
    
    topk_weight_and_reduce
    
    triton_cutlass_moe
    
    triton_deep_gemm_moe
    
    trtllm_moe
    
    unquantized_fused_moe_method
    
    utils
    
    xpu_fused_moe
    
    zero_expert_fused_moe
    
    oracle
    
    oracle
    
    fp8
    
    nvfp4
    
    unquantized
    
    router
    
    router
    
    base_router
    
    custom_routing_router
    
    fused_moe_router
    
    fused_topk_bias_router
    
    fused_topk_router
    
    gate_linear
    
    grouped_topk_router
    
    router_factory
    
    routing_simulator_router
    
    runner
    
    runner
    
    default_moe_runner
    
    moe_runner
    
    mamba
    
    mamba
    
    abstract
    
    linear_attn
    
    mamba_mixer
    
    mamba_mixer2
    
    mamba_utils
    
    short_conv
    
    ops
    
    ops
    
    causal_conv1d
    
    layernorm_gated
    
    mamba_ssm
    
    ssd_bmm
    
    ssd_chunk_scan
    
    ssd_chunk_state
    
    ssd_combined
    
    ssd_state_passing
    
    pooler
    
    pooler
    
    abstract
    
    activations
    
    common
    
    special
    
    seqwise
    
    seqwise
    
    heads
    
    methods
    
    poolers
    
    tokwise
    
    tokwise
    
    heads
    
    methods
    
    poolers
    
    quantization
    
    quantization
    
    awq
    
    awq_marlin
    
    awq_triton
    
    base_config
    
    bitsandbytes
    
    cpu_wna16
    
    experts_int8
    
    fbgemm_fp8
    
    fp8
    
    fp_quant
    
    gguf
    
    gptq
    
    gptq_marlin
    
    inc
    
    input_quant_fp8
    
    kv_cache
    
    modelopt
    
    moe_wna16
    
    mxfp4
    
    petit
    
    ptpc_fp8
    
    qutlass_utils
    
    schema
    
    torchao
    
    compressed_tensors
    
    compressed_tensors
    
    compressed_tensors
    
    compressed_tensors_moe
    
    triton_scaled_mm
    
    utils
    
    schemes
    
    schemes
    
    compressed_tensors_24
    
    compressed_tensors_scheme
    
    compressed_tensors_w4a4_nvfp4
    
    compressed_tensors_w4a8_fp8
    
    compressed_tensors_w4a8_int
    
    compressed_tensors_w4a16_mxfp4
    
    compressed_tensors_w4a16_nvfp4
    
    compressed_tensors_w8a8_fp8
    
    compressed_tensors_w8a8_int8
    
    compressed_tensors_w8a16_fp8
    
    compressed_tensors_wNa16
    
    transform
    
    transform
    
    linear
    
    module
    
    utils
    
    schemes
    
    schemes
    
    linear_qutlass_nvfp4
    
    quark
    
    quark
    
    quark
    
    quark_moe
    
    utils
    
    schemes
    
    schemes
    
    quark_ocp_mx
    
    quark_scheme
    
    quark_w8a8_fp8
    
    quark_w8a8_int8
    
    utils
    
    utils
    
    allspark_utils
    
    flashinfer_fp4_moe
    
    flashinfer_mxint4_moe
    
    flashinfer_utils
    
    fp8_utils
    
    gptq_utils
    
    int8_utils
    
    layer_utils
    
    machete_utils
    
    marlin_utils
    
    marlin_utils_fp4
    
    marlin_utils_fp8
    
    marlin_utils_test
    
    mxfp4_utils
    
    mxfp6_utils
    
    mxfp8_utils
    
    nvfp4_emulation_utils
    
    nvfp4_utils
    
    ocp_mx_utils
    
    petit_utils
    
    quant_utils
    
    w8a8_utils
    
    rotary_embedding
    
    rotary_embedding
    
    base
    
    common
    
    deepseek_scaling_rope
    
    dual_chunk_rope
    
    dynamic_ntk_alpha_rope
    
    dynamic_ntk_scaling_rope
    
    ernie45_vl_rope
    
    fope
    
    linear_scaling_rope
    
    llama3_rope
    
    llama4_vision_rope
    
    mrope
    
    mrope_interleaved
    
    ntk_scaling_rope
    
    phi3_long_rope_scaled_rope
    
    xdrope
    
    yarn_scaling_rope
    
    model_loader
    
    model_loader
    
    base_loader
    
    bitsandbytes_loader
    
    default_loader
    
    dummy_loader
    
    gguf_loader
    
    runai_streamer_loader
    
    sharded_state_loader
    
    tensorizer
    
    tensorizer_loader
    
    utils
    
    weight_utils
    
    reload
    
    reload
    
    layerwise
    
    meta
    
    sanitize
    
    torchao_decorator
    
    types
    
    utils
    
    models
    
    models
    
    AXK1
    
    adapters
    
    afmoe
    
    aimv2
    
    apertus
    
    arcee
    
    arctic
    
    aria
    
    audioflamingo3
    
    aya_vision
    
    bagel
    
    baichuan
    
    bailing_moe
    
    bailing_moe_linear
    
    bamba
    
    bee
    
    bert
    
    bert_with_rope
    
    blip
    
    blip2
    
    bloom
    
    chameleon
    
    chatglm
    
    clip
    
    cohere2_vision
    
    colbert
    
    colmodernvbert
    
    colqwen3
    
    commandr
    
    config
    
    dbrx
    
    deepencoder
    
    deepencoder2
    
    deepseek_eagle
    
    deepseek_mtp
    
    deepseek_ocr
    
    deepseek_ocr2
    
    deepseek_v2
    
    deepseek_vl2
    
    dots1
    
    dots_ocr
    
    eagle2_5_vl
    
    ernie45
    
    ernie45_moe
    
    ernie45_vl
    
    ernie45_vl_moe
    
    ernie_mtp
    
    exaone
    
    exaone4
    
    exaone_moe
    
    exaone_moe_mtp
    
    fairseq2_llama
    
    falcon
    
    falcon_h1
    
    flex_olmo
    
    funasr
    
    funaudiochat
    
    fuyu
    
    gemma
    
    gemma2
    
    gemma3
    
    gemma3_mm
    
    gemma3n
    
    gemma3n_audio_utils
    
    gemma3n_mm
    
    glm
    
    glm4
    
    glm4_1v
    
    glm4_moe
    
    glm4_moe_lite
    
    glm4_moe_lite_mtp
    
    glm4_moe_mtp
    
    glm4v
    
    glm_ocr
    
    glm_ocr_mtp
    
    glmasr
    
    glmasr_utils
    
    gpt2
    
    gpt_bigcode
    
    gpt_j
    
    gpt_neox
    
    gpt_oss
    
    granite
    
    granite_speech
    
    granitemoe
    
    granitemoehybrid
    
    granitemoeshared
    
    gritlm
    
    grok1
    
    h2ovl
    
    hunyuan_v1
    
    hunyuan_vision
    
    hyperclovax_vision
    
    idefics2_vision_model
    
    idefics3
    
    interfaces
    
    interfaces_base
    
    intern_vit
    
    internlm2
    
    internlm2_ve
    
    interns1
    
    interns1_pro
    
    interns1_vit
    
    internvl
    
    iquest_loopcoder
    
    isaac
    
    jais
    
    jais2
    
    jamba
    
    jina_vl
    
    kanana_v
    
    keye
    
    keye_vl1_5
    
    kimi_k25
    
    kimi_k25_vit
    
    kimi_linear
    
    kimi_vl
    
    lfm2
    
    lfm2_moe
    
    lfm2_siglip2
    
    lfm2_vl
    
    lightonocr
    
    llama
    
    llama4
    
    llama4_eagle
    
    llama_eagle
    
    llama_eagle3
    
    llava
    
    llava_next
    
    llava_next_video
    
    llava_onevision
    
    longcat_flash
    
    longcat_flash_mtp
    
    mamba
    
    mamba2
    
    medusa
    
    midashenglm
    
    mimo
    
    mimo_mtp
    
    mimo_v2_flash
    
    minicpm
    
    minicpm3
    
    minicpm_eagle
    
    minicpmo
    
    minicpmv
    
    minimax_m2
    
    minimax_text_01
    
    minimax_vl_01
    
    mistral
    
    mistral3
    
    mistral_large_3
    
    mistral_large_3_eagle
    
    mixtral
    
    mllama4
    
    mlp_speculator
    
    modernbert
    
    module_mapping
    
    molmo
    
    molmo2
    
    moonvit
    
    mpt
    
    musicflamingo
    
    nano_nemotron_vl
    
    nemotron
    
    nemotron_h
    
    nemotron_h_mtp
    
    nemotron_nas
    
    nemotron_parse
    
    nemotron_vl
    
    nvlm_d
    
    olmo
    
    olmo2
    
    olmoe
    
    opencua
    
    openpangu
    
    openpangu_mtp
    
    openpangu_vl
    
    opt
    
    orion
    
    ouro
    
    ovis
    
    ovis2_5
    
    paddleocr_vl
    
    paligemma
    
    parakeet
    
    persimmon
    
    phi
    
    phi3
    
    phi3v
    
    phi4mm
    
    phi4mm_audio
    
    phi4mm_utils
    
    phimoe
    
    pixtral
    
    plamo2
    
    plamo3
    
    qwen
    
    qwen2
    
    qwen2_5_omni_thinker
    
    qwen2_5_vl
    
    qwen2_audio
    
    qwen2_moe
    
    qwen2_rm
    
    qwen2_vl
    
    qwen3
    
    qwen3_5
    
    qwen3_5_mtp
    
    qwen3_asr
    
    qwen3_asr_realtime
    
    qwen3_moe
    
    qwen3_next
    
    qwen3_next_mtp
    
    qwen3_omni_moe_thinker
    
    qwen3_vl
    
    qwen3_vl_moe
    
    qwen_vl
    
    radio
    
    registry
    
    roberta
    
    rvl
    
    seed_oss
    
    siglip
    
    siglip2navit
    
    skyworkr1v
    
    smolvlm
    
    solar
    
    stablelm
    
    starcoder2
    
    step1
    
    step3_text
    
    step3_vl
    
    step3p5
    
    step3p5_mtp
    
    step_vl
    
    swin
    
    tarsier
    
    telechat2
    
    teleflm
    
    terratorch
    
    ultravox
    
    utils
    
    vision
    
    voxtral
    
    voxtral_realtime
    
    voyage
    
    whisper
    
    whisper_causal
    
    whisper_utils
    
    zamba2
    
    transformers
    
    transformers
    
    base
    
    causal
    
    legacy
    
    moe
    
    multimodal
    
    pooling
    
    utils
    
    offloader
    
    offloader
    
    base
    
    prefetch
    
    prefetch_ops
    
    uva
    
    warmup
    
    warmup
    
    deep_gemm_warmup
    
    kernel_warmup
  - multimodal
    
    multimodal
    
    audio
    
    cache
    
    encoder_budget
    
    evs
    
    hasher
    
    image
    
    inputs
    
    parse
    
    registry
    
    utils
    
    video
    
    media
    
    media
    
    audio
    
    base
    
    connector
    
    image
    
    video
    
    processing
    
    processing
    
    context
    
    dummy_inputs
    
    inputs
    
    processor
  - parser
    
    parser
    
    abstract_parser
    
    minimax_m2_parser
    
    parser_manager
  - platforms
    
    platforms
    
    cpu
    
    cuda
    
    interface
    
    rocm
    
    tpu
    
    xpu
  - plugins
    
    plugins
    
    io_processors
    
    io_processors
    
    interface
    
    lora_resolvers
    
    lora_resolvers
    
    filesystem_resolver
    
    hf_hub_resolver
  - profiler
    
    profiler
    
    layerwise_profile
    
    utils
    
    wrapper
  - ray
    
    ray
    
    lazy_utils
    
    ray_env
  - reasoning
    
    reasoning
    
    abs_reasoning_parsers
    
    basic_parsers
    
    deepseek_r1_reasoning_parser
    
    deepseek_v3_reasoning_parser
    
    ernie45_reasoning_parser
    
    gptoss_reasoning_parser
    
    granite_reasoning_parser
    
    hunyuan_a13b_reasoning_parser
    
    identity_reasoning_parser
    
    kimi_k2_reasoning_parser
    
    minimax_m2_reasoning_parser
    
    mistral_reasoning_parser
    
    olmo3_reasoning_parser
    
    qwen3_reasoning_parser
    
    seedoss_reasoning_parser
    
    step3_reasoning_parser
    
    step3p5_reasoning_parser
  - renderers
    
    renderers
    
    base
    
    deepseek_v32
    
    embed_utils
    
    grok2
    
    hf
    
    mistral
    
    params
    
    registry
    
    terratorch
    
    inputs
    
    inputs
    
    preprocess
    
    tokenize
  - tokenizers
    
    tokenizers
    
    deepseek_v32
    
    deepseek_v32_encoding
    
    detokenizer_utils
    
    grok2
    
    hf
    
    mistral
    
    protocol
    
    registry
  - tool_parsers
    
    tool_parsers
    
    abstract_tool_parser
    
    deepseekv3_tool_parser
    
    deepseekv31_tool_parser
    
    deepseekv32_tool_parser
    
    ernie45_tool_parser
    
    functiongemma_tool_parser
    
    gigachat3_tool_parser
    
    glm4_moe_tool_parser
    
    glm47_moe_tool_parser
    
    granite_20b_fc_tool_parser
    
    granite_tool_parser
    
    hermes_tool_parser
    
    hunyuan_a13b_tool_parser
    
    internlm2_tool_parser
    
    jamba_tool_parser
    
    kimi_k2_tool_parser
    
    llama4_pythonic_tool_parser
    
    llama_tool_parser
    
    longcat_tool_parser
    
    minimax_m2_tool_parser
    
    minimax_tool_parser
    
    mistral_tool_parser
    
    olmo3_tool_parser
    
    openai_tool_parser
    
    phi4mini_tool_parser
    
    pythonic_tool_parser
    
    qwen3coder_tool_parser
    
    qwen3xml_tool_parser
    
    seed_oss_tool_parser
    
    step3_tool_parser
    
    step3p5_tool_parser
    
    utils
    
    xlam_tool_parser
  - tracing
    
    tracing
    
    otel
    
    utils
  - transformers_utils
    
    transformers_utils
    
    config
    
    config_parser_base
    
    dynamic_module
    
    gguf_utils
    
    model_arch_config_convertor
    
    processor
    
    repo_utils
    
    runai_utils
    
    s3_utils
    
    tokenizer
    
    utils
    
    chat_templates
    
    chat_templates
    
    registry
    
    configs
    
    configs
    
    AXK1
    
    afmoe
    
    arctic
    
    bagel
    
    chatglm
    
    colmodernvbert
    
    colqwen3
    
    deepseek_vl2
    
    dotsocr
    
    eagle
    
    falcon
    
    flex_olmo
    
    funaudiochat
    
    hunyuan_vl
    
    isaac
    
    jais
    
    kimi_k25
    
    kimi_linear
    
    kimi_vl
    
    lfm2_moe
    
    medusa
    
    midashenglm
    
    mistral
    
    mlp_speculator
    
    moonvit
    
    nemotron
    
    nemotron_h
    
    olmo3
    
    ovis
    
    parakeet
    
    qwen3_5
    
    qwen3_5_moe
    
    qwen3_asr
    
    qwen3_next
    
    radio
    
    step3_vl
    
    step3p5
    
    tarsier2
    
    ultravox
    
    speculators
    
    speculators
    
    algos
    
    base
    
    processors
    
    processors
    
    bagel
    
    deepseek_ocr
    
    deepseek_vl2
    
    funasr_processor
    
    hunyuan_vl
    
    hunyuan_vl_image
    
    ovis
    
    ovis2_5
    
    qwen3_asr
  - triton_utils
    
    triton_utils
    
    allocation
    
    importing
  - usage
    
    usage
    
    usage_lib
  - utils
    
    utils
    
    argparse_utils
    
    async_utils
    
    cache
    
    collection_utils
    
    counter
    
    deep_gemm
    
    flashinfer
    
    func_utils
    
    gc_utils
    
    hashing
    
    import_utils
    
    jsontree
    
    math_utils
    
    mem_constants
    
    mem_utils
    
    mistral
    
    nccl
    
    network_utils
    
    nvtx_pytorch_hooks
    
    platform_utils
    
    print_utils
    
    profiling
    
    registry
    
    serial_utils
    
    system_utils
    
    tensor_schema
    
    torch_utils
    
    tqdm_utils
  - v1
    
    v1
    
    cudagraph_dispatcher
    
    kv_cache_interface
    
    outputs
    
    request
    
    serial_utils
    
    utils
    
    attention
    
    attention
    
    backend
    
    selector
    
    backends
    
    backends
    
    cpu_attn
    
    fa_utils
    
    flash_attn
    
    flash_attn_diffkv
    
    flashinfer
    
    flex_attention
    
    gdn_attn
    
    linear_attn
    
    mamba1_attn
    
    mamba2_attn
    
    mamba_attn
    
    registry
    
    rocm_aiter_fa
    
    rocm_aiter_unified_attn
    
    rocm_attn
    
    short_conv_attn
    
    tree_attn
    
    triton_attn
    
    utils
    
    mla
    
    mla
    
    aiter_triton_mla
    
    cutlass_mla
    
    flashattn_mla
    
    flashinfer_mla
    
    flashinfer_mla_sparse
    
    flashmla
    
    flashmla_sparse
    
    indexer
    
    rocm_aiter_mla
    
    rocm_aiter_mla_sparse
    
    sparse_utils
    
    triton_mla
    
    ops
    
    ops
    
    chunked_prefill_paged_decode
    
    common
    
    flashmla
    
    merge_attn_states
    
    paged_attn
    
    prefix_prefill
    
    rocm_aiter_mla_sparse
    
    triton_decode_attention
    
    triton_merge_attn_states
    
    triton_prefill_attention
    
    triton_reshape_and_cache_flash
    
    triton_unified_attention
    
    vit_attn_wrappers
    
    core
    
    core
    
    block_pool
    
    encoder_cache_manager
    
    kv_cache_coordinator
    
    kv_cache_manager
    
    kv_cache_metrics
    
    kv_cache_utils
    
    single_type_kv_cache_manager
    
    sched
    
    sched
    
    async_scheduler
    
    interface
    
    output
    
    request_queue
    
    scheduler
    
    utils
    
    engine
    
    engine
    
    async_llm
    
    coordinator
    
    core
    
    core_client
    
    detokenizer
    
    exceptions
    
    input_processor
    
    llm_engine
    
    logprobs
    
    output_processor
    
    parallel_sampling
    
    utils
    
    executor
    
    executor
    
    abstract
    
    multiproc_executor
    
    ray_distributed_executor
    
    ray_executor
    
    ray_utils
    
    uniproc_executor
    
    kv_offload
    
    kv_offload
    
    abstract
    
    arc_manager
    
    backend
    
    cpu
    
    factory
    
    lru_manager
    
    mediums
    
    spec
    
    backends
    
    backends
    
    cpu
    
    worker
    
    worker
    
    cpu_gpu
    
    worker
    
    metrics
    
    metrics
    
    loggers
    
    perf
    
    prometheus
    
    ray_wrappers
    
    reader
    
    stats
    
    pool
    
    pool
    
    metadata
    
    sample
    
    sample
    
    metadata
    
    rejection_sampler
    
    sampler
    
    logits_processor
    
    logits_processor
    
    builtin
    
    interface
    
    state
    
    ops
    
    ops
    
    bad_words
    
    logprobs
    
    penalties
    
    topk_topp_sampler
    
    topk_topp_triton
    
    spec_decode
    
    spec_decode
    
    draft_model
    
    eagle
    
    medusa
    
    metadata
    
    metrics
    
    ngram_proposer
    
    suffix_decoding
    
    utils
    
    structured_output
    
    structured_output
    
    backend_guidance
    
    backend_lm_format_enforcer
    
    backend_outlines
    
    backend_types
    
    backend_xgrammar
    
    request
    
    utils
    
    worker
    
    worker
    
    block_table
    
    cp_utils
    
    cpu_model_runner
    
    cpu_worker
    
    dp_utils
    
    ec_connector_model_runner_mixin
    
    gpu_input_batch
    
    gpu_model_runner
    
    gpu_ubatch_wrapper
    
    gpu_worker
    
    kv_connector_model_runner_mixin
    
    lora_model_runner_mixin
    
    mamba_utils
    
    tpu_input_batch
    
    ubatch_utils
    
    ubatching
    
    utils
    
    worker_base
    
    workspace
    
    xpu_model_runner
    
    xpu_worker
    
    gpu
    
    gpu
    
    async_utils
    
    attn_utils
    
    block_table
    
    buffer_utils
    
    cp_utils
    
    cudagraph_utils
    
    dp_utils
    
    input_batch
    
    kv_connector
    
    lora_utils
    
    model_runner
    
    pp_utils
    
    states
    
    structured_outputs
    
    warmup
    
    metrics
    
    metrics
    
    logits
    
    mm
    
    mm
    
    encoder_cache
    
    encoder_runner
    
    mrope_utils
    
    model_states
    
    model_states
    
    default
    
    interface
    
    pool
    
    pool
    
    pooling_runner
    
    sample
    
    sample
    
    bad_words
    
    gumbel
    
    logit_bias
    
    logprob
    
    min_p
    
    output
    
    penalties
    
    prompt_logprob
    
    sampler
    
    states
    
    spec_decode
    
    spec_decode
    
    rejection_sample
    
    utils
    
    eagle
    
    eagle
    
    cudagraph
    
    eagle3_utils
    
    speculator
    
    utils
CLI Reference
CLI Reference
- vllm serve
- vllm chat
- vllm complete
- vllm run-batch
- vllm bench
  vllm bench
Community
Community
- Contact Us
- Meetups
- Sponsors
- Governance
  Governance
- Blog
- Forum
- Slack

vllm.v1.attention.ops.triton_decode_attention ¶

Memory-efficient attention for decoding. It supports page size >= 1. It supports FP8 quantized KV cache with on-the-fly dequantization.

Made with Material for MkDocs