Skip to content

Latest commit

 

History

History
16 lines (12 loc) · 686 Bytes

release_note.md

File metadata and controls

16 lines (12 loc) · 686 Bytes

重要更新

  • 2025-01-08

    • 支持并测试tensorrt-llm kv cache reuse 功能。可以显著提高类似“多轮对话”(prompt比较长并且重复比较多)场景的推理性能。暂不支持多模态模型。
  • 2024-12-24

    • 更新trtllm依赖为0.16.0正式release代码。
    • 发布正式的trtllm0.16.0镜像:grps1.1.0_cuda12.6_cudnn9.6_trtllm0.16.0_py3.12。
  • 2024-12-19

    • 增加internvl2.5的支持。
  • 2024-12-17

    • 增加grps1.1.0_cuda12.5_cudnn9.2_trtllm0.16.0_py3.12_beta镜像(目前镜像较大,后续正式版会精简)。
    • 增加qwen2-vl的支持。