-
2025-01-08
- 支持并测试tensorrt-llm kv cache reuse 功能。可以显著提高类似“多轮对话”(prompt比较长并且重复比较多)场景的推理性能。暂不支持多模态模型。
-
2024-12-24
- 更新trtllm依赖为0.16.0正式release代码。
- 发布正式的trtllm0.16.0镜像:grps1.1.0_cuda12.6_cudnn9.6_trtllm0.16.0_py3.12。
-
2024-12-19
- 增加internvl2.5的支持。
-
2024-12-17
- 增加grps1.1.0_cuda12.5_cudnn9.2_trtllm0.16.0_py3.12_beta镜像(目前镜像较大,后续正式版会精简)。
- 增加qwen2-vl的支持。