Inference Benchmark

A model server agnostic inference benchmarking tool that can be used to benchmark LLMs running on differet infrastructure like GPU and TPU. It can also be run on a GKE cluster as a container.

Run the benchmark

Create a python virtualenv.
Install all the prerequisite packages.

pip install -r requirements.txt

Download the ShareGPT dataset.

wget https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered/resolve/main/ShareGPT_V3_unfiltered_cleaned_split.json

Run the benchmarking script directly with a specific request rate.

python3 --save-json-results --host=$IP  --port=$PORT --dataset=$PROMPT_DATASET_FILE --tokenizer=$TOKENIZER --request-rate=$REQUEST_RATE --backend=$BACKEND --num-prompts=$NUM_PROMPTS --max-input-length=$INPUT_LENGTH --max-output-length=$OUTPUT_LENGTH --file-prefix=$FILE_PREFIX

Generate a full latency profile which generates latency and throughput data at different request rates.

./latency-profile-generation.sh

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
.gitignore		.gitignore
CONTRIBUTING.md		CONTRIBUTING.md
LICENSE		LICENSE
README.md		README.md
benchmark_serving.py		benchmark_serving.py
latency_throughput_curve.sh		latency_throughput_curve.sh
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Inference Benchmark

Run the benchmark

About

Releases

Packages

Languages

License

AI-Hypercomputer/inference-benchmark

Folders and files

Latest commit

History

Repository files navigation

Inference Benchmark

Run the benchmark

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages