LoRA / GraphRAG 运行时间与能耗预测 · Runtime & Energy
GPU 数量 / GPUs:
模型规模(B) / Model Size (B):
数据量(K) / Data Size (K):
Batch Size(批大小):
预测运行时间与能耗 / Predict Runtime & Energy
推理吞吐量与运行时预测 · Inference Throughput & Runtime
GPU 数量 / GPUs:
模型规模(B) / Model Size (B):
并发度 / Parallel:
生成 Token 数 / Output Tokens:
预测吞吐量与运行时间 / Predict Throughput & Time
首 Token 响应时间(TTFT)预测 · First Token Latency (TTFT)
GPU 数量 / GPUs:
模型规模(B) / Model Size (B):
并发度 / Parallel:
输入 Token 数 / Input Tokens:
预测 TTFT / Predict TTFT