更新时间:2024-02-02 16:08
每秒查询率(QPS,Queries-per-second),即单位时间单位计算资源处理的(生成推理结果的)请求数据量。在大模型场景下,QPS的提升意味着模型推理速度的提高,这能够为更多用户提供服务或降低模型推理的成本。
术语简介
每秒查询率(QPS,Queries-per-second)是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准,在因特网上,作为域名系统服务器的机器的性能经常用每秒查询率来衡量。