开发者您好,我在对该模型(sglang框架下)进行GPQA benchmark测试的时候发现,该模型需要特别长的思考过程才能给出一个结果。导致总的GPQA benchmark时间特别长。请问下有什么推荐的测评设置吗,在model card的结果中,GPQA benchmark运行花费了多长的时间?
模型在思考一段时间之后出现不合理输出并重复
· Sign up or log in to comment