关于GPQA benchmark的一些疑问

#18
by zymu - opened

开发者您好,
我在对该模型(sglang框架下)进行GPQA benchmark测试的时候发现,该模型需要特别长的思考过程才能给出一个结果。导致总的GPQA benchmark时间特别长。请问下有什么推荐的测评设置吗,在model card的结果中,GPQA benchmark运行花费了多长的时间?

模型在思考一段时间之后出现不合理输出并重复

image

image

Sign up or log in to comment