热门

PubMedQA

2年前发布 3.4K 00

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

收录时间：

2024-10-18

打开网站手机查看

AI模型评测 # AI模型评测

PubMedQA

PubMedQA

PubMedQA是一个生物医学研究问答数据集，包含了1K专家标注，61.2K 个未标注和 211.3K 个人工生成的QA实例，该排行榜目前已收录18个模型的医学测试得分。

数据统计

相关导航

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在...

HELM

HELM全称Holistic Evaluation of L...

MMLU

MMLU 全称 Massive Multitask Lang...

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数...

FlagEval

FlagEval（天秤）由智源研究院将联合多个高校团队打造...

MMBench

MMBench是一个多模态基准测试，由上海人工智能实验室、南...

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三...

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室...

暂无评论

none

暂无评论...