首页
排行榜
在线智能工具
个人书签工具
未登录
登录后即可体验更多功能
登录
注册
找回密码
未登录
登录后即可体验更多功能
登录
注册
找回密码
热门
立即入驻
首页
•
AI模型评测
•
PubMedQA
PubMedQA
11个月前发布
2.1K
0
0
收藏
0
PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
收录时间:
2024-10-18
打开网站
手机查看
AI模型评测
# AI模型评测
PubMedQA
打开网站
PubMedQA是一个生物医学研究问答数据集,包含了1K专家标注,61.2K 个未标注和 211.3K 个人工生成的QA实例,该排行榜目前已收录18个模型的医学测试得分。
数据统计
相关导航
HELM
HELM全称Holistic Evaluation of L...
Chatbot Arena
Chatbot Arena是一个大型语言模型 (LLM) 的...
SuperCLUE
SuperCLUE 是一个中文通用大模型综合性评测基准,从三...
Open LLM Leaderboard
Open LLM Leaderboard 是最大的大模型和数...
LLMEval3
LLMEval是由复旦大学NLP实验室推出的大模型评测基准...
MMBench
MMBench是一个多模态基准测试,由上海人工智能实验室、南...
C-Eval
C-Eval是一个适用于大语言模型的多层次多学科中文评估套件...
OpenCompass
OpenCompass是由上海人工智能实验室(上海AI实验室...
暂无评论
暂无评论...
标签云
反馈
让我们一起共建文明社区!您的反馈至关重要!
已失效
重定向&变更
已屏蔽
敏感内容
其他
提交反馈
网址
网址
文章
软件
书籍