AI模型评测

共 14 篇网址

排序

发布更新浏览点赞收藏随机

AGI-Eval

AGI-Eval是什么 AGI-Eval是上海交通大学、同济...

02.4K0

AI模型评测 # AI模型评测

MMLU

MMLU 全称 Massive Multitask Lang...

019.8K0

AI模型评测 # AI模型评测

Open LLM Leaderboard

Open LLM Leaderboard 是最大的大模型和数...

021.7K0

AI模型评测 # AI模型评测

C-Eval

C-Eval是一个适用于大语言模型的多层次多学科中文评估套件...

03.9K0

AI模型评测 # AI模型评测

FlagEval

FlagEval（天秤）由智源研究院将联合多个高校团队打造...

04.2K0

AI模型评测 # AI模型评测

SuperCLUE

SuperCLUE 是一个中文通用大模型综合性评测基准，从三...

08.4K0

AI模型评测 # AI模型评测

OpenCompass

OpenCompass是由上海人工智能实验室（上海AI实验室...

04.7K0

AI模型评测 # AI模型评测

CMMLU

CMMLU是一个综合性的中文评估基准，专门用于评估语言模型在...

06K0

AI模型评测 # AI模型评测

MMBench

MMBench是一个多模态基准测试，由上海人工智能实验室、南...

04.9K0

AI模型评测 # AI模型评测

HELM

HELM全称Holistic Evaluation of L...

05.5K0

AI模型评测 # AI模型评测

Chatbot Arena

Chatbot Arena是一个大型语言模型 (LLM) 的...

03K0

AI模型评测 # AI模型评测

LLMEval3

LLMEval是由复旦大学NLP实验室推出的大模型评测基准...

04.3K0

AI模型评测 # AI模型评测

H2O EvalGPT

H2O EvalGPT 是 H2O.ai 用于评估和比较 L...

03.1K0

AI模型评测 # AI模型评测

PubMedQA

PubMedQA是一个生物医学研究问答数据集，包含了1K专家...

02K0

AI模型评测 # AI模型评测