数据集统计¶

在本页面中，我们列举了OpenCompass所支持的所有数据集。

你可以使用排序和搜索功能找到需要的数据集。

我们对每一个数据集都给出了推荐的运行配置，部分数据集中还提供了基于LLM Judge的推荐配置。

你可以基于推荐配置快速启动评测。但请注意，推荐配置可能随时间推移被更新。

支持数据集列表¶

数据集名称	数据集类型	原文或资源地址	推荐配置	推荐配置(基于LLM评估)
IFEval	Instruction Following	链接	链接
NPHardEval	Reasoning	链接	链接(TBD)
PMMEval	Language	链接	链接(TBD)
PI-LLM	Memory	链接	链接(TBD)
TheroremQA	Reasoning	链接	链接(TBD)
AGIEval	Examination	链接	链接(TBD)
BABILong	Long Context	链接	链接(TBD)
BigCodeBench	Code	链接	链接
CaLM	Reasoning	链接	链接(TBD)
InfiniteBench (∞Bench)	Long Context	链接	链接(TBD)
KOR-Bench	Reasoning	链接	链接	链接
LawBench	Knowledge / Law	链接	链接(TBD) / 链接(TBD)
L-Eval	Long Context	链接	链接(TBD)
LiveCodeBench	Code	链接	链接
LiveCodeBench Pro	Code	链接	链接(TBD)
LiveMathBench	Math	链接	链接(TBD)
LiveReasonBench	Reasoning	链接	链接(TBD)
LongBench	Long Context	链接	链接(TBD) / 链接(TBD)
LV-Eval	Long Context	链接	链接(TBD)
Mastermath2024v1	Math	链接	链接(TBD)
matbench	Science / Material	链接	链接(TBD)
MedBench	Knowledge / Medicine	链接	链接(TBD)
MedCalc_Bench	Knowledge / Medicine	链接	链接(TBD)
MedQA	Knowledge / Medicine	链接	链接(TBD)	链接(TBD)
MedXpertQA	Knowledge / Medicine	链接	链接(TBD)	链接(TBD)
ClinicBench	Knowledge / Medicine	链接	链接(TBD)	链接(TBD)
ScienceQA	Knowledge / Medicine	链接	链接(TBD)	链接(TBD)
PubMedQA	Knowledge / Medicine	链接	链接(TBD)	链接(TBD)
MuSR	Reasoning	链接	链接	链接
NeedleBench V1 (Deprecated)	Long Context	链接	链接(TBD)
NeedleBench V2	Long Context	链接	链接(TBD)
RULER	Long Context	链接	链接(TBD)
AlignBench	Subjective / Alignment	链接	链接(TBD)
AlpacaEval	Subjective / Instruction Following	链接	链接(TBD)
Arena-Hard	Subjective / Chatbot	链接	链接(TBD)
FLAMES	Subjective / Alignment	链接	链接(TBD)
FOFO	Subjective / Format Following	链接	链接(TBD)
FollowBench	Subjective / Instruction Following	链接	链接(TBD)
HelloBench	Subjective / Long Context	链接	链接(TBD)
JudgerBench	Subjective / Long Context	链接	链接(TBD)
MT-Bench-101	Subjective / Multi-Round	链接	链接(TBD)
WildBench	Subjective / Real Task	链接	链接(TBD)
T-Eval	Tool Utilization	链接	链接(TBD) / 链接(TBD)
FinanceIQ	Knowledge / Finance	链接	链接(TBD)
GAOKAOBench	Examination	链接	链接(TBD)
LCBench	Code	链接	链接(TBD)
ArabicMMLU	Language	链接	链接(TBD)
OpenFinData	Knowledge / Finance	链接	链接(TBD)
QuALITY	Long Context	链接	链接(TBD)
Adversarial GLUE	Safety	链接	链接(TBD) / 链接(TBD) / 链接(TBD) / 链接(TBD) / 链接(TBD) / 链接(TBD)
CLUE / AFQMC	Language	链接	链接(TBD)
AIME2024	Examination	链接	链接	链接
Adversarial NLI	Reasoning	链接	链接(TBD)
Anthropics Evals	Safety	链接	链接(TBD) / 链接(TBD) / 链接(TBD)
APPS	Code	链接	链接(TBD) / 链接(TBD)
ARC	Reasoning	链接	链接(TBD) / 链接(TBD)
ARC Prize	ARC-AGI	链接	链接(TBD)
SuperGLUE / AX	Reasoning	链接	链接(TBD) / 链接(TBD)
BIG-Bench Hard	Reasoning	链接	链接	链接
BIG-Bench Extra Hard	Reasoning	链接	链接(TBD)
SuperGLUE / BoolQ	Knowledge	链接	链接(TBD)
CLUE / C3 (C³)	Understanding	链接	链接(TBD)
CARDBiomedBench	Knowledge / Medicine	链接	链接(TBD)	链接(TBD)
SuperGLUE / CB	Reasoning	链接	链接(TBD)
C-EVAL	Examination	链接	链接(TBD)
CHARM	Reasoning	链接	链接(TBD)
ChemBench	Knowledge / Chemistry	链接	链接(TBD)
FewCLUE / CHID	Language	链接	链接(TBD)
Chinese SimpleQA	Knowledge	链接	链接(TBD)
CIBench	Code	链接	链接(TBD) / 链接(TBD) / 链接(TBD)
CivilComments	Safety	链接	链接(TBD)
Cloze Test-max/min	Code	链接	链接(TBD)
FewCLUE / CLUEWSC	Language / WSC	链接	链接(TBD)
CMB	Knowledge / Medicine	链接	链接(TBD)
CMMLU	Understanding	链接	链接	链接
CLUE / CMNLI	Reasoning	链接	链接(TBD)
cmo_fib	Examination	链接	链接(TBD)
CLUE / CMRC	Understanding	链接	链接(TBD)
CommonSenseQA	Knowledge	链接	链接(TBD)
CommonSenseQA-CN	Knowledge	链接	链接(TBD)
SuperGLUE / COPA	Reasoning	链接	链接(TBD)
CrowsPairs	Safety	链接	链接(TBD)
CrowsPairs-CN	Safety	链接	链接(TBD)
CVALUES	Safety	链接	链接(TBD)
CLUE / DRCD	Understanding	链接	链接(TBD)
DROP (DROP Simple Eval)	Understanding	链接	链接	链接
DS-1000	Code	链接	链接(TBD)
FewCLUE / EPRSTMT	Understanding	链接	链接(TBD)
Flores	Language	链接	链接(TBD)
Game24	Math	链接	链接(TBD)
Government Report Dataset	Long Context	链接	链接(TBD)
GPQA	Knowledge	链接	链接	链接
GSM8K	Math	链接	链接(TBD)
GSM-Hard	Math	链接	链接(TBD)
HLE(Humanity's Last Exam)	Reasoning	链接	链接(TBD)
HellaSwag	Reasoning	链接	链接	链接
HumanEval	Code	链接	链接
HumanEval-CN	Code	链接	链接(TBD)
Multi-HumanEval	Code	链接	链接(TBD)
HumanEval+	Code	链接	链接(TBD)
HumanEval-X	Code	链接	链接(TBD)
HumanEval Pro	Code	链接	链接(TBD)
Hungarian_Math	Math	链接	链接(TBD)
IWSLT2017	Language	链接	链接(TBD)
JigsawMultilingual	Safety	链接	链接(TBD)
LAMBADA	Understanding	链接	链接(TBD)
LCSTS	Understanding	链接	链接(TBD)
LiveStemBench		链接	链接(TBD)
LLM Compression	Bits Per Character (BPC)	链接	链接(TBD)
MATH	Math	链接	链接	链接
MATH500	Math	链接	链接	链接
MATH 401	Math	链接	链接(TBD)
MathBench	Math	链接	链接(TBD)
MBPP	Code	链接	链接(TBD)
MBPP-CN	Code	链接	链接(TBD)
MBPP-PLUS	Code	链接	链接(TBD)
MBPP Pro	Code	链接	链接(TBD)
MGSM	Language / Math	链接	链接(TBD)
MMLU	Understanding	链接	链接	链接
SciEval	Understanding	链接	链接(TBD)	链接(TBD)
MMLU-CF	Understanding	链接	链接(TBD)
MMLU-Pro	Understanding	链接	链接	链接
MMMLU	Language / Understanding	链接	链接(TBD) / 链接(TBD)
SuperGLUE / MultiRC	Understanding	链接	链接(TBD)
MultiPL-E	Code	链接	链接(TBD)
NarrativeQA	Understanding	链接	链接(TBD)
NaturalQuestions	Knowledge	链接	链接(TBD)
NaturalQuestions-CN	Knowledge	链接	链接(TBD)
OpenBookQA	Knowledge	链接	链接(TBD)
OlymMATH	Math	链接	链接(TBD)	链接(TBD)
OpenBookQA	Knowledge / Physics	链接	链接(TBD)
ProteinLMBench	Knowledge / Biology (Protein)	链接	链接(TBD)	链接(TBD)
py150	Code	链接	链接(TBD)
Qasper	Long Context	链接	链接(TBD)
Qasper-Cut	Long Context	链接	链接(TBD)
RACE	Examination	链接	链接(TBD)
R-Bench	Reasoning	链接	链接(TBD)
RealToxicPrompts	Safety	链接	链接(TBD)
SuperGLUE / ReCoRD	Understanding	链接	链接(TBD)
SuperGLUE / RTE	Reasoning	链接	链接(TBD)
CLUE / OCNLI	Reasoning	链接	链接(TBD)
FewCLUE / OCNLI-FC	Reasoning	链接	链接(TBD)
RoleBench	Role Play	链接	链接(TBD)
S3Eval	Long Context	链接	链接(TBD)
SciBench	Reasoning	链接	链接(TBD)
SciCode	Code	链接	链接(TBD)
SeedBench	Knowledge	链接	链接(TBD)
SimpleQA	Knowledge	链接	链接(TBD)
SocialIQA	Reasoning	链接	链接(TBD)
SQuAD2.0	Understanding	链接	链接(TBD)
StoryCloze	Reasoning	链接	链接(TBD)
StrategyQA	Reasoning	链接	链接(TBD)
SummEdits	Language	链接	链接(TBD)
SummScreen	Understanding	链接	链接(TBD)
SVAMP	Math	链接	链接(TBD)
TabMWP	Math / Table	链接	链接(TBD)
TACO	Code	链接	链接(TBD)
FewCLUE / TNEWS	Understanding	链接	链接(TBD)
FewCLUE / BUSTM	Reasoning	链接	链接(TBD)
FewCLUE / CSL	Understanding	链接	链接(TBD)
FewCLUE / OCNLI-FC	Reasoning	链接	链接(TBD)
TriviaQA	Knowledge	链接	链接(TBD)
TriviaQA-RC	Knowledge / Understanding	链接	链接(TBD)
TruthfulQA	Safety	链接	链接(TBD)
TyDi-QA	Language	链接	链接(TBD)
SuperGLUE / WiC	Language	链接	链接(TBD)
SuperGLUE / WSC	Language / WSC	链接	链接(TBD)
WinoGrande	Language / WSC	链接	链接(TBD)
XCOPA	Language	链接	链接(TBD)
Xiezhi	Knowledge	链接	链接(TBD)
XLSum	Understanding	链接	链接(TBD)
Xsum	Understanding	链接	链接(TBD)
GLUE / CoLA	Understanding	链接	链接(TBD)
GLUE / MPRC	Understanding	链接	链接(TBD)
GLUE / QQP	Understanding	链接	链接(TBD)
Omni-MATH	Math	链接	链接(TBD)
WikiBench	Knowledge	链接	链接(TBD)
SuperGPQA	Knowledge	链接	链接(TBD)
ClimaQA	Science	链接	链接(TBD)	链接(TBD) / 链接(TBD)
PHYSICS	Science	链接	链接(TBD)	链接(TBD)
SmolInstruct	Science /Chemistry	链接	链接(TBD)
SciKnowEval	Science	链接	链接(TBD)	链接(TBD)
InternSandbox	Reasoning/Code/Agent	链接	链接(TBD)
nejmaibench	Science /Medicine	链接	链接(TBD)	链接(TBD)
Medbullets	Science /Medicine	链接	链接(TBD)	链接(TBD)
medmcqa	Science /Medicine	链接	链接(TBD)	链接(TBD)
PHYBench	Science /Physics	链接	链接(TBD)
BeyondAIME	Math	链接	链接(TBD)
EESE	Science	链接	链接(TBD)	链接(TBD)