Shortcuts

数据集统计

在本页面中,我们列举了OpenCompass所支持的所有数据集。

你可以使用排序和搜索功能找到需要的数据集。

我们对每一个数据集都给出了推荐的运行配置,部分数据集中还提供了基于LLM Judge的推荐配置。

你可以基于推荐配置快速启动评测。但请注意,推荐配置可能随时间推移被更新。

支持数据集列表

数据集名称

数据集类型

原文或资源地址

推荐配置

推荐配置(基于LLM评估)

IFEval

Instruction Following

链接

链接

NPHardEval

Reasoning

链接

链接(TBD)

PMMEval

Language

链接

链接(TBD)

TheroremQA

Reasoning

链接

链接(TBD)

AGIEval

Examination

链接

链接(TBD)

BABILong

Long Context

链接

链接(TBD)

BigCodeBench

Code

链接

链接

CaLM

Reasoning

链接

链接(TBD)

InfiniteBench (∞Bench)

Long Context

链接

链接(TBD)

KOR-Bench

Reasoning

链接

链接

链接

LawBench

Knowledge / Law

链接

链接(TBD) / 链接(TBD)

L-Eval

Long Context

链接

链接(TBD)

LiveCodeBench

Code

链接

链接

LiveMathBench

Math

链接

链接(TBD)

LiveReasonBench

Reasoning

链接

链接(TBD)

LongBench

Long Context

链接

链接(TBD) / 链接(TBD)

LV-Eval

Long Context

链接

链接(TBD)

Mastermath2024v1

Math

链接

链接(TBD)

matbench

Science / Material

链接

链接(TBD)

MedBench

Knowledge / Medicine

链接

链接(TBD)

MedCalc_Bench

Knowledge / Medicine

链接

链接(TBD)

MedQA

Knowledge / Medicine

链接

链接(TBD)

链接(TBD)

MedXpertQA

Knowledge / Medicine

链接

链接(TBD)

链接(TBD)

ClinicBench

Knowledge / Medicine

链接

链接(TBD)

链接(TBD)

ScienceQA

Knowledge / Medicine

链接

链接(TBD)

链接(TBD)

PubMedQA

Knowledge / Medicine

链接

链接(TBD)

链接(TBD)

MuSR

Reasoning

链接

链接

链接

NeedleBench V1 (Deprecated)

Long Context

链接

链接(TBD)

NeedleBench V2

Long Context

链接

链接(TBD)

RULER

Long Context

链接

链接(TBD)

AlignBench

Subjective / Alignment

链接

链接(TBD)

AlpacaEval

Subjective / Instruction Following

链接

链接(TBD)

Arena-Hard

Subjective / Chatbot

链接

链接(TBD)

FLAMES

Subjective / Alignment

链接

链接(TBD)

FOFO

Subjective / Format Following

链接

链接(TBD)

FollowBench

Subjective / Instruction Following

链接

链接(TBD)

HelloBench

Subjective / Long Context

链接

链接(TBD)

JudgerBench

Subjective / Long Context

链接

链接(TBD)

MT-Bench-101

Subjective / Multi-Round

链接

链接(TBD)

WildBench

Subjective / Real Task

链接

链接(TBD)

T-Eval

Tool Utilization

链接

链接(TBD) / 链接(TBD)

FinanceIQ

Knowledge / Finance

链接

链接(TBD)

GAOKAOBench

Examination

链接

链接(TBD)

LCBench

Code

链接

链接(TBD)

ArabicMMLU

Language

链接

链接(TBD)

OpenFinData

Knowledge / Finance

链接

链接(TBD)

QuALITY

Long Context

链接

链接(TBD)

Adversarial GLUE

Safety

链接

链接(TBD) / 链接(TBD) / 链接(TBD) / 链接(TBD) / 链接(TBD) / 链接(TBD)

CLUE / AFQMC

Language

链接

链接(TBD)

AIME2024

Examination

链接

链接

链接

Adversarial NLI

Reasoning

链接

链接(TBD)

Anthropics Evals

Safety

链接

链接(TBD) / 链接(TBD) / 链接(TBD)

APPS

Code

链接

链接(TBD) / 链接(TBD)

ARC

Reasoning

链接

链接(TBD) / 链接(TBD)

ARC Prize

ARC-AGI

链接

链接(TBD)

SuperGLUE / AX

Reasoning

链接

链接(TBD) / 链接(TBD)

BIG-Bench Hard

Reasoning

链接

链接

链接

BIG-Bench Extra Hard

Reasoning

链接

链接(TBD)

SuperGLUE / BoolQ

Knowledge

链接

链接(TBD)

CLUE / C3 (C³)

Understanding

链接

链接(TBD)

CARDBiomedBench

Knowledge / Medicine

链接

链接(TBD)

链接(TBD)

SuperGLUE / CB

Reasoning

链接

链接(TBD)

C-EVAL

Examination

链接

链接(TBD)

CHARM

Reasoning

链接

链接(TBD)

ChemBench

Knowledge / Chemistry

链接

链接(TBD)

FewCLUE / CHID

Language

链接

链接(TBD)

Chinese SimpleQA

Knowledge

链接

链接(TBD)

CIBench

Code

链接

链接(TBD) / 链接(TBD) / 链接(TBD)

CivilComments

Safety

链接

链接(TBD)

Cloze Test-max/min

Code

链接

链接(TBD)

FewCLUE / CLUEWSC

Language / WSC

链接

链接(TBD)

CMB

Knowledge / Medicine

链接

链接(TBD)

CMMLU

Understanding

链接

链接

链接

CLUE / CMNLI

Reasoning

链接

链接(TBD)

cmo_fib

Examination

链接

链接(TBD)

CLUE / CMRC

Understanding

链接

链接(TBD)

CommonSenseQA

Knowledge

链接

链接(TBD)

CommonSenseQA-CN

Knowledge

链接

链接(TBD)

SuperGLUE / COPA

Reasoning

链接

链接(TBD)

CrowsPairs

Safety

链接

链接(TBD)

CrowsPairs-CN

Safety

链接

链接(TBD)

CVALUES

Safety

链接

链接(TBD)

CLUE / DRCD

Understanding

链接

链接(TBD)

DROP (DROP Simple Eval)

Understanding

链接

链接

链接

DS-1000

Code

链接

链接(TBD)

FewCLUE / EPRSTMT

Understanding

链接

链接(TBD)

Flores

Language

链接

链接(TBD)

Game24

Math

链接

链接(TBD)

Government Report Dataset

Long Context

链接

链接(TBD)

GPQA

Knowledge

链接

链接

链接

GSM8K

Math

链接

链接(TBD)

GSM-Hard

Math

链接

链接(TBD)

HLE(Humanity's Last Exam)

Reasoning

链接

链接(TBD)

HellaSwag

Reasoning

链接

链接

链接

HumanEval

Code

链接

链接

HumanEval-CN

Code

链接

链接(TBD)

Multi-HumanEval

Code

链接

链接(TBD)

HumanEval+

Code

链接

链接(TBD)

HumanEval-X

Code

链接

链接(TBD)

HumanEval Pro

Code

链接

链接(TBD)

Hungarian_Math

Math

链接

链接(TBD)

IWSLT2017

Language

链接

链接(TBD)

JigsawMultilingual

Safety

链接

链接(TBD)

LAMBADA

Understanding

链接

链接(TBD)

LCSTS

Understanding

链接

链接(TBD)

LiveStemBench

链接

链接(TBD)

LLM Compression

Bits Per Character (BPC)

链接

链接(TBD)

MATH

Math

链接

链接

链接

MATH500

Math

链接

链接

链接

MATH 401

Math

链接

链接(TBD)

MathBench

Math

链接

链接(TBD)

MBPP

Code

链接

链接(TBD)

MBPP-CN

Code

链接

链接(TBD)

MBPP-PLUS

Code

链接

链接(TBD)

MBPP Pro

Code

链接

链接(TBD)

MGSM

Language / Math

链接

链接(TBD)

MMLU

Understanding

链接

链接

链接

SciEval

Understanding

链接

链接(TBD)

链接(TBD)

MMLU-CF

Understanding

链接

链接(TBD)

MMLU-Pro

Understanding

链接

链接

链接

MMMLU

Language / Understanding

链接

链接(TBD) / 链接(TBD)

SuperGLUE / MultiRC

Understanding

链接

链接(TBD)

MultiPL-E

Code

链接

链接(TBD)

NarrativeQA

Understanding

链接

链接(TBD)

NaturalQuestions

Knowledge

链接

链接(TBD)

NaturalQuestions-CN

Knowledge

链接

链接(TBD)

OpenBookQA

Knowledge

链接

链接(TBD)

OlymMATH

Math

链接

链接(TBD)

链接(TBD)

OpenBookQA

Knowledge / Physics

链接

链接(TBD)

ProteinLMBench

Knowledge / Biology (Protein)

链接

链接(TBD)

链接(TBD)

py150

Code

链接

链接(TBD)

Qasper

Long Context

链接

链接(TBD)

Qasper-Cut

Long Context

链接

链接(TBD)

RACE

Examination

链接

链接(TBD)

R-Bench

Reasoning

链接

链接(TBD)

RealToxicPrompts

Safety

链接

链接(TBD)

SuperGLUE / ReCoRD

Understanding

链接

链接(TBD)

SuperGLUE / RTE

Reasoning

链接

链接(TBD)

CLUE / OCNLI

Reasoning

链接

链接(TBD)

FewCLUE / OCNLI-FC

Reasoning

链接

链接(TBD)

RoleBench

Role Play

链接

链接(TBD)

S3Eval

Long Context

链接

链接(TBD)

SciBench

Reasoning

链接

链接(TBD)

SciCode

Code

链接

链接(TBD)

SimpleQA

Knowledge

链接

链接(TBD)

SocialIQA

Reasoning

链接

链接(TBD)

SQuAD2.0

Understanding

链接

链接(TBD)

StoryCloze

Reasoning

链接

链接(TBD)

StrategyQA

Reasoning

链接

链接(TBD)

SummEdits

Language

链接

链接(TBD)

SummScreen

Understanding

链接

链接(TBD)

SVAMP

Math

链接

链接(TBD)

TabMWP

Math / Table

链接

链接(TBD)

TACO

Code

链接

链接(TBD)

FewCLUE / TNEWS

Understanding

链接

链接(TBD)

FewCLUE / BUSTM

Reasoning

链接

链接(TBD)

FewCLUE / CSL

Understanding

链接

链接(TBD)

FewCLUE / OCNLI-FC

Reasoning

链接

链接(TBD)

TriviaQA

Knowledge

链接

链接(TBD)

TriviaQA-RC

Knowledge / Understanding

链接

链接(TBD)

TruthfulQA

Safety

链接

链接(TBD)

TyDi-QA

Language

链接

链接(TBD)

SuperGLUE / WiC

Language

链接

链接(TBD)

SuperGLUE / WSC

Language / WSC

链接

链接(TBD)

WinoGrande

Language / WSC

链接

链接(TBD)

XCOPA

Language

链接

链接(TBD)

Xiezhi

Knowledge

链接

链接(TBD)

XLSum

Understanding

链接

链接(TBD)

Xsum

Understanding

链接

链接(TBD)

GLUE / CoLA

Understanding

链接

链接(TBD)

GLUE / MPRC

Understanding

链接

链接(TBD)

GLUE / QQP

Understanding

链接

链接(TBD)

Omni-MATH

Math

链接

链接(TBD)

WikiBench

Knowledge

链接

链接(TBD)

SuperGPQA

Knowledge

链接

链接(TBD)

ClimaQA

Science

链接

链接(TBD)

链接(TBD) / 链接(TBD)

PHYSICS

Science

链接

链接(TBD)

链接(TBD)

SmolInstruct

Science /Chemistry

链接

链接(TBD)

SciKnowEval

Science

链接

链接(TBD)

链接(TBD)

InternSandbox

Reasoning/Code/Agent

链接

链接(TBD)

nejmaibench

Science /Medicine

链接

链接(TBD)

链接(TBD)

Medbullets

Science /Medicine

链接

链接(TBD)

链接(TBD)

medmcqa

Science /Medicine

链接

链接(TBD)

链接(TBD)

PHYBench

Science /Physics

链接

链接(TBD)

@沪ICP备2021009351号-23 OpenCompass Open Platform Service Agreement