Intern-S1评测教程¶

OpenCompass现已提供评测Intern-S1所需的相关模型配置与数据集配置。请顺序执行下列步骤来启动对Intern-S1的评测。

模型下载与部署¶

Intern-S1的模型权重现已开源，请从Huggingface获取。完成模型下载后，推荐将其部署为API服务形式进行调用。可根据此页面上提供的LMdeploy/vLLM/sglang形式进行部署。

评测配置¶

模型配置¶

我们在opencompass/configs/models/interns1/intern_s1.py中提供了OpenAISDK形式调用模型的配置示例，请根据你的需求进行相应更改。

models = [
    dict(
        abbr="intern-s1",
        key="YOUR_API_KEY", # 在此处填写模型服务的API KEY
        openai_api_base="YOUR_API_BASE", # 在此处填写模型服务的API BASE
        type=OpenAISDK,
        path="internlm/Intern-S1",
        temperature=0.7,
        meta_template=api_meta_template,
        query_per_second=1,
        batch_size=8,
        max_out_len=64000,
        max_seq_len=65536,
        openai_extra_kwargs={
            'top_p': 0.95,
        },
        retry=10,
        extra_body={
            "chat_template_kwargs": {"enable_thinking": True} # 基于vllm或sglang部署服务后通过该开关来调控模型的思考模式
        },
        pred_postprocessor=dict(type=extract_non_reasoning_content), # 开启思考模式后可添加此配置来在Eval时去除Thinking内容
    ),
]

数据集配置¶

我们在examples/eval_bench_intern_s1.py中提供了评测Intern-S1所使用的相关数据集配置。你也可以根据需要自行添加其他数据集。

此外，你还需在该配置文件中添加LLM Judger的配置，示例如下：

judge_cfg = dict(
    abbr='YOUR_JUDGE_MODEL',
    type=OpenAISDK,
    path='YOUR_JUDGE_MODEL_PATH',
    key='YOUR_API_KEY',
    openai_api_base='YOUR_API_BASE',
    meta_template=dict(
        round=[
            dict(role='HUMAN', api_role='HUMAN'),
            dict(role='BOT', api_role='BOT', generate=True),
        ]),
    query_per_second=1,
    batch_size=1,
    temperature=0.001,
    max_out_len=8192,
    max_seq_len=32768,
    mode='mid',
)

启动评测¶

完成上述配置后，在命令行输入下面的指令启动评测：

opencompass examples/eval_bench_intern_s1.py