测试

引言¶

测试是开发过程中至关重要的一部分，确保您的 crew 按预期执行是必不可少的。使用 crewAI，您可以通过内置的测试功能轻松测试您的 crew 并评估其性能。

使用测试功能¶

我们添加了 CLI 命令 crewai test 以简化 crew 的测试过程。此命令将运行您的 crew 指定次数，并提供详细的性能指标。参数为 n_iterations 和 model，它们是可选的，默认值分别为 2 和 gpt-4o-mini。目前，唯一可用的提供商是 OpenAI。

crewai test

如果您想运行更多迭代或使用不同的模型，可以像这样指定参数：

crewai test --n_iterations 5 --model gpt-4o

或者使用简写形式：

crewai test -n 5 -m gpt-4o

当您运行 crewai test 命令时，crew 将按指定的迭代次数执行，并在运行结束时显示性能指标。

运行结束时会显示一个分数表，展示 crew 在以下指标方面的表现：任务分数 (1-10 分数越高越好) ┏━━━━━━━━━━━━━━━━━━━━┯━━━━━━━┯━━━━━━━┯━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ┃ 任务/Crew/Agents │ 运行 1 │ 运行 2 │ 平均总分 │ Agents │ ┃ ┠────────────────────┼───────┼───────┼────────────┼────────────────────────────────┼─────────────────────────────────┨ ┃ 任务 1 │ 9.0 │ 9.5 │ 9.2 │ - 专业洞察 │ ┃ ┃ │ │ │ │ 研究员 │ ┃ ┃ │ │ │ │ │ ┃ ┃ 任务 2 │ 9.0 │ 10.0 │ 9.5 │ - 公司档案调查员 │ ┃ ┃ │ │ │ │ │ ┃ ┃ 任务 3 │ 9.0 │ 9.0 │ 9.0 │ - 自动化洞察专家 │ ┃ ┃ │ │ │ │ 专家 │ ┃ ┃ │ │ │ │ │ ┃ ┃ 任务 4 │ 9.0 │ 9.0 │ 9.0 │ - 最终报告编译员 │ ┃ ┃ │ │ │ │ │ - 自动化洞察专家 ┃ ┃ │ │ │ │ │ 专家 ┃ ┃ Crew │ 9.00 │ 9.38 │ 9.2 │ │ ┃ ┃ 执行时间 (s) │ 126 │ 145 │ 135 │ │ ┃ ┗━━━━━━━━━━━━━━━━━━━━┷━━━━━━━┷━━━━━━━┷━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛

以上示例展示了 crew 在两次运行中的测试结果，包含两个任务，每个任务及整个 crew 的平均总分。

```bash
crewai test

如果您想运行更多迭代或使用不同的模型，可以像这样指定参数：

crewai test --n_iterations 5 --model gpt-4o

或者使用简写形式：

crewai test -n 5 -m gpt-4o

当您运行 crewai test 命令时，crew 将按指定的迭代次数执行，并在运行结束时显示性能指标。

运行结束时会显示一个分数表，展示 crew 在以下指标方面的表现：

                                                     任务分数
                                                (1-10 分数越高越好)
┏━━━━━━━━━━━━━━━━━━━━┯━━━━━━━┯━━━━━━━┯━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ 任务/Crew/Agents  │ 运行 1 │ 运行 2 │ 平均总分 │ Agents                         │                                 ┃
┠────────────────────┼───────┼───────┼────────────┼────────────────────────────────┼─────────────────────────────────┨
┃ 任务 1             │  9.0  │  9.5  │    9.2     │ - 专业洞察                    │                                 ┃
┃                    │       │       │            │ 研究员                       │                                 ┃
┃                    │       │       │            │                                │                                 ┃
┃ 任务 2             │  9.0  │ 10.0  │    9.5     │ - 公司档案调查员             │                                 ┃
┃                    │       │       │            │                                │                                 ┃
┃ 任务 3             │  9.0  │  9.0  │    9.0     │ - 自动化洞察专家             │                                 ┃
┃                    │       │       │            │ 专家                         │                                 ┃
┃                    │       │       │            │                                │                                 ┃
┃ 任务 4             │  9.0  │  9.0  │    9.0     │ - 最终报告编译员             │                                 ┃
┃                    │       │       │            │                                │ - 自动化洞察专家               ┃
┃                    │       │       │            │                                │ 专家                           ┃
┃ Crew               │ 9.00  │ 9.38  │    9.2     │                                │                                 ┃
┃ 执行时间 (s)       │  126  │  145  │    135     │                                │                                 ┃
┗━━━━━━━━━━━━━━━━━━━━┷━━━━━━━┷━━━━━━━┷━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛

以上示例展示了 crew 在两次运行中的测试结果，包含两个任务，每个任务及整个 crew 的平均总分。