测试
引言¶
测试是开发过程中至关重要的一部分,确保您的 crew 按预期执行是必不可少的。使用 crewAI,您可以通过内置的测试功能轻松测试您的 crew 并评估其性能。
使用测试功能¶
我们添加了 CLI 命令 crewai test 以简化 crew 的测试过程。此命令将运行您的 crew 指定次数,并提供详细的性能指标。参数为 n_iterations 和 model,它们是可选的,默认值分别为 2 和 gpt-4o-mini。目前,唯一可用的提供商是 OpenAI。
如果您想运行更多迭代或使用不同的模型,可以像这样指定参数:
或者使用简写形式:
当您运行 crewai test 命令时,crew 将按指定的迭代次数执行,并在运行结束时显示性能指标。
运行结束时会显示一个分数表,展示 crew 在以下指标方面的表现: 任务分数 (1-10 分数越高越好) ┏━━━━━━━━━━━━━━━━━━━━┯━━━━━━━┯━━━━━━━┯━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓ ┃ 任务/Crew/Agents │ 运行 1 │ 运行 2 │ 平均总分 │ Agents │ ┃ ┠────────────────────┼───────┼───────┼────────────┼────────────────────────────────┼─────────────────────────────────┨ ┃ 任务 1 │ 9.0 │ 9.5 │ 9.2 │ - 专业洞察 │ ┃ ┃ │ │ │ │ 研究员 │ ┃ ┃ │ │ │ │ │ ┃ ┃ 任务 2 │ 9.0 │ 10.0 │ 9.5 │ - 公司档案调查员 │ ┃ ┃ │ │ │ │ │ ┃ ┃ 任务 3 │ 9.0 │ 9.0 │ 9.0 │ - 自动化洞察专家 │ ┃ ┃ │ │ │ │ 专家 │ ┃ ┃ │ │ │ │ │ ┃ ┃ 任务 4 │ 9.0 │ 9.0 │ 9.0 │ - 最终报告编译员 │ ┃ ┃ │ │ │ │ │ - 自动化洞察专家 ┃ ┃ │ │ │ │ │ 专家 ┃ ┃ Crew │ 9.00 │ 9.38 │ 9.2 │ │ ┃ ┃ 执行时间 (s) │ 126 │ 145 │ 135 │ │ ┃ ┗━━━━━━━━━━━━━━━━━━━━┷━━━━━━━┷━━━━━━━┷━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
以上示例展示了 crew 在两次运行中的测试结果,包含两个任务,每个任务及整个 crew 的平均总分。
如果您想运行更多迭代或使用不同的模型,可以像这样指定参数:
或者使用简写形式:
当您运行 crewai test 命令时,crew 将按指定的迭代次数执行,并在运行结束时显示性能指标。
运行结束时会显示一个分数表,展示 crew 在以下指标方面的表现:
任务分数
(1-10 分数越高越好)
┏━━━━━━━━━━━━━━━━━━━━┯━━━━━━━┯━━━━━━━┯━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┯━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ 任务/Crew/Agents │ 运行 1 │ 运行 2 │ 平均总分 │ Agents │ ┃
┠────────────────────┼───────┼───────┼────────────┼────────────────────────────────┼─────────────────────────────────┨
┃ 任务 1 │ 9.0 │ 9.5 │ 9.2 │ - 专业洞察 │ ┃
┃ │ │ │ │ 研究员 │ ┃
┃ │ │ │ │ │ ┃
┃ 任务 2 │ 9.0 │ 10.0 │ 9.5 │ - 公司档案调查员 │ ┃
┃ │ │ │ │ │ ┃
┃ 任务 3 │ 9.0 │ 9.0 │ 9.0 │ - 自动化洞察专家 │ ┃
┃ │ │ │ │ 专家 │ ┃
┃ │ │ │ │ │ ┃
┃ 任务 4 │ 9.0 │ 9.0 │ 9.0 │ - 最终报告编译员 │ ┃
┃ │ │ │ │ │ - 自动化洞察专家 ┃
┃ │ │ │ │ │ 专家 ┃
┃ Crew │ 9.00 │ 9.38 │ 9.2 │ │ ┃
┃ 执行时间 (s) │ 126 │ 145 │ 135 │ │ ┃
┗━━━━━━━━━━━━━━━━━━━━┷━━━━━━━┷━━━━━━━┷━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┷━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
以上示例展示了 crew 在两次运行中的测试结果,包含两个任务,每个任务及整个 crew 的平均总分。