跳转至

crewAI

Firecrawl 网站抓取工具

英文

FirecrawlScrapeWebsiteTool¶

描述¶

Firecrawl 是一个平台，用于爬取并将任何网站转换为干净的Markdown或结构化数据。

安装¶

从 firecrawl.dev 获取API密钥，并将其设置在环境变量中（FIRECRAWL_API_KEY）。
安装 Firecrawl SDK 以及 crewai[tools] 包：

pip install firecrawl-py 'crewai[tools]'

示例¶

如下使用FirecrawlScrapeWebsiteTool，以允许您的代理加载网站：

from crewai_tools import FirecrawlScrapeWebsiteTool

tool = FirecrawlScrapeWebsiteTool(url='firecrawl.dev')

参数¶

api_key：可选。指定Firecrawl API密钥。默认为FIRECRAWL_API_KEY环境变量。
url：要爬取的URL。
page_options：可选。
onlyMainContent：可选。仅返回页面的主要内容，排除头部、导航、页脚等。
includeHtml：可选。包含页面的原始HTML内容。将在响应中输出一个html键。
extractor_options：可选。用于基于LLM从页面内容中提取结构化信息的选项
mode：要使用的提取模式，目前支持'llm-extraction'
extractionPrompt：可选。描述从页面中提取什么信息的提示
extractionSchema：可选。要提取的数据的架构
timeout：可选。请求的超时时间（毫秒）