跳转至

crewAI

Firecrawl 网站爬取工具

英文

FirecrawlCrawlWebsiteTool¶

描述¶

Firecrawl 是一个平台，用于爬取并将任何网站转换为干净的Markdown或结构化数据。

安装¶

从 firecrawl.dev 获取API密钥，并将其设置在环境变量中（FIRECRAWL_API_KEY）。
安装 Firecrawl SDK 以及 crewai[tools] 包：

pip install firecrawl-py 'crewai[tools]'

示例¶

按照以下方式使用 FirecrawlScrapeFromWebsiteTool，以允许您的代理加载网站：

from crewai_tools import FirecrawlCrawlWebsiteTool

tool = FirecrawlCrawlWebsiteTool(url='firecrawl.dev')

参数¶

api_key：可选。指定Firecrawl API密钥。默认值为环境变量 FIRECRAWL_API_KEY。
url：开始爬取的基URL。
page_options：可选。
onlyMainContent：可选。仅返回页面的主要内容，排除头部、导航、页脚等。
includeHtml：可选。包含页面的原始HTML内容。将在响应中输出一个html键。
crawler_options：可选。用于控制爬取行为的选项。
includes：可选。要包含在爬取中的URL模式。
exclude：可选。要从爬取中排除的URL模式。
generateImgAltText：可选。使用LLM为图像生成替代文本（需要付费计划）。
returnOnlyUrls：可选。如果为true，则仅返回爬取状态中的URL列表。注意：响应中的数据将是一个URL列表，而不是文档列表。
maxDepth：可选。爬取的最大深度。深度1是基URL，深度2包括基URL及其直接子项，依此类推。
mode：可选。要使用的爬取模式。快速模式在没有站点地图的网站上爬取速度提高4倍，但可能不太准确，不应在重度JavaScript渲染的网站上使用。
limit：可选。要爬取的最大页面数。
timeout：可选。爬取操作的超时时间（以毫秒为单位）。