跳转至

FirecrawlCrawlWebsiteTool

描述

Firecrawl 是一个平台,用于爬取并将任何网站转换为干净的Markdown或结构化数据。

安装

  • firecrawl.dev 获取API密钥,并将其设置在环境变量中(FIRECRAWL_API_KEY)。
  • 安装 Firecrawl SDK 以及 crewai[tools] 包:
pip install firecrawl-py 'crewai[tools]'

示例

按照以下方式使用 FirecrawlScrapeFromWebsiteTool,以允许您的代理加载网站:

from crewai_tools import FirecrawlCrawlWebsiteTool

tool = FirecrawlCrawlWebsiteTool(url='firecrawl.dev')

参数

  • api_key:可选。指定Firecrawl API密钥。默认值为环境变量 FIRECRAWL_API_KEY
  • url:开始爬取的基URL。
  • page_options:可选。
  • onlyMainContent:可选。仅返回页面的主要内容,排除头部、导航、页脚等。
  • includeHtml:可选。包含页面的原始HTML内容。将在响应中输出一个html键。
  • crawler_options:可选。用于控制爬取行为的选项。
  • includes:可选。要包含在爬取中的URL模式。
  • exclude:可选。要从爬取中排除的URL模式。
  • generateImgAltText:可选。使用LLM为图像生成替代文本(需要付费计划)。
  • returnOnlyUrls:可选。如果为true,则仅返回爬取状态中的URL列表。注意:响应中的数据将是一个URL列表,而不是文档列表。
  • maxDepth:可选。爬取的最大深度。深度1是基URL,深度2包括基URL及其直接子项,依此类推。
  • mode:可选。要使用的爬取模式。快速模式在没有站点地图的网站上爬取速度提高4倍,但可能不太准确,不应在重度JavaScript渲染的网站上使用。
  • limit:可选。要爬取的最大页面数。
  • timeout:可选。爬取操作的超时时间(以毫秒为单位)。