FirecrawlCrawlWebsiteTool¶
描述¶
Firecrawl 是一个平台,用于爬取并将任何网站转换为干净的Markdown或结构化数据。
安装¶
- 从 firecrawl.dev 获取API密钥,并将其设置在环境变量中(
FIRECRAWL_API_KEY)。 - 安装 Firecrawl SDK 以及
crewai[tools]包:
示例¶
按照以下方式使用 FirecrawlScrapeFromWebsiteTool,以允许您的代理加载网站:
from crewai_tools import FirecrawlCrawlWebsiteTool
tool = FirecrawlCrawlWebsiteTool(url='firecrawl.dev')
参数¶
api_key:可选。指定Firecrawl API密钥。默认值为环境变量FIRECRAWL_API_KEY。url:开始爬取的基URL。page_options:可选。onlyMainContent:可选。仅返回页面的主要内容,排除头部、导航、页脚等。includeHtml:可选。包含页面的原始HTML内容。将在响应中输出一个html键。crawler_options:可选。用于控制爬取行为的选项。includes:可选。要包含在爬取中的URL模式。exclude:可选。要从爬取中排除的URL模式。generateImgAltText:可选。使用LLM为图像生成替代文本(需要付费计划)。returnOnlyUrls:可选。如果为true,则仅返回爬取状态中的URL列表。注意:响应中的数据将是一个URL列表,而不是文档列表。maxDepth:可选。爬取的最大深度。深度1是基URL,深度2包括基URL及其直接子项,依此类推。mode:可选。要使用的爬取模式。快速模式在没有站点地图的网站上爬取速度提高4倍,但可能不太准确,不应在重度JavaScript渲染的网站上使用。limit:可选。要爬取的最大页面数。timeout:可选。爬取操作的超时时间(以毫秒为单位)。