SeleniumScrapingTool¶

实验性

此工具目前正在开发中。随着我们对其功能的完善，用户可能会遇到意外的行为。您的反馈对我们进行改进至关重要。

描述¶

SeleniumScrapingTool专为高效的网络爬取任务而设计。它通过使用CSS选择器来定位特定元素，从而实现从网页中精确提取内容。其设计满足广泛的爬取需求，提供灵活性以处理任何提供的网站URL。

安装¶

要开始使用SeleniumScrapingTool，请使用pip安装crewai_tools包：

pip install 'crewai[tools]'

使用示例¶

以下是一些可以使用SeleniumScrapingTool的场景：

from crewai_tools import SeleniumScrapingTool

# 示例1：不使用任何参数初始化工具，以爬取当前导航到的页面
tool = SeleniumScrapingTool()

# 示例2：爬取给定URL的整个网页
tool = SeleniumScrapingTool(website_url='https://example.com')

# 示例3：定位并爬取网页中的特定CSS元素
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content')

# 示例4：使用附加参数进行自定义爬取
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content', cookie={'name': 'user', 'value': 'John Doe'}, wait_time=10)

参数¶

以下参数可用于自定义SeleniumScrapingTool的爬取过程：

website_url：必填。指定要从中爬取内容的网站的URL。
css_element：必填。网站上的特定元素的CSS选择器。这允许对网页的特定部分进行集中爬取。
cookie：可选。包含cookie信息的字典。用于模拟登录会话，从而访问可能对未登录用户受限的内容。
wait_time：可选。指定在爬取内容之前的延迟（以秒为单位）。此延迟允许网站和任何动态内容完全加载，确保成功爬取。

Attention

由于SeleniumScrapingTool正在积极开发中，参数和功能可能会随时间演变。鼓励用户保持工具更新，并报告任何问题或提出改进建议。