SeleniumScrapingTool¶
实验性
此工具目前正在开发中。随着我们对其功能的完善,用户可能会遇到意外的行为。您的反馈对我们进行改进至关重要。
描述¶
SeleniumScrapingTool专为高效的网络爬取任务而设计。它通过使用CSS选择器来定位特定元素,从而实现从网页中精确提取内容。其设计满足广泛的爬取需求,提供灵活性以处理任何提供的网站URL。
安装¶
要开始使用SeleniumScrapingTool,请使用pip安装crewai_tools包:
使用示例¶
以下是一些可以使用SeleniumScrapingTool的场景:
from crewai_tools import SeleniumScrapingTool
# 示例1:不使用任何参数初始化工具,以爬取当前导航到的页面
tool = SeleniumScrapingTool()
# 示例2:爬取给定URL的整个网页
tool = SeleniumScrapingTool(website_url='https://example.com')
# 示例3:定位并爬取网页中的特定CSS元素
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content')
# 示例4:使用附加参数进行自定义爬取
tool = SeleniumScrapingTool(website_url='https://example.com', css_element='.main-content', cookie={'name': 'user', 'value': 'John Doe'}, wait_time=10)
参数¶
以下参数可用于自定义SeleniumScrapingTool的爬取过程:
website_url:必填。指定要从中爬取内容的网站的URL。css_element:必填。网站上的特定元素的CSS选择器。这允许对网页的特定部分进行集中爬取。cookie:可选。包含cookie信息的字典。用于模拟登录会话,从而访问可能对未登录用户受限的内容。wait_time:可选。指定在爬取内容之前的延迟(以秒为单位)。此延迟允许网站和任何动态内容完全加载,确保成功爬取。
Attention
由于SeleniumScrapingTool正在积极开发中,参数和功能可能会随时间演变。鼓励用户保持工具更新,并报告任何问题或提出改进建议。