PDFSearchTool¶

实验性

我们仍在改进工具，因此未来可能会出现意外行为或变化。

描述¶

PDFSearchTool 是一个用于在 PDF 内容中进行语义搜索的 RAG 工具。它允许输入搜索查询和 PDF 文档，利用先进的搜索技术高效地找到相关内容。这一能力使其特别适用于快速从大型 PDF 文件中提取特定信息。

安装¶

要开始使用 PDFSearchTool，首先确保安装了 crewai_tools 包，使用以下命令：

pip install 'crewai[tools]'

示例¶

以下是使用 PDFSearchTool 在 PDF 文档中搜索的方法：

from crewai_tools import PDFSearchTool

# 初始化工具，如果在执行时提供了路径，则允许搜索任何 PDF 内容
tool = PDFSearchTool()

# 或者

# 使用特定 PDF 路径初始化工具，以便仅在该文档内进行搜索
tool = PDFSearchTool(pdf='path/to/your/document.pdf')

参数¶

pdf：可选搜索的 PDF 路径。可以在初始化时提供，也可以在 run 方法的参数中提供。如果在初始化时提供，工具将仅在指定文档内进行搜索。

自定义模型和嵌入¶

默认情况下，该工具使用 OpenAI 进行嵌入和总结。要自定义模型，可以使用如下配置字典：

tool = PDFSearchTool(
    config=dict(
        llm=dict(
            provider="ollama", # 或 google, openai, anthropic, llama2, ...
            config=dict(
                model="llama2",
                # temperature=0.5,
                # top_p=1,
                # stream=true,
            ),
        ),
        embedder=dict(
            provider="google", # 或 openai, ollama, ...
            config=dict(
                model="models/embedding-001",
                task_type="retrieval_document",
                # title="Embeddings",
            ),
        ),
    )
)

llm=dict(
            provider="ollama", # 或 google, openai, anthropic, llama2, ...
            config=dict(
                model="llama2",
                # temperature=0.5,
                # top_p=1,
                # stream=true,
            ),
        ),
        embedder=dict(
            provider="google", # 或 openai, ollama, ...
            config=dict(
                model="models/embedding-001",
                task_type="retrieval_document",
                # title="Embeddings",
            ),
        ),
    )
)