Dify Enterprise Docs home page
简体中文
简体中文
搜索...
⌘K
Support
搜索...
Navigation
节点说明
文档提取器
简介
欢迎使用 Dify Enterprise
部署手册
部署准备
资源清单
环境部署
激活许可证
验证 Dify 服务状态
高级配置
云基础设施
管理员手册
工作区管理
成员管理
插件
身份认证
企业级 APIs
审计日志
品牌设置
系统设置
常见问题
用户手册
接入大模型
构建应用
工作流
工作流
关键概念
变量
节点说明
开始
LLM
知识检索
问题分类
条件分支
代码执行
模板转换
文档提取器
列表操作
变量聚合
变量赋值
迭代
参数提取
HTTP 请求
Agent
工具
结束
直接回复
循环
快捷键
编排节点
文件上传
异常处理
附加功能
预览与调试
应用发布
结构化输出
变更公告:图片上传被替换为文件上传
知识库
工具
发布
标注
监测
管理
插件开发
欢迎开始 Dify 插件开发
概念与入门
初始化开发工具
开发实践
插件隐私政策准则
贡献与发布
开发 Slack Bot 插件
实践案例与示例
Bundle 插件包
反向调用
通用规范定义
Reference & Specifications
在此页面
定义
应用场景
节点功能
输入变量
输出变量
配置示例
节点说明
文档提取器
定义
LLM 自身无法直接读取或解释文档的内容。因此需要将用户上传的文档,通过文档提取器节点解析并读取文档文件中的信息,转化文本之后再将内容传给 LLM 以实现对于文件内容的处理。
应用场景
构建能够与文件进行互动的 LLM 应用,例如 ChatPDF 或 ChatWord;
分析并检查用户上传的文件内容;
节点功能
文档提取器节点可以理解为一个信息处理中心,通过识别并读取输入变量中的文件,提取信息后并转化为 string 类型输出变量,供下游节点调用。
文档提取器节点结构分为输入变量、输出变量。
输入变量
文档提取器仅接受以下数据结构的变量:
File
,单独一个文件
Array[File]
,多个文件
文档提取器仅能够提取文档类型文件中的信息,例如 TXT、Markdown、PDF、HTML、DOCX 格式文件的内容,无法处理图片、音频、视频等格式文件。
输出变量
输出变量固定命名为 text。输出的变量类型取决于输入变量:
输入变量为
File
,输出变量为
string
输入变量为
Array[File]
,输出变量为
array[string]
Array 数组变量一般需配合列表操作节点使用,详细说明请参考
列表操作
。
配置示例
在一个典型的文件交互问答场景中,文档提取器可以作为 LLM 节点的前置步骤,提取应用的文件信息并传递至下游的 LLM 节点,回答用户关于文件的问题。
本章节将通过一个典型的 ChatPDF 示例工作流模板,介绍文档提取器节点的使用方法。
配置流程:
为应用开启文件上传功能。在
“开始”
节点中添加
单文件变量
并命名为
pdf
。
添加文档提取节点,并在输入变量内选中
pdf
变量。
添加 LLM 节点,在系统提示词内选中文档提取器节点的输出变量。LLM 可以通过该输出变量读取文件中的内容。
4. 配置结束节点,在结束节点中选择 LLM 节点的输出变量。
配置完成后,应用将具备文件上传功能,使用者可以上传 PDF 文件并展开对话。
如需了解如何在聊天对话中上传文件并与 LLM 互动,请参考
附加功能
。
编辑此页面
通过直接提交修改来帮助改进文档内容
提交问题
发现错误或有改进建议?请提交问题反馈
模板转换
列表操作
助手
Responses are generated using AI and may contain mistakes.