Dify Enterprise Docs home page
3.3.x
简体中文
搜索...
⌘K
Support
搜索...
Navigation
1. 导入文本数据
1.2 从网页导入数据
简介
欢迎使用 Dify Enterprise
部署手册
部署准备
资源清单
环境部署
激活许可证
验证 Dify 服务状态
高级配置
云基础设施
管理员手册
工作区管理
成员管理
插件
身份认证
企业级 APIs
审计日志
品牌设置
系统设置
常见问题
用户手册
接入大模型
构建应用
工作流
知识库
功能简介
创建知识库
创建步骤
1. 导入文本数据
1. 导入文本数据
1.1 从 Notion 导入数据
1.2 从网页导入数据
2. 指定分段模式
3. 设定索引方法与检索设置
管理知识库
元数据
在应用内集成知识库
召回测试/引用归属
知识库请求频率限制
连接外部知识库
外部知识库 API
工具
发布
标注
监测
管理
插件开发
欢迎开始 Dify 插件开发
概念与入门
初始化开发工具
开发实践
插件隐私政策准则
贡献与发布
开发 Slack Bot 插件
实践案例与示例
Bundle 插件包
反向调用
通用规范定义
Reference & Specifications
在此页面
Firecrawl
配置 Firecrawl 凭据
使用 Firecrawl 抓取网页内容
Jina Reader
配置 Jina Reader 凭据
使用 Jina Reader 抓取网页内容
1. 导入文本数据
1.2 从网页导入数据
知识库支持通过第三方工具如
Jina Reader
,
Firecrawl
抓取公开网页中的内容,解析为 Markdown 内容并导入至知识库。
Jina Reader 和 Firecrawl 均是开源的网页解析工具,能将网页将其转换为干净并且方便 LLM 识别的 Markdown 格式文本,同时提供了易于使用的 API 服务。
下文将分别介绍 Firecrawl 和 Jina Reader 的使用方法。
Firecrawl
配置 Firecrawl 凭据
点击右上角头像,然后前往
DataSource
页面,点击 Firecrawl 右侧的 Configure 按钮。
登录
Firecrawl 官网
完成注册,获取 API Key 后按照页面提示填入并点击保存。
使用 Firecrawl 抓取网页内容
在知识库创建页选择
Sync from website
,provider 选中 Firecrawl,填入需要抓取的目标 URL。
设置中的配置项包括:是否抓取子页面、抓取页面数量上限、页面抓取深度、排除页面、仅抓取页面、提取内容。完成配置后点击
Run
,预览将要被抓取的目标页面链接。
导入网页解析的文本后存储至知识库的文档中,查看导入结果。点击
Add URL
可以继续导入新的网页。抓取完成后,网页中的内容将会被收录至知识库内。
Jina Reader
配置 Jina Reader 凭据
点击右上角头像,然后前往
DataSource
页面,点击 Jina Reader 右侧的 Configure 按钮。
登录
Jina Reader 官网
完成注册,获取 API Key 后并按照页面提示填入并保存。
使用 Jina Reader 抓取网页内容
在知识库创建页选择
Sync from website
,provider 选中 Jina Reader,填写需要抓取的目标 URL。
设置中的配置项包括:是否抓取子页面、抓取页面数量上限、是否使用 sitemap 抓取。完成配置后点击
Run
按钮,预览将要被抓取的页面链接。
导入网页解析的文本后存储至知识库的文档中,查看导入结果。如需继续添加网页,轻点右侧
Add URL
按钮继续导入新的网页。
抓取完成后,网页中的内容将会被收录至知识库内。
编辑此页面
通过直接提交修改来帮助改进文档内容
提交问题
发现错误或有改进建议?请提交问题反馈
1.1 从 Notion 导入数据
2. 指定分段模式
助手
Responses are generated using AI and may contain mistakes.