ナレッジベースとドキュメントの管理
知识库管理
ナレッジベースの管理
ナレッジベースのページは、チームオーナーやチーム管理人、編集権限があるユーザーのみがアクセスできます。
Difyチームのホームページで、「ナレッジベース」タブをクリックし、管理したいナレッジベースを選択して、左のナビゲーションパネルで 設定 をクリックして調整を行います。ナレッジベースの名前、説明、表示権限、索引モード、埋め込みモデル、および検索設定を変更することができます。
ナレッジベースの設定
ナレッジベースの名前:異なるナレッジベースを区別するために使用されます。
ナレッジの説明:ナレッジベースのドキュメントで表現される情報を説明するために使用されます。
表示権限:ナレッジベースへのアクセス制御を定義します。3つのレベルがあります:
- 「自分だけ」:ナレッジベースの所有者のみがアクセスできます。
- 「全チームメンバー」:チームの全メンバーにアクセス権を付与します。
- 「一部のチームメンバー」:特定のチームメンバーに対して選択的なアクセスを許可します。
適切な権限を持たないユーザーはナレッジベースにアクセスできません。チームメンバーにアクセス権を付与する場合(オプション2または3)、権限を持つユーザーは、ナレッジベースのコンテンツの表示、編集、削除などの全権限を受け取ります。
索引モード:詳細な説明については、ドキュメントを参照してください。
埋め込みモデル:ナレッジベースの埋め込みモデルを変更できます。埋め込みモデルを変更すると、ナレッジベース内のすべてのドキュメントが再埋め込みされ、元の埋め込みが削除されます。
検索設定:詳細な説明については、ドキュメントを参照してください。
APIを通してナレッジベースを維持する
Difyナレッジベースは、標準APIの完全なセットを提供しています。開発者はAPI呼び出しを行うことで、ナレッジベース内のドキュメントやチャンクの追加、削除、変更、クエリなどの日常的な管理およびメンテナンス操作を実行できます。詳細については、ナレッジベースAPIドキュメントを参照してください。
ナレッジベースAPIの管理
ナレッジベースにおけるテキストのメンテナンス
テキストチャンクの追加
ナレッジベースにアップロードされた各ドキュメントは、テキストチャンクの形式で保存されます。チャンクリストで各チャンクの具体的なテキストコンテンツを表示できます。
「ナレッジベース」>「ドキュメントリスト」をクリックし、「ファイルを追加」をタップして、作成したナレッジベースに新しいドキュメントをアップロードします。
新しいドキュメントをナレッジ ベースにアップロードする
ドキュメントの禁用またはアーカイブ
禁用:データセットは、一時的にインデックス化したくないドキュメントやセクションを禁用する機能をサポートしています。データセットのドキュメントリストで禁用ボタンをクリックすると、該当するドキュメントが禁用されます。また、ドキュメントの詳細ページでも禁用ボタンをクリックすることで、ドキュメント全体または特定のセクションを禁用することが可能です。禁用されたドキュメントはインデックス化されず、有効化ボタンをクリックすることで禁用を解除できます。
アーカイブ:使用しなくなった古いドキュメントデータを削除せずに保存しておきたい場合、アーカイブ機能を利用できます。アーカイブされたデータは表示または削除できますが、編集はできません。データセットのドキュメントリストでアーカイブボタンをクリックすることで、ドキュメントをアーカイブできます。また、ドキュメントの詳細ページでもアーカイブすることが可能です。アーカイブされたドキュメントはインデックス化されず、アーカイブの取り消しボタンをクリックすることで元に戻すことができます。
テキスト分段の表示
ナレッジベースにアップロードされた各ドキュメントは、テキスト分段(Chunks)として保存されます。セクションリストで、各セクションの具体的なテキストコンテンツを表示することができます。
アップロードされた文書セグメントを表示する
チャンクのクオリティの確認
ドキュメントチャンクの品質は、ナレッジベースアプリケーションのQ&Aパフォーマンスに大きく影響します。アプリケーションとナレッジベースを関連付ける前に、チャンクの品質を手動で確認することをお勧めします。
文字数、識別子、またはNLPセマンティックチャンクに基づく自動化されたチャンク方法は、大規模テキストチャンクの作業量を大幅に削減できますが、チャンクの品質は異なるドキュメント形式のテキスト構造やセマンティックコンテキストに関連しています。機械チャンクの欠点を効果的に補うためには、手動での確認と修正が有効です。
チャンクの品質を確認する際には、以下の状況に注意してください:
- 過度に短いテキストチャンク:意味の損失を引き起こす可能性があります;
過度に短いテキストチャンク
- 過度に長いテキストチャンク:一致精度に影響を与える意味のノイズを引き起こす可能性があります;
過度に長いテキストチャンク
- 明らかなセマンティック切り捨て:最大セグメント長制限を使用した際に発生し、強制的なセマンティック切り捨てやリコール中のコンテンツ欠落を引き起こす可能性があります;
明らかなセマンティック切り捨て
テキストチャンクの追加
チャンクリストで「セグメントの追加」をクリックして、ドキュメントに1つまたは複数のカスタムチャンクを追加します。
一括でチャンクを追加する場合は、まずCSV形式のチャンクアップロードテンプレートをダウンロードし、Excelでテンプレート形式に従ってすべてのチャンクコンテンツを編集し、CSVファイルを保存してからアップロードします。
テキストチャンクの追加
テキストチャンクを編集する
テキストブロックの一覧では、追加したテキストブロックの内容を直接編集できます。これには、テキストの内容やテキストブロックのキーワードが含まれます。
文書のテキストブロックを編集
メタデータ管理
ウェブページデータのタイトル、URL、キーワード、説明など、異なるソースの文書に関連するメタデータ情報をマークすることに加えて、メタデータはナレッジベース内でテキストブロックを検索する際の構造化フィールドとして、検索のフィルタリングや引用元の表示に使用されます。
現在のバージョンでは、メタデータのフィルタリングおよび引用元の機能はサポートされていません。
メタデータ管理