OVERVIEW
Virtual Assistants
Kore.ai Platform
Key Concepts
Natural Language Processing (NLP)
Accessing Platform
VIRTUAL ASSISTANTS
Virtual Assistant Builder
Virtual Assistant Types
Getting Started
Create a Simple Bot
SKILLS
Storyboard
Dialog Tasks
Introduction
Dialog Builder (New)
Dialog Builder (Legacy)
User Intent Node
Dialog Node
Entity Node
Supported Entity Types
Composite Entities
Supported Colors
Supported Company Names
Form Node
Logic Node
Message Nodes
Confirmation Nodes
Bot Action Node
Service Node
Custom Authentication
2-way SSL for Service nodes
Script Node
Agent Transfer Node
WebHook Node
Grouping Nodes
Connections & Transitions
Manage Dialogs
User Prompts
Knowledge Graph
Terminology
Building
Generation
Importing and Exporting
Analysis
Knowledge Extraction
Train
Build
Alert Tasks
Introduction
Ignore Words and Field Memory
How to Schedule a Smart Alert
Small Talk
Digital Views
Introduction
How to Configure Digital Views
Digital Forms
Overview
How to Configure Digital Forms
NATURAL LANGUAGE
Overview
Machine Learning
Introduction
Model Validation
Fundamental Meaning
Introduction
NLP Guidelines
Knowledge Graph
Traits
Introduction
How to Use Traits
Ranking and Resolver
Advanced NLP Configurations
INTELLIGENCE
Overview
Context Management
Overview
Session and Context Variables
Context Object
How to Manage Context Switching
Manage Interruptions
Dialog Management
Sub Intents & Follow-up Intents
Amend Entity
Multi-Intent Detection
Sentiment Management
Tone Analysis
Sentiment Management
Event Based Bot Actions
Default Conversations
Default Standard Responses
TEST & DEBUG
Talk to Bot
Utterance Testing
Batch Testing
Record Conversations
Conversation Testing
CHANNELS
PUBLISH
ANALYZE
Overview
Dashboard
Custom Dashboard
Overview
How to Create Custom Dashboard
Conversation Flows
NLP Metrics
ADVANCED TOPICS
Universal Bots
Overview
Defining
Creating
Training
Customizing
Enabling Languages
Store
Smart Bots
Defining
koreUtil Libraries
SETTINGS
Authorization
Language Management
PII Settings
Variables
Functions
IVR Integration
General Settings
Management
Import & Export
Delete
Bot Versioning
Collaborative Development
Plan Management
API GUIDE
API Overview
API List
API Collection
SDKs
SDK Overview
SDK Security
SDK App Registration
Web SDK Tutorial
Message Formatting and Templates
Mobile SDK Push Notification
Widget SDK Tutorial
Widget SDK – Message Formatting and Templates
Web Socket Connect & RTM
Using the BotKit SDK
Installing
Configuring
Events
Functions
BotKit SDK Tutorial – Agent Transfer
BotKit SDK Tutorial – Flight Search Sample Bot
Using an External NLP Engine
ADMINISTRATION
HOW TOs
Create a Simple Bot
Create a Banking Bot
Transfer Funds Task
Update Balance Task
Context Switching
Using Traits
Schedule a Smart Alert
Configure UI Forms
Add Form Data into Data Tables
Configuring Digital Views
Add Data to Data Tables
Update Data in Data Tables
Custom Dashboard
Custom Tags to filter Bot Metrics
Patterns for Intents & Entities
Build Knowledge Graph
Global Variables
Content Variables
Using Bot Functions
Configure Agent Transfer
RELEASE NOTES

Knowledge Extraction

ナレッジ グラフ抽出サービスを利用すると、エンタープライズの既存のよくあるご質問 (FAQ コンテンツ) をボットのナレッジ グラフに簡単に移動できます。

ウェブページや PDF 文書などの構造化されていないコンテンツからの抽出はもちろん、CSV ファイルなどの構造化コンテンツからの抽出にも対応しています。

抽出が完了したら、簡単に操作できるインターフェイスを使用して質問と回答を編集し、関連するナレッジ グラフ ノードの下に整理できます。

抽出プロセス

ナレッジ抽出サービスを利用してデータをナレッジ グラフに移動するには、以下のステップを実行します。

  • ステップ 1 抽出: ステップ 1 抽出: PDF、ウェブ ページなどの構造化されていないファイル、または CSV のような構造化されたファイル内の質問と回答のデータ ソースから、既存の FAQ コンテンツを抽出します。抽出は、ボットのナレッジ グラフを作成する前後のいずれでも行うことができます。
    注意: ナレッジ抽出サービスは、ソース タイプごとに特定のコンテンツ構造をサポートしています。詳細については、サポートされている形式のセクションを参照してください。
  • ステップ 2 編集: データの抽出に成功すると、ナレッジ グラフに移動する前に質問と回答のテキストを編集できます。
  • ステップ 3 移動: ナレッジ グラフの作成の前後のいずれでも、ボットにデータを追加できます。ナレッジ グラフが存在しない状態でに抽出した内容を追加しようとすると、ボットは自動的にボットの名前でナレッジ グラフを作成します。

ナレッジ抽出ツールを使用すると、抽出した内容をナレッジ グラフに追加できます。

  • [ナレッジ グラフへの追加] で、選択した質問をナレッジ グラフのルート ノードに移動します。必要な用語がまだナレッジ グラフに追加されていない場合、またはボットにナレッジ グラフが存在しない場合にこのオプションを使用できます。
  • 特定の用語への追加: ナレッジ グラフがすでにボットに作成されている場合は、必要なノードに選択したコンテンツをドラッグ アンド ドロップします。

ウェブサイトからの抽出

  1. コンテンツを抽出したいボットを開き、[ナレッジ グラフ] タブをクリックします。
  2. [抽出] セクションで [URL から抽出] をクリックします。
  3. 抽出用に [名前] を入力します。
  4. ページの URL を入力し、[続行] をクリックします。
  5. 抽出が完了すると、「成功」ステータスのページが表示されます。

ファイルからの抽出

注意: ファイル サイズは 5 MB を超えないようにしてください。

ファイル形式の詳細については、以下のサポートされている形式のセクションを参照してください。

  1. コンテンツを抽出するボットを開き、[ナレッジ グラフ] タブをクリックします。
  2. [抽出] セクションの [ファイルから抽出] タブから [参照] をクリックします。
  3. ファイルを参照して PDF または CSV 形式のファイルを選択し、[続行] をクリックします。
  4. PDF ファイルには、抽出前に文書に注釈を付けるオプションがあります。詳細については、以下をご覧ください
  5. 抽出が完了すると、「成功」ステータスのページが表示されます。

注釈および抽出

(リリース 8.0 で導入)

事業関連のすべての FAQ を、プラットフォームで必須形式ではない PDF ファイルにまとめているとします。リリース 8.0 以前ではこれらのファイルを使用することはできませんでしたが、注釈ツールの導入により、コンテンツの重要な部分を指定して文書に注釈を付けられるようになりました。ナレッジ抽出エンジンは、この情報を用いて文書から FAQ を抽出します。

注意: これは PDF 文書にのみ適用されます。

  1. 新しく抽出した、または以前に抽出した PDF ファイルを選択します。そのファイルに含まれる質問がナレッジ グラフに追加されていない場合は、以前に抽出したファイルを使用できます。
  2. [注釈および抽出] (既に抽出されているファイルの場合には [レビューおよび追加] オプション) をクリックします。
  3. PDF 文書が注釈ツールによって読み込まれ、文書内のさまざまなセクションに注釈を付けられるようになります。
  4. 注釈を付けるには、テキストを選択して以下のようにタグ付けを行います。
    • 見出しタグは質問の識別に使用します。見出しは質問を識別できるようモデルをトレーニングするために使用され、2つの連続した見出しの間の内容は前の見出しの回答として扱われます。
    • ヘッダー – このようにマークされたテキストは無視されます。ヘッダーとしてマークされたテキストは、モデルがテキストを識別したり無視したりできるようトレーニングするために使用されます。フッターや段落などのテキストを誤ってヘッダーとしてマークすると、バックエンドの機械学習モデルが無効となり、最適な結果が得られなくなります。
    • フッター – このようにマークされたテキストは無視されます。フッターとしてマークされたテキストは、モデルがテキストを識別したり無視したりできるようトレーニングするために使用されます。ヘッダーと同様に、ヘッダーや段落などのテキストを誤ってフッターとしてマークすると、バックエンドの機械学習モデルが無効となり、最適な結果が得られなくなります。
    • 除外 – このようにマークされたテキストは抽出には使用されません。
    • ページを無視する – 無視とマークされたページは抽出には使用されません。
    • 注釈を削除することで、間違った注釈を修正できます。
  5. ナレッジ グラフ エンジンは、抽出処理で見出し、ヘッダー、フッターを使用します。ナレッジ グラフ エンジンがモデルを学習するため、文書全体に注釈を付ける必要はありません。数ページにわたって見出し、ヘッダー、フッターの注釈を付けたあと、質問を抽出して確認できます。納得のいく結果が得られた場合はナレッジ グラフに質問を追加することができ、そうでなければ納得のいく結果が得られるまで注釈をつける作業を繰り返します。
  6. その他の文書情報について記載しています。
    • 文書情報 – 文書の名前、サイズ、ページ数。
    • 注釈の概要 – 特定のページおよび文書全体にマークされた、カテゴリ別の注釈の数。
  7. 注釈を付けると、文書を抽出できるようになります。
  8. [質問のレビュー] タブから、ナレッジ グラフ エンジンが注釈およびトレーニングに従って抽出した質問を確認できます。そこからナレッジ グラフに追加するものを選択できます。ナレッジ グラフの適切なノードにドラッグ アンド ドロップします。
  9. 抽出された内容に納得がいかない場合は、いつでも文書に注釈を付け直すことができます。[注釈] タブをクリックすると、注釈ツールに戻ることができます。
  10. 注釈を付け直す場合は、上記と同様の手順で行います。実行する際には以下の点にご注意ください。
    • ファイルに含まれる質問がナレッジ グラフに追加されていない場合は、文書に再度注釈をつけることができます。
    • すでに質問が追加されている場合は、注釈付き文書のコピーを作成して作業できます。コピーはすべての注釈が損なわれることなく作成されます。

抽出した内容の編集

  1. ボットを開いて [ナレッジ グラフ] タブをクリックします。
  2. すべての抽出結果の一覧が [ナレッジ抽出] セクションに表示されます。
  3. 内容を編集したい抽出物の名前をクリックします。
  4. 編集するには、質問と回答の組み合わせにカーソルを合わせて [編集] アイコンをクリックします。
  5. 必要な変更を行い、[保存] をクリックします。

抽出されたコンテンツの追加

抽出したコンテンツをナレッジ グラフに追加する方法は 2 つあります。

抽出セクションから

  1. ボットを開いてナレッジ グラフタブをクリックします。
  2. [ナレッジ抽出] セクションで、追加したいコンテンツを含む抽出物の名前を選択します。
  3. 必要な質問と回答を、追加したいノード/用語にドラッグ アンド ドロップします。ドラッグ アンド ドロップすると、子ノードが展開されます。
  4. 複数の質問と回答を選択して、一括で移動できます。

ナレッジ グラフから

  1. ボットを開いて [ナレッジ グラフ] タブをクリックします。
  2. これらの質問と回答を追加するノードを選択します。
  3. [抽出から追加] をクリックします。成功した抽出と失敗した抽出の一覧が開きます。
  4. 移動したい内容を含む成功した抽出物の名前をクリックします。
  5. 移動したい質問と回答の組み合わせの横にあるチェックボックスを選択し、[追加を] クリックします。

注意: 一度質問と回答の組み合わせを抽出物からナレッジ グラフに移動すると、再び移動することはできません。コレクションにすでに存在する質問を抽出物から移動しようとした場合、プラットフォームは重複エラーを送出します。ナレッジ グラフから移動した内容には変更を加えることができます。一方で、ナレッジ グラフで質問が修正されたり削除されたりした場合には、開発者はナレッジ グラフに再度質問を追加できます。

サポートされている形式

ナレッジ抽出サービスは、サポートされている CSV、PDF、URL 形式からの FAQ の抽出のみをサポートしています。

ファイルサイズは 5 MB を超えないようにしてください。

CSV

  • ナレッジ抽出サービスは、最初の列のテキストを質問として、2 列目のテキストを回答として解釈します。
  • ファイルにはヘッダーが含まれないようにします。
  • ナレッジ抽出サービスは、ヘッダーおよび他の列に存在するテキストを無視します。

PDF

  • ナレッジ抽出サービスは、PDF からコンテンツを処理し、質問と回答の組み合わせに変換できます。
  • 目次を含む文書: 文書には目次が含まれていることが望ましいです。この場合、ナレッジ抽出サービスは最初に目次を抽出し、それを使用して文書を解析して見出しを識別します。目次の情報は、見出しの階層 (見出し、中見出し、小見出しなど) を取得するために使用されます。これらの階層は、抽出プロセスの一部として、区切り記号として縦線 (バーティカル バー) で区切られます (見出し | 中見出し | 小見出し) 。
  • 目次を含まない文書: この場合、ナレッジ抽出サービスはフォント スタイルまたはフォント サイズのいずれかに基づいて見出しを識別する、事前トレーニング済みの機械学習モデルを使用します。フォント サイズを使用する場合には、見出しの階層を取得することもできます。
  • テキストは、その後統一されたヘッダーや段落ブロックで書式設定されます。

ウェブ ページ

ナレッジ抽出サービスは、以下の 3 つの異なる形式の FAQ ウェブ ページをサポートしています。

  • 質問と回答の対の組み合わせを含む単純な FAQ ページ
  • 同一ページの回答にリンクされた質問のハイパーリンクを含むページ
  • 別のページの回答にリンクされた質問のハイパーリンクを含むページ

以下の条件においては、ウェブ ページ上の特定の FAQ 抽出に失敗します。

  • 質問のテキストが、FAQ ページの複数の HTML タグで分割されている場合。
  • HTML DOM 構造に従って回答に適用されるタグが、抽出された質問の子でも兄弟でもない場合。
  • 質問に、回答にリンクされたハイパーリンクがない場合。 (ハイパーリンクを含む FAQ に適用)
  • 質問は回答にリンクされているが、質問文が回答上で繰り返されていない場合。 (ハイパーリンクを含む FAQ に適用)

上記の FAQ ページ タイプが 1 つ以上含まれる場合、FAQ ページ全体の抽出に失敗します。

OVERVIEW
Virtual Assistants
Kore.ai Platform
Key Concepts
Natural Language Processing (NLP)
Accessing Platform
VIRTUAL ASSISTANTS
Virtual Assistant Builder
Virtual Assistant Types
Getting Started
Create a Simple Bot
SKILLS
Storyboard
Dialog Tasks
Introduction
Dialog Builder (New)
Dialog Builder (Legacy)
User Intent Node
Dialog Node
Entity Node
Supported Entity Types
Composite Entities
Supported Colors
Supported Company Names
Form Node
Logic Node
Message Nodes
Confirmation Nodes
Bot Action Node
Service Node
Custom Authentication
2-way SSL for Service nodes
Script Node
Agent Transfer Node
WebHook Node
Grouping Nodes
Connections & Transitions
Manage Dialogs
User Prompts
Knowledge Graph
Terminology
Building
Generation
Importing and Exporting
Analysis
Knowledge Extraction
Train
Build
Alert Tasks
Introduction
Ignore Words and Field Memory
How to Schedule a Smart Alert
Small Talk
Digital Views
Introduction
How to Configure Digital Views
Digital Forms
Overview
How to Configure Digital Forms
NATURAL LANGUAGE
Overview
Machine Learning
Introduction
Model Validation
Fundamental Meaning
Introduction
NLP Guidelines
Knowledge Graph
Traits
Introduction
How to Use Traits
Ranking and Resolver
Advanced NLP Configurations
INTELLIGENCE
Overview
Context Management
Overview
Session and Context Variables
Context Object
How to Manage Context Switching
Manage Interruptions
Dialog Management
Sub Intents & Follow-up Intents
Amend Entity
Multi-Intent Detection
Sentiment Management
Tone Analysis
Sentiment Management
Event Based Bot Actions
Default Conversations
Default Standard Responses
TEST & DEBUG
Talk to Bot
Utterance Testing
Batch Testing
Record Conversations
Conversation Testing
CHANNELS
PUBLISH
ANALYZE
Overview
Dashboard
Custom Dashboard
Overview
How to Create Custom Dashboard
Conversation Flows
NLP Metrics
ADVANCED TOPICS
Universal Bots
Overview
Defining
Creating
Training
Customizing
Enabling Languages
Store
Smart Bots
Defining
koreUtil Libraries
SETTINGS
Authorization
Language Management
PII Settings
Variables
Functions
IVR Integration
General Settings
Management
Import & Export
Delete
Bot Versioning
Collaborative Development
Plan Management
API GUIDE
API Overview
API List
API Collection
SDKs
SDK Overview
SDK Security
SDK App Registration
Web SDK Tutorial
Message Formatting and Templates
Mobile SDK Push Notification
Widget SDK Tutorial
Widget SDK – Message Formatting and Templates
Web Socket Connect & RTM
Using the BotKit SDK
Installing
Configuring
Events
Functions
BotKit SDK Tutorial – Agent Transfer
BotKit SDK Tutorial – Flight Search Sample Bot
Using an External NLP Engine
ADMINISTRATION
HOW TOs
Create a Simple Bot
Create a Banking Bot
Transfer Funds Task
Update Balance Task
Context Switching
Using Traits
Schedule a Smart Alert
Configure UI Forms
Add Form Data into Data Tables
Configuring Digital Views
Add Data to Data Tables
Update Data in Data Tables
Custom Dashboard
Custom Tags to filter Bot Metrics
Patterns for Intents & Entities
Build Knowledge Graph
Global Variables
Content Variables
Using Bot Functions
Configure Agent Transfer
RELEASE NOTES

Knowledge Extraction

The Knowledge Graph Extraction service enables you to effortlessly move your enterprise’s existing Frequently Asked Questions (FAQ content) into bot Knowledge Graph.

The feature supports the extraction from unstructured content such as web pages and PDF documents as well as from structured content such as CSV files.

After completing the extraction, you can edit the question and answers using an easy-to-use interface and organize them under the relevant Knowledge Graph nodes.

Extraction Process

Moving data using the Knowledge Extraction service to the Knowledge Graph involves the followings steps:

  • Extracting: Extract the existing FAQ content from structured or unstructured sources of question-answer data such as PDF, web pages, and CSV files. This extraction can be done before or after creating a Knowledge Graph for the bot.
    Note: The Knowledge Extraction service supports a specific content structure for each source type. Refer to the Supported formats section for details.
  • Editing: Upon successful data extraction, you can edit the questions and answer text before moving it to the Knowledge Graph.
  • Moving: You can add data into a bot before or after creating a Knowledge Graph (KG). If you try to add the extracted content to a KG before it exists, the bot automatically creates one with the bot’s name.

The Knowledge Extractor allows you to add the extracted content to the Knowledge Graph:

  • Add to Knowledge Graph moves the selected questions to the root node of the Knowledge Graph. You can use this option when the required term is not yet added to the KG or when the bot does not have a Knowledge Graph.
  • Add to Specific Term: If the bot already consists of a Knowledge Graph, you drag-drop the selected content to the required nodes.

Extract from a Website

  1. Open the bot to which you want to extract the content.
  2. Select the Build top menu item.
  3. From the left menu, click Conversational Skills > Knowledge Graph.
  4. Under the Extracts section, click Extract from URL.
  5. Enter a Name for extraction.
  6. Enter the URL of the page, and then click Proceed.
  7. Once the extraction is complete, the page with the success status appears.
  8. Review & Add the relevant questions to your Knowledge Graph, see below for details.

Extract from File

NOTE: File size must not exceed 5MB.

For file format details, refer to the Supported formats section below.

  1. Open the bot to which you want to extract the content.
  2. Select the Build top menu item.
  3. From the left menu, click Conversational Skills > Knowledge Graph.
  4. Under the Extracts section, click Extract from URL.
  5. Click Browse to locate the file (PDF or CSV).
  6. Click Proceed.
  7. For PDF files you have an option to annotate the document before extraction. See below for details.
  8. After the extraction is complete, a page with the success status is displayed.
  9. Review & Add the relevant questions to your Knowledge Graph, see below for details.

Annotate & Extract

(introduced in v8.0)

You might have all the FAQs related to your business in a PDF file but not in the format mandated by the platform. Before v8.0, you can not use such files. But with the introduction of the Annotation tool, you can annotate documents identifying the key sections of the content. The Knowledge Extraction engine uses this information to extract the FAQs from the document.

NOTE: This is applicable only for PDF documents.

  1. Select a new or previously extracted PDF file. Note that you can use a previously extracted file provided no questions from that file are added to the Knowledge Graph.
  2. Click Annotate & Extract (Review & Add option in case of an already extracted file).
  3. The PDF document is loaded into the Annotation Tool allowing you to annotate the various sections in the document.
  4. To annotate, select the text and tag it as follows:
    • Heading tag is used to identify questions. Headings are used to train the model to identify the questions and the content between two consecutive headings are treated as the answer for the preceding heading.
    • Header – Text thus marked is ignored. Text marked as Headers is used to train the model to identify and ignore. Random marking of texts as headers must be avoided as marking text such as footer or paragraphs as the header invalidates the backend ML model, and will not produce the optimal results.
    • Footer – Text thus marked is ignored. Text marked as Footers is used to train the model to identify and ignore. Same as the Header, random marking of texts as footers must be avoided as marking text such as header or paragraphs as the footer invalidates the backend ML model, and will not produce the optimal results.
    • Exclude – This text is not used for extraction.
    • Ignore Page – Pages marked as ignored are not used for extraction.
    • You can Remove Annotation to rectify any incorrect annotations.
  5. The Knowledge Graph Engine uses the headings, headers, and footers in the extraction process. Since the model is trained by the KG Engine, you need not annotate the entire document. You can annotate a couple of pages with headings, headers, and footers, extract and review the questions. If satisfied, you can proceed with adding questions to the Knowledge Graph, else repeat the annotation process till you get satisfactory results.
  6. Additional document information is provided:
    • Document Info – Name, Size, and the Number of Pages of the document.
    • Annotation Summary – Number of annotations marked for each category for the particular page and entire document.
  7. After you annotate, you can Extract the document.
  8. Review Questions tab gives the questions extracted by the KG Engine as per the annotations and training. You can select the ones you want to add to the Knowledge Graph. Drag and drop them to the appropriate node in your Knowledge Graph.
  9. If you are not satisfied with the extracted content, you can always re-annotate the document. Just click on the Annotate tab to return to the annotation tool.
  10. The same procedure mentioned above is followed for re-annotation. The following points need to be kept in mind for re-annotation:
    • You can re-annotate the document provided no questions from this file is added to the Knowledge Graph.
    • In case questions are already added, you can choose to create a copy of the annotated document and work with it. The copy is created will have all the annotations intact.

Edit the Extracted Content

  1. Open the bot.
  2. Select the Build top menu item.
  3. From the left pane, click Conversational Skills > Knowledge Graph.
  4. The Knowledge Extraction section displays the list of all extractions.
  5. Click the name of a successful extract you want to edit.
  6. Hover over the question-answer pair to modify it and click the edit icon.
  7. Make the necessary changes and click Save.

Add the Extracted Content

There are two ways to add the extracted content to the Knowledge Graph.

From the Extracts Section
  1. Open the bot.
  2. Select the Build top menu item.
  3. From the left menu, click Conversational Skills > Knowledge Graph.
  4. From the Knowledge Extraction section, select the name of a successful extract you want to add.
  5. Drag and drop the required Q&A to the node/term you want to add. As you drag and drop, the child nodes will be expanded.
  6. You can select multiple Q&As and perform a bulk move.
From Knowledge Graph
  1. Open the bot.
  2. Select the Build top menu item.
  3. From the left pane, click Conversational Skills > Knowledge Graph.
  4. Select the node you want to add these Question-Answers.
  5. Click Add from Extraction. It opens the list of successful and failed extractions.
  6. Click the name of a successful extract you want to move.
  7. Select the checkboxes next to the question-answer pairs that you want to move and then click Add.

Note: Once you move a question-answer pair from the extract to the knowledge graph, you cannot move it again. The platform throws a duplicate error when you try to move a question from the extract that is already present in the collection. You can make any changes to the moved content from the knowledge graph. However, if the question is modified or removed from the knowledge graph, then the developer is allowed to add it again to the knowledge graph.

Supported Formats

The Knowledge Extraction service supports extracting FAQs only from supported CSV, PDF, and URL formats.

Note that the file size must not exceed 5MB.

CSV
  • The Knowledge Extraction service interprets the text in the first column as a question and that in the second column as an answer.
  • The file must not have any headers.
  • The Knowledge Extraction service ignores any headers and the text present in the other columns.
PDF
  • The Knowledge Extraction service processes the content from a PDF and converts it into question-answer pairs.
  • Documents with the table of contents: Ideally a document with a table of contents is preferred. In such cases, the Knowledge Extraction service extracts the table of contents first and then uses it to parse the document and identify headings. The information present in the table of contents is used to derive the hierarchy of headings (headings, subheadings, sub-sub headings, etc.). These levels are separated by a vertical line as a delimiter (heading | subheading | sub-sub heading) as part of the extraction process.
  • Documents with no table of contents: In such cases, the Knowledge Extraction service uses a pre-trained machine learning model that identifies headings based on either font style or font size. In the case of using font size, the heading hierarchy can also be derived.
  • The text is then formatted with a uniform header and paragraph blocks.
Web Pages

The Knowledge Extraction service supports the following three different formats of FAQ web pages:

  • Plain FAQ pages with linear question-answer pairs.
  • Pages with question hyperlinks that point to answers on the same page.
  • Pages with question hyperlinks that point to answers on a different page.

Extraction of certain FAQs on the webpage fails under the following conditions:

  • The question text is split between multiple HTML tags on the FAQ page.
  • The tag applied to the answer is neither the child nor the sibling of the extracted question as per the HTML DOM structure.
  • The question does not have a hyperlink to the answer (applies to FAQs with hyperlinks).
  • When the questions hyperlink to the answer, but the question statement is not repeated above the answer (applies to FAQs with hyperlinks).

The extraction of the entire FAQ page fails if the page consists of more than one FAQ page types mentioned above.