フォローする

本文のコンテンツ抽出の範囲をタグで指定する方法

概要

Cxense Insight では、6時間に3回アクセスがあったページに対して、クロールを実施します。

※ 詳細:Crawling

クロールした際に、そのページの解析処理を実施して、キーワードなどの抽出を行います。

ページの解析処理を行う範囲を明示的に示すことで、精度の高いページ処理を実行することができます。

※ 詳細:Document parsing

もし、本設定を行っていない場合には、意図しない箇所が対象となったり、解析して欲しい箇所が対象とならなかったりする可能性があります。

方法

1. Cxense のタグを利用する方法

指定のコメントもしくはタグを挿入します。1ページ内に複数指定することもできます。

 

1-1 コメント文での指定方法

 

<!-- cxenseparse_start -->

  本文1

<!-- cxenseparse_end -->

 

  … (抽出範囲外)

 

<!-- cxenseparse_start -->

  本文2

<!-- cxenseparse_end -->

  … (抽出範囲外)

 

1-2 タグでの指定方法

下記のように解析したい箇所に対して、cXenseParseを指定していきます。

 

<div class="cXenseParse">本文1</div>

  ... (抽出範囲外)

<div class="cXenseParse">本文2</div>

  ... (抽出範囲外)


2. Googleのタグを利用 

下記のGoogleのタグで囲まれた本文を対象とすることができます。

 

<!-- google_ad_section_start -->

  本文

<!-- google_ad_section_end -->

 

 

他にご質問がございましたら、リクエストを送信してください

コメント

Powered by Zendesk