重要文抽出によるWebページ要約のためのHTMLテキスト分割
URI | http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/5532 | ||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
ファイル |
J87-D1_12 _1089.pdf
( 394.0 KB )
公開日
:2010-02-15
|
||||||||||||||||||
タイトル |
重要文抽出によるWebページ要約のためのHTMLテキスト分割
|
||||||||||||||||||
別タイトル |
HTML Texts Segmentation for Web Page Summarization by Using a Key Sentences Extraction Method
|
||||||||||||||||||
著者 |
|
||||||||||||||||||
キーワード |
テキストセグメンテ-ション
重要文抽出
Webページ要約
検索エンジン
|
||||||||||||||||||
抄録 |
検索エンジンにおいて検索結果として表示される情報は,目的の情報を素早く獲得する上で重要なものである.特に,検索結果の各Webページの要約文は,各Webページの内容を知る上で重要であるとともに,ユーザが入力した検索語が各Webページ内でどのように使われているか,すなわち検索語と各Webページとのかかわりを知るために有効である.しかし,従来の検索エンジンにおける検索結果の要約文は,Webページの冒頭部分のテキストが抜き出されて検索語が含まれていなかったり,検索語を含んでいても文の途中で切れていて文として不完全で,文脈やWebページの内容を把握できないという問題点がある.そのため文を単位とした要約の出力が望まれるが,HTMLテキストにおいては,句点を含まない,文以外の記述が数多く含まれているため,そのまま文を単位とした重要文抽出システムによって要約文を提供することは困難である.そこで本論文では,各Webページのソースを文に相当する意味の切れ目において分割するHTMLテキスト分割システムを提案する.また,本システムにより生成されるテキストが,Webページの要約生成に有効に働くことを実験により検証した. |
||||||||||||||||||
査読の有無 |
有
|
||||||||||||||||||
掲載雑誌名 |
電子情報通信学会論文誌. D-I, 情報・システム, I-情報処理
|
||||||||||||||||||
巻 |
J87-D-I
|
||||||||||||||||||
号 |
12
|
||||||||||||||||||
開始ページ |
1089
|
||||||||||||||||||
終了ページ |
1097
|
||||||||||||||||||
出版年月日 |
2004-12-01
|
||||||||||||||||||
出版者 |
社団法人電子情報通信学会
|
||||||||||||||||||
ISSN |
0915-1915
|
||||||||||||||||||
NCID |
AA11341020
|
||||||||||||||||||
NAID |
110003203295
|
||||||||||||||||||
本文言語 |
日本語
|
||||||||||||||||||
資料タイプ |
学術雑誌論文
|
||||||||||||||||||
著者版フラグ |
出版社版
|
||||||||||||||||||
権利情報 |
copyright©2004 IEICE
|
||||||||||||||||||
関連URL | |||||||||||||||||||
旧URI | |||||||||||||||||||
区分 |
hiroshima-cu
|