特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して

URI http://harp.lib.hiroshima-u.ac.jp/hiroshima-cu/metadata/5942
File
Title
特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して
Title Alternative
Producing Test Collections for Patent Information Processing : Toward the Fusion of Information Retrieval and Natural Language Processing
Author
氏名 藤井 敦
ヨミ フジイ アツシ
別名 FUJII Atsushi
氏名 難波 英嗣
ヨミ ナンバ ヒデツグ
別名 NANBA Hidetsugu
氏名 岩山 真
ヨミ イワヤマ マコト
別名 IWAYAMA Makoto
氏名 神門 典子
ヨミ カンド ノリコ
別名 KANDO Noriko
氏名 内山 将夫
ヨミ ウチヤマ マサオ
別名 UCHIYAMA Masao
氏名 山本 幹雄
ヨミ ヤマモト ミキオ
別名 YAMAMOTO Mikio
氏名 宇津呂 武仁
ヨミ ウツロ タケヒト
別名 UTSURO Takehito
氏名 橋本 泰一
ヨミ ハシモト タイイチ
別名 HASHIMOTO Taiichi
Abstract

情報検索や自然言語処理に関する技術を体系的に評価するためには,ベンチマークとして研究者が共有できる大規模なテストコレクションが必要である.本稿は,NTCIRワークショップにおいて構築している特許情報処理テストコレクションについて,検索,分類,機械翻訳,マイニングの観点から解説する.検索では技術動向調査,無効資料調査,パッセージ検索を目的とし,分類ではFタームに基づくカテゴリ分類を目的としたテストコレクションを構築した.現在進行中のワークショップでは,検索や分類で用いた日英特許情報を応用して,翻訳とマイニングに関するテストコレクションを構築している.翻訳では,対応特許(パテントファミリー)から抽出した文対応データをシステムの訓練や評価に用いる.マイニングでは,特許と技術論文を横断した技術動向分析を想定して,論文抄録に特許分類のカテゴリを付与することを目的とする. / To evaluate technologies for information retrieval and natural language processing systematically, sharable large test collections as benchmark data are needed. This paper describes the test collections for patent information processing at the NTCIR workshop from retrieval, classification, machine translation, and mining perspectives. For the retrieval task, test collections for technology survey, invalidity search, and passage retrieval were produced. For the classification task, test collections for the F-term patent classification system were produced. In the current workshop, applying the patent documents in Japanese and English that were used for the retrieval and classification tasks, test collections for machine translation and mining are being produced. For the translation task, sentence-aligned data extracted from patent families are used for training and evaluation purposes. For the mining task, aimed at the analysis of technology trends across patents and technical papers, the purpose is to categorize technical abstracts based on a patent classification system.

Journal Title
情報処理学会研究報告. 自然言語処理研究会報告
Volume
2008
Issue
4
Spage
31
Epage
36
Published Date
2008-01-21
Publisher
社団法人情報処理学会
NCID
AN10115061
NAID
110006623471
Language
jpn
NIIType
Technical Report
Text Version
出版社版
Rights
本著作物の著作権は(社)情報処理学会に帰属します。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。 /The copyright of this material is retained by the Information Processing Society of Japan (IPSJ). This material is published on this web site with the agreement of the author (s) and the IPSJ. Please be complied with Copyright Law of Japan and the Code of Ethics of the IPSJ if any users wish to reproduce, make derivative work, distribute or make available to the public any part or whole thereof. All Rights Reserved, Copyright (C) Information Processing Society of Japan.
Relation URL
Old URI
Set
hiroshima-cu