記事の一つ一つには、あらかじめ記事中の文章から検索のキーワードとなりうる言葉が取り出され、その記事のキーワードとして付与されています。また、新聞社によっては、固有の辞書に基づいた統制キーワードを付与する場合もあります。キーワードは、各新聞社が独自に付与しています。
例えば、日刊工業新聞では、
2003年度末までの同ボックスの目標販売台数は当初予定の10万台から15万台に上方修正し、営業を本格化する。という文章を含む記事に対し、「上方修正」「販売計画」「販売目標」「修正」「変更」「営業活動」などのキーワードが付与されています。
一般に、文中に含まれる「の」「は」などの助詞・格助詞、句読点や、特定性が低い副詞等はキーワードには含まれず対象外となります。また、「目標販売台数」や「当初予定」もキーワードには含まれず、これらの言葉でキーワード検索をしてもヒットしません。
※G-SearchWebでは「朝日新聞」「読売新聞」「毎日新聞」「日刊工業新聞」「日刊スポーツ」で各新聞社のキーワードを使った検索ができます(新聞横断検索からの検索では使用できません)。
それに対し、文字列検索では、言葉の意味の区切りを意識していません。記事中の文字の並びが入力した文字列と合致すればヒットします。
上記の例では、「販売台数は」のように助詞を含んでいたり、「上記の例では、「販売台数は」のように助詞を含んでいたり、「格化する」のように意味をなさない言葉で検索をした場合でもヒットします。」のように意味をなさない言葉で検索をした場合でもヒットします。
キーワード検索では、検索に使用する語によっては文字列検索よりもノイズの少ない検索結果が得られるという利点があります。
文字列検索の場合、例えば「ネガ」という言葉で検索をすると、写真のネガ以外にも「セネガル(地名)」「ネガティブ」「ビネガー(酢)」といった言葉を含む記事までヒットするなど、検索者の意図とは違う結果が含まれる割合が高くなり、他の適切なキーワードと組み合わせるなどして条件を絞り込むことが必要となります。キーワード検索ではこのようなノイズの含まれる割合は文字列検索よりも低くなります。
一方、文字列検索では、キーワード検索に比べてより柔軟な検索が出来るという特長があります。
例えば「聖域なき改革」「データベース化」など、新語や、より特定性の高い複合語にも柔軟に対応することが出来ます。
また、「統計情報を含む記事だけが欲しい」という場合「(%増 OR %減) AND 自動車」等の条件で検索することも出来ます。さらに、「(販売を)始める」「(新規事業に)乗り出す」などの動詞と適切な語を組み合わせ、新規参入などの特定の概念の記事に絞り込むなどの工夫も可能です。
キーワード検索・文字列検索の特長を新聞記事の特徴とうまく掛け合せ、より質の良い情報を得られるよう、是非工夫をしてみてください。
(G-SearchPRESS No.3 掲載記事より)
※掲載にあたり、一部加筆・修正しています。