世の中に AIを使った調査ツールが色々とあるが、何をどこまでできるのか。
トライアルでいくつかのツールをちょっと触ってみただけの段階であるが、メモしておきたい。下記には筆者の推測が入っている。
[AI調査ツールのしくみ]
AIを使った調査ツールでは、①特許番号を入れると内容の近い特許を検索する、②自然文を入れるとそれに近い内容の特許を検索する、③求めた集合について教師データとして指定した公報と近い順にソートする、ことができる。
上記の3つは、インプット/アウトプットの仕様は若干異なるが、いずれも所定の文章に近い内容を記載した公報を探すことを基礎とするものである。具体的には、所定の文章と他の公報との類似度のスコアを求め、そのスコアに基づいて結果を出している。②では自然文をクエリとしており、①③は指定された特許内の文章をクエリとしているという違いである。
検索のアルゴリズムは所定の文章と他の公報との類似度を求めるのであるが、おおざっぱにいうと、クエリと被調査対象の文章を特徴ベクトルで表し、特徴ベクトルどうしの類似度を求めるものと推測される。もちろん、特徴ベクトルへの変換の方法や類似度の計算方法には各社の特徴があるであろう。
特徴ベクトルは、例えば、tf-idf(term frequency - inverse document frequency)みたいなものであり、所定の文章に頻出する用語は重要度が高いが、他の文章にも頻出する用語は重要度が低い(例えば「端末」はいくら頻出しても重要ではない)という基準で文章を評価するベクトルであると理解している。
特徴ベクトルの類似度のスコアを計算する際には、同義語も考慮していると考えられる。
[AIでできること、できないこと]
さて、AIの調査ツールが上記のアルゴリズムで動いているとした場合、AIで何ができるか。
特徴ベクトルに変換した時点で、おそらく文章の文脈は失われる。文脈は見てないと明確に説明した会社もあった。したがって、AIといえども、文脈を含めた類似度を求めることはできない。つまり、AIでは、所望の発明と同一発明を開示した文献を見つけることまではできない。
AIでできることは、特徴的な用語あるいはその同義語を同じような割合で含む文章を類似すると判断することである。類似する発明を記載した文献どうしの特徴ベクトルは高い確率で類似するものになると考えられるから、技術分野が同じあるいは近い発明群を見つけることは可能である。
[どう使うか]
AI調査ツールの説明者からは、AIが何ができるかを理解して使うことが重要という趣旨の説明をもらった。まさにその通りだと思う。無効資料を一発で見つけることができないからAIは使えないということではなく、AIを使うことで調査業務の精度向上と効率化に役立てることができれば良い。
これから、どういう使い方をすれば効率的な調査が可能になるのか試行錯誤してみたい。