ラベル 調査 の投稿を表示しています。 すべての投稿を表示
ラベル 調査 の投稿を表示しています。 すべての投稿を表示

2023年4月20日木曜日

[調査]AIを使った調査ツール

 世の中に AIを使った調査ツールが色々とあるが、何をどこまでできるのか。
 トライアルでいくつかのツールをちょっと触ってみただけの段階であるが、メモしておきたい。下記には筆者の推測が入っている。

[AI調査ツールのしくみ]
 AIを使った調査ツールでは、①特許番号を入れると内容の近い特許を検索する、②自然文を入れるとそれに近い内容の特許を検索する、③求めた集合について教師データとして指定した公報と近い順にソートする、ことができる。
 上記の3つは、インプット/アウトプットの仕様は若干異なるが、いずれも所定の文章に近い内容を記載した公報を探すことを基礎とするものである。具体的には、所定の文章と他の公報との類似度のスコアを求め、そのスコアに基づいて結果を出している。②では自然文をクエリとしており、①③は指定された特許内の文章をクエリとしているという違いである。
 検索のアルゴリズムは所定の文章と他の公報との類似度を求めるのであるが、おおざっぱにいうと、クエリと被調査対象の文章を特徴ベクトルで表し、特徴ベクトルどうしの類似度を求めるものと推測される。もちろん、特徴ベクトルへの変換の方法や類似度の計算方法には各社の特徴があるであろう。
 特徴ベクトルは、例えば、tf-idf(term frequency - inverse document frequency)みたいなものであり、所定の文章に頻出する用語は重要度が高いが、他の文章にも頻出する用語は重要度が低い(例えば「端末」はいくら頻出しても重要ではない)という基準で文章を評価するベクトルであると理解している。
 特徴ベクトルの類似度のスコアを計算する際には、同義語も考慮していると考えられる。

[AIでできること、できないこと]
 さて、AIの調査ツールが上記のアルゴリズムで動いているとした場合、AIで何ができるか。
 特徴ベクトルに変換した時点で、おそらく文章の文脈は失われる。文脈は見てないと明確に説明した会社もあった。したがって、AIといえども、文脈を含めた類似度を求めることはできない。つまり、AIでは、所望の発明と同一発明を開示した文献を見つけることまではできない。
 AIでできることは、特徴的な用語あるいはその同義語を同じような割合で含む文章を類似すると判断することである。類似する発明を記載した文献どうしの特徴ベクトルは高い確率で類似するものになると考えられるから、技術分野が同じあるいは近い発明群を見つけることは可能である。

[どう使うか]
 AI調査ツールの説明者からは、AIが何ができるかを理解して使うことが重要という趣旨の説明をもらった。まさにその通りだと思う。無効資料を一発で見つけることができないからAIは使えないということではなく、AIを使うことで調査業務の精度向上と効率化に役立てることができれば良い。
 これから、どういう使い方をすれば効率的な調査が可能になるのか試行錯誤してみたい。

 


2023年2月13日月曜日

[調査]検索式の作成

 無効資料調査の検索式の作成について。
 正解があるわけではないように思う。今後も試行錯誤は続くが、いま考えるやり方を備忘の意味を込めてメモしておきたい。

 以前にも書いたが、すべてを網羅することはできない。例えば、20年分の文献を調査しようとすると、ざっと600~700万件の公報がある。このうち99%は無関係と言えるとしても残りは6~7万件。とても見きれる量ではない。そもそも調査対象を20年分としたり、その99%を外している点で網羅していないともいえる。
 無効資料調査の場合には、1件でも無効資料があればよいのだから、ありそうなところを見ていくのが、限られた時間で資料を発見する確率を高めると考える。
 
 「Aにおいて、Bに基づいてCする」ことを特徴とする発明を探すとする。
この場合、「Bに基づいてCする」という部分が特徴であり、「Aにおいて」は前提事項である。次のようなイメージで検索式を立てる。



 縦軸は特徴を表す表現の切り口、横軸は前提事項の切り口で、所望の文献は交差する部分にある。特徴部分はピンポイントで狙う。前提事項は、特徴部分の切り口で求めた集合からノイズを除去するという位置づけと考え、広めに設定する。
 以上のことから、検索式のクエリを考えると、次のようにすることが多い。
(特徴部分)
 ・要約のキーワード検索
 ・クレームのキーワードでの近傍検索
 ・全文のキーワードでの近傍検索
 
(前提事項)
 ・要約、クレーム、全文のキーワード
 ・FI

 次に、特徴部分の検索の例について。
「Bに基づいてCする」という技術思想を明細書で記載するとすると、どういう表現になるか。「Bに基づいてCする」「Bに応じてCする」「Bを用いてCする」等の他、「Cを行うためにBを用いる」も考えられる。また、「B」「C」の部分にはもちろん、「B」「C」のみならずその同義語も考えられる。
 近傍検索を使って、
「B」<1w>「基づ+応じて+を用いて」<5w>「C」 ・・・(式1)
というような感じになるかと思う。
 ここで、<1w>は両側にある文字が1ワード以内であることを意図している。
 少し広げるなら、
「B」<10w>「C」+ 「C」<10w>「B」  ・・・(式2)
のようにすれば、間に入る言葉が「基づく」等以外にも対応できる。

 注意が必要なのは、色々なバリエーションが考えられるからと気にしすぎると、関係ないものがたくさん入ってきてしまい何を探しているのか分からなくなってくる。
 ただし、現実には、(式1)のタイプの式をたくさん作るのは結構難しく、(式1)のタイプだけだと件数がヒットしないということもある。他人が書いた明細書の表現をすべて想定できるとも思えないので、そもそもの件数が小さい場合には、ある程度、しらみつぶし的な検索式を入れていく場合もある。
 

2022年3月15日火曜日

無効資料調査についてのメモ

後日、手順書をまとめたいと思うが、とりあえず思いつくまま。

・「ありそうな」キーワードやFIで絞り込むこと
・「ありそうな」には、絶対にこれは含まれているというクエリ(必要条件ともいえる)と、発明を表現するにはこれは含まれているかもしれないというクエリがあるので、組み合わせて使う。
・各検索式のヒット件数は少なくする(20件前後?)。ヒット件数が多いということは、観点がぼんやりしているということであり、ゴミの山の場合あり。
※現実的に網羅できることはないので、大きな網で絞るのは得策ではない。可能性が高そうな範囲をいくつも見るのが、可能性を高めることになる。
・色々な観点が考えられる。構成要件のワード、効果のワード、具体例のワード等。自分が明細書を書くとしたら、どんなことを書くかを想像。
・絞り込みのためのFIは、全体の件数の割りにヒット数が多いものが良い。
→例えば、ありそうな集合をキーワード等で決定し、そこで使われているFIをランキング。一見、ランキングが高いものが有効に思えるが、その集合にかかわらず全体的に件数が多いのであれば、絞り込みに有効とは言えない。
・有力な文献の引用、被引用関係にある文献。
・有力な論文を引用している文献。
・複数のキーワードを使う場合、使われている場所が離れていると、ノイズが多い。
・キーワードが一般的だと、近傍検索で組み合わせても、ノイズが多いことがある。

・対象特許の本質、背景技術からの位置づけを理解することは重要。
これにより、どういうクエリが必要かを理解することができる。
→明細書や審査経過をチェックするのはもちろんだが、それだけで理解できることはない。特にどのような背景があったかは、従来技術を見ていくうちに分かる。検索式の作成とスクリーニングは繰り返した方がよい。

・スクリーニングの仕方としては、こまめに内容を精査するのがよい。(全件見た後、まとめて精査、は良くない。)。それによって、その後のスクリーニングの精度とスピードが高まる。

・主引例を探すときと要素技術を探すときでは、検索期間を変えてもよい。

・見る順番としては、出願人別が良い。分割出願等の関係を検討しやすい。
・多少の重複があるくらいなら、検索式ごとにみるのがよい。観点がはっきりしている方が探しやすい。

・主引例は図面で判断できることが多い。図面にバシッと現れているくらいでないと、論理付けで苦労する。図面に現れている場合には方向性が同じことが多い。

[2022/12/10追記]
・検索式の本質は、キーワード。FIやFTMでは探せない。発明の特徴は、FI=技術分野では表せない。FI、FTMはノイズを除去する役割。
・単一のキーワードもよほど特殊でない限り、ノイズを除去する役割。一言で発明の特徴は表せない。
・そうすると、本質は、近傍検索ということになる。要約は高々400字なので、近傍でなくてもよいかもしれない。
・検索式は、こういうものを探したい!という意思が必要。なんとなく、こんなものが含まれているのでは?という検索式は、しらみつぶし方式だが、効率が悪い。
・名詞(特によく見られる名詞)どうしを近傍検索すると思わぬ組み合わせがヒットしてしまう。助詞を入れるのはありかも。件数が一定数以上の場合には、要チェック!
・短い言葉は、なるべく近く設定。
・同義語(たとえば「貯金、蓄える、貯蓄、貯める」等)を漏れなく検索しようと、共通の漢字(たとえば「貯+蓄」等)を使うことが考えられる。逆に、考えられる言葉を全部列挙する選択肢もあるが、どちらがよいか。どのみち網羅することは不可能という立場なら後者か。

2021年1月21日木曜日

AIを用いた特許調査

  知財管理2021年月号に、「AIを用いた特許調査における業務効率化に関する研究」と題する記事があった。内容は、AIを用いたスクリーニング調査において、教師データが調査結果にどういう影響を与えるかの検証結果である。

 検証の対象となった調査ツールは、見つけたい発明と類似の公報を正例、類似しない公報を負例として学習を行い、学習済みのモデルを使って調査を行うというタイプのものである。教師データは多い方が正解率が上がることや、教師データの正例と負例との距離が近いほど正解率は下がるといった結果は感覚的なところと整合していた。少し違っていたのが、学習に用いる項目数(特許請求の範囲、要約、発明等)が多い方が正解率が下がったという結果である。「釣り具分野」でしか検証されていないし、今回だけの結果でどうこうということはないが、そういうこともあるんだなと。あと、教師データは、文字数を統一(短い教師データは、同じ文章をコピペ)すると正解率が上がった。

 こうした結果を見ると、どういう細工をするとどういう結果が出るのか、といったAIの癖みたいなものを理解していないと、ツールを使いこなせないという印象である。

 最近では、所望の発明を自然文で入力すると、それに近い公報を検索するAI調査のツールもあるが、それにしてもどういう表現をするかによって結果が異なるということがありそう。



除くクレーム(令和6年(行ケ)第10081号)

 1 除くクレームについて  特許実務において、引用文献と差別化を図るために、構成要件の一部を除くことが行われることがある。新たな技術的事項を導入しないものである場合には構成要件の一部を除くことが認められるが(ソルダーレジスト大合議事件(平成18年(行ケ)第10563号))、...