国が進めている産業政策(特に成長戦略)では、データの利活用の促進が重要な柱になっていることをご紹介してきました。はやりのバズワードで表現すれば、「IoTを通じて得たビッグデータをAI(人工知能)に学習させて作ったデータ処理用のモデル(学習済みモデル)に大量のデータを入力し処理させることによって、生産性を高めると同時に新しい付加価値を生む」とでもいえましょうか。いわゆるビッグデータや第4次産業革命と呼ばれる潮流が、国の産業政策(コネクテッド・インダストリーズ)やその基本である法制度(不正競争防止法の改正等)にどのような形で投影されつつあるか、企業(特に中堅・中小企業)の立場からも一つの重要な視点と考えられます。
ところで、学習済みモデルを用いたデータ処理の仕組みは、データがIoT由来でなくそんなにビッグでない場合も含めれば、それほど新しいものではありません。筆者の知る範囲で例えば、複数の成分を溶質とする溶液中の各成分の濃度を分光分析により求めるという技術が、かなり以前から知られており使われてもいます。典型的な一例は、次のようなものです。
(1)各成分(種類の数を例えばmとする)の濃度を少しずつ異ならせた(いずれも濃度既知の)校正用サンプルを、複数個用意する。
(2)校正用サンプルをある波長幅の範囲内で分光分析して、(サンプル数)×(波長のポイント数)分の校正用スペクトル(計測値)からなる行列を得る。
(3)(2)の行列を、(サンプル数)×(成分数)分の濃度(値が既知)からなる行列と、(成分数)×(波長のポイント数)分の純成分スペクトル(値が未知)からなる行列の積の形式で表し(正確にはさらに誤差成分を加算する)、最小二乗法を用いて純成分スペクトルの近似解の行列を得る。
(4)校正用と同じ成分を未知濃度で含む評価対象サンプルを複数個用意する。この一連のプロセスの目的は、評価対象サンプル中の各成分の未知濃度を求めることである。評価対象サンプルを(2)と同様に分光分析して、評価対象スペクトル(計測値)からなる行列を得る。(3)で得た純成分スペクトルの近似解の行列と評価対象スペクトルからなる行列を所定の演算式に代入することにより、評価対象サンプル中の各成分の未知濃度を求めることができる。
この例では、校正用スペクトルの計測値からなる行列がAI技術(のうち教師あり学習)でいうところの教師データ、値が既知の濃度からなる行列がアノテーション(教師データに付与される注釈)、(3)における最小二乗法の演算が機械学習フェーズ、その結果得られる純成分スペクトルの近似解の行列が学習済みモデルに、それぞれ相当します。より大づかみに表現すれば、教師データを値が既知の要素Aと値が未知の要素Bに分解して統計的手法により未知の要素Bの近似解を求め、評価対象データも要素A(値が未知)と要素Bへの分解が可能という前提の下で、先に求めた要素Bの近似解を用いて要素Aの未知の値を求めるというフローです。
現代のAI技術は、この例のように単純なものではなくて多様な数学的方法を組み合わせて精緻に構成されたものと考えられますが、少なくとも教師あり学習の全体的なフローは、筆者のような門外漢からみると上記(1)~(4)と大差がないようにも思えます(識別と予測の区別等の議論はここでは省きました)。濃度分布の測定系がAIみたいなものだといわれるとやや意外な感じも受けますが、この種の技術はもともと応用範囲が広く、産業、社会、家庭の多くの分野にAI技術が進出してくるという流れはこれからますます加速していきそうです。
そうすると、知財(特に特許)の分野でも、AI技術が重要な位置を占めるようになると予想されます。いまのところ、AI技術に関連して争われた特許係争の事例はまだ多くありませんが、ほぼ1年前に東京地裁から判決が出た会計ソフトの事件は有名です。クラウド会計ソフトの新興企業2社が、勘定科目の自動割り当ての技術を巡って争った事件で、当時から報道や解説が多くなされています。中には「フィンテック特許訴訟」とタイトルをつけた記事までありましたが、勘定科目の自動割り当てまでフィンテックと呼んでしまってよいかは相当に考え物です。この事例はAI技術に深く立ち入ったものではありません(もちろんフィンテックとは無関係です)が、AI技術やビッグデータのような潮流が司法の場にも投影し始めた事例としては少々興味を引くので、やや旧聞ではありますが復習をかねて取り上げてみます(この項続く)。