エンロンメールから「なりすまし」に関する証拠を独自開発のAIが発見 

提供:@Press

デジタルフォレンジックサービスを提供する株式会社デジタル鑑識研究所(千葉県松戸市、代表取締役:中村 健児、以下「当社」)は、エンロンコーパス(エンロンメールデータセット、約51万件)から、エンロンの社内コミュニケーションツールにおいて上級幹部になりすまし可能であることを示す証拠を発見しました。
この発見は、20年以上にわたり世界で広く利用されてきたデータセットであるエンロンコーパスの真正性の前提に深刻な疑念を生じさせるものです。
長年見逃されてきたこの事実が発見されたのは、当社が開発した初動特化型アソシエイトAI「JORI」の「構造に着目する」という特性によるものです。

画像1
メインイメージ

【エンロンコーパスから発見した証拠と、それが与える影響】
■発見された「なりすまし」の事実
JORIは、2000年7月13日付の重要な電子メールのやり取りを特定しました。
(※1 詳細レポート https://zenodo.org/records/19425640 )

<メールの内容を一部抜粋 ※日本語訳は当社による>
件名 Re: Performance Review Process.
I recently learned that someone can `hack' into the emeet site and pretend to be Jeff Skilling.
— Michelle Cash, July 13, 2000.

件名:業績評価プロセスについて
最近、誰かがemeetサイトに「ハッキング」して、ジェフ・スキリングになりすますことができると知りました。
— ミシェル・キャッシュ、2000年7月13日

このメールは、eMeetという社内ツールにおいて、CEOであるジェフ・スキリング氏へのなりすましが技術的に可能であるとの情報を共有したものです。
このやり取りには、ミシェル・キャッシュ(上級顧問)を含むエンロン社の法務および技術スタッフが関与しています。
内部通信からは、深刻なセキュリティ侵害と、システム脆弱性に対する経営陣の認識が明らかになりました。

■この事実が示唆すること
デジタルフォレンジックと捜査実務の観点から、この一連のやり取りは、次の3つの可能性を指摘することができます。

(1)ラテラルムーブメントの可能性
情報セキュリティの実務では、一つのシステムに認証バイパスや脆弱性が確認された場合、同一ネットワーク内の他システムへの横移動(ラテラルムーブメント)の可能性を当然に検討します。
その検討が行われていないとすれば、eMeetでの脆弱性がメールサーバーを含む他のシステムに波及していたリスクを、完全に排除することができません。

(2)全体統制の脆弱性
より深刻な問題は、組織全体のIT統制レベルにあります。
脆弱性が認識されたにもかかわらず、ミシェル・キャッシュ氏が41日後に「I haven't heard anything in a while」(しばらく何も聞いていない)とフォローアップメールを送信しています。この事実は、以下のいずれかの状況を示唆します。
〇指摘された脆弱性に対する本格的な調査・改修がほとんど行われなかった。
〇調査・対応がメール以外のチャネルに移され、メール上では痕跡が残りにくくなった。

(3)意思決定プロセスの汚染
最も重大な可能性は、CEOレベルの意思決定プロセスへの影響です。
eMeet上でスキリング氏(およびChairman Office)へのなりすましが可能であった事実が社内で認識されていた環境下では、「誰が何を指示または了承したか」という発言主体の同一性が不安定になります。

■このメールが与える多方面への影響
エンロンコーパスは20年以上にわたり、「実世界における企業コミュニケーションの黄金標準」として、自然言語処理、機械学習、eDiscoveryおよび大規模言語モデルの学習データに広く利用されてきました。

(1)自然言語処理および機械学習分野
なりすましの可能性が否定できないエンロンコーパスを学習してきたモデルは、潜在的に汚染された(または真正性が担保されていない)パターンを学習していた可能性が生じます。

(2)eDiscoveryおよびリーガルテック分野
エンロンコーパスは、技術支援レビュー(Technology Assisted Review / TAR)の評価基準として活用されています。もしコーパス自体に認証上の脆弱性に起因する影響が含まれていた場合、評価基準そのものが真正性を十分に担保していないデータに基づいていた可能性が生じます。これは、リーガルテックツールの信頼性評価にとって、根本的な問題提起となります。

(3)大規模言語モデル(LLM)への影響
エンロンコーパスは大規模言語モデルの事前学習データの一部としても利用されていると考えられます。特に「ビジネスメールらしい自然な表現」や「企業内コミュニケーションのスタイル」を学習する際に影響を与えている可能性があります。

(4)観測装置の較正問題
これらは科学哲学でいう「観測装置の較正(calibration)」の問題に相当します。エンロンコーパスは、長年「実世界の企業メールの信頼できるサンプル」として扱われてきました。しかし、装置(データセット)自体に合理的な疑義が生じた時点で、それまで得られたすべての観測結果(研究知見)は、再検証の対象とならざるを得ません。

なお、この発見はエンロンコーパスの配布ページに掲載されました。
https://www.cs.cmu.edu/~enron/

【なぜJORIはメールを発見できたのか】
■「事件の文脈」を読み取るTAR
従来の技術支援レビューシステム(TAR)は、事前学習として与えられた対象となる事案の文脈に基づいて、該当する文書を抽出します。
事件とは無関係のメールは除外されるため、これまで発見できなかったものと考えられます。

■「構造」のみに着目するJORI
一方JORIは事前学習を必要としません。
人が不正を行う際に外部に表出される言動やコミュニケーションの構造パターンを「構造タグ」としてJORIに与えます。
JORIは事件の文脈ではなく構造そのものに着目するため、「権限を越えた情報へのアクセス」という不正の構造パターンに合致した、当該メールを発見するに至りました。

【「JORI」とは何か -初動特化型アソシエイトAI-】
■設計思想:グレーカラーAI
JORIは、ラボ生まれではありません。警察官として捜査実務の現場で泥水をすすりながら法と証拠の世界で生きてきた当社代表の中村が、裁判で証拠が崩されない「証拠耐性」だけを考えて設計した、現場叩き上げの「グレーカラーAI」です。JORIは、すべての実装が「証拠としてどれだけ耐えられるか」を前提に設計されています。

■AIに供述させない
従来のリーガルAIが「証拠を探す」(=AIが結論を出す)、つまりAIを判断の主体にしようとしているのに対し、JORIは「アソシエイトモデル」を採用しています。
AIが結論を出すのではなく、AIが提示した判断材料(理由)によって弁護士などの人間が最終的に判断をし、起案を行います。これによって人間に責任を帰属させるとともに、AIを供述人として法廷に出すことを回避します。

■JORIのコア技術
(1)ゼロショット(教師なし)
JORIは、検索キーワードや事件の文脈といった教師を必要とせず(ゼロショット)、いきなりデータを投入して処理を実行することができ、初動の立ち上がりが驚異的に速くなります。

(2)構成要件的アプローチ
JORIは、キーワードや文脈といった「意味」に依存しません。人間が不正行為をはたらくとき、外部に表出される言動を抽象的に定義した「構造タグ」を判断の基準として用います。構造タグは、犯罪構成要件、つまり刑法の条文のような形で定義されます。

(3)批判的偏向制御(Critical Biasing Control / CBC、特許出願中)
AIは「人間の役に立とう」とします。これが過剰に発揮されることを「Helpful bias」といい、リーガルテックの場面では、無関係のメールまで「関連あり」として拾い上げる「擬陽性」を大量に生み出す原因となっています。
JORIはこの特性を逆転させました。
「関連がないことを証明せよ」と命じることで、AIに対して、事件に関連のないメールを排除する方向へ人為的に強力なバイアスをかけます。

(4)対審型協調スクリーニング(Adversarial Screening Protocol / ASP)
JORIは、AI製品ですが単一のモデルに依存しません。3つのAIモデルによる対審型協調スクリーニング(ASP)を行います。
2つのモデルが独立して全文書を走査し、「シロと証明できない」と判断した文書にフラグを立てます。その上で第3のモデル「Arbiter」が、2つのモデルの判断理由を独立して審査します。Arbiterは多数決や追認者ではありません。2つのモデルがフラグを立てた文書でも、理由が妥当でなければ「シロ」に倒します。逆に1つのモデルしかフラグを立てていなくても、理由が正当であれば採用します。これにより、モデル固有の癖を相互に補完し合い、極限まで擬陽性を抑えることに成功しました。

■初動特化型である理由
・大規模なデータを数日で処理
・組織内の役回りが把握できることで弱点が可視化される
・ゼロショットであるが故に「誰が見ても構造的に逸脱しているメール」だけが提示される(いわゆる「スモーキング・ガン」にもっとも近い)
・初動ではノイズでしかない、「事件の文脈を理解したあとでなければ重要性が判断できないメール」は、あえて提示しない
・組織で使われている隠語や符牒を抽出できる

■実証結果
公開データ(エンロン社Eメールデータセット:約51万件、重複を整理すると約23万件)を用いた検証では、
・全件解析を24時間以内に完了
・レビュー対象を約5%(約23万件から約11,000件)に圧縮
・エンロン事件で使われていた隠語や符牒を多数特定
という結果が得られました。
従来は数週間から数か月を要していた証拠探索プロセスを、翌日には終えることができます。

■想定利用シーン
・国際訴訟・仲裁における初動リスク把握
・内部不正調査における迅速な構造分析
・機密性の高いデータの処理

■今後の展開
今後は国内における実証を進めた上で、米国を中心としたeDiscovery市場への展開を視野に入れています。

詳細はこちら

プレスリリース提供元:@Press

※この記事は、プレスリリース配信サービス「@Press」より提供を受けて掲載しています。 記事の内容や関連画像、および発表されたサービス・商品に関するお問い合わせは、発表元である企業・団体様へ直接ご連絡ください。 なお、掲載情報は発表当時のものとなりますので最新の情報とは異なる場合がありますのでご了承ください。

Advertisement
URLをコピーしました!