データの重複排除によるコスト削減
昨年、eDiscovery Instituteが重複排除処理によるデータ削減に関する調査を実施し、18のベンダーによる回答を公開しました。今回は、この調査結果を元に、重複排除処理の効果と課題を比較します。
重複排除
重複排除(de-duplication)とは、同一のファイルを特定し、一つのコピーを残してそれ以外を排除する処理を指します。一般的に、同じハッシュ値を持つファイルを同一=重複とみなしますが、ほぼ同じ内容を持つファイル(例えば、あるWord文書とそれをPDF化したファイルや、内容がほとんど同じ複数のドラフト文書など)も広義に同一ファイルとしてみなすnear de-duplicationもあります。さらに、一人のカストディアンのデータ内のみで同一ファイルを探す場合と、同案件内の全てのデータから重複を見つけ出す場合の2種類があります。例えば、Aさんが2人にEメールを送信すると、このEメールには最低でも3つのコピーが存在することになりますが、この場合案件レベルでの重複排除処理でのみファイル数を1に削減することができます。
どちらの重複排除処理も保全・収集されたデータを削減し、レビュー文書の絶対量を抑えることでコストの低減を図ります。重複排除はこれ以外にも、レビュー後の提出文書作成の段階で行うこともありますが、ここでは調査の定義に沿ってレビュー前の重複排除のみを扱います。
調査結果
上記の表によると、カストディアンごとの重複排除では最大で40%、案件全体での処理は最大で60%を超えるデータ削減が可能なことが分かります。しかしこれほどの削減効果があると認識されている一方で、案件の7%では重複排除処理が全く行なわれておらず、案件全体の処理は2件に1件の割合で、カストディアンごとの処理も4割の案件でしか実施されていないことがわかります。
弁護士が案件レベルでの重複排除処理を選択しない理由
最大で6割ものデータを削減できる案件レベルの重複排除を行わない理由として、主に下記のような回答が挙げられています:
- カストディアンごとのデータ提出という相手側・法廷からの要件を満たす必要がある(特に政府機関からの要請に多い)
- カストディアンごとにファイルをレビューしたい、事実関係が把握しやすい
- 今後カストディアンの追加・削除が考えられる
- テクノロジーに精通していないため、必要なデータまで排除してしまうのではないかと不安になる
案件レベルでの重複排除を行う利点
逆に利点として挙げられているのが以下の点です:
- 一貫性:複数のコピーに対する関連性・秘匿性の判断にばらつきが出るのを防ぐ(特に複数のレビュー者の間で)
- 効率性:単一のコピーのみをレビューし、その他のコピーの保持者・場所を表などで管理することで、かえって事実関係が把握しやすい
- コスト削減
カストディアンごとのデータ提出
回避理由として特に目立ったのが、1のカストディアンごとのデータ提出が義務づけられているという回答でした。これに対し調査報告は、「カストディアンごとのデータ提出」の解釈自体に問題があるとし、複数の同一ファイルをカストディアンごとに文字通り全て提出するのではなく、ファイルを所有する全カストディア ンをデータベース・表などで示すことで十分であると述べています*。
また、案件レベルの重複排除はカストディアン順に処理されるため、オリジナルかコピーであるかを問わず、初めに処理されたカストディアンが保持するファイルが残されるという現象が起きますが、この問題もこうした表管理で対応できると考えられます。
報告書ではさらに、どうしてもカストディアンごとに全てのコピーを提出することが求められる場合は、一旦排除した重複コピーをレビューが終わった段階で元に戻すRe-duplicationで対応できるとしています。しかし、18社中15社がRe-duplicationサービス・機能を提供する一方で、複雑な作業のためミスが生じる可能性や効率の悪さという懸念も回答者からは示されています。
ケースごとの判断で
調査報告は一貫して案件レベルでの重複排除を推奨し、Eディスカバリーのケースを数多く扱ってきたJohn Facciolaを始めとする裁判官からの好意的な反応も紹介しています*。しかし、案件レベルでの重複排除は、より複雑で注意が必要な作業であることも否めません。ファイルの所在や各処理の記録を適切に行わなければ、事実関係を見失うリスクも高くなります。
カストディアンごとの重複排除は比較的シンプルである反面、データ削減量では案件レベルの処理には勝てません。データ量で課金されるレビュープラットフォームへのアップロードまでにデータを大幅に削減できる案件レベルの重複排除は、Eディスカバリーのコスト削減にはやはり大きなプラスです。
したがって、最終的には案件の内容・規模、対象データなど様々な要素を考慮して柔軟に対応することになります。大切なのは、コストと効率のバランスを取ることです。データ量の削減にこだわるばかりに、効率が悪くなっては元も子もありません。また調査回答にもあるように、両者のバランスを取るために独自の機能・折衷案を提供しているベンダーもあります。重複排除処理を理解し、こうしたオプションを十分に検討することで、上記回答4のような消極的な選択を避けることができるのではないでしょうか。そして、いずれの場合も処理の過程を適切に記録することが、 選択したオプションを最大限に活用すると同時に、そのプロセスの有効性を確立するために欠かせません。


