世界初、ダークウェブ環境で学習を積んだAI「DarkBERT」を体験しましょう!

DarkBERTとは?

DarkBERTは、S2Wが保有する膨大なダークウェブデータを利用して学習させた言語モデルです。他の類似のエンコーダ言語モデルがダークウェブ言語の極端な語彙と構造の多様性に苦戦する中、DarkBERTはダークウェブの違法なコンテンツを理解するために特別に訓練されました。DarkBERTはさらに、ダークウェブから収集したテキストをマスクした言語モデリング(MLM)でRoBERTaモデルを訓練しています。

DarkBERTの学習において、コーパスの収集は基本的な課題です。S2Wは、DarkWeb上のドッペルゲンガーやDarkWebデータの収集・分析能力で有名であり、訓練に適した大規模なDark Webテキストコーパスを蓄積しています。冗長、重複、情報密度の低いページを削除することで、コーパスの質を高めました。フィルタリング後でも5.83GBという比較的コンパクトな容量のコーパスができました。

Blank

Blank

Blank

DarkBERTをGoogle BARDやOpenAI ChatGPTと比較してみましょう。

Blank

Blank

BLANK

DarkBERTの使い方?

1) ダークウェブページの分類:ダークウェブには、さまざまな種類のサイバー犯罪に特化した露骨なコンテンツが満載のページが多数存在します。コンテンツに基づいてページを自動的に分類することは、ダークウェブの情報をタイムリーに入手する上で非常に重要です。DarkBERTは、ウェブページの内容をポルノ、ハッキング、暴力などのトピックに分類することを目的としたダークウェブページ分類タスクにおいて、最先端の性能を発揮します。弊社のページ分類スキーマについては、「Shedding New Light on Language of Dark Web」で紹介しております。

Blank

2) ランサムウェアのリークサイト検出:ランサムウェアを運用するサイバー犯罪者は、非協力的な被害企業の機密データを公開する「リークサイト」を運営することがよくあります。これらのウェブサイトを素早く見つけることは、知名度の高いランサムウェアグループの情報を収集する上で非常に重要です。DarkBERTは、漏洩箇所の自動検出で最先端の性能を発揮しました。

3) 注目のスレッド検出:アングラ掲示板は、様々な違法行為に関連する情報を共有・販売するプラットフォームとして機能しています。フォーラムを監視することは、あらゆるトピックでも投稿できる無数のユーザーがいるため、大変難しいことです。機密情報や悪意のあるハッキングツールの販売・共有など、注目すべきスレッドを見つけるための投稿のフィルタリングは、効果的な監視に不可欠です。DarkBERTは、注目すべき掲示板のスレッドを自動的に検出することで、最先端の性能を発揮しております。

Blank

4) 脅威キーワードの推理・推論:見慣れた言葉でも、ダークウェブでは全く違う意味を持つ場合があります。DarkBERTは、サイバー犯罪者が使うスラングや露骨な言葉を理解するように訓練されており、ダークウェブの文脈における言葉の使い方を理解することができます。

Blank

Blank

BARDとChatGPTを使用したDarkBERTのデモのもうひとつの例です。

Blank

Blank