
Experience the first darkweb-trained AI, DarkBERT
DarkBERT는 무엇인가요?
DarkBERT는 S2W가 수집한 거대한 다크웹 데이터를 사용하여 학습된 언어 모델입니다. 다른 유사한 구조의 인코더 언어 모델들은 다크웹 언어의 극단적인 어휘와 구조적 다양성 때문에 해석에 어려움을 겪지만, DarkBERT는 다크웹 상에서 사용되는 언어를 정확하게 이해하기 위해 특별히 학습되었습니다. DarkBERT는 다크웹에서 수집된 텍스트의 마스크 언어 모델링(MLM)으로 RoBERTa 모델을 추가로 학습시켰습니다.
데이터 수집은 DarkBERT를 훈련하는 데 있어 근본적인 과제입니다. S2W는 탁월한 다크웹 데이터 수집 및 분석 능력을 보유하고 있으며, [Shedding New Light on the Language of the Dark Web] 및 [Doppelgängers on the DarkWeb]의 연구 등을 통해 학습에 적합한 대량의 다크웹 텍스트 데이터를 축적해 왔습니다. 중복, 혹은 정보의 밀도가 낮은 페이지를 삭제하여 데이터의 품질을 개선했습니다. 필터링 후에도 5.83 GB에 이르는 상당한 데이터 양을 보유하고 있습니다.
Blank
Blank
Blank
DarkBERT를 Google BARD, OpenAI ChatGPT와 비교해 보세요.
Blank
Blank
BLANK

어떻게 DarkBERT를 이용할 수 있나요?
1) 다크웹 페이지 분류: 다크웹은 다양한 유형의 사이버 범죄와 관련된 콘텐츠로 가득 찬 수많은 페이지의 본거지입니다. 내용에 따라 페이지를 자동으로 분류하는 기능은 시시각각 변하는 다크웹 인텔리전스에 매우 유용합니다. DarkBERT는 웹 페이지 내용을 포르노, 해킹 및 폭력과 같은 주제로 분류하는 다크웹 페이지 분류 작업의 목표에 있어서 최고의 성능을 자랑합니다. S2W의 페이지 분류 개요는 [Shedding New Light on the Language of the Dark Web]에 설명되어 있습니다.
Blank
2) 랜섬웨어 유출 사이트 탐지: 랜섬웨어를 운영하는 사이버 범죄자들은 종종 ‘유출 사이트’를 운영하여 협상을 거절하는 피해 기업의 기밀 데이터를 게시합니다. 활동적인 랜섬웨어 그룹의 정보를 수집하기 위해서는 이러한 웹사이트를 신속하게 찾는 것이 매우 중요합니다. DarkBERT는 유출 사이트 자동 탐지에 있어 최고의 성능을 보여줍니다.

3) 주목할 만한 스레드 탐지: 다크웹 포럼은 각종 불법 행위와 관련된 정보를 공유하고 판매하는 플랫폼 역할을 합니다. 포럼 모니터링은 모든 주제를 자유롭게 작성할 수 있는 유저가 많아 어렵습니다. 효과적인 모니터링을 위해서는 게시물을 필터링하여 주목할 만한 스레드(기밀정보 판매/공유, 악성 해킹 툴 등)를 찾아내는 것이 필수적이며, DarkBERT는 주목할 만한 포럼 스레드를 자동으로 탐지하는 최고의 성능을 보여줍니다.
Blank
4) 위협 키워드 추론: 일상에서 익숙한 단어들은 다크웹에서 완전히 다른 의미를 가질 수 있습니다. DarkBERT는 사이버 범죄자들이 사용하는 비속어와 명시적인 언어를 이해하도록 학습되어 다크웹의 맥락에서 단어 사용을 이해할 수 있게 합니다.
Blank
Blank
DarkBERT의 또 다른 데모 영상을 확인해 보세요.
Blank
Blank
Blank
세계 최초 다크웹 AI, DarkBERT를 만든 사람들.
Blank
DarkBERT를 만든 S2W AI팀의 인터뷰를 만나 보세요.
Blank
Blank