大语言模型能让暗网中的数据“改邪归正”吗?

发布时间 - 2023-06-16 15:11:48    点击率:730次

在理想的世界中,我们希望各种先进的技术能够在“阳光”下被使用,然而,现实世界从来不是乌托邦。

众所周知,“暗网”一直都是各种非法网络活动的庇护所,甚至是滋生罪恶的温床,以窝藏非法匿名网站和支持非法活动(例如交易被盗数据、毒品和武器)而臭名昭著。但是,暗网中也存在大量的商业数据和个人信息,而其中的很多数据是在公开网络中难以获取到的。试想一下,如果用暗网中的数据训练AI,将会发生什么?

近日,韩国科学技术院 (KAIST) 的一个研究团队发布了一款可应用于网络安全领域的大语言模型工具——DarkBERT,这是一个专门从暗网获取数据进行训练的LLM。DarkBERT并非出于恶意目的而创建,研究人员的目标是创造一种超越现有安全方案的智能化暗网威胁监控工具,帮助威胁研究人员、执法机构和网络安全分析师打击网络威胁。

据了解,此次发布的DarkBERT工具,是一个基于RoBERTa架构的transformer-based编码器模型。该模型目前已经接受了数百万个暗网网页的训练,全面包括了来自地下黑客论坛、诈骗网站和其他非法网站的数据。为了训练DarkBERT,研究人员会通过Tor网络进入暗网并收集原始数据,然后创建一个可以不断完善的暗网数据资料库,并在两周内将更新后的数据提供给RoBERTa。

该研究团队表示,即使是从最不寻常的来源所收集的数据,也可以训练出有用的人工智能模型。尽管一些人可能会担心暗网数据会带有天然的“邪恶”属性,并可能对DarkBERT造成不好的影响,但我们认为,在AI技术迅速发展的今天,需要更加关注如何让这些数据能够在受控和透明的环境下运行,并确保他们产生对社会有利的价值。

为了评估DarkBERT的有效性,研究人员将其与两个著名的NLP工具BERT和RoBERTa进行了比较,并从以下三个关键网络安全场景评估DarkBERT的实际可用性:

  1. 监控暗网论坛潜在的有害线程
    监控暗网论坛(通常用于交换非法信息)对于识别潜在的危险线程至关重要。由于人工检查非常耗时,因此自动化过程对安全专家来说不可或缺。评估结果显示,DarkBERT在准确率、召回率和漏报率方面的表现均不同程度优于其他两种工具。
  2. 检测包含机密信息的暗网站点
    黑客和勒索软件组织会利用暗网创建泄密网站,供各种网络犯罪分子将窃取的敏感数据(如密码和财务信息)上传到暗网,并以此进行牟利。在研究中,研究人员收集了臭名昭著的勒索软件组织的数据,并分析了发布组织私人数据的勒索软件泄漏站点。结果显示,DarkBERT在识别和分类此类网站方面优于其他两种工具,原因在于它对暗网论坛中所使用的语言有更好的理解。
  3. 识别暗网威胁关键字
    DarkBERT可以利用BERT家族语言模型的固有特征进行暗语转化,从而准确识别与非法活动相关的关键字,例如暗网上的毒品销售。评估结果显示,当“MDMA”这个词被隐藏在药品销售页面上时,DarkBERT生成了与毒品相关的单词,而其他工具则显示了与毒品无关的一般单词和术语,比如各种职业。

以上评估结果表明,DarkBERT模型对网络罪犯的语言有着非凡的理解能力,并善于发现特定的潜在威胁。它可以帮助安全人员更好地研究暗网,并成功识别和标记数据泄露及勒索软件等网络安全威胁,成为打击网络安全犯罪活动的有力工具。

DarkBERT目前还并不向公众开放,只接受部分将其用于学术研究目的的应用请求。因为像其他LLM模型一样,DarkBERT还是一个尚在发展中的模型,有许多地方还需要通过不断的训练和调整去优化。创新模型的出现将会提高现有网络安全防护体系的能力和性能,但同时,也必须要关注其可能带来的新挑战和问题,例如数据隐私、自主决策等方面的问题,需要得到充分的重视和解决。

参考链接:

https://www.makeuseof.com/what-is-darkbert-ai/

来源:安全牛

最新文章 第十二版《网络安全企业100强》发布 开源推荐算法为什么并不“可靠”? 虹膜写真风靡年轻人:小心泄露敏感个人信息 国内最大IT社区CSDN被挂马,CDN可能是罪魁祸首? Apache Struts文件上传漏洞 (CVE-2024-53677) 安全风险通告 工信部:关于防范新型勒索病毒Ymir的风险提示 美国报告揭示俄罗斯战略信息攻击:从攻击方法到战略效果 最危险的网络攻击:云勒索软件 个人信息保护合规审计:个人信息删除落地与审计 Forrester:Akamai创新微分段技术引领企业安全升级,实现 152%高ROI Fortinet发布《2025年网络威胁趋势预测报告》 揭秘四大威胁挑战 榜上有名!360入选2024年天津市网络安全应用场景优秀案例 只需一个暗号,即可戳穿语音克隆骗局 写在IDCC2024数字基础设施国际合作大会之前 IETF的运行方式及RFC的形成 《AI时代深度伪造和合成媒体的安全威胁与对策(2024版)》报告发布 UnitedHealth勒索软件攻击事件应吸取的六个备份教训 网络安全产品奥斯卡 2024年度赛可达优秀产品奖(SKD AWARDS) “危“”机“并存,五位网络安全大咖预警2025年安全态势 赋能智算未来,CDCE2024国际数据中心展12月5日上海璀璨开幕 俄罗斯黑客组织渗透和利用巴基斯坦黑客组织服务器案揭秘 国家安全部:警惕开源信息成为泄密源头 “清朗·网络平台算法典型问题治理”专项行动中的排名算法 游戏玩家请注意!Winos4.0木马已“潜伏” 2024 DAMS中国数据智能管理峰会即将在上海举办 WAF气数已尽? 网安巨头Palo Alto全球数千防火墙被攻陷:因开发低级错误造成零日漏洞 数字城市AI安全运营中心签约揭牌,360赋能长三角城市安全新篇章 勒索软件忙招人,2024年网络威胁五大新趋势 360发布全球首份《大模型安全漏洞报告》,曝光近40个大模型相关安全漏洞 值得关注的十二大网络安全风险评估工具及选型指南 俄黑客通过“近邻攻击”远程入侵美国企业WiFi网络 四校签约、六家授牌!360与河南高校再摘网络安全人才培育新果实 Apple多个在野高危漏洞在野利用通告 苹果官方警告:零日漏洞攻击瞄准Mac电脑用户 《密码法》颁布五周年:法治成效、实施难点与未来走向 27天!揭秘身份管理中凭证修复为何如此艰难? 微软“清理门户”,禁止杀毒软件访问Windows内核 云原生环境下的七大网络安全威胁及应对建议 ​透析恶意软件“四大家族”
在线客服
联系方式

热线电话

18556842815

上班时间

周一到周五

公司电话

027-85365976

二维码
线