科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网存储频道云/数据中心美国国家安全局大数据工作解读

美国国家安全局大数据工作解读

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

NSA(即美国国家安全局)近来曝光的数据收集方案引发了热烈讨论,但还有不少底层技术尚未进入公众视野。下面我们一同来看看目前掌握的信息。

作者:编译 来源:ZDNet存储频道 2013年6月12日

关键字: 数据安全 大数据

  • 评论
  • 分享微博
  • 分享邮件

NSA数据收集方案令不少美国人——尤其是技术从业者——感到紧张,但对于熟悉该机构技术的专家们却表示情况并不像看上去那么糟糕。没错,安全局方面确实拥有大量数据并有能力进行深入分析,但正如拥挤者们所说,机构使用数据的方式及访问者身份都受到严格控制。目前大家对于控制机制的实际效果仍然存疑,但我们希望能就自己的了解向大家讲述数据背后的技术故事。

Accumulo是什么?

美国安全局工作的绝对核心、一切数据分析机制的运作依托在于Accumulo。这是一套由安全局方面创建的开源数据库,旨在保存比分析大规模数据。Adam Fuchs对于Accumulo非常了解,这是因为他曾在九年级时参与过该项目的开发工作;目前他在一家名为Sqrrl的企业担任联合创始人兼CTO,这是一家销售数据库系统商业版本的公司。本周早些时候我与他取得了联系,当时Verizon与美国其它几大网络公司还没有曝出安全局收集数据的消息。

美国安全局最初是在2007年末开始打造Accumulo,这是因为他们希望通过自动分析机制追踪并发现新的恐怖活动嫌疑人,Fuchs解释道。“我们需要开发一系列应用程序,并为其寻找合适的基础设施。”

问题在于相关技术根本无从获取。他本打算能从HBase这类利用Hadoop技术的项目模仿谷歌著名的BigTable数据库存储体系,但其在扩展性、可靠性以及安全性方面都达不到安全局方面的要求。因此,他们开始着手创建名为CloudBase的项目,并最终将其定名为Accumulo。

如今根据Fuchs的说法,它在美国安全局的数据中心内“拥有数以千计的节点规模”。整套体系拥有多个实例,其中每一个都保存着数十PB(1PB等于1000TB或者100万GB)数据,并作为该机构全面分析功能的后端。Accumulo能够处理多种数据格式(在数据库领域,这种特性被称为‘无模式’机制),这意味着美国国家安全局能够将来自不同来源的数据存储在数据库中并在几天甚至几小时内为其添加新的分析功能。

“这种能力非常重要,”他补充道。

美国国家安全局能对这些数据做什么?又不能做什么?

正如我在上周四所做出的说明,Accumulo尤其擅长分析万亿规模级别的数据,并以此建立大量直观图形、帮助工作人员理解数据之间的关联强度。Fuchs没有提到安全局数据图形的大小,但他表示该数据库在设计之初是为了处理数月乃至数年所积累下来的有价值信息,并允许分析人士快速实现大量查询请求。在通话记录分析领域,我们能很容易地看到这类分析机制的强大能力——它可以确定恐怖活动嫌疑人的网络延伸范围以及所涉及的交流对象,这一点非常关键。

国家安全局前任首席法律顾问(小布什任期)Stewart Baker本周四在他的博客中指出,这类数据也可被用于一般识别模式——这正是针对性广告商们最喜欢的把戏。但与根据对象搜索与操作系统类型提供广告的商家不同,Baker表示安全机构的关注侧重完全不同。例如“某位美国人在萨那时间上午十一点给也门打电话,并于几秒钟后挂断;接着又在三个小时后再次呼叫也门的其它号码”,这样的情况显然比较可疑。

此类情况很可能是大规模违法活动的前兆,政府方面需要决定是否应该对这能电话展开进一步调查、探询通话双方有无从事恐怖活动的可能性;但大数据分析的难点在于误报。Baker的假设看起来似乎煞有介事,但数据科学家Joseph Turian解释称,电话记录本身一般不足以说明问题,且往往会令无辜用户表现得像是穷凶极恶的暴力罪犯。“不过一旦决定将这种可疑情况与其它信息加以比照,我们就需要收集更多情报,”他在电子邮件中表示,“并进一步开展预测工作。”

这时就要轮到PRISM出场了,国家安全局利用它从谷歌、Facebook以及苹果等产品平台上直接收集到的数据即将发挥作用。只要能够将姓名、网络账户与电话号码匹配起来,我们就能发现更多有用的信息。如果我们能够切实证明某些对象真的属于激进派伊斯兰主义者,那么他的社交圈子就能够说明一些问题。

如果Sqrrl公司提供的产品能够作为Accumulo信息分析的指示工具,那么国家安全局就能以更简单的方式实现大量数据使用需求。除了图形处理之后,Sqrrl公司联合创始人兼业务开发副总裁Ely Kahn还为我们介绍了产品的其它功能,包括根据SQL查询及全文搜索进行预先批量分析功能且支持流媒体数据。这意味着Sqrrl公司的版本能够支持大量有趣的用例——在数据抵达系统时加以处理,并通过与庞大索引机制的比照掌握对方搜索网络内容的方式。

国家安全局到底收集了多少数据?由资金决定

我们目前还不清楚本周曝光的两套方案到底收集到多少数据,但有证据表明并不太多——至少从总量角度看不多。由于PRISM方案能够从包括谷歌、Facebook、微软、苹果、雅虎以及美国在线等门户网站处收集信息,看起来国家安全局似乎采取了某种有针对性的筛选机制。

根据《华盛顿邮报》的报道,PRISM项目每年拥有2000万美元项目拨款;如果说这笔钱已经包含了方案运作所涉及到的所有开销,那么PRISM根本无法保存来自这些大型门户网站的所有原始数据——更不用说还要打理由分析工具产生的新数据集了。据我们得到的消息,单是雅虎一家每年就要花1亿美元来运营其约由42000个节点构成的Hadoop环境,其数据总量达到几百PB——这还是几年前的统计结果。而Facebook用户每天所产生的新数据量就能达到500TB。

即使是利用成本最低的规模化存储方案——也就是由云存储供应商Backblaze公司带来的开源存储设计——Facebook每天存储500TB数据单单是在硬件使用支出上一年就要花掉1000万美元。如果使用的是高性能硬盘驱动器或者其它先进设备——Backblaze并不提供这些方案,他们主要关注使用成本与扩展性而非性能——那么开销无疑将更高。

就算是从Backblaze的角度出发,国家安全局的这笔预算也不足以填上PRISM这个巨坑。电子邮件、聊天记录、Skype通话、照片、视频以及其它类型数据的存储成本能够轻松把2000万美元吞噬一空。

其实,安全局方面所采用的设计很可能借鉴了Backblaze的思路。早在2011年9月,Backblaze公司CEO Gleb Budman就表示他曾与美国中央情报局的代表会面、共同讨论该机构的五年规划——即“将数据服务整合为大型私有云体系”并考虑如何让Backblaze的技术融入其中。双方的此次磋商似乎反映了国家安全局的思路。

不过无论国家安全局实际使用的是哪一种设备、也不管他们在Verizon数据或者PRISM身上花了多少资金,我们能够确定的是该机构在基础设施方面可没少花钱。除了Accumulo中那高达数十(至少)PB规模的存储节点,该机构还在犹他州高调建立起占地面积100万平方英尺、总价15亿美元的数据中心。另外,安全局最近还开始着手在马里兰州兴建另一套面积达60万平方英尺、总价8.6亿美元的基础设施。

政策已经到位

作为曾在白宫国家安全参谋部担任网络安全战略主管的内部人士,Sqrrl公司的Kahn解释称尽管在数据收集与分析方面做出大量努力,但国家安全局仍然非常关注隐私问题。他们制定了严格的管理与法律限制政策、约定哪些情况下机构才有资格搜索收集到的数据,而且Accumulo本身在设计时就考虑到了隐私需求。

这套系统本身的设计初衷就是确保数据不会自由向任何使用者开放,另一位熟悉Accumulo的消息人士透露。

这套系统还采用了被Kahn及Sqrrl公司CTO Fuchs称为“单元级”控制的管理方案,这意味着管理员们只能在表格中对单独数据片段进行访问。此外,Fuchs解释称政策已经成为整个分析流程的一部分,因此不具备权限的人士根本无法查看敏感信息——这些信息都处于不同的数据集当中。他同时告诉我们,当数据由中央情报局被移交至国家安全局时,仍然有政策在严格控制查看人身份——Accumulo也起到辅助的监督作用。

即使是在美国国土安全部的使用或者Accumulo的实验过程中,政策也仍然生效,Kahn补充称。这是因为在网络安全数据由政府机关在民间机构之间转移时,相关法律条款将起到制约作用。

具有讽刺意味的是,他坦言Accumulo的创建以严格的安全性与隐私法规为依据,反而较少考虑信息共享需求。这对于关注公民自由与公民诉求的活动人士可能是一场表面上的胜利,但随着时间的推移、数据收集与共享之势必然愈演愈烈,而且这种趋势无法逆转。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章