Hadoop软件厂商Cloudera已经正式将Gazzang收入囊中,这家新兴企业专门为大数据环境提供加密软件方案。这是CLoudera公司自创建以来的第一次大规模收购活动(2013年买进机器学习新兴企业Myrrix的交易更像是一种‘购买/租用’协定),这也显示出随着越来越多客户将Hadoop部署方案大量引入生产环境以及此类技术成果的逐步成熟,安全已经成为不容忽视的核心问题。而且就在不到一个月之前,Cloudera的竞争对手Hortonworks公司才刚刚收购了安全新兴企业XA Secure。
Gazzang的技术方案包括一款用于对Hadoop环境内存储数据进行加密的产品,外加一套用于管理哪些用户有权访问密钥、令牌以及其它数据访问类协议的解决方案。“我们将对信息进行加密——大家都知道,也就是将数据拆分并打乱——并允许大家掌握对访问活动的控制权,”该公司市场推广及联盟事务主管David Tishgart解释道。
不过更有趣的是,Gazzang公司的技术成果还能够与其它多种次世代数据存储机制相对接,其中包括Cassandra(Apache与DataStax)、MongoDB、Couchbase、Amazon Elastic MapReduce以及Pivotal的Hadoop发行版。随着面向服务型架构逐渐成为主流,已经有越来越多的应用程序开始尝试访问同一套数据存储机制。Cloudera公司在此形势下继续坚持将自身定位为一家“企业数据枢纽”供应商,并预计其产品将成为此类环境的核心组件,Cloudera产品营销高级主管Clarke Patterson解释称。
“我们的安全方案应当是这样的……它拥有检测与内置机制以预防非法访问,”他表示。
Cloudera公司已经在其软件方案中融入了众多安全措施。举例来说,Kerberos能够管理哪些用户有权访问特定Hadoop集群,Cloudera方面将其打造成一系列开源技术成果并作为该公司Hadoop发行版的组成部分。Cloudera还亲自推动其它技术方案的普及,包括用于管理哪些用户(或者应用)有权访问保存在Hive以及Impala环境下的数据与元数据的Apache Sentry项目。
Gazzang技术方案还有助于改进芯片级别的加密机制,也就是Rhino项目。Rhino项目是Cloudera与英特尔进行紧密合作后努力打造出的重要成果。Gazzang公司总部位于德克萨斯州奥斯汀市,这里将逐步构建起一套名为Cloudera卓越安全中心的研究体系。
由于归属于Hadoop行业,因此如果无法首先解决这头开源“小飞象”提出的难题、任何收购都无法真正完成。Apache Hadoop目前是、未来也将一直保持开源项目的定位,尽管各大Hadoop厂商都提出了自己的知识产权发展战略,但他们仍需要以开源为核心保证新型技术成果能够切实与Hadoop并行协作。就以Hortonworks为例,这家Hadoop供应商表示计划对其通过收购XA Secure获得的代码进行全面开源。
作为后续发展的第一步,Gazzang产品将被整合到面向企业Data Hub客户的Cloudera Navigator套件当中,并分别提供给拥有Cloudera免费Hadoop软件许可的用户。不过Patterson同时指出,Cloudera将努力消除其技术方案给客户带来的锁定困扰,并考虑在将Gazzang产品纳入现有方案的同时充分照顾到这个问题。
Tishgart指出,全新安全研究团队要解决的第一个技术难题就是将高性能加密引擎添加到Gazzang一直以来坚持使用的Hadoop分布式文件系统当中,他预计相关技术成果将在今年年底完成开源改造。
目前关于这笔收购交易的具体信息尚不明确。根据Crunchbse的说法,Gazzang自2010年创立以来共筹集到总额960万美元的风险投资。
好文章,需要你的鼓励
据报道,OpenAI正与亚马逊洽谈至少100亿美元的融资。亚马逊此前已是Anthropic的最大投资者,并为其建设了110亿美元的数据中心园区。若融资达成,OpenAI将采用AWS的Trainium系列AI芯片。Trainium3采用三纳米工艺,配备八核心和32MB SRAM内存。AWS可将数千台服务器连接成拥有百万芯片的集群。报道未透露具体估值,但OpenAI最近一次二次出售估值已达5000亿美元。
伊斯法罕大学研究团队通过分析Google Play商店21款AI教育应用的用户评论,发现作业辅导类应用获得超80%正面评价,而语言学习和管理系统类应用表现较差。用户赞赏AI工具的快速响应和个性化指导,但抱怨收费过高、准确性不稳定等问题。研究建议开发者关注自适应个性化,政策制定者建立相关规范,未来发展方向为混合AI-人类模型。
各行业企业存储的数据量持续攀升,5PB以上已成常态,10PB以上也日益普遍。2026年非结构化数据管理的主题是全面增长:更多数据、更多投资、更多痛点以及更多AI安全风险。AI应用加速普及、数字化信息激增以及富媒体和传感器数据大幅增加推动了数据增长。随着AI推理应用的发展,企业将意识到非结构化数据管理对AI投资回报率的关键作用。
这项由伊利诺伊大学香槟分校等四所院校联合完成的研究,提出了名为DaSH的层次化数据选择方法。该方法突破了传统数据选择只关注单个样本的局限,通过建模数据的天然层次结构,实现了更智能高效的数据集选择。在两个公开基准测试中,DaSH相比现有方法提升了高达26.2%的准确率,同时大幅减少了所需的探索步数。