Hadoop软件厂商Cloudera已经正式将Gazzang收入囊中,这家新兴企业专门为大数据环境提供加密软件方案。这是CLoudera公司自创建以来的第一次大规模收购活动(2013年买进机器学习新兴企业Myrrix的交易更像是一种‘购买/租用’协定),这也显示出随着越来越多客户将Hadoop部署方案大量引入生产环境以及此类技术成果的逐步成熟,安全已经成为不容忽视的核心问题。而且就在不到一个月之前,Cloudera的竞争对手Hortonworks公司才刚刚收购了安全新兴企业XA Secure。
Gazzang的技术方案包括一款用于对Hadoop环境内存储数据进行加密的产品,外加一套用于管理哪些用户有权访问密钥、令牌以及其它数据访问类协议的解决方案。“我们将对信息进行加密——大家都知道,也就是将数据拆分并打乱——并允许大家掌握对访问活动的控制权,”该公司市场推广及联盟事务主管David Tishgart解释道。
不过更有趣的是,Gazzang公司的技术成果还能够与其它多种次世代数据存储机制相对接,其中包括Cassandra(Apache与DataStax)、MongoDB、Couchbase、Amazon Elastic MapReduce以及Pivotal的Hadoop发行版。随着面向服务型架构逐渐成为主流,已经有越来越多的应用程序开始尝试访问同一套数据存储机制。Cloudera公司在此形势下继续坚持将自身定位为一家“企业数据枢纽”供应商,并预计其产品将成为此类环境的核心组件,Cloudera产品营销高级主管Clarke Patterson解释称。
“我们的安全方案应当是这样的……它拥有检测与内置机制以预防非法访问,”他表示。
Cloudera公司已经在其软件方案中融入了众多安全措施。举例来说,Kerberos能够管理哪些用户有权访问特定Hadoop集群,Cloudera方面将其打造成一系列开源技术成果并作为该公司Hadoop发行版的组成部分。Cloudera还亲自推动其它技术方案的普及,包括用于管理哪些用户(或者应用)有权访问保存在Hive以及Impala环境下的数据与元数据的Apache Sentry项目。
Gazzang技术方案还有助于改进芯片级别的加密机制,也就是Rhino项目。Rhino项目是Cloudera与英特尔进行紧密合作后努力打造出的重要成果。Gazzang公司总部位于德克萨斯州奥斯汀市,这里将逐步构建起一套名为Cloudera卓越安全中心的研究体系。
由于归属于Hadoop行业,因此如果无法首先解决这头开源“小飞象”提出的难题、任何收购都无法真正完成。Apache Hadoop目前是、未来也将一直保持开源项目的定位,尽管各大Hadoop厂商都提出了自己的知识产权发展战略,但他们仍需要以开源为核心保证新型技术成果能够切实与Hadoop并行协作。就以Hortonworks为例,这家Hadoop供应商表示计划对其通过收购XA Secure获得的代码进行全面开源。
作为后续发展的第一步,Gazzang产品将被整合到面向企业Data Hub客户的Cloudera Navigator套件当中,并分别提供给拥有Cloudera免费Hadoop软件许可的用户。不过Patterson同时指出,Cloudera将努力消除其技术方案给客户带来的锁定困扰,并考虑在将Gazzang产品纳入现有方案的同时充分照顾到这个问题。
Tishgart指出,全新安全研究团队要解决的第一个技术难题就是将高性能加密引擎添加到Gazzang一直以来坚持使用的Hadoop分布式文件系统当中,他预计相关技术成果将在今年年底完成开源改造。
目前关于这笔收购交易的具体信息尚不明确。根据Crunchbse的说法,Gazzang自2010年创立以来共筹集到总额960万美元的风险投资。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。