一年一度的Hadoop峰会迎来了第三轮聚首,此次举行地点选在圣何塞,成千上万参与者以及创纪录的赞助商以及参展商数量不仅给本届活动带来了良好的开局、也反映出当前业界对于Hadoop的重视程度。与会企业既有希望努力守住现有市场份额的技术巨擘,也有雄心勃勃打算大展宏图的新兴厂商。作为急需表现自己的后者,一众企业开始寻找一切机会在首日活动中推广自己的产品。而其中的典型代表、同时也是整个分析周期的起步环节,正是准备所要处理的数据。
大小厂商齐上阵,信息质量最关键
如今数据科学家们需要把80%以上的工作时间用在过滤错误、解决一致性冲突以及处理兼容性问题方面,Pentaho公司指出。这家专攻Hadoop商务智能业务的厂商给出坚定承诺,表示能够帮助客户利用新型工具包上述老大难问题、从而大大简化待分析数据的预先处理流程。
在这套名为Data Science Pack的产品中共包含三套实用工具集,它们的设计目的在于简化用户使用PentahoWeka开源数据挖掘项目以及R统计语言时需要处理的任务——这两者也是目前业界使用范围最广的分析技术。其中一款工具属于脚本执行引擎,能够将所有数据转换过程中产生的混乱细节剔除出去。该公司的另一款软件则属于评分引擎,能够利根据精确度对数据集进行打分。此外,另有一套自动化预测解决方案用于对即将输入的信息作出预测。
Pentaho公司表示,这套软件包不仅能够帮助用户更轻松地将信息塑造为易于分析的形式,同时也能消除由多数据源所引发的混乱与麻烦。值得一提的是,另一位挑战厂商Talent也将业务着眼点放在了这里,他们打造的同名平台刚刚迎来最新版本。新版本Talent能够将数GB大小的文档导入到Hadoop当中,并提供一套用于集成不同流的可视化环境——其响应时间在速度上比上代版本高出45%,该公司如是说。
消除中间人
尽管一部分供应商致力于帮助数据科学家进一步提高生产力,但也有不少企业希望消除技术方案对于特定类型人才的高度依赖。Actian公司明显属于后一种。他们将数十家厂商的产品进行了排名并据此开发出结构化查询功能,继而将其与专为自家旗舰分析平台打造的全新SQL功能指令一道纳入Hadoop当中——此举帮助该公司顺利成为今日峰会上的焦点角色。其价值主张相信大家也不会陌生:该公司声称,企业用户可以利用其软件直接访问保存在HDFS当中的数据,而不必再借助数据科学家之力。
Altoscale公司也已经开始为其Hadoop云用户提供类似的功能,其中包括对刚刚于今早发布的Apache Hive最新稳定版本的支持能力。这套开源数据仓库方案最初由Facebook公司开发完成,旨在帮助那些对MapReduce与复杂程度稍低但仍然难以应对的Pig平台不太熟悉的开发者找到可行性应对办法——直接利用常见的SQL语法取而代之。
希望能够访问并操作Hadoop当中的数据,同时又不必跟这套批处理框架先天具备的复杂性硬碰硬?没错,这一点对于希望能让自身应用程序实现快速运作的企业用户来说至关重要,然而使用结构化查询工具根本无法实现这个目标。由Sears集团所有的分析企业MetaScale公司表示,他们最近刚刚启动的“Ready-to-Go Reports”服务能够实现相同的执行效果,但却无需数据科学家的介入并帮助用户省下购置昂贵内部基础设施的费用。
好文章,需要你的鼓励
研究显示,英国中小企业虽占企业总数99.9%,但因资源与专业不足,难以有效应对网络攻击。CyCOS项目旨在通过构建支持社区,帮助中小企业提升网络防御能力。
这项研究提出了一种名为"词汇偏向水印"(LBW)的新方法,专为自回归图像生成模型设计,能够抵抗传统水印技术容易被删除的重生成攻击。研究团队将代币库分为绿色和红色列表,通过软硬两种偏向策略鼓励模型在生成过程中选择绿色列表中的代币,并采用多绿色列表策略增强安全性。实验表明,LBW在多种攻击下展现出卓越的稳健性,尤其是在面对重生成攻击时表现突出,为AI生成内容的可追溯性提供了更可靠的技术保障。
Wispr 的 Flow 是一款创新的 iOS 语音输入软件,借助 AI 技术能将语音无缝转换为精美文字,每周免费 2000 字,支持 100 多种语言,并能实现多设备同步。
南方科技大学林剑满团队开创性提出DGAD模型,解决通用物体组合中几何编辑与外观保持的双重挑战。该方法首先利用语义嵌入隐式捕捉物体几何特性,再通过密集交叉注意力机制精确对齐外观特征,成功实现物体在任意场景中的灵活编辑同时保持细节不变。实验表明,DGAD在编辑灵活性和外观保真度上均优于现有技术,为AR/VR内容创建等应用提供了强大工具。