多孤岛大数据访问加速初创公司Alluxio去年与华为达成合作关系,最近又与Dell EMC就ECS产品签订了类似的协议。
Alluxio解决的问题是,很多单独的存储机制是针对需要被多个分析型应用访问的大规模非结构化数据。每种应用(Hadoop、Spark、Storm、samza等)需要自己安排访问每个数据源(AWS S3、HDFS、Ceph、Isilon、Gluster等)。
Alluxio提供了一个中央软件层,能够通过他们选择的接口让上述任何一种应用访问任何一种数据源。这样能够不费力地做到像NVMe驱动器为PCI协议闪存数据存储所做的那样,为上层系统软件提供标准接口。
除了提供统一访问的Alluxio之外,开源代码提供了内存缓存来加速数据访问,包括读和写。
Alluxio graphic
Dell EMC与Alluxio的合作涉及到Alluxio企业版(AEE)和Dell EMC的Elastic Cloud Storage(ECS)对象存储服务器用于大数据工作负载。ECS曾经的代号是Nile。Dell EMC和Alluxio宣称,他们给"客户提供了DAS存储的替代选择,提供ECS的优点同时还有Alluxio AEE软件的性能改进"。
Alluxio首席执行官李浩源表示,Alluxio能够让ECS用作网关或者存储组件:"Alluxio为Dell EMC ECS客户提供了能够使用任何计算框架在本地或者云中以内存速度访问单独存储系统的灵活性。"
对于潜在客户来说,将Dell EMC与Alluxio这个组合与Dell EMC的DSSD D5相对比是有道理的,后者也提供了对大数据的高速访问。两者之间在速度和成本上的对比是很有意思的。
对于Alluxio来说,就在几个月前刚刚与华为签约之后又和Dell EMC签约,这是个好消息,其他存储提供商可能也会接踵而至,比如HDS、HPE和NetApp。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。