上图拍摄于加利福尼亚州米尔皮塔斯Primary Data公司总部的一场小型新闻发布会现场。公司CEO Lance Smith对于他统领下的企业显然抱有极大热情,但我们的大牛Woz同志则显得有点心不在焉。
Steve Wozniak这位现年66岁的苹果公司联合创始人坐在Lance右边,目前担任Primary公司首席科学家。Primary公司的各位高管显然对此非常自豪,并坚信单凭这一点即足以帮助其在一众初创企业当中脱颖而出。
接下来,万众期待的Apple II设计师作出了自己的演讲。很明显,他再次遵循着自己的对话节奏,包括很高兴见到大家、感谢各位抽出时间造访、他加入了Primary Data公司、他仍然因自己的观点与企业思路相符而喜爱Fusion-IO公司等等。接下来,就是讨论如何让事物保持简单,剔除一切不必要因素以实现极简设计。基本上,就是这些内容。
明星发言环节就此结束,接下来Lance在会上说明了Primary Data公司的发展现状。其DataSphere产品能够通过减少存储资源过度配置帮助大型企业节约数百万美元。该产品位于企业应用程序、内部基础设施与公有云存储之间,负责提供元数据引擎驱动型数据替换、分层与保护服务。
DataSphere目前已经正式投放市场,且能够在内部系统与公有云之间执行机器学习任务并提供数据流动性。另外,其还拥有智能化对象分析与一项服务质量功能。
该项技术目前以纯软件DataSphere产品与DSX两种形式进行交付——后者属于一组扩展服务集合,旨在为用户提供数据门户、数据移动工具、数据存储以及云连接器解决方案。
最新的(并行)NFS v4.2亦是其中的一款重要组件,其原生客户端能够支持DataSphere。Primary Data公司表示自身自2013年以来一直属于NFS项目的领先贡献方。
Smith同时解释称,DataSphere也已经在一部分——虽然不是太多——财富五百企业当中得到使用,但这些企业因为能够借此获得竞争优势而尚不打算或者不愿就此作出说明。尽管存在这样的说法,但根据我们的以往经验,这种缺少客户参考案例的情况证明其相关营收仍然较为有限。
该公司已经推出了一款类似于DataSphere精简版的产品,命名为DataSphere for Lines of Business。这套解决方案主要面向小型或者远程办公环境,具体为节点数量在四个或者以下,其同时配备云端存储层以避免对内部设施资源的需求量快速增长。这里提到的“云”是指AWS S3对象存储,且可立足内部或者公有云之内实现。
这套方案能够对云端或者中央数据中心的对象存储进行自动化快照备份。Primary Data公司计划在未来的产品更新当中将此快照发送至另一NFS分卷当中。对于完整的DataSphere for Enterprise产品,客户需要获得许可方可完成升级。
DSX是一款纯软件方案,拥有开源客户端代码以及向外扩展能力。其提供非破坏性移动功能——即在文件由某一物理数据存储迁移至另一物理数据存储的过程中,继续提供正常的文件读取与写入能力。在此之后,客户端请求即会指向被迁移至新位置(布局)的一个或者多个文件。DataSphere现在能够将指向文件的访问请求跌幅至其数据移动器。
客户的客户端在访问文件时,需要依靠由DataSphere提供的数据访问路径。尽管数据是在后台进行移动,但DataSphere仍然会通过数据移动器提供指向原始存储数据的访问能力。而在移动完成之后,DSX数据移动器即退出当前数据路径,意味着访问路径即会变更为新的存储目标。
V2.0 DataSphere现在已经开始提供早期访问版本,其特性包括:
分析驱动型非活动数据移动
SMB与 Active Directory、Windows ACL、X0Domain映射
无中断控制与恢复——同化、快照归档与备份增强
扩展连接——VLAN、虚拟网络与IPv6
对象表达式
门户保护、元数据备份与恢复
DataSphere当中所提到的分析驱动型数据移动不仅限于POSIX元数据,且可利用并行DSX云连接器配合集成化可变块大小重复数据删除与压缩功能实现面向云(S3兼容)的文件细分自动数据移动。如果存在指向移动中数据的访问请求,则这部分请求会被自动引导至内部设施。
这里提到的同化特性意味着DataSphere能够捕捉现有NFS存储的元数据,且无需影响数据访问。NTFS属于同化则作为处理后操作实现。
快照则代表无中断元数据快照——即发生在现有存储之内的实际数据复制操作(如果必要)。用户可将快照当中的存储数据移动或者复制至云端,从而在不影响一级存储容量的前提下实现数据保护。
Primary Data 公司创始人兼 CTO David Flynn
对象表达式属于一条用于描述数据的元数据。从简单角度来讲,其中包含文件大小、所使用空间以及是否属于实时快照。不过Primary Data公司创始人兼CTO David Flynn表示,对象表达式的能力还远不止于此。
他讨论了可编程对象表达式及相关用例,包括为传入文件自动生成元数据标签,同时利用标签进行文件过滤,从而实现文件分组并与之进行交互。
举例来说来自特定来源的所有传入文件皆可被标记为与国家/地区相关之位置,且保证其不致超出国界。如此一来,用户即可借此自动识别满足某些特定标准的文件,并对其执行相关操作,从而节约存储管理时间与金钱,同时将大量手动操作所无法实现的文件过滤、分组与操作变为可能。
Primary Data公司目前正处于早期发展阶段,其客户正在认真评估其产品,而公司工程技术部门则利用反馈意见对方案进行打磨以更好地满足客户需求。
该公司最后一轮融资活动为2014年的B轮融资,总金额为1000万美元。时隔三年之后,其产品终于开始进入实践验证阶段。如果获得成功,预计该公司还将进一步进行资金筹集,从而保证自身拥有足够的财力进行市场营销基础设施建设以及工程技术研发。
在我们看来,该公司正在步入混合云数据管理领域,这意味着其将面临着Actifio、Catalogic、Cohesity、Komprise、NetApp、Rubrik等公司的竞争压力。我们好奇的是,一旦客户已经从其中一家供应商处购买了混合云数据管理产品,其是否还有可能转而采纳其它厂商的解决方案?
David Flynn认为答案是肯定的。也许他说得没错,但前提是该厂商对于未来确实有着明确的认知,而客户本身也很清楚自身用例更适合选择哪款方案以及各家数据管理供应商的产品到底存在着怎样的比较性差异。
好文章,需要你的鼓励
韩国科学技术院研究团队提出"分叉-合并解码"方法,无需额外训练即可改善音视频大语言模型的多模态理解能力。通过先独立处理音频和视频(分叉阶段),再融合结果(合并阶段),该方法有效缓解了模型过度依赖单一模态的问题,在AVQA、MUSIC-AVQA和AVHBench三个基准测试中均取得显著性能提升,特别是在需要平衡音视频理解的任务上表现突出。
这项研究利用大语言模型解决科学新颖性检测难题,南洋理工大学团队创新性地构建了闭合领域数据集并提出知识蒸馏框架,训练轻量级检索器捕捉想法层面相似性而非表面文本相似性。实验表明,该方法在市场营销和NLP领域显著优于现有技术,为加速科学创新提供了有力工具。
un?CLIP是一项创新研究,通过巧妙反转unCLIP生成模型来增强CLIP的视觉细节捕捉能力。中国科学院研究团队发现,虽然CLIP在全局图像理解方面表现出色,但在捕捉细节时存在不足。他们的方法利用unCLIP生成模型的视觉细节表示能力,同时保持与CLIP原始文本编码器的语义对齐。实验结果表明,un?CLIP在MMVP-VLM基准、开放词汇语义分割和视觉中心的多模态任务上显著优于原始CLIP和现有改进方法,为视觉-语言模型的发展提供了新思路。
这项研究介绍了RPEval,一个专为评估大语言模型角色扮演能力而设计的新基准。研究团队从法国里尔大学开发的这一工具专注于四个关键维度:情感理解、决策制定、道德对齐和角色一致性,通过单轮交互实现全自动评估。研究结果显示Gemini-1.5-Pro在总体表现上领先,而GPT-4o虽在决策方面表现出色,但在角色一致性上存在明显不足。这一基准为研究人员提供了一个可靠、可重复的方法来评估和改进大语言模型的角色扮演能力。