云在过去十年中的兴起和成功是毋庸置疑的。当下的IT出版物无一不会提到云技术带来的增长、创新和新兴的用户案例。对大多数人来说,“云”一词与亚马逊网络服务、微软Azure和谷歌同义。这也能被理解,因为它们是目前为止最受认可和最成功的超大规模的公共云提供商。然而,这三位行业领导者并非注定会完全占据市场。这不仅给云托管服务提供商(MSCP)留有一席之地,且很多因素也显示了它的必要性,而且它往往是绝大多数IT市场的更佳选择。
公有云基建需要特定的专业知识
许多企业组织通常在开始时会错误认为他们可以简单地获取本地基础设施并将其转移到超大规模的公有云上。虽然通常会被这样承诺,而且一般基础设施是相似的,而事实是许多基本元素如控制面板、网络和安全的差异足以导致挑战很快就会出现。选择云托管服务提供商(MSCP)有以下两方面的帮助:托管的服务环境可以很好的反映本地环境,或托管服务可以有效的代理公共云并采用必要的云技术整合两个不同环境。在一个生态系统中,时间是一个重要的竞争因素,它的价值不能被低估。事实上,在促进和管理转型及混合环境的同时,MSCP社区很可能发展成为超大规模公共云的一线代理。
云经济需得到有效管理
“云不是慈善机构,”这是我最喜欢的一句话。云带来收益的能力是基于利润分层的能力。虽然公有云对于具有高度可变性的弹性工作负载非常有效, 可以将工作负载放置在远程位置或利用预先配置的服务,但对于可预测的基础设施需求的静态工作,它的成本效率可能会显著降低。鉴于各种公有云都在争夺市场主导地位且客户也在选择最符合公有云利益的负载,而此时MCSP提供了从公有云提取工作负载的能力,同时密切关注成本特征并根据客户的投资回报率转移数据和服务。这是一个显而易见且明确的增值,但多数客户无法认知和衡量。
众多服务在去中心化模式中提供卓越的最终用户体验
IT生态系统中有一个简单明了的事实:网络很重要。企业常会意识到限制其服务两个限制因素是带宽的大小和延迟。虽然增加带宽很昂贵,但是有可能实现的,但是增加光速是不可能的。这两个限制因素对服务有着绝对的影响,从而激发了新的技术类别的出现,如内容分发网络(CDNs)。如果可以从几个集中的超规模分发节点发送数据,就不需要使用CDN。然而,内容分发网络(CDNs)却已经并将持续蓬勃发展。为什么?因为网络很重要且去中心化模型可提供卓越的体验。
许多超大规模的公有云已意识到这一点,包括将少量计算放在边缘位置的服务 —— 在客户数据中心或在区域合作伙伴的位置。虽然这提供了改进服务交付的机会,但因为超大规模公有云试图利用规模经济来压低价格,其业务模式与去中心化网络不一致。这为MCSP提供了在去中心化模型中添加基础设施的机会,这与来自中央公有云的服务是松散耦合的。
客户应关注其核心业务
最后,许多企业的衰落往往是因为缺乏重点。他们试图同时管理和执行过多业务。通过与MCSP合作,他们通常能通过使用带有服务级别协议(SLA)的IT成果,从而释放其宝贵的内部资源以专注于其核心业务。众所周知,许多IT功能如电子邮件及通信服务,通常是由信任度高的合作伙伴提供,并将此模型扩展到基础设施和平台服务塑造良好的商业意识。MCSP合作伙伴可以发挥其核心能力,企业则可以专注于自身发展。
很明显,随着对于云技术的采用,行业正经历着一场转型。然而,如果认为这种转变的最终结果是企业只需考察主要的公有云提供商,那就错了。在这一云进化的过程中,一位信任的且懂你业务的MCSP合作伙伴会是更明智的选择。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。