话题二:数据价值,希捷从分层存储开始
高飞:其实我们今天话题是数字经济,关于数据,我们人类从诞生以来其实一直在记录,从一开始结绳记事,到山洞里的壁画,其实都在记录,在这个过程当中其实记录是一种人的本能,所以从这一点来看,您觉得现在这个数据增长和数字经济之间的关系,以及企业应该如何看待数据的重要性,是不是有一些观点可以跟我们分享一下。
孙丹:我觉得在云计算之前,数据可以说只是一个信息化,以前我们都叫信息化,也就是说是提高工作效率,把一个所谓手工的变成是一个进到电脑里面,是一个自动处理的,当然也会有一些数据分析,但是以前的数据分析更多的是因果关系,逻辑关系,或者是你自己的一些数据通过因果关系做一些推理,但是大数据出现以后,尤其是要通过云计算这个架构去实现之后,你看起来是没有因果关系的数据,它是可以做一些预测了,所以就说数据如果你不会用它,它是完全没有价值的,你只有把它放到一起通过一些算法,然后给它做算法的推理之后,它有些预测功能。
比如说通过一些公共网站你可以预测出流感可能就要爆发了,这个对于政府就非常有用了,但是这个数据平时放在那里如果你不会去分析它是没有用的,所以就是数据你只要通过云计算的方式,通过一些算法把它能够用起来做分析,它是非常有价值的,而它真正大数据的价值在于预测,也就是说能够刚才我们一直在讲可以做决策,它能够帮你做一些决策或者是给你一些决策的推荐,你来去做这个最终的决策,这个是数据最最有价值的。
高飞:希捷一直做存储,咱们离数据是很近的,从您的角度来看,哪些行业它们对数据的利用可能会出现一些新的增长机会?或者它们的业务可能会发生创新和变化。
孙丹:我觉得现在看有一些前期,现在已经看到比如说电子商务,上次我们谈过推送,它通过分析你的行为做推荐,这是最早的,相对互联网出现就已经在有的了,这个是很多的。还有一些大数据的应用是比较广的,比如说像公共关系部门,政府,现在大家可以看到政府已经开始公布一些大数据,政府现在已经开始在用大数据做一些决策,这个已经看到,包括中国政府已经非常积极在做,公安这一块,我曾经跟很多公安省里面去看,它们每个月都已经能够有一个大数据分析,通过人脸识别看到在当地这个地区有多少罪犯出现过,这个是在公安系统我看到已经广泛在用大数据。金融,金融你的信用体系这一块已经是广泛在用的,当然我们现在在说它是不是达到了最终满意的效果还没有,我们一直在说其实大数据现在还没有达到一个满意的效果,从整个预测的角度,大家已经开始在广泛用,尤其是在一些金融,其实教育行业也有在用了,我们看到有一些大数据公司在给一些高校,甚至做一些抑郁症的预测,非常非常好的一些应用已经开始在使用了。刚才讲公共关系,公安,零售。
高飞:希捷的技术怎么用在这些行业当中,能不能举个例子?
孙丹:希捷是做存储的,首先我们把数据帮它们要存起来,存储其实是有技术的,你选择什么样的存储,这个是有技巧的,比如说数据中心以前可能大家不懂的时候可能用存储都觉得是一样的,但实际上你可以选择更有效率的,或者说成本更低的,所以我们推出有云盘,云盘可以帮助客户降低整体的成本,同时性能也不会降低,我们把数据也要分层,我们第一件事是教育客户怎么样把数据去分级,你有冷数据,有温数据有热数据,不同级别的数据用不同的存储。
高飞:我们大概是怎么建议?
孙丹:我们叫冷存储,冰存储,还有一种不叫热存储,就是一个快速,比如说SSD固态存储,是用来做快速的数据分析,如果你比如说很多数据半年都不用的那就是冰数据,你用相对容量是最大的,但是它可能耗电上最低,成本最低的。温数据可能就不是经常,不是像热数据每天都在频繁做,但是它也会去做的,我们就建议它用企业级的盘,不同的数据是根据它的要求配不同存储给客户最高的成本上的考虑,对客户来讲这是最优的一个配置方案。
高飞:我觉得希捷不愧是做存储专业公司,以前我们听冷数据或者热数据比较多,就两层,今天一听出了四层,冰数据,冷数据,温数据,热数据。
孙丹:我们把产品分得非常细。
高飞:分得非常细,其实这也是一个专业的体现,因为只有我们可能对数据看待的方式是多元化的。
孙丹:对,而且对客户最终的价值体现是很大的,它能省一点点,但是你想它买几万块片盘的时候,那就是省很多很多成本。
高飞:现在在哪个温层需求表现得比较旺盛?
孙丹:我们现在看就是大容量盘,也就是说在冷数据。冰数据也有一些,但是你说要求量最大的应该是冷数据和温数据,这两块是最大量的,从数据中心的角度。比如说我们每天微信上拍的照片它其实是冷数据,因为你可能半年以后都不会再看,但是你存在微信上面它是一定要帮你存下来的,这些数据存在那它知道客户不会经常回来找的,它就用一个相对的冷存储就好了,就是云存储就可以了。
高飞:您刚才说,是不是可以这么讲,这些冷一点的数据价值在相对智能的时代比以前要高,可能以前我们这些数据放在那了我们没有太多的机会,因为以前记的是信息,对信息可能回过来再看的意义就不大了,但现在在一个数据能产生价值的时代,可能这些数据我们虽然都觉得比较冷,可是它用的时候这个冷的数据照样能产生很大的价值。
孙丹:这就是新的课题,上次您记得我们探讨我就在想,其实最大的挑战是你不知道哪些数据是有用的,你存的时候不知道这些数据未来会不会被一些算法调用,所以它可能今天是冷数据,明天有可能就是用来做智能分析的数据,所以这是一个很大的挑战,这也是现在我觉得大数据需要去突破的很多地方,就是你是不是存的是对的数据,因为只有2%-3%的数据存下来了,可能有些数据没有存,存下来像您讲的它放在冷数据那边没有被用过,但是也许它被调用以后可以做出新的预测,这就需要非常智能一些。
孙丹:存是把它存起来了,可是需要用时候不知道它在哪,或者用的时候发现这个数据已经损坏了,就已经来不及。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。