企业背景:
百度目前为全球最大的中文搜索引擎、最大的中文网站,于2000年1月创立于北京,经过十几年的不断发展,现已成为中国最受欢迎、影响力最大的中文网站。作为全球互联网行业的领头羊,百度一直肩负着引领行业技术方向的使命。在通过技术创新不断满足用户的移动搜索需求的同时,百度也在继续积极推动移动云生态系统的建设和发展,与产业实现共赢。2012年9月,百度面向开发者全面开放包括云存储、大数据和云计算在内的核心云能力,为开发者提供更强大的技术运营支持与推广变现保障,以帮助他们在移动云时代获得更好的收益和成长。
应用需求:
移动互联网、物联网的快速发展产生并积累了大量的数据,根据国际数据公司(IDC)发布的研究报告,全球所有信息数据中90%产生于最近几年,到2020年,我们将产生44ZB的数据,而互联网企业尤其是搜索引擎公司是大数据实践的先行者和领跑者。百度是中文世界主流的搜索引擎,每天响应来自138个国家和地区的数十亿次搜索请求,覆盖95%以上的中国网民,每天都在存储和处理海量的用户数据和系统数据,包括网页、图片、文档及各类音视频等,对海量数据的存储、处理与管理能力有着很高的需求,如何妥善存储庞大的冷数据信息成为了百度数据存储管理的重中之重。
解决方案:
通过合理平衡容量、性能、可用性、成本等相关因素,百度设计开发了一套针对数据分级分层存储的冰山冷存储解决方案(天蝎整机柜存储解决方案)。有效降低了数据存储的TCO。
作为冰山冷存储解决方案的一部分,在存储介质与数据管理方面,百度与希捷紧密合作,率先引入基于叠瓦式磁记录(SMR)技术的8TB归档硬盘,有效降低了每GB存储的成本与功耗。
希捷全新的8TB SMR硬盘拥有企业级可靠性,采用经过实践检验的SATA 6Gb/s接口,支持归档工作负载,并具备多硬盘抗旋转震功能,可在高密度的环境中实现一致的企业级性能,提高系统容量,借助更少的组件提高系统和人员效率,同时降低功耗成本。
目前,百度冰山冷存储解决方案已经在其自建的大型云计算中心大规模部署。
合作现状:
希捷与百度的合作由来已久,双方在2014年签署了战略合作备忘录,涉及的合作领域包括低成本在线存储、存档、数据管理与优化等。
作为搜索引擎公司的巨头,百度拥有EB级别的海量数据存储,收录了相当于5000个国家图书馆的信息容量,同时承担着每天百亿次的访问请求。伴随数据规模的迅速增长,为了保障用户数据安全所做的备份、法规遵从类备份、极冷数据归档存储累积成了庞大的冷数据群体,因此急需寻求低成本存储解决方案。
希捷归档盘针对24x7不间断运行工作负载设计,同时5900的转速可以大大降低硬盘功耗,能够可靠地节约能源,节省成本。与此同时,其8TB的总存储空间以及单碟1.33TB的容量均为业界领先,每GB成本更是突破了传统企业级近线盘的价格区间,快速的读写速度也可以满足百度毫秒级响应速度的需求。
希捷8TB归档硬盘拥有企业级的可靠性,支持归档工作负载,并具备多硬盘抗旋转震动功能,可在高密度的环境中实现一致的企业级性能,非常适合存储海量的大数据、冷数据。“百度非常高兴可以与存储领域的领军企业希捷合作,借助其业界领先的技术,可以提高我们数据中心的存储密度,更加经济有效地应对非结构化数据内容,将大量冷数据进行低成本归档存储。”百度相关业务负责人表示。
作为开放数据中心的先锋,百度不断致力于优化整机柜解决方案和降低TCO。无论是百度自建的阳泉数据中心、超高密度1U18天蝎整机柜冷存储服务器(每机柜720块盘)、还是大容量希捷8TB叠瓦式磁记录技术归档盘(每机柜5.76PB存储空间),所有这些优化方案的成功部署,都在整个行业均备受瞩目。在新兴的冷数据归档业务上,百度的成功部署,必将影响到大量的互联网公司进行跟进和学习。
叠瓦式磁记录(SMR)技术
希捷8TB归档盘实现业界领先面密度容量,这要归功于其自主研发的叠瓦式磁记录技术。作为新一代存储技术,叠瓦式磁记录对于不断提升面密度(单碟存储的数据量)具有重要作用,以促进全球云和移动应用的发展,新一代叠瓦式磁记录存储技术预计能够提升高达25%的面密度。
希捷通过叠瓦式磁记录技术使用了更少的磁头与磁碟,增强了硬盘的稳定性,并达到了新的容量点。在使用目前相同硬盘配置的磁碟与磁头时,叠瓦式磁记录也能提高存储容量,使得硬盘的性价比更高,为提升单位面积存储密度提供了一个经济实惠的途径。
愿景
百度高级技术总监刘超先生表示:“通过合理的数据分层存储,引入冷数据归档方案,可以帮助我们用更优的TCO实现数据的安全保护,对用户、对公司都具有积极的价值。通过与希捷公司合作,借助希捷可靠的存储技术和领先产品,我们可以更有效地应对云计算、大数据环境下的数据增长与存储挑战,更好的服务业务、服务用户,持续提升用户体验。”
希捷科技中国区云和企业级OEM业务总监钱亚欧表示:“作为全球存储解决方案的领军企业,希捷正在帮助中国领先的云服务和互联网供应商解决其在存储领域的痛点。很高兴百度通过采用希捷全新的8TB归档盘有效降低了冷数据存储的成本,将存储的先进技术转化为实际效益。双方的深化战略合作也将进一步巩固希捷在中国企业级市场的领导地位。”
好文章,需要你的鼓励
机器人和自动化工具已成为云环境中最大的安全威胁,网络犯罪分子率先应用自动化决策来窃取凭证和执行恶意活动。自动化攻击显著缩短了攻击者驻留时间,从传统的数天减少到5分钟内即可完成数据泄露。随着大语言模型的发展,"黑客机器人"将变得更加先进。企业面临AI快速采用压力,但多数组织错误地关注模型本身而非基础设施安全。解决方案是将AI工作负载视为普通云工作负载,应用运行时安全最佳实践。
MBZUAI研究团队发布了史上最大的开源数学训练数据集MegaMath,包含3716亿个Token,是现有开源数学数据集的数十倍。该数据集通过创新的数据处理技术,从网页、代码库和AI合成等多个来源收集高质量数学内容。实验显示,使用MegaMath训练的AI模型在数学推理任务上性能显著提升,为AI数学能力发展提供了强大支撑。
面对心理健康专业人士短缺问题,谷歌、麦肯锡和加拿大重大挑战组织联合发布《心理健康与AI现场指南》,提出利用AI辅助任务分担模式。该指南构建了包含项目适应、人员选择、培训、分配、干预和完成六个阶段的任务分担模型,AI可在候选人筛选、培训定制、客户匹配、预约调度和治疗建议等环节发挥作用。该方法通过将部分治疗任务分配给经过培训的非专业人员,并运用AI进行管理支持,有望缓解治疗服务供需失衡问题。
这项由多个知名机构联合开展的研究揭示了AI系统的"隐形思维"——潜在推理。不同于传统的链式思维推理,潜在推理在AI内部连续空间中进行,不受语言表达限制,信息处理能力提升约2700倍。研究将其分为垂直递归和水平递归两类,前者通过重复处理增加思考深度,后者通过状态演化扩展记忆容量。