什么是生成式AI通往成功的秘籍？

如果缺失一个要素：数据，最好的人工智能模型也将毫无用处。

作者：希捷科技全球高级副总裁暨中国区总裁孙丹

这篇文章并非出自于ChatGPT之手。不过在过去几个月中，生成式AI的确是炙手可热的话题。

科技巨头已将他们的运营计划建立在AI基础上。微软表示，生成式AI可为其增加400亿美元的营收。生成式AI市场可推动全球GDP增长近7万亿美元。约75%的公司预计在未来五年内会采用人工智能技术。ChatGPT在推出的最初两个月就拥有了1亿多用户，成为有史以来增长速度最快的消费级应用。

但是，如果缺失一个要素：数据，最好的人工智能模型也将毫无用处。

公司需要海量数据来训练人工智能模型，以便于从之前未开发的信息中获得洞察和价值。由于将来的人工智能工具将可以从过去的数据中挖掘到难以想象的见解，因此应尽可能多地保存数据。

聊天机器人以及图像和视频AI生成器会创建更多需要公司管理的数据，并且需要保留它们的推论以便于为未来的算法提供信息支撑。Gartner预计，到2025年，生成式AI将占生成数据总量的10%，而目前该比例还不足1%。将此项研究与IDC的全球数据圈预测研究进行交叉印证，我们预计ChatGPT、DALL-E、Bard和DeepBrain AI等生成式AI技术将在未来五年内创建ZB级数据。

只有采用简单且经济高效的数据存储策略，企业才能大规模训练和部署人工智能工具，最终利用人工智能应用。海量数据集需要大容量存储。如果以前数据没有存下来，那么现在必须采取行动。

为什么AI需要数据？

IDC数据显示，2022年创建的企业数据中有84%可用于分析，但得到分析或应用到人工智能或机器学习算法中的仅有24%。这意味着公司未能利用大部分的可用数据。也就错失了商业价值。这就像电动汽车：如果电池没有充电，汽车无法带您到目的地。如果数据没有存储，即使是最智能的AI工具也无济于事。

随着众多公司着眼于训练人工智能模型，大容量存储将为原始数据和生成数据提供支持。企业将需要强有力的数据存储策略。他们可借助云来解决一些人工智能工作负载和存储，也可以在本地存储和处理一些数据。机械硬盘（约占公有云存储的90%）是专为海量数据集而生的经济高效、耐用可靠的解决方案，能够存储持续训练人工智能模型所需的大量数据。

保留原始数据是非常必要的，哪怕这些数据已经被处理过。比如人工智能创建的一些内容可能会产生知识产权纠纷，在行业调查或诉讼期间，当问到人工智能洞察的相关问题，便可以用存储的数据证明所有权以及结论的可靠性。

数据质量也会影响洞察的可靠性。为了确保更好的数据质量，企业应该使用包括数据预处理、数据标记、数据增强、监控数据质量指标、数据治理和主题专家评审等方法。

企业如何做好准备

如果保留数据的成本太高，企业会不得不删除数据。这是可以理解的，企业需要平衡成本与人工智能洞察需求的关系。

为了降低数据成本，领先的企业部署了云成本比较和估算工具。对于本地存储的企业来说，更应该考虑用硬盘构建可以优化TCO的存储系统。此外，企业都需要对监测的数据和工作负载模式进行优先级排序，并尽可能地实现工作流程的自动化。

全面的数据分类对于识别训练人工智能模型所需的数据至关重要。要确保敏感数据的处理是合规的，比如个人身份数据或财务数据等需具备非常强的数据安全性。许多企业对数据进行加密以确保安全性，但人工智能算法通常无法从加密数据中进行学习。所以企业还需要一个流程来安全地解密数据，以便进行培训，并且可以重新加密存储。

为了确保人工智能分析成功，企业应该：

1、养成存储更多数据的习惯，因为在人工智能时代，数据更有价值。保留原始数据及洞察，不限制可存储的数据量，但要限定哪些数据是可以删除的。

2、制定可以提高数据质量的工作流程。

3、降低数据存储成本。

4、实施稳健的数据分类和合规性。

5、确保数据安全。

不采取以上行动的话，最好的生成式AI模型也会毫无用处。

在生成式AI出现之前，数据就是开启创新的关键，最擅长管理多云存储的企业实现收入目标的可能性是同行的5.3倍。未来，生成式AI会显著拉大企业之间的创新差距。

当前，围绕生成式AI的讨论更多地集中在企业的创新潜力上。但企业领导很快就会意识到，数据存储及管理策略才是人工智能成功与否的关键因素。

来源：至顶网存储频道

0赞

好文章，需要你的鼓励

什么是生成式AI通往成功的秘籍？

来源：至顶网存储频道

2023

07/12

18:32

分享

点赞

全国首批10城菁彩Vivid影厅启幕，《山河故人》重映见证影像新纪元

工业和信息化部人形机器人与具身智能标准化技术委员会成立大会暨第一次全体委员会议召开

生命科学计算测试专委会正式成立，BioProfile框架引领行业标准建设

超智算完成北京核心智算中心资产收购，加速构筑“3+X”全国算力网络新格局

走出“参数崇拜”：联想用“一体多端”重塑“人的尺度”

从“单点突破”到“一体多端”：拆解天禧AI 3.5进化背后三年的进化哲学

openGauss Summit 2025在京召开，加速行业智能化变革，共建繁荣数据库生态

2025联想天禧AI生态伙伴大会：天禧AI一体多端，与开发者共建个人AI生态

西班牙病毒如何将谷歌带到马拉加

LangChain核心库曝出严重漏洞，AI智能体机密信息面临泄露风险

Mill如何与亚马逊和全食超市达成合作协议

TechCrunch创业大赛中的9家顶尖生物技术初创公司

叠瓦式磁记录技术：开启可扩展和可持续的存储新时代

Lonestar 和 Phison 的数据中心基础设施正在奔向月球

VAST Data 扩展推出块存储和事件代理服务

PTC 推出生成式人工智能现场服务助理 ServiceMax AI

创业公司 Lonestar Data Holdings 计划将月球作为灾备站点

Panzura 升级软件实现半热高可用性和更快的远程办公数据访问

VDURA 展示面向能源行业的节能高性能计算系统

Commvault 第三季度业绩超预期，市场反应强烈

对象存储初创公司 Object First 业务快速增长

DigitalOcean 推出托管生成式 AI 平台，简化 AI 智能代理开发

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: