星辰大海之上,始终有着人类探索未知领域的梦想;不断进步的技术,又为探索大海插上了数字化的翅膀。

为了促进现代信息技术和新一代人工智能技术与船舶与海洋装备融合发展,深海技术科学太湖实验室(以下简称太湖实验室)联合无锡市委人才工作领导小组办公室、无锡市科学技术局、华为技术有限公司共同主办了首届“船海数据智能应用创新大赛”。在初赛第二赛道“非结构化数据压缩与处理”中,来自上海海事大学的王星月、中国科学技术大学的莫海歌、清华大学的肖今朝获得了前三名。
赛道解读:非结构化数据压缩跨越数据存储“门槛”
在本次大赛的非结构化数据压缩与处理赛道中,太湖实验室和华为给出的“命题作文”是船海事业发展中的一道“门槛”:
每次的海洋科考、海洋环境探测、深海探索等科学实验都将产生大量的数据,其中超80%均属于非结构化数据(指数据结构不规则或不完整,没有预定义的数据模型,如文本、图片、视频、各类报表等);这些数据获取难度大、携带信息量高,通常需要长期保存,随着数据总量逐年翻倍,导致了存储成本的极大上升;如何根据海洋探测数据设计高效的数据压缩算法就成为亟待解决的难题。

太湖实验室研发的深海载人潜水器
“奋斗者”号、“深海勇士”号、“蛟龙”号实尺度模型
高分选手:通过“预处理”再校验实现压缩

“这次的整体思路是首先对数据进行预处理,将规律的部分数据放在一起压缩,对于不规律的部分数据尝试用校验的角度去思考。最后采用数据压缩算法进行压缩。”在初赛中获得第一的王星月同学表示,赛事提供的数据中,大多数数据都能够找到一些规律,对于数据最后几列的数据,起初找不到任何规律。在资料查询之后,发现这些不规则的数据与校验有关,则进一步探索,最后试验证实了最后几位确实是校验码。

获得初赛第二名的莫海歌同学的处理方法也比较类似:“因为数据压缩方面的算法已经非常成熟了,但是对于非结构性数据,处理的难点在于前期的分类,所以我的整体思路是把赛事数据分类编码,然后再用熟悉的通用算法进行压缩。”

肖今朝同学的团队同样采取了编码+压缩的思路,“我们尝试该高性能数据系统中的PLAIN,TS_2DIFF,RLE,SPRINTZ,GORILLA,RLBE,RAKE等编码算法与LZ4,SNAPPY,GZIP等压缩算法的不同组合在整数与浮点数数据集上的表现后,根据综合表现决定选择以RLE(with bit-packing)编码+GZIP压缩算法为基础进行改进与创新。最后通过对二值列和BCH码列等关键点的研究,将压缩效果大幅度提高。”
怎样攻克“难关”?深耕探索、平台交流、专业指引
科研的道路上永远不会一帆风顺,在提交解决方案的过程中,三组参赛选手都或多或少的遇到了一些难题;而通过专业资料检索、选手平台交流,以及赛事主办方专业指引,最终都迎刃而解。

“深海勇士”号探索场景
“难题来自于数据本身,规律性的数据具有更大化压缩的潜力,但是一开始数据中有一些是没有规律的。”王星月同学在难题面前充分发挥了深耕探索的专业精神:“专业赛事就要求大家都有专业的态度,查了很多资料后终于发现,最后数据是对前面所有列的一个校验,最终实现了更大程度的数据压缩。”
以个人身份参赛的莫海歌同学,遇到难题在思考解决方案的同时,还选择了与选手交流群中志同道合的伙伴讨论,“就我个人而言,这次比赛本身也为大家搭建了一个非常好的平台,在选手交流群里面认识了很多朋友,有问题我们会一起讨论,在未来其他赛事中也不排除合作参赛的可能。”
肖今朝同学则代表自己的团队对赛事主办方的专业指引给予了肯定:“赛题对于压缩解压后数据正确性要求严格,我们前期在读写方面走了很多弯路,多亏赛事方工作人员帮忙测试解决,才找到了验证正确性的方法,最终解决了程序压缩解压的读写问题。”
比赛是“起点”更期待“远航”:创新生态助力船海数字化

太湖实验室实景
“之前了解过太湖实验室有很多人才引进政策,华为也是很多同学向往的企业。”提及参赛初衷,王星月同学直言:“重视人才、获奖后有助于工作和落户的比赛会更受大家欢迎。”
“因为参加过华为软件精英挑战赛,所以会关注华为云官网的各种比赛信息。”莫海歌同学表示,自己的研究方向是通信信号处理,很多师兄师姐都在华为工作,“研究生阶段已经比较少参加学校自己组织的比赛了,会更多考虑赛事的权威性和专业性,为未来就业加分。”
对于参赛选手而言,这次比赛仅仅是一个起点,未来“远航”的愿景更值得期待:“船海事业是大国重器,未来希望多参与一些类似的针对大型工业场景下产生的数据相关赛事,包括制造业数字化转型的相关比赛。”肖今朝同学表示,通过比赛,自己对数据压缩有了更广阔的认识,深入学习到很多数据压缩相关的技术,对目前的科研课题更加有兴趣的同时也更下定接下来“学以致用”的决心。
华为压缩算法专家刘珍宝博士讲到,伴随信息化程度的不断提高,企业对数据的需求呈爆炸式增长。海洋科考、海洋环境探测、深海探索等科学实验产生的海量数据,对后续的传输、存储带来了巨大压力。而数据缩减技术恰是解决数据传输、存储问题的一条有效途径。香农极限指出直接编码数据平均所需的最少位数,且当前较多熵编码算法已经逼近香农极限。但香农极限仅指出去除统计维度冗余后表征数据所需信息,并不能衡量数据间关联冗余信息的多少。参赛选手恰是通过对数据进行不同类型的预处理,去除了数据间的关联冗余信息,在实现压缩率大幅提升的同时,拉开了与其他选手的差距,这也是当前压缩算法主流研究方向之一。期望选手们在下一阶段可以更好的理解数据、挖掘更多关联信息,实现数据的进一步无损压缩。
“未来我们将致力于营造船海和数字化结合的创新生态环境、搭建鼓励更多科技人才参与交流的平台,并带动上下游产业链的协同发展。”赛事相关负责人表示,本次赛事不仅吸引了众多科技人才的参与、带动相关产业发展,更希望以此为起点,营造创新生态环境、孵化更多智能应用项目,进一步促进我国船海探索软硬件的不断升级。太湖实验室与华为在各自专业领域的“强强联手”,也将推动更多科技研究成果转化为船海中的实际应用,为走向深远海、建设海洋强国的国家战略需求进一步助力。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。