2月16日,第二届全球数据压缩大赛(GDCC 2021)颁奖仪式举行,此次比赛共设置5个方向13个类别,吸引了来自全球40多个国家的1万多名存储研究人员关注。200多名参赛者报名,提交了79种算法,22人获奖。所有获奖算法的性能都优于业界已知的同类型压缩算法。部分算法的压缩比超过业界基准算法30%以上,进一步逼近数据压缩极限。
大赛评委会主席、莫斯科国立大学图形和媒体实验室主任、世界知名数据压缩和视频处理网站compress.ru联合创始人Dmitriy Vatolin教授、大赛评委会委员波兰雅盖隆大学Jarek Duda教授、华为数据存储与机器视觉产品线研发总裁孟广斌、华为俄罗斯研究院院长田兴普以及部分获奖选手出席颁奖仪式。
继2020年华为联合莫斯科国立大学举办的首届全球数据压缩大赛受到全世界算法界的广泛关注,2021举办的第二届全球数据压缩大赛,也呈现了更多亮点:
第二届的赛题对比第一届难度明显提高。智能世界的数据类型多种多样,多以非结构化数据为主,压缩算法能适配的数据类型越多,适配的应用场景越广。为此,主办方增加了更多非结构化数据类型,如面向AI分析的图片类数据、面向HPC的科学计算类数据、面向多样化算力的ARM平台产生的数据等。
本次大赛在奖项设置方面,在原本的一、二、三等奖的基础上增设了1个特等奖和12个领先奖。其中特等奖专为奖励在块压缩领域有突出贡献的参赛者,推动数据压缩技术快速走向商业化而设置。大赛邀请全球顶尖算法高手挑战算法极限的同时,也注重激励并培养压缩领域的新生力量,增设了面向高校学生的编码算法优化类别,并相应增设了10个学生参与奖。
大赛高手云集。选手Marcio Pais提交了多个算法,在全部13个研究方向中获得6个第一名,成为本场最大赢家。其设计的delta、beta(1-2)、zeta(1-2)算法在图片浮点数场景,压缩率显著领先于业界通用算法ZSTD,为压缩算法优化提供了一个更佳的方向。选手Peter Thamm在块压缩赛题中,缩减率提升24%前提下,综合评分超越ZSTD 25.4%,获得大赛专设特等奖。来自中国的参赛者表现也十分亮眼,Xu Xiali(注册名)提交的fc、flz两个算法,分别获得相应方向的第二、第三名。
压缩算法是提高存储能力的核心技术之一,也是一直以来存储技术中的重磅难题。华为数据存储与机器视觉产品线研发总裁孟广斌表示:“我们希望新的全球数据压缩大赛能继续吸引更多的世界各地参与者。同时也欢迎数据缩减技术专家、无损数据压缩迷、数据结构和算法开发人员和研究人员、年轻的天才们能够一起进行深入的交流合作,希望共同在数据管理和处理领域带来新的突破性发明。”
华为在数据存储领域持续攻坚克难,逐年加大对前沿科学研究的投资,联合莫斯科国立大学举办的全球数据压缩大赛,是华为携手产学研攻坚业界难题道路上的坚实的一步。华为公司俄罗斯研究院院长田兴普表示:“感谢莫斯科国立大学图形与媒体实验室的合作伙伴,感谢我们富有成效的合作。我们的共同努力、辛勤工作和奉献精神使人们关注通用数据压缩领域,并促进了该领域新算法的研究和开发。我们将继续赞助和组织类似的竞赛,通过技术创新创造知识和价值。”
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。