近年来,随着大数据时代的到来,各行各业正迎来一波上云热潮。为了让更多的开发者在对数据处理的极限探索过程中,体验云上开发的优势。日前由阿里云和英特尔公司联合主办,阿里云EMR团队和阿里云天池承办的“E-MapReduce极客挑战赛”正式开启。目前,大赛已面向全社会开放报名,个人、高等院校、科研单位、企业、创客团队等人员均可报名参赛。

在不久前举行的中国互联网大会上发布的《中国互联网发展报告(2021)》显示,2020年,我国云计算整体市场规模达到1781.8亿元,增速为33.6%。在此背景下,如何利用新技术高效存储、处理数据,在降低成本的同时提高资源配置效率,成为了当下企业数字化转型的重要议题。
为此,阿里云针对性开发的E-MapReduce云原生开源大数据平台,以其易用性高,性能强,弹性大的特点,成为了广大用户的首选。其可以在为客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等开源大数据计算和存储引擎的同时,部署在阿里云公有云的ECS和ACK、专有云平台。相对的,英特尔® 傲腾™ 持久内存打造的兼具出色的内存与存储性能的解决方案,可以将高性价比的大容量内存与对数据持久性的支持巧妙地结合在一起。

为了让更多的开发者们,体验云上开发的优势,阿里云计算平台EMR团队和英特尔公司联合开启了本届“E-MapReduce极客挑战赛”,广邀创新极客,结合阿里云 EMR和英特尔® 傲腾™ 数据中心级持久内存,优化软件系统和利用硬件的特征,追求TPC-DS测试集的最优性能。
目前大赛已公布的初赛题目,是由阿里云EMR 团队提供用于比赛的Spark 3.1.2代码分支,交给选手进行 Spark 代码优化和参数调优以提升SparkSQL执行效率,同时组委会提供性能测评工具供选手自行测试(单机环境或EMR集群环境)。在比赛阶段,选手将最终优化后的Spark代码和调优参数打包,通过天池平台提交,天池平台会使用相同的性能测评工具,进行评测和排名。在初赛的基础上,复赛需要处理的数据量更大,同时升级了 EMR 集群配置,并为每个 Worker 节点配置了 PMEM 持久内存,选手可以通过 App Direct 模式使用持久内存。

据悉,大赛现已开放报名,并将分为初赛、复赛及决赛三个赛段,评委嘉宾包括阿里云开源大数据平台数据湖构建与分析负责人吴谓、数据湖存储负责人郑锴,英特尔傲腾产品事业部中国技术创新中心资深软件开发经理吴国安、英特尔加速计算系统和图形事业部工程经理徐铖等。

阿里云计算平台事业部负责人贾扬清表示:”希望通过这次大赛,让开发者们在体验云原生的开发环境的同时,可以尝试一次技术的挑战。不仅在比赛中收获好的成绩,更重要的是寻找到代码的乐趣和技术的收获。”Intel 数据分析软件部门总监Heidi Pan也表示: “希望大家通过这次比赛能够有所收获,能够对数据分析引擎的性能优化有更深刻的体会与理解洞察”。
同时,阿里云研究员、开源大数据平台负责人王峰也强调:“我们欢迎来自高校、企业及各行业的开发者们加入我们的比赛,希望各位开发者能在这次竞赛中充分展示自己的技术能力。” 阿里云开源大数据平台产品负责人陈守元表示:“我们希望为广大的大数据爱好者及科研企业提供一个创新挑战的平台,一起来探索性能极限。”
据介绍,本次大赛最终将有1支冠军队伍、2支亚军队伍和3支季军队伍分获10万、5万、2万人民币奖金及获奖证书。值得一提的是,本次大赛还特别推出了“EMR开发者激励计划”,为邀请好友参赛的达人,以及参与比赛的选手分别制定了特别激励规则与奖品,相信将为本次E-MapReduce 极客挑战赛吸引更多行业内外的关注。

欢迎点击赛事官网链接了解更多信息:
https://tianchi.aliyun.com/specials/promotion/emapreduceaep2021?spm=5176.14154004.J_1916026360.6.31fe5699qWz5kl
好文章,需要你的鼓励
苏州大学研究团队提出"语境降噪训练"新方法,通过"综合梯度分数"识别长文本中的关键信息,在训练时强化重要内容、抑制干扰噪音。该技术让80亿参数的开源模型在长文本任务上达到GPT-4o水平,训练效率比传统方法高出40多倍。研究解决了AI处理长文档时容易被无关信息干扰的核心问题,为文档分析、法律研究等应用提供重要突破。
在Cloudera的“价值观”中,企业智能化的根基可以被概括为两个字:“源”与“治”——让数据有源,智能可治。
清华大学团队首次揭示了困扰AI训练领域超过两年的"幽灵故障"根本原因:Flash Attention在BF16精度下训练时会因数字舍入偏差与低秩矩阵结构的交互作用导致训练崩溃。研究团队通过深入分析发现问题源于注意力权重为1时的系统性舍入误差累积,并提出了动态最大值调整的解决方案,成功稳定了训练过程。这项研究不仅解决了实际工程问题,更为分析类似数值稳定性挑战提供了重要方法论。