问:
今年大数据取代了章鱼保罗,成为预测世界杯战局的热门手段。不过这种预测靠谱吗?大数据真的能预测世界杯?
答:
目前采用大数据技术预测世界杯的,既有百度这样的互联网公司,也有德银这样的知名投行。
一、预测确实使用了大量数据
通过采访百度的相关人士,我们发现百度预测世界杯的主要数据来源包括:百度搜索数据,球队基础数据,球员基础数据,赔率市场数据。百度大数据通过分析过去5年987支球队的3.7万场比赛数据,共涉及29610名球员,112,285,543条相关数据,构建了足球赛事预测模型。
为了验证模型是否准确,百度用2010年南非世界杯的淘汰赛数据进行了准确性验证,具体方法是为预测模型输入2010年世界杯期间的比赛、球队、球员等相关数据,由预测模型计算出淘汰赛比赛结果,与当时的比赛结果进行对比,结果显示16场淘汰赛算准了12场,准确率为75%。
德银则是根据各个球队的FIFA排名、历史战绩、球员构成和赌球赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格。其中巴西名列第一,紧随其后的是德国、西班牙、法国。然后再根据某些假设,得出最终的冠军得主。
二、推算逻辑并不完美
德银推算出的最终的冠军得主是在概率表的基础上得出的。具体来说,德银从夺冠概率表格中挑选出了前10强,这10强依据夺冠的概率排名分别是巴西、德国、西班牙、法国、阿根廷、意大利、荷兰、葡萄牙、乌拉圭和英格兰。德银认为最终的冠军只能从这十家选出。
在筛选的过程中,德银提出了“轮流转周期”概念,德银认为过去19届世界杯当中,有3次是连续四届世界杯由不同的四支球队夺冠,还有2次是连续两届世界杯由不同的两只球队夺冠,剩下的3届即从2002-2010年的三届世界杯构成了德银心中又一个四届不同得主的轮流转周期的前3/4,德银由此排除了2014年巴西、意大利和西班牙夺冠的可能性,因为它们是过去三届世界杯的冠军得主。
这样就剩德国、法国、阿根廷、荷兰、葡萄牙、乌拉圭和英格兰七只队伍,然后德银根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。而英格兰就在1966年夺过一次冠,此后至今从未进过决赛,德银据此认为英格兰夺冠可能性大增。
最后,本届英格兰队有6名队员来自利物浦,而正是在利物浦的球员最多的1966年,英格兰获得了历史上唯一一次世界杯冠军。同时德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。
不难发现其中的逻辑非常牵强。德银似乎只为了得出一个想要的结果而设置了某个模型或假设,而非根据确定的科学模型来推测最终的结果。有“本末倒置”之嫌。
百度相对来说更加科学一些,起码推测的因果顺序没有颠倒。但是百度的推测显然也有漏洞,百度的模型经过自己的验证之后,准确率也只有75%。而且这个验证是输入过去的数字来推测,但是过去准确的未来并不一定准确。
三、“醉翁之意”不在预测本身
用大数据来预测世界杯比用章鱼保罗更加可信(起码从表面上来看是这样)。不过这种预测活动更像是利用世界杯而进行的营销活动,目的并不是为了得出某个确定的结论,而是为了吸引网友的参与。
百度的世界杯预测还跟足彩投注活动结合,通过预测出夺冠率这一数字,为用户购买足球彩票提供参考,更像一场商业活动。
不过,在世界杯到来的前夕,网友们通过企业所做的预测得知哪支球队可以夺冠也是一种娱乐。对于预测结果到底有多大的可信度不必太过认真。
好文章,需要你的鼓励
这项研究介绍了VisCoder,一个经过专门微调的大语言模型,用于生成可执行的Python可视化代码。研究团队创建了包含20万样本的VisCode-200K数据集,结合了可执行代码示例和多轮修正对话。在PandasPlotBench基准测试中,VisCoder显著优于同等规模的开源模型,甚至在某些方面超越了GPT-4o-mini。研究还引入了自我调试评估模式,证明了反馈驱动学习对提高代码可执行性和视觉准确性的重要性。
这项研究提出了"适应再连续学习"(ACL)框架,一种创新的方法解决预训练模型在连续学习中的稳定性-可塑性困境。通过在学习新任务前先对模型进行适应性调整,ACL使模型既能更好地学习新知识(提高可塑性),又能保留已有知识(维持稳定性)。实验证明,该框架能显著提升各种连续学习方法的性能,为解决人工智能系统中的"灾难性遗忘"问题提供了有效途径。
这篇研究首次关注了CLIP模型文本编码器的对抗鲁棒性问题,提出了LEAF方法(Levenshtein高效对抗性微调)来增强文本编码器的稳健性。实验表明,LEAF显著提高了模型在面对文本扰动时的性能,在AG-News数据集上将对抗准确率从44.5%提升至63.3%。当集成到Stable Diffusion等文本到图像生成模型中时,LEAF显著提高了对抗噪声下的生成质量;在多模态检索任务中,它平均提高了10个百分点的召回率。此外,LEAF还增强了模型的可解释性,使文本嵌入的反演更加准确。
BenchHub是由韩国KAIST和Yonsei大学研究团队开发的统一评估平台,整合了38个基准中的30万个问题,按技能、学科和目标类型进行精细分类。研究显示现有评估基准存在领域分布偏差,而BenchHub通过自动分类系统和用户友好界面,让用户能根据特定需求筛选评估数据。实验证明模型在不同领域的排名差异巨大,强调了定制化评估的重要性。该平台支持多语言扩展和领域特化,为研究人员和开发者提供了灵活评估大语言模型的强大工具。