在中国国际大数据大会——大数据与互联网创新分论坛上,京东技术副总裁兼首席科学家何刚分享了京东在实践中应用大数据的心得。首先提到刘强东董事长电商行业的“刘三角”中大数据的意义,讲的就是在整个电商行业里,最重要的是打造三个平台:物流,解决信息流和资金流的问题,在这之上要想运营的好,让电商平台真正做起来,实际要解决运营成本、物流成本和提高效率。而在经过野蛮生长期之后,必须要有大数据作为驱动,因为这样才能为用户提供优质的用户体验。
何刚
大数据描述用户标签
对于电商来说,很多网站都有几千万、几个亿的客户在进行采购,所以电商要对这些客户进行画像,每个客户有几百个标签,包括有房子吗?有车吗?有钱他愿不愿意花?社交网络关系是什么?他现在在什么地方,性别、年龄、身高、职业,还包括客户对品牌的忠诚度情况怎么样的等等。描述用户标签,根据各种纬度进行画像分析,得以提高电商的转化率和黏性。
电商一个是以用户为中心的数据分析,另外是以商品为中心的数据分析,京东现在有几千万种SKU,来决定要选择什么时候上新品,什么时候下架,这要有详细的分析数据。除此之外还要对这个行业进行分析,对市场需求度,包括品牌,通过折价纬度进行分析。从而,京东会在适合的时间点推出适合的产品,或跟供应商达成协议,吸引这方面的商家上来开店。
中国17-18%的GDP是花在物流上,而欧美只有5-6%的样子,所以我们有很大的浪费,这就需要大数据解决这个问题。我们现在做了很多事情,比如我们现在可以把很多用户在网上的交互,能够通过机器人的方式实现,而不是人工的方式。
大数据进行情感分析
京东有很多用户打电话进来或者在网上联系,在客服人员接起电话开始之前,京东都足够对用户进行了很多画像的分析,能知道客户大概是一个什么样的人。对用户进行的情感分析能够猜出打电话进来的意图大概是什么,通过这些能更好的服务用户。同时京东也可以通过分析,做一些主动服务,提醒用户,比如今天下暴雨等等天灾仁厚,然后通知他们你的货会稍晚一点到,这些都是为了解决好用户体验问题。
C2B定制化方面京东也做了很多工作,比如左边写的是一个通俗的流程,投入用户的行为和对大量商户分析,能够分析出哪类用户喜欢哪类产品,客户有了这个需求有了这个购买能力,京东就会根据这个定制好一部分产品。
京东用大数据做金融
京东利用大数据做的金融,主要有两个产品: 一个叫京东白条,可以让消费者在京东上购物,即可以以透支的方式,根据客户过去的消费记录免费消费,这个产品最主要的功能是增强客户黏性。
另外就是京保贝,京保贝实际上是面对京东上面的商家、供应商、第三方商家的一个保理产品,它的特色是可以根据这些商家、供应商运营情况,来制定出一个供应链金融的解决方案,因为京东完全是依赖于这些供应商的交易数据做这个事情,京东的成本非常低,可以做到比行业里标准低将近一倍的成本借给商家资金,而且可以做到非常实时,三分钟之内从申请到放款。
好文章,需要你的鼓励
这篇研究提出了OThink-R1,一种创新的大型推理模型,能够像人类一样在快速直觉思维和慢速深度推理之间自动切换。研究者发现,现有推理模型即使面对简单问题也会生成冗长的推理过程,导致计算资源浪费。通过分析推理轨迹并使用LLM评判员区分冗余和必要推理,OThink-R1能根据问题复杂度动态调整思考深度。实验表明,该方法平均减少了23.4%的生成文本量,同时保持或提高了准确率,代表了向更高效、更人性化AI推理系统迈出的重要一步。
这项研究提出了SHARE,一种新型文本到SQL修正框架,它利用三个小型语言模型(SLM)协同工作,实现高效精准的SQL错误修正。SHARE首先通过基础行动模型将SQL转换为行动轨迹,再经过模式增强模型和逻辑优化模型的层次化精细化修正。研究团队还创新性地提出了层次化自演化训练策略,大大提高了训练数据效率。实验结果表明,SHARE在多个基准测试上显著提升了SQL生成准确率,计算成本仅为传统方法的十分之一,并展现出强大的泛化能力,适用于各种生成器模型和SQL方言。
这项由香港大学和南京大学等机构研究人员联合开发的双专家一致性模型(DCM)解决了高质量视频生成中的效率难题。研究团队发现扩散模型蒸馏过程中存在优化冲突:早期阶段负责语义布局与运动,后期阶段关注细节精修,两者学习动态差异显著。DCM创新性地将这两个任务分配给不同的专家模型,通过参数高效的实现方式,使模型仅需4步即可生成接近50步原始模型质量的视频,大幅提升生成速度,为实用化AI视频创作铺平道路。
这项研究介绍了QARI-OCR,一种基于Qwen2-VL-2B-Instruct模型微调的阿拉伯文字识别系统。研究团队通过三阶段合成数据训练,成功解决了阿拉伯文字识别中的主要挑战:曲线连笔特性、上下文变化的字母形状和发音符号。QARI v0.2模型创下了0.061的字符错误率和0.160的单词错误率,超越了现有开源解决方案,为阿拉伯文化遗产的数字化保存提供了重要工具。