2014年8月19日中国国际大数据大会在北京国宾酒店举行。在大数据应用发展论坛上,国家统计局统计科学研究所副所长许亦频对政府统计应用大数据面临的主要障碍进行了详细的阐述。
许亦频
法律、法规与数据安全
随着大数据应用的不断深入,有关数据产权、数据公开和数据安全的法律、法规缺失很严重。同时大数据对隐私的窥探和暴露与大数据本身的特点是紧密相关的,这必然冲击现有的管理方式、社会秩序和法律体系。
在法律的层面上我国只有针对国家秘密的《国家保密法》,缺失针对个人隐私和商业秘密的专门法律。在专门的行政法规和部门规章的层面上,针对政府信息公开的条例及一些部门的法规如《统计法》。但是总体上来说约束力不足,尚且没有涉及商业秘密和个人隐私的专门法律。而关于数据采集、数据存储、数据所有和使用权责方面的法律也是空白,这些在宏观层面上直接关系到大数据的应用和大数据的数据安全。
数据公开性与数据标准
大数据应用开放的关键是打破数据孤岛,让数据互联互通,达成数据共享。但在实践中很多企业愿意将自己的数据纳入政府的统计体系或纳入政府的统计数据的发布体系。但是不太愿意提供数据的收集、方法和算法这些过程性的信息。但数据的权威性和数据的质量是建立在数据的公开性的基础之上的。目前看数据公开性的不足是制约政府统计应用大数据的主要障碍。
目前绝大多数大数据是以各种形式分散的存在于政府部门、电商企业、电信运营商和互联网公司,数据标准不统一、口径比较杂乱,数据间难以衔接,这也是限制大数据开发和共享的一个障碍。
信息发掘
很多企业无论国内还是国外在商用的数据发掘中取得了很多进展,出现了大量的成功案例。但是如何在国家治理和宏观管理中让大数据发挥作用,如何用大叔分析宏观经济形势,这些任务还有很长的路要走。在大数据信息挖掘中,强调相关性。在大数据挖掘的过程中存在一个现象即否认因果,但以国家统计局工作的实践,因果关系是不能忽略的。
当然在现实中发现相关性是很难的,认识的因果关系也不简单。而宏观层面上完美的大数据挖掘是高度性与合理性的结合。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。