海康威视从最初的视频压缩板卡研发、到数据监控产品研发再到数字监控综合产品的推出,在2011年跨越到安防产品、视频产品内容服务再到2016年以视频为核心的物联网解决方案和数据运营服务提供商。一切都是围绕着两个字“视频”来创新。十多年之后,厚积薄发的海康威视已经成为一个市值近3000亿的庞然大物(2016年销售额320亿元,净利润74亿)。
近日至顶网记者走进海康威视,参观过程中,通过海康威视展示的基于解决视频的技术和方案,可以毫不夸张的说,对于视频数据的理解,海康威视在全球处于领先地位。
现场展示海康威视研究院在视音频人工智能、云存储、云计算、视频大数据等领域的技术创新,以及一系列基于视频数据的视频智能化技术,包括深度分析,对于车辆的识别不仅可以识别车牌,通过车辆特质提前技术实现轮廓分析、色块分析、统计分析等实现车型、品牌、颜色等可视化数据的呈现。还有超级雾透、光学防抖等技术实现在雾霾阴雨天、颠簸路段对于物与人的识别。还展示了能够实现汽车、物流等智能运输的智能仓储机器人、智能搬运机器人、智能泊车机器人、智能分拣机器人等。
边缘计算加速“端”智能化
从2012年提出IVM“智能可视化管理”新安防理念,到满足用户高清需求,提供高速的、智能的、高清的视频成为趋势。同时深度学习、人工智能技术的出现,加速了视频结构化的发展。建立在深度学习、视频结构化基础上的智能大数据应用,实现了之前做不到的智能、高清、高速、快速分析。
数据智能化的快速发展首先体现在各种感知的前端智能产品的出现。在海康威视看来其自主研发的智慧感知、立体感知和多维感知的多种智能摄像头,赋予了视频数据“灵魂”,让其更精准、更生动、更直观的与视频数据产生互动。
海康威视传输与显示业务部总经理钱学锋谈到海康威视很早就布局深度学习和AI算法。2006年开始组建算法团队,2013年布局深度学习技术算法的沉淀,2015年深度智能产品发布,2016年全系列深度智能产品亮相。
在钱学锋看来首先是前端智能产品的出现,也就是边缘计算,让端的设备实现智能。前端智能采用边缘计算,大大缓解后端智能服务器、存储设备的压力。也就是让端和数据中心同时发力。而海康威视自主研发的智慧感知和多维感知的多种智能摄像头。创新的推出基于深度学习的“海康深眸”系列智能摄像机,以及“海康猎鹰”、“海康刀锋”智能服务器,“海康脸谱”系列人脸分析服务器。还延伸视频技术于智能仓储机器人、工业摄像机、行业无人机等跨界产品。这样从视频采集、传输、存储、解码输出、管理以及显示控制都实现了智能化。
视频转化为可编辑的“0/1”需要更智能的芯
海康威视研究院高性能计算部开发总监王鹏谈到海康威视的核心优势就是对于视频、语音以及图像的结构化转换。因为目前定义的非结构化数据,比如说视频、语音,还有一些图像,通过常规的数据应用是无法进行计算或者是找关联关系,必须把它转化为结构化数据。
王鹏认为如果要更好的识别视频,第一是需要好的算法,第二是能够承载这些好的算法的计算平台,第三是能够更好的在上面的解决方案来给用户提供相应的支持。海康威视在算法上具有很大的优势,在解决方案上全方位覆盖各个行业。所以说目前需要找到一款更好、更合适的芯片来实现这种应用。这里就包括英特尔端计算平台和服务器计算平台。2014开始于英特尔全面全面合作,全面建立数据中心系统设计验证生产能力,推出DP E5 服务器产品,在存储、内存HD高清等领域,在前端摄像机,主流NVR机器视觉、SSD等领域全面合作。
到2017年,海康威视与英特尔深入视频物联网技术合作,加强深度学习技术的探索, 在新的市场领域深度合作,在边缘计算、机器视觉 智能存储、云服务、数据挖掘等通过英特尔的FPGA、Movidius、Xeon phi共同打造引领行业的明星产品。
英特尔物联网产品部视频产品线总经理Adam Burns谈到,“海康威视是人工智能领域非常领先的企业,英特尔希望为海康威视提供一个基于人工智能的强大的计算平台,比如说在前端有Movidius这样的人工智能方案;在网络边缘端可以用英特尔CPU和FPGA进行灵活的配置,来实现各种各样人工智能应用;在底层技术方面,英特尔有Nervana这样强大的人工智能的计算平台,实现高性能的人工智能计算,甚至是训练。所以说基于强大的人工智能平台,我们可以实现各个领域先进的应用。”
对于双方在人工智能方面的合作,钱学锋谈到主要有三点,第一通过英特尔高性能计算平台持续打造智能训练平台 、人工智能训练平台的一部分,进一步大幅度缩短创新时间。第二积极布局智能安防 ,目前采用Movidius平台的摄像机正在大规模市场推广,把人工智能引入前端应用,采用深度学习算法,实现对场景中运动人体目标图片的全覆盖提取。人脸捕获率、准确率大幅度提升。 第三是大力发力智能制造。通过X86平台,海康机器人采用Movidius平台的摄像机,实现智能制造的深度识别和精确引导。
对于未来,钱学锋认为将继续深入视频物联网技术合作,继续在Movidius平台上加强前端创新研发、优化性能;在云后端,海康威视自研服务器类产品全面上市和深入市场合作;通过PURLEY 高端产品,打造未来智能服务器类标杆。实现海康威视成为全球领先的以视频为核心的物联网解决方案提供商的目标。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。