春节期间,一款智能作诗拜年H5在亲朋好友间大规模地传播开来。据人民日报统计,产品上线6天的点击量就超过了1100万。
这是百分点联合人民日报和全国党媒信息公共平台等机构推出“中国首个智能作诗送祝福应用——AI李白”。
当古典诗词与现代风触碰到AI技术后,生成出一首首个性化诗词,祝福不再千篇一律,乘着拜年的习俗、伴着祝福的味道,让很多人都体会了“一秒变李白”的神奇,也让使用AI技术成为了拜年新风尚。
一、中国首个智能作诗送祝福应用
中国是“礼仪之邦”,春节拜年是中国优秀传统文化的集中展示。通过使用人工智能技术,由机器作出个性化的诗句,“AI李白”成为了中国首个被大量人群使用的智能作诗拜年送祝福的应用。区别于其他智能作诗应用,“AI李白”具有三个特点:
智能化:在研发阶段,考虑到诗词中有自己的平仄韵律美和组合规律,传统的N-Gram语言模型表达能力有限,无法较好的处理长距离的上下文语言依赖问题。因此,百分点NLP团队利用先进的深度神经网络技术,训练出以春节祝福为主题的诗词自动生成模型。
个性化:
“AI李白”不仅可以支持使用者向亲人、朋友、师长、领导、爱人等拜年,还可以提供不同的风格和形式,不仅有唐诗、宋词,还有祝福语、现代风、Freestyle等风格和形式,来满足中国人在新春佳节互相拜年的需求。
趣味性:
为了让大家在春节期间玩起来,增加了互动性和趣味性,在唐诗和宋词中特别地支持用户输入个性化的4-8个字的祝福语句,从而生成个性化诗词,并且在生成页面用高亮的呈现效果散落在诗词中。
中国是一个诗的国度,中国人的诗心一直在,“为你写诗”的AI李白,借AI技术在春节期间激活了中国人的诗情。因其兼具祝福的高雅性和趣味性,通过在人民日报平台、腾讯客户端广泛的传播后,据人民日报统计,产品上线6天的点击量就超过了1100万,成为春节送祝福产品中被广泛好评的爆款。
二、AI技术与古典文化的碰撞
“AI李白”H5由人民日报和全国党媒信息公共平台策划出品,百分点提供技术支持,从开始的创意策划、研发到优化、测试、上线,时间只有短短数周,在H5上线后百分点和人民日报中央厨房相关团队一起全程保障产品运行。
在整体设计上,“AI李白”产品是百分点卓越的自然语言处理技术与中国传统文学典籍的巧妙结合,是技术+艺术的美好尝试。 具体表现在:
首先,以深度神经网络展现诗词韵律美。
百分点首席算法科学家苏海波博士介绍,百分点NLP团队利用了先进的深度学习技术,采用长短期记忆网络模型LSTM(Long-Short-Term Memory),结合大规模的诗词训练语料,自动学习发现诗词中的特征和规律,捕获上下文复杂的语言依赖关系,从而训练出智能作诗的模型。尤其是在宋词中,五十多个词牌模型全部依靠AI习得。
其次,80余万首诗词构建为大规模数据集。
为了达到更好的生成效果,在对诗词上下文建模中,采用的训练语料包括全部的唐诗、宋词、诗经以及经典的现代散文和现代诗共计80万首,构建了大规模的数据集。
第三,以词向量技术呈现春节祝福主题。
在相关诗词专家团队的指导下,利用词向量(Word2Vec)技术发现与春节语义相关的词汇,并智能化填入各种风格的诗词中,呈现出春节送祝福的美好意境。
第四,个性化祝福。
为了保证用户插入的祝福语满足诗词自身的平仄和谐,百分点NLP团队运用了启发式搜索技术实现了这种插入逻辑,而且在前端还支持用户上传自己的照片,最终让用户生成的每一首诗词都是满满的个性化祝福。
最重要的是智能审核环节。为保障诗词中不出现黄色、非法或广告词汇,在本项目中所使用的敏感词审核系统是百分点为主流媒体机构开发并实际使用的一款智能审核系统,系统中包括数万条的敏感词库,结合先进的机器学习算法,可以实现各种敏感词变种识别,并且从训练语料库、输入环节、生成诗词的各个阶段都有极为严苛的技术保障。
三、NLP:懂语言者得天下
在春节之际,“AI李白”让人们使用人工智能技术写诗,传承了民族文化、弘扬中华经典,同时,也是百分点NLP技术能力的一次对外展示。未来,在深度学习算法持续升级换代,以及在大量用户使用中积累了更多数据集后,系统将持续进行自学习、自优化。可以预想,“AI李白”会越来越贴近人写诗的效果。
中国正成为全球人工智能(AI)行业领军者,人工智能应用逐渐走进各行各业,让人类生活更加美好。对比人工智能在视觉(图像)、听觉(语音)等的感知能力突飞猛进,认知智能应用在引入深度学习方面还需要深化。但因NLP处于认知智能最核心的地位,被比尔·盖茨形容为“人工智能皇冠上的明珠”,自然语言处理的技术的发展将会推动人工智能整体的进展。
实际上,NLP不仅是可以应用于诗词的自动生成,还可应用在智能推荐、智能搜索、智能校验、智能问答、智能商情等众多的业务场景,百分点在这些方面积累了丰富的业务实践经验,覆盖新零售、媒体出版、公安、教育等行业,未来在“NLP+”方面将会有越来越多的落地项目。
好文章,需要你的鼓励
zip2zip是一项创新技术,通过引入动态自适应词汇表,让大语言模型在推理时能够自动组合常用词组,显著提高处理效率。由EPFL等机构研究团队开发的这一方法,基于LZW压缩算法,允许模型即时创建和使用"超级tokens",将输入和输出序列长度减少20-60%,大幅提升推理速度。实验表明,现有模型只需10个GPU小时的微调即可适配此框架,在保持基本性能的同时显著降低计算成本和响应时间,特别适用于专业领域和多语言场景。
这项研究创新性地利用大语言模型(LLM)代替人类标注者,创建了PARADEHATE数据集,用于仇恨言论的无毒化转换。研究团队首先验证LLM在无毒化任务中表现可与人类媲美,随后构建了包含8000多对仇恨/非仇恨文本的平行数据集。评估显示,在PARADEHATE上微调的模型如BART在风格准确性、内容保留和流畅性方面表现优异,证明LLM生成的数据可作为人工标注的高效替代方案,为创建更安全、更具包容性的在线环境提供了新途径。
这项研究由中国科学技术大学的研究团队提出了Pro3D-Editor,一种新型3D编辑框架,通过"渐进式视角"范式解决了现有3D编辑方法中的视角不一致问题。传统方法要么随机选择视角迭代编辑,要么同时编辑多个固定视角,都忽视了不同编辑任务对应不同的"编辑显著性视角"。Pro3D-Editor包含三个核心模块:主视角采样器自动选择最适合编辑的视角,关键视角渲染器通过创新的MoVE-LoRA技术将编辑信息传递到其他视角,全视角精修器修复并优化最终3D模型。实验证明该方法在编辑质量和准确性方面显著优于现有技术。
这项研究提出了ComposeAnything,一个无需重新训练的框架,可显著提升AI图像生成模型处理复杂空间关系的能力。该技术由INRIA、巴黎高师和CNRS的研究团队开发,通过三个创新步骤工作:首先利用大型语言模型创建包含深度信息的2.5D语义布局,然后生成粗略的场景合成图作为先验指导,最后通过物体先验强化和空间控制去噪引导扩散过程。在T2I-CompBench和NSR-1K基准测试中,该方法远超现有技术,特别是在处理复杂空间关系和多物体场景时表现卓越,为AI辅助创意设计开辟新可能。