京东言犀语音合成与数字人大模型：AI赋能营销新时代

author 2025-02-23 共3人围观，发现0个评论

在AI技术蓬勃发展的当下，大语言模型固然备受瞩目，但另一项技术——AI语音合成与数字人技术，也在配音、直播、客服等领域展现出巨大的应用潜力。京东言犀近期发布的两项技术成果——LiveTTS语音合成大模型和通用数字人大模型2.0，为我们展现了这一技术的最新进展，也预示着AI营销服务市场的巨大增长空间。

LiveTTS：高仿真、低门槛的语音合成引擎 LiveTTS作为一款高仿真、多语言、情感丰富的语音合成大模型，其核心优势在于极低的准入门槛和极高的仿真度。只需提供短短3秒的音频素材，即可实现zero-shot音色复刻和精品音色微调，这得益于其基于Diffusion架构，并利用20万小时语音数据进行训练。相比其他头部厂商的模型，LiveTTS在SeedTTS test-hard测试中，CER指标(字符错误率)降低了0.2%-5.12%，主观评价MOS评测也显示其在音色相似度、自然清晰度、情感表达一致性方面均表现出色，音色相似度更是超越其他竞品1.3倍。此外，LiveTTS结合中文拼音与英文音素双输入系统，并采用高质量的HiFt声码器，实现了超98%的声纹还原精度，支持中、英、日等多语种及方言合成，适用场景涵盖儿童俏皮声到老年人沉稳语调等多样化需求。在2024年京东11.11期间，LiveTTS单日调用量超过1000万次，成本降低了90%，极大提升了直播、配音、外呼等行业的效率。

通用数字人大模型2.0：精准声唇同步，赋能多元场景京东言犀的数字人技术已广泛应用于电商直播、客服接待、短视频制作等场景，服务商家超过7500家。然而，数字人技术的规模化应用面临着数据采集成本高、模型训练周期长、推理效果难泛化等挑战。为了克服这些难题，言犀团队研发了新一代声唇同步数字人基座模型，采用创新的多阶段基模型训练方法和多图参考的多层注意力机制。该模型参数量达到亿级，显著提升了数字人在遮挡、大角度、多语速、跨音色和多语言等场景下的应用能力。即使在动态背景、多人直播等复杂场景中，其唇形匹配度仍高达95%，展现出优异的泛化能力。

依托于新一代数字人基座大模型，仅需一张带人像的图片或短视频以及商品链接，言犀即可自动生成流畅丰富的带货脚本，并结合LiveTTS生成情绪化口播，使数字人更生动形象。这一模式彻底改变了传统冗长的数字人模型训练流程，实现了直接推理，大幅降低了成本，并将数字人的应用边界扩展至视频翻译等低数据量场景。除了直播外，平台还能生成数十条不同风格的数字人种草短视频，将制作时间从72小时压缩至分钟级，成本也降低至传统的十分之一。

结语：AI赋能，共筑营销新生态京东言犀发布的LiveTTS语音合成大模型和通用数字人大模型2.0，并非简单的技术竞赛，而是致力于降低AI应用门槛，推动AI技术在短视频合成、数字人直播、视频翻译、数字人唱歌跳舞等多个商业化场景的普及应用。作为中小商家的AI营销助手，言犀将持续开发更多满足营销需求的技术和产品，助力AI生产力在营销领域更好地落地，推动AI与营销的深度融合，共创营销新生态。

上一篇：马斯克的Grok 3：野心勃勃的AGI竞赛新玩家？下一篇：在巨变时代：投资与应对