语言学学生以跨学科优势聚焦AI语音合成情感与语义表达

作者:匿名点击数:741    |    加入时间:2024-09-12 20:09:11

随着当下大语言模型(如ChatGPT)技术的飞速发展,AI语音合成技术已经在多个领域展现出惊人的能力。从虚拟助手到新闻播报,从有声读物到客服代表,AI语音的应用越来越广泛,但仍存在生硬死板、情感传达困难等问题。因此,提高其仿真程度,成为眼下AI发展的重中之重。

上海外国语大学语言研究院学生积极响应国家大力支持人工智能作为前沿科技领域的“最高优先级”稳健发展,鼓励生成式人工智能在各行业、各领域的创新应用的政策,针对目前市面上现有的AI语音合成产品语音生硬死板、语速同质化、音色同质化等问题,在广泛社会调研、专题访谈的基础上,致力于探究AI语音各超音段特征与情感表达之间的关系,并建立情感表达标准化体系,进而助力各大人工智能语音平台向用户体验优化和接受程度提高方向发展。

自项目立项开始,同学们积极发扬攻坚克难精神,以“情感+语音〞为中心,深入开展社会调研,发掘新颖的切入角度。在基本确定研究内容后,项目成员们虚心请教专家意见,沉潜打磨研究方案,广泛收集有效数据,以市场需求为核心导向,以专业知识为科学引领,精准对标各大互联网公司技术短板,致力于实现人工智能语音合成产品音色自然、情感丰富、表意精确、体验良好,进而推动科学技术、AI语音生成技术更好地服务、造福人类社会。

项目结合语言研究院院系特色,利用实验语音声学技术,尝试将较为抽象的超音段特征进行细化,基本拆分为停顿、音高、音强、语调、方言口音几大方向,并通过精细量化的方式,探究用户在特定预设情绪下与指定指标音频交互后的听感,根据反馈情况明确该指标在何种值域下对特定预设情绪的表现更为准确,为人工智能产业具体优化提供可参考的标准化体系。

据了解,为了具体量化用户对AI合成语音的情感感知和评估,项目借助实证研究的手段,立足中文语境,以跨学科的办法,结合PAD三维情感量表、实验语音学、计算机等跨学科技术,将用户感性体验直观化、客观化,为研究成果科学性提供关键性、建设性数据支持。同时,项目结合指导老师研究团队的前期和近期学术成果和实验范式,基于上海市科委自然科学基金面上项目,就真实度影响言语表情跨模态整合的认知神经基础在语音转化方向上进行逐步探索,并初步得出实践结论,为AI合成语音产品优化提供可行性建议与实践性参考。

在整个创新实践过程中,同学们立足亲身测试和市场调研,使用包括腾讯、科大讯飞、字节跳动、喜马拉雅、OpenAI等知名互联网公司在内的大小AI语音合成产品共15个进行调试、使用与评估,同时结合线上调查、线下访谈,收集25名用户反馈。在此基础上,同学们总结结论并进一步设计和开展科创实验探究,采用心理语言学和实验语音学交叉的实验设计方法,依据喜悦、恐惧、愤怒、悲伤4种基本情绪,构建4套分别按照5种停顿方式共20条AI语音音频,并围绕三大探究问题相对应地设计了12组问卷。根据头部AI语音合成平台主要用户,以年龄段20-40周岁的共90名被试为调查对象,获得了180份问卷,总计60480条有效数据。全体项目成员始终坚持将产品、用户、科技三者紧密结合,将商业价值、社会效益与学术进步扭成一股绳,充分激发“产·学·研”联动效应,在实验结论基础上对产品超音段特征层面具体优化、企业技术研发发展战略等提出新颖独特而颇具参考价值的建议,为人工智能与语音生成相关产业发展提供理论支持及多种实践数据模型。

该项目也将持续开展研究,试图以语言学等跨学科领域为研究方向,在此基础上持续研究各个其他超音段特征与其匹配的数据标准,以求的精确的、合适的情感表达机制,为AI语音生成技术中提供数据与应用支持,为AI情感合成语音技术带来规范化条件,为社会广大用户提供更优质的使用体验。

上海青创大学生创业服务基金会 康雪供稿

本文地址:http://rsh48.shang156.com/article/detail/id/1082812.html
声明:本站原创/投稿文章由编辑发布,所有权归每日上海网所有,转载务必注明来源;文章仅代表原作者观点,不代表每日上海网立场;如有侵权、违规,可直接反馈本站,我们将会作删除处理。

打印
更多新闻
09月
20
09月
19
洋河大曲遇见老朋友群星演唱会

点击数:180
加入时间:2024-09-19
09月
18
抗结核实践展风采,众学子行动护肺安

点击数:160
加入时间:2024-09-18