日本名古屋大学发布首个能同时听说的日语AI对话系统J-Moshi
日本名古屋大学的Higashinaka实验室近日取得了突破性进展,推出了J-Moshi——首个公开可用的、能够模仿日语对话模式的人工智能系统。这一系统不仅能够像人类一样说话,还能同时聆听并作出自然回应,特别是能够使用日语中特有的“あいづち”(aizuchi),即通过简短的口头反馈表明自己在倾听和参与对话。这些反馈包括“そうですね”(Sou desu ne)和“なるほど”(Naruhodo)等常用词语,使得对话更加流畅和自然。 J-Moshi的研发团队由名古屋大学信息学研究生院Higashinaka实验室的研究人员组成,他们基于非营利研究机构Kyutai开发的英文Moshi模型进行了优化和改进。整个开发过程耗时约四个月,使用了多个日语语音数据集进行训练,其中最大的数据集来自东京大学发布的J-CHAT,包含约67,000小时的播客和YouTube音频。此外,团队还使用了一些实验室内部收集的高质量数据集以及20-30年前的数据集。为了增加训练数据量,研究人员还利用自研的文本转语音程序将书面聊天对话转换为人工语音。 2J-Moshi的演示视频在社交媒体上走红,吸引了大量的关注。除了技术上的创新,该系统在语言学习领域也展示了巨大的潜力,可以帮助非母语者练习和理解真实的日语对话模式。Higashinaka教授的团队还在探索其在呼叫中心、医疗保健和客户服务等商业领域的应用。他们在大阪NIFREL水族馆部署了AI导览机器人,这些机器人可以独立处理日常的互动任务,并在遇到复杂问题时迅速将用户引导到人类操作员。 尽管取得了显著进展,J-Moshi仍面临一些挑战。日本语音资源的稀缺限制了系统的进一步训练,隐私问题也是需要考虑的重要因素。为此,研究人员采取了创新的数据处理方法,如使用计算机程序从播客录音中分离出各个说话者的声轨。另一个问题是对话系统在复杂的社交环境中表现不佳,特别是当需要考虑人际关系和物理环境时。面部遮挡(如口罩)也会干扰机器人的视觉感知,导致对话中的重要线索丢失。尽管如此,J-Moshi目前仍需依赖人类操作员来应对大多数实际应用中的复杂情况。研究团队正在开发对话总结和对话中断检测等辅助技术,以便操作员能够及时介入并解决问题。 名古屋大学的研究人员定期在校园开放日向公众展示他们的工作成果,观众可以直接体验AI对话系统的发展。Higashinaka教授表示,他们的目标不仅是技术上的突破,更是希望通过这一系统实现人类与AI的无缝协作,从而提升各种场景下的服务品质。