情感语音交互模型初创公司宇生月伴近日完成新一轮融资,由靖亚资本和小苗朗程领投,菡源资产(上海交大母基金)跟投,心流资本FlowCapital担任长期财务顾问。本轮融资将用于语音模型的持续优化、产品矩阵拓展及国际化商业落地。作为国内首家聚焦“情感语音交互”的模型公司,宇生月伴正重新定义AI时代的语音交互范式。
宇生月伴由上海交通大学计算机学院特聘教授、听觉认知与计算声学研究中心负责人钱彦旻教授创办,并获校方千卡集群算力资源支持。钱教授深耕语音识别和翻译、音频生成与理解,口语对话和情感交互等听觉人工智能研究,曾获教育部长江学者、国家优青、吴文俊人工智能自然科学一等奖、交大睿远青年科技奖等荣誉,主导建设国内领先的听觉人工智能和计算声学相关技术的研究。其技术成果已在民用和军用领域得到大规模应用。联合创始人梅杰系浙大背景的连续创业者,曾成功创办多家科技公司,具备深厚的产品化与市场化经验,带领团队实现从技术原型到商业落地的快速闭环。
宇生月伴的技术研发体系可追溯至上海交大听觉认知和计算声学研究中心,历经十余年在听觉人工智能方向的持续深耕,已构建起覆盖语音识别、语音合成、对话理解、情感分析与多模态交互的全栈技术体系。团队在NeurIPS、ACL、IJCAI、ICASSP、INTERSPEECH、T-ASLP等在人工智能、机器学习和语音听觉等国际顶会和期刊累计发表论文300余篇,是当前国内语音大模型赛道中技术体系最完整、科研深度最强、工程转化能力最突出的科研团队之一。
当前主流语音模型仍采用传统模块化架构,将语音活动检测(VAD)、语音识别(ASR)、大语言模型(LLM)与语音合成(TTS)级联部署,各模块间缺乏协同优化,导致交互延迟高、节奏不自然、上下文理解受限,无法支撑情感化、人性化的多轮语音对话。
宇生月伴以Luna-1为核心,率先构建全球领先的端到端语音交互架构,融合语义级VAD、情感型SLM(Speech-Language Model)、自然拟人TTS与流式响应机制,打通语音输入到语音输出的低延迟闭环。相较传统架构,Luna-1显著提升了上下文理解、情感表达与多模态联动能力,可广泛适配语音对话、同声传译、个性化语音生成、播客、ASMR等高复杂度语音交互与生成场景。在VoiceBench权威测评中,Luna-1以79.05分紧随GPT-4o-Audio(86.42),在中文语境下展现出强泛化、低延迟与稳定性兼具的领先表现,成为全球语音大模型中的最优解之一。
尤为突出的是,在语音口语对话模型上,其低延迟流式交互能力(RTF<0.3)显著领先业界主流语音模型。相比之下,目前广受资本追捧的ElevenLabs,虽在TTS方向具有极高自然度和音色还原度,但在语音对话交互上仍以模块化拼接结构为主,在“识别+理解+生成”一体化上尚未实现端到端整合。ElevenLabs目前估值超30亿美元,ARR近亿美元,在过去一年内连续完成多轮融资,投资方包括a16z、Nat Friedman等明星投资人。宇生月伴则在模型架构的完整性、流式响应能力、语音理解深度和框架扩展灵活性方面,具备实质性超越潜力。
在训练与推理成本方面,宇生月伴通过端到端架构与轻量化优化策略,显著降低了模型参数量与推理资源占用,将模型的训练周期和推理延迟压缩至业内领先水平,更适配边缘部署与低成本商用落地,具备更强的规模化复制能力与商业化优势。
在产业实践方面,钱教授团队已与三星、蚂蚁集团、美团、腾讯、紫光展锐等国内外头部企业在语音识别、语音合成、语音翻译及对话交互等方向开展合作,积累了丰富的行业落地经验。宇生月伴计划在本轮融资后进一步拓展海外市场和消费场景,探索与开源模型社区、内容平台及消费级应用深度合作,通过API平台及语音Agent赋能开发者与用户,打造“模型+工具+平台”的多层生态体系,并成为语音应用生态中的关键基础设施。公司目标是在情感理解与表达、语音个性化生成、多语种翻译和流式人机对话四大方向上构建行业标准,引领语音交互进入“拟人对话”的新阶段。
公司正在招聘推理优化工程师、语音大模型算法工程师、Agent算法工程师等岗位,欢迎投递,投递邮箱careers@lunalabs.cn。
投资人观点
靖亚资本合伙人骆银银表示: 宇生月伴团队兼具语音AI领域顶尖的技术水平和敏锐的商业嗅觉。钱教授及其团队自主研发了业内领先水平的端到端多模态语音对话大模型,相较于传统级联模型,在对话延时、识别准确度及高情感表现力语音合成等方面具备明显优势,且可端侧部署,为项目的落地和未来发展提供了坚实的技术基础。借助先进的平台技术,公司有望在消费,视频,翻译,教育等多个领域实现国际化商业落地,市场前景广阔。
小苗朗程合伙人赵沛舟表示:情感语音交互的拐点已到,端到端轻量化架构与低延迟流式能力将决定下一轮入口级机会。依托创始人上海交大钱彦旻老师团队的深厚沉淀,宇生月伴团队打造了综合性能领先且颇具特色的语音模型。小苗朗程深耕高校科技成果转化,团队高校顶尖教授+连续成功创业者的组合是我们看好的最优配置。期待宇生月伴未来能实现技术深度与场景宽度的共振,不断拓展语音智能的边界。
菡源资产(上海交大母基金)投资团队表示: AI 革命浪潮下,语音将成为与AI交互的最重要范式之一。融合语音、语义、情感交互的多模态智能大模型是技术演进的长期方向,也将推动新一代AI语音大模型的发展和产品应用落地。上海交大菡源资产深度认可由钱彦旻教授带领的交大听觉认知与计算声学研究团队,并看好宇生月伴在情感语音交互大模型领域的技术根基与产业转化潜力。本轮投资不仅是对其技术实力的肯定,更是对交大人工智能科研转化能力的战略加注。
文章来自微信公众号 “ Z Finance “
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【免费】ffa.chat是一个完全免费的GPT-4o镜像站点,无需魔法付费,即可无限制使用GPT-4o等多个海外模型产品。
在线使用:https://ffa.chat/
【开源免费】VideoChat是一个开源数字人实时对话,该项目支持支持语音输入和实时对话,数字人形象可自定义等功能,首次对话延迟低至3s。
项目地址:https://github.com/Henry-23/VideoChat
在线体验:https://www.modelscope.cn/studios/AI-ModelScope/video_chat
【开源免费】Streamer-Sales 销冠是一个AI直播卖货大模型。该模型具备AI生成直播文案,生成数字人形象进行直播,并通过RAG技术对现有数据进行寻找后实时回答用户问题等AI直播卖货的所有功能。
项目地址:https://github.com/PeterH0323/Streamer-Sales