上海国投、IDG、华为，联手投了这家大模型公司

张通社 zhangtongshe.com

一次从学术探索到产业落地的成功跨越。

近日，上海模思智能科技有限公司（以下简称“模思智能”）宣布完成数亿元天使轮融资。本轮由上海国投旗下上海科创集团、上海未来产业基金和IDG联合领投，元禾控股、奇绩创坛、智谱系基金星连资本、华为哈勃等联合投资。

模思智能成立于2024年，位于上海徐汇区，由上海创智学院与复旦大学联合孵化，是国内少数完成“全模态基座模型能力闭环”的初创公司之一，致力于构建统一Token表达框架下的“情境智能”能力，推动Agent系统在真实世界中的自主交互与任务执行。

从实验室到创业场复旦教授带队创业

模思智能的创始人邱锡鹏，是复旦大学计算机科学技术学院教授、博士生导师。他在自然语言处理领域深耕了近二十年，经历颇为特别。

1997年考入复旦大学时，邱锡鹏的本科专业并非计算机，甚至在此之前几乎没有碰过编程。正是复旦的通识课程让他第一次接触到计算机科学，从此一头扎了进去，先后获得理学学士和博士学位，2007年留校任教。

二十年间，邱锡鹏在ACL、EMNLP、AAAI、IJCAI等国际顶级会议和期刊上发表了五十多篇论文，主持开发的开源自然语言处理工具FudanNLP与FastNLP，至今仍被学界和工业界广泛使用。他写的《神经网络与深度学习》被无数初学者称作“人工智能入门必读书”，影响了一代又一代AI研究者。

真正让邱锡鹏从学术圈走向公众视野的，是2023年。那一年，OpenAI发布ChatGPT不久，国内大模型领域几乎还是一片空白。邱锡鹏带领团队在2023年2月推出了类ChatGPT的对话式大模型MOSS，两个月后便正式开源，成为国内首个支持搜索、画图、计算等插件的开源中文对话模型。这一举动不仅填补了中文语境下的技术空白，也极大推动了大模型的开源研究生态。

怀揣着“让机器更懂人”的想法，2024年11月，邱锡鹏与自己的学生李世民共同创办了模思智能。公司中文名“模思”，正是“MOSS”的音译。这既是对过往科研成果的延续，也寄托着将实验室里的技术真正推向产业应用的期待。

模思智能的联合创始人兼CEO李世民，是邱锡鹏指导的2022级硕博连读研究生。据悉，他已在CCF-A类国际会议上以第一作者身份发表了三篇论文，并深度参与了科技部“新一代人工智能2030”重点研发项目。

在创业之前，他主导推出了SpeechGPT——国内首个离散化端到端语音交互模型。这一模型打破了传统语音系统“语音识别→对话模型→语音合成”的三级串联架构，实现了“语音输入→语音输出”的直接交互，被业内视为“语音版GPT”的早期雏形。

一位深耕学术近二十年的教授，加上一位在语音交互领域崭露头角的年轻博士生，师生搭档的创业组合，让模思智能从一开始就带着浓厚的“技术理想主义”色彩。

从MOSS到模思让AI真正“懂人”

模思智能的技术路线，核心在于对用户提供的上下文与情境进行深度理解，从而构建自然、拟人的交互体验。公司当前的主营业务聚焦在语音大模型应用领域，产品主要服务于游戏解说、直播电商、新闻播报等语音内容密集型场景。

2026年1月，上海创智学院OpenMOSS团队联合模思智能，正式发布了端到端音视频生成模型——MOVA（MOSS-Video-and-Audio）。

这一模型实现了真正意义上的“音画同出”：不仅能生成长达8秒、最高720p分辨率的视听片段，更在多语言口型同步、环境音效契合度上展现了很高的工业水准。尤其值得一提的是，MOVA在物理仿真层面表现出色——声音在这里不再是简单的背景音，而是具备空间感与质感的环境反馈。

在音视频生成赛道，国内外绝大多数模型都选择闭源，技术路线也不公开。例如Seedance2.0便不对外提供模型文件、不开放下载、不允许本地部署。而MOVA最大的不同，恰恰在于“完全开源”。

在Sora 2和Veo 3等顶尖技术普遍走向闭源的当下，MOVA选择将模型权重、训练代码、推理代码以及微调方案进行全栈开源。邱锡鹏对此的解释很朴素：“选择开源是为了技术普惠，唯有开源才能吸引更多人参与研究，既推动技术快速进步，也助力国内开源生态建设。”

基于这一理念，MOVA不仅完整开源了360p、720p两个基础模型，还开源了微调、推理、生成工作流在内的全链路组件，支持二次开发、本地部署和学术研究。无论是做动漫还是游戏，开发者都可以以MOVA为“底座”，按照自己的需求和风格进一步优化——这对于中小团队和垂直场景的低成本落地尤其友好。

除了MOVA，模思智能近期还发布并开源了MOSS-TTS Family，一套面向高保真、高表现力与复杂场景生成的语音生成模型家族，包含五个核心成员：

MOSS-TTS：高保真、高表现力的语音生成基座，多语言、长音频、精确时长控制；

MOSS-TTSD：全面更新至1.0版本，面向真实对话场景的多说话人语音合成，包括但不限于播客等更多复杂对话场景；

MOSS-VoiceGenerator：复杂文本指令跟随、用于音色与角色设计；

MOSS-SoundEffect：环境音与音效生成模型；

MOSS-TTS-Realtime：面向实时交互的实时流式TTS模型。

从文字大模型MOSS，到音频系列大模型MOSS-TTS-Family，再到音视频生成大模型MOVA，邱锡鹏团队正在一步步将“让机器更懂人”的理想变成现实。

耐心资本与硬核科技的“双向奔赴”

数亿元的天使轮融资，对于一家成立仅一年半的初创企业而言，无疑是一针强劲的发展强心剂。而在这笔重磅融资的背后，上海科创集团是不可或缺的关键赋能者。

作为上海科创策源战略的重要实施者，上海科创集团一直坚持“投早、投小、投长期、投硬科技”的策略。2024年，上海国投公司与上海创智学院签署深化合作协议，围绕项目孵化、研究成果共享与人才联合培养等关键环节，协同打造科创策源能力，建立产投研联动生态，共同推动人工智能领域在“AI for Innovation”方向的深度融合。

模思智能，正是这一创新生态下孵化培育出的标杆性项目。

从学术明星到创业者，邱锡鹏的转型之路，几乎完美契合了上海科创集团的投资逻辑：不追逐短期的风口，而是深耕底层技术，陪伴真正有潜力的科研团队完成从实验室到市场的跨越。上海科创集团并非单纯的财务投资人，其更早洞察到MOSS系列技术在多模态交互领域的巨大潜力，在公司初创阶段便给予了关键性支持。

本轮融资中，与上海科创集团一同出现的，还有上海未来产业基金、IDG资本、元禾控股、奇绩创坛、智谱系基金星连资本等机构。值得一提的是，华为哈勃也参与了本轮投资。这些机构的集体跟进，既是市场对模思智能技术潜力的认可，也是对上海科创集团产业赋能模式的有力信任投票。

从“MOSS”到“模思”，这不仅是名称的简单延续，更是从学术探索到产业落地的成功跨越。邱锡鹏和他的学生李世民，用近二十年的学术积累和一年半的创业狂奔，证明了中国的AI原创技术不仅可以在顶会论文中发光，也可以在真实的商业场景中创造价值。

而对于上海而言，模思智能的成长轨迹，也提供了一个值得细细品味的样本：当耐心资本与硬核科技相遇，当高校的原创成果与产业的需求对接，一个更具生命力与创造力的AI创新生态正在上海加速成型。正如邱锡鹏所说，技术普惠的终点，是让更多人参与进来，共同推动进步——而模思智能的故事，或许才刚刚开始。

文字｜昼屿编辑｜益达

上海国投、IDG、华为，联手投了这家大模型公司

从实验室到创业场复旦教授带队创业

从MOSS到模思让AI真正“懂人”

相关推荐