扫码加入

  • 正文
  • 相关推荐
申请入驻 产业图谱

上海国投、IDG、华为,联手投了这家大模型公司

13小时前
198
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

张通社 zhangtongshe.com

一次从学术探索到产业落地的成功跨越。

近日,上海模思智能科技有限公司(以下简称“模思智能”)宣布完成数亿元天使轮融资。本轮由上海国投旗下上海科创集团、上海未来产业基金和IDG联合领投,元禾控股、奇绩创坛、智谱系基金星连资本、华为哈勃等联合投资。

模思智能成立于2024年,位于上海徐汇区,由上海创智学院与复旦大学联合孵化,是国内少数完成“全模态基座模型能力闭环”的初创公司之一,致力于构建统一Token表达框架下的“情境智能”能力,推动Agent系统在真实世界中的自主交互与任务执行。

从实验室到创业场复旦教授带队创业

模思智能的创始人邱锡鹏,是复旦大学计算机科学技术学院教授、博士生导师。他在自然语言处理领域深耕了近二十年,经历颇为特别。

1997年考入复旦大学时,邱锡鹏的本科专业并非计算机,甚至在此之前几乎没有碰过编程。正是复旦的通识课程让他第一次接触到计算机科学,从此一头扎了进去,先后获得理学学士和博士学位,2007年留校任教。

二十年间,邱锡鹏在ACL、EMNLP、AAAI、IJCAI等国际顶级会议和期刊上发表了五十多篇论文,主持开发的开源自然语言处理工具FudanNLP与FastNLP,至今仍被学界和工业界广泛使用。他写的《神经网络深度学习》被无数初学者称作“人工智能入门必读书”,影响了一代又一代AI研究者。

真正让邱锡鹏从学术圈走向公众视野的,是2023年。那一年,OpenAI发布ChatGPT不久,国内大模型领域几乎还是一片空白。邱锡鹏带领团队在2023年2月推出了类ChatGPT的对话式大模型MOSS,两个月后便正式开源,成为国内首个支持搜索、画图、计算等插件的开源中文对话模型。这一举动不仅填补了中文语境下的技术空白,也极大推动了大模型的开源研究生态。

怀揣着“让机器更懂人”的想法,2024年11月,邱锡鹏与自己的学生李世民共同创办了模思智能。公司中文名“模思”,正是“MOSS”的音译。这既是对过往科研成果的延续,也寄托着将实验室里的技术真正推向产业应用的期待。

模思智能的联合创始人兼CEO李世民,是邱锡鹏指导的2022级硕博连读研究生。据悉,他已在CCF-A类国际会议上以第一作者身份发表了三篇论文,并深度参与了科技部“新一代人工智能2030”重点研发项目。

在创业之前,他主导推出了SpeechGPT——国内首个离散化端到端语音交互模型。这一模型打破了传统语音系统“语音识别→对话模型→语音合成”的三级串联架构,实现了“语音输入→语音输出”的直接交互,被业内视为“语音版GPT”的早期雏形。

一位深耕学术近二十年的教授,加上一位在语音交互领域崭露头角的年轻博士生,师生搭档的创业组合,让模思智能从一开始就带着浓厚的“技术理想主义”色彩。

从MOSS到模思让AI真正“懂人”

模思智能的技术路线,核心在于对用户提供的上下文与情境进行深度理解,从而构建自然、拟人的交互体验。公司当前的主营业务聚焦在语音大模型应用领域,产品主要服务于游戏解说、直播电商、新闻播报等语音内容密集型场景。

2026年1月,上海创智学院OpenMOSS团队联合模思智能,正式发布了端到端音视频生成模型——MOVA(MOSS-Video-and-Audio)。

这一模型实现了真正意义上的“音画同出”:不仅能生成长达8秒、最高720p分辨率的视听片段,更在多语言口型同步、环境音效契合度上展现了很高的工业水准。尤其值得一提的是,MOVA在物理仿真层面表现出色——声音在这里不再是简单的背景音,而是具备空间感与质感的环境反馈。

在音视频生成赛道,国内外绝大多数模型都选择闭源,技术路线也不公开。例如Seedance2.0便不对外提供模型文件、不开放下载、不允许本地部署。而MOVA最大的不同,恰恰在于“完全开源”。

Sora 2和Veo 3等顶尖技术普遍走向闭源的当下,MOVA选择将模型权重、训练代码、推理代码以及微调方案进行全栈开源。邱锡鹏对此的解释很朴素:“选择开源是为了技术普惠,唯有开源才能吸引更多人参与研究,既推动技术快速进步,也助力国内开源生态建设。”

基于这一理念,MOVA不仅完整开源了360p、720p两个基础模型,还开源了微调、推理、生成工作流在内的全链路组件,支持二次开发、本地部署和学术研究。无论是做动漫还是游戏,开发者都可以以MOVA为“底座”,按照自己的需求和风格进一步优化——这对于中小团队和垂直场景的低成本落地尤其友好。

除了MOVA,模思智能近期还发布并开源了MOSS-TTS Family,一套面向高保真、高表现力与复杂场景生成的语音生成模型家族,包含五个核心成员:

MOSS-TTS:高保真、高表现力的语音生成基座,多语言、长音频、精确时长控制;

MOSS-TTSD:全面更新至1.0版本,面向真实对话场景的多说话人语音合成,包括但不限于播客等更多复杂对话场景;

MOSS-VoiceGenerator:复杂文本指令跟随、用于音色与角色设计;

MOSS-SoundEffect:环境音与音效生成模型;

MOSS-TTS-Realtime:面向实时交互的实时流式TTS模型。

从文字大模型MOSS,到音频系列大模型MOSS-TTS-Family,再到音视频生成大模型MOVA,邱锡鹏团队正在一步步将“让机器更懂人”的理想变成现实。

耐心资本与硬核科技的“双向奔赴”

数亿元的天使轮融资,对于一家成立仅一年半的初创企业而言,无疑是一针强劲的发展强心剂。而在这笔重磅融资的背后,上海科创集团是不可或缺的关键赋能者。

作为上海科创策源战略的重要实施者,上海科创集团一直坚持“投早、投小、投长期、投硬科技”的策略。2024年,上海国投公司与上海创智学院签署深化合作协议,围绕项目孵化、研究成果共享与人才联合培养等关键环节,协同打造科创策源能力,建立产投研联动生态,共同推动人工智能领域在“AI for Innovation”方向的深度融合。

模思智能,正是这一创新生态下孵化培育出的标杆性项目。

从学术明星到创业者,邱锡鹏的转型之路,几乎完美契合了上海科创集团的投资逻辑:不追逐短期的风口,而是深耕底层技术,陪伴真正有潜力的科研团队完成从实验室到市场的跨越。上海科创集团并非单纯的财务投资人,其更早洞察到MOSS系列技术在多模态交互领域的巨大潜力,在公司初创阶段便给予了关键性支持。

本轮融资中,与上海科创集团一同出现的,还有上海未来产业基金、IDG资本、元禾控股、奇绩创坛、智谱系基金星连资本等机构。值得一提的是,华为哈勃也参与了本轮投资。这些机构的集体跟进,既是市场对模思智能技术潜力的认可,也是对上海科创集团产业赋能模式的有力信任投票。

从“MOSS”到“模思”,这不仅是名称的简单延续,更是从学术探索到产业落地的成功跨越。邱锡鹏和他的学生李世民,用近二十年的学术积累和一年半的创业狂奔,证明了中国的AI原创技术不仅可以在顶会论文中发光,也可以在真实的商业场景中创造价值。

而对于上海而言,模思智能的成长轨迹,也提供了一个值得细细品味的样本:当耐心资本与硬核科技相遇,当高校的原创成果与产业的需求对接,一个更具生命力与创造力的AI创新生态正在上海加速成型。正如邱锡鹏所说,技术普惠的终点,是让更多人参与进来,共同推动进步——而模思智能的故事,或许才刚刚开始。

文字|昼屿      编辑|益达

相关推荐

登录即可解锁
  • 海量技术文章
  • 设计资源下载
  • 产业链客户资源
  • 写文章/发需求
立即登录

公众号:张通社;源于张江,联通创新,服务社会!张通社以链接每一家科技企业为目标,以数据为驱动,为地方政府、科技园区、投资机构、银行、券商、律所、会所、知识产权等企业服务机构第一时间提供科技企业的需求信息,解决科技企业与服务机构之间的信息不对称问题。