小米要更技术。

 

雷军不止一次这样强调。在《新闻联播》采访中,在 MIDC 2020 小米开发者大会现场,「技术」都是这位小米集团创始人&董事长强调最多的词汇。

 

 

崔宝秋也是这样反复布道的,他是小米集团副总裁、小米技术委员会主席,从最初打造小米大数据,到后来成为小米 AI 的核心引擎和业务,以及在底层框架方面的种种努力,并成功吸引到全球 AI 语音大牛、Kaldi 之父 Daniel Povey……在接受采访时,他认为小米的技术底色正在越来越外显。

 

在今年小米开发者大会上,小米还官宣了 5000 名工程师的招聘计划——史无前例。

 

 

这是大众印象中鲜于看到的那一面,对于小米的关注,集中于产品,不常深入技术甚至底层。

 

但如果问现场开发者,「小米很技术」,甚至不需要论证。

 

小米展示了哪些技术?

「我感觉小米最大的变化,可能不再是一个简单的手机厂,手机只是小米推整个家庭物联网的抓手。」

 

MiNLP 3.0、新版 Kaldi、MACE Micro、NuttX 操作系统、小米 Vela 物联网软件平台……

 

以上已经或即将开放的技术,都是过去一年由小米自研,或者小米在其中做出了重要贡献。

 

一位开发者向我们说:今天干货非常多,小米今年真的是开了场技术大会。

 

但究竟如何技术?

 

不妨先先从 6 大技术发布总结,来快速了解今年的小米开发者大会。

 

语音识别工具包新一代 Kaldi

去年,小米将语音界 AI 大神 Daniel Povey 招募进来,他是最流行的语音识别工具包 Kaldi 的开发者。

 

加入小米一年,Daniel Povey 设计并开发出了新一代 Kaldi。

 

新一代 Kaldi 分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

 

 

Lhotse(训练数据准备部分)将替代以前 Kaldi 中所有数据准备相关的工作,操作各种音频和文本的元数据。

 

Lhotse 除了 Kaldi 本身,也适用于其他应用。而且 Lhotse 纯 Python 代码,方便易用。

 

 

Icefall(示例脚本集合部分)将代替 Kaldi 中的示例脚本集合,并独立成为一个单独的子项目。

 

 

之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

 

新一代 Kaldi 的核心部分叫“k2”。

 

k2 可以让开发者很容易在 PyTorch/TensorFlow 中实现各种语音识别相关算法,比如 CTC、LF—MMI、RNN—T、2nd—pass 语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

 

 

同时,通过 k2 可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。

 

当然,这只是 k2 的应用场景之一。

 

Povey 博士还举了另一个例子:FSA(有限状态自动机)是语音识别里普遍使用的数据结构,比如可以用来构建“音标—词—句子”的转换概率图。而 K2 的核心贡献在于让 FSA 可导,从而可在 PyTorch 等深度学习库中来进行 FSA 的反向传播训练。

 

 

相较于其他一些语音识别库的优势,k2 速度更快,通用性强(可以用来建模多种语音识别算法)。

 

Povey 博士透露,k2 核心代码已完成。约 41000 行代码(主要是 C++),本周将发布 0.1 版本。

 

开源自然语言处理平台 MiNLP 3.0

“拥抱开源,构建开发者社区”,是「技术向」小米始终挂在嘴边的。

 

今年的开发者大会,小米公布了最新的自然语言处理平台,MiNLP 3.0,并且承诺,MiNLP 3.0 中的不同功能模块,将按计划逐渐开源。

 

 

3.0 都有哪些新特性?

 

与去年的 MiNLP 2.0 相比,3.0 从原来的两大功能模块(基础算法、语义理解)上升到四大功能模块,增加了内容理解和舆情分析模块。

 

新的模块可以帮助系统更好的结合上下文理解交互内容,提高识别的准确性。

 

 

3.0 版平台还结合预训练、知识图谱能力,提升了语义解析技术。

 

除了语义解析,新平台还拓展了多模态理解能力,即基于文本、语音、图像和视频等多模态特征,实现对内容的精准理解。

 

在 11 月中下旬,小米会开源第一个模块,分词技术。

 

崔宝秋也给出了一张开源的时间表:

 

 

移动端深度学习框架 MACE 1.0

另外一项备受期待的开发工具是 MACE 1.0:小米的移动端深度学习框架。

 

去年的小米开发者大会发布了 MACE 0.13,这是一个部署在个人设备端的深度学习框架,目的是实现 AI 推理能力、计算能力、智能水平在边缘设备的有效运行,而不是将所有数据和算法上传到云,保证用户的隐私。

 

 

今年的 MACE 1.0,升级了一个很重要的功能,MACE Micro,这是专门为微控制器或者小单片机打造的 AI 推理框架。

 

MACE Micro 代码特别少, 不算模型大小一般只需几十 K 存储空间, 可以放在低功耗,价格便宜的智能设备上。

 

比如在一个微控制器上,如果用 MACE 来做图像识别,平均每秒一次的使用频率,一年的计算耗电量,只需要一个纽扣电池就可以提供。

 

目前,MACE 已经在小米自家的物联网设备中应用,但小米的产品并不是 MACE 最终的「归宿」,崔宝秋提到,MACE 愿意向合作伙伴甚至是友商开放。

 

小爱 5.0

前面介绍的几项,都是小米底层技术的新进展,而这些技术落到消费者看得见摸得着的产品,就是语音助手智能助手小爱同学 5.0。

 

 

配合小米集团手机 xAIoT 战略,小爱同学 5.0 正式从语音助手升级为智能生活助手。就产品功能点而言,小爱同学 5.0 新特性可以总结为五点。

 

第一,小爱同学 5.0 支持了全场景智能协同。在多设备工况情况下小爱同学可以做到更智能的协同唤醒、更智能的协同响应、更智能的协同提醒和建议。

 

 

与过去语音助手 语音助手行业普遍采用的就近唤醒不同,小爱同学 5.0 会根据用户所处环境选择合理的设备方案。设备距离、设备活跃状态、设备形态等,智能选择最优设备进行应答与倾听。

 

比如要播一段视频,用户可能偏向选择最大的屏幕,由电视来播放,而不是手机。

 

当协同唤醒搭配协同响应,小爱同学将为用户提供最优的全场景解决方案。比如在客厅场景中要播一段视频,应答设备会是近距离的活跃设备(手机或音箱),但播放视频将会由电视执行,客厅场景看视频大屏才是最优选择。

 

第二是对话式的主动智能。小爱同学 5.0 会有记忆,会更加「贴心」,更加理解用户。

 

第三个新特性,是多模态融合交互,语音+视觉+其他传感器的一种感知认知能力。包括音箱上的手势控制和小爱同学手机端多模态输入及扫一扫。

 

 

第四个新特性,定制化情感语音。小爱同学 5.0 新增儿童音色泡芙,奶萌童音备受用户好评。此外,用户呼声最高的粤语,也在 5.0 正式发布。超过 20000 句符合粤语文化的常用话语深度优化,让小爱同学的粤语更地道。

 

今年 2 月在小米 10 发布会上,小爱同学发布了定制声音能力,经过工程师的努力,,在小爱 5.0 定制声音将覆盖更多的手机机型和更多终端设备,包括音箱和电视。

 

第五个更新是智慧学习。针对学生群体,小爱同学 5.0 在教育内容及工具两大类别,为用户提供更智能、更丰富的服务。

 

包括 AI 课程表、AI 翻译、K12 教辅内容、知识问答。上包括为大学生做了 AI 课程表、AI 翻译、面对面翻译、连续翻译、一句话翻译等等。还支持 K12 教辅。

 

最后是更多的定制化情感声音。之前发布的定制声音能力,也将覆盖到更多小米设备中。

 

所以总结起来,5.0 的小爱同学,技术上更智能,功能上更强大,落地产品也将更多种多样。

 

「一指连」UWB

这是今年开发者大会现场,发布简短却又「韵味无穷」的新技术。

 

UWB 技术,被小米形象化取名「一指连」,效果相当酷炫。

 

 

应用起来,手机上如果内置 UWB 芯片和天线,用手机指向风扇,手机屏幕上就弹出来风扇的遥控器;

 

 

指向电视,就会弹出电视的遥控器;

 

 

指向音箱,手机的播放列表就传到了音箱上去。

 

目前,「一指连」已经做到厘米级、正负 3 度的精度,而未来 UWB 会取消「指一下」动作,仅仅靠近 IOT 设备,就能实现控制。

 

不过对于 AIoT 的互联互通和操作,小米还有更强大更基础的准备。

 

物联网软件平台:小米 Vela

小米 Vela,面向物联网时代而准备。在这次开发者大会上正式亮相。

 

被称为小米开发物联网设备的「基础设施」。

 

小米 IoT 平台部总经理、AIoT 战略委员会主席范典在发布会上介绍,“小米 Vela 是基于开源嵌入式操作系统 NuttX 打造的物联网软件平台。”

 

 

NuttX 由 Gregoy Nutt 在 2007 年发布,是一个实时嵌入式操作系统。

 

但由于 NuttX 在设计之初就考虑到了对应用较为广泛的 Linux 的兼容、并对 POSIX 原生支持,在过去几年里,索尼、三星等大厂先后加入了这一阵营。

 

小米则是从 2017 年开始就基于 NuttX 开发物联网产品,并在随后推动 NuttX 加入了 Apache 基金会。目前,小米在其中的贡献量达到了三分之一,是最有影响力的贡献者之一。

 

小米 Vela 主要分为三⼤部分:底层是 NuttX 内核、上层是 Vela 应⽤框架,⽽右侧是开发者⼯具。小米 Vela 的初衷是提供丰富的组件和易⽤的框架,把开发者解放出来。

 

 

从整个架构上,也能看出小米对 Vela 的雄心,而且小米 Vela 从出生第一天起,就面向 AIoT 赛道,从底层团结软硬件开发者之力。

 

范典说:Vela 源⾃拉丁语,是船帆的意思,在物联⽹的星⾠⼤海中,我们愿与开发者⼀起,乘风帆远航,共同打造物联⽹产业美好的明天。

 

虽然未能言明,但这种希骥之间,不难看出 Windows、安卓一样的期待。

 

而且相比其他玩家,小米在 AIoT 领域的底气无需赘述——最新数据披露,小米 IoT 平台已连接 IoT 设备数超过 2.71 亿,拥有 5 个以上 IoT 设备的用户超过 510 万。是全球规模最大的 AIoT 平台之一。

 

总而言之,技术、技术,还是技术,就是小米现在传递出的最强观感。

 

小米为何高频强调技术?

“技术”这个关键词,今年为何小米被提到了前所未有的高度?

雷军在开发者大会的第一场演讲中就给出了答案:

 

手机之争就是相机之争,相机之争就是 AI 之争。

 

所以,2018 年小米单独成立了相机部,作为一级部门,如今已有 850 名工程师,这还不包括小米另外的 350 名人工智能工程师。

 

从今年的小米 10 开始,雷军不再强调小米的性价比,而是用技术作为核心竞争力冲击高端市场。

 

 

还有智能家居的核心“小爱同学”,也离不开语音识别、语言理解等 AI 前沿技术。

 

为了储备技术,小米近年来广纳顶尖人才。尤其是去年“Kaldi 之父”Daniel Povey 的加入,令开发者刮目相看。

 

“我根本没想到他会加入小米”,现场一位开发者说。

 

作为小米集团技术委员会主席,崔宝秋对此当然并不意外,然而这位“Kaldi 之父”的巨大吸引力还是超乎他的想象。

 

 

回忆起小米宣布 Daniel 加入团队当天,崔宝秋印象深刻,他当时正在苏州参加 2019 年中国计算机大会。

 

现场好几位来自新加坡的参会者听到消息后,当即向崔宝秋表示,他们想加入小米,因为和一位“技术大神”在一起工作是他们梦寐以求的。

 

除了 Daniel 外,小米近年来年来还吸引了 NLP 领域著名学者王斌博士加入,成为小米自然语言首席科学家。

 

王斌加入后,他的学生从各个企业和研究机构慕名而来。

 

 

“这就是牛人加入小米带来的引领作用”,崔宝秋说。

 

吸引技术人才,一方面靠“大神”的虹吸效应,另一方面是靠宽松的研发环境。

 

比如 Daniel 本身是语音识别领域的大牛,但小米并没有让他加入到小爱同学的研发中,而是集中精力兑现对开源社区的承诺。

 

这一年来,小米全力支持新版 Kaldi 的代码开发工作。甚至 Daniel 本人在今年三四月决定将新版 Kaldi 推倒重来,执行 Plan B,小米依然全力支持。

 

 

崔宝秋认为,正是因为没有给技术人员太大压力,用长远的眼光看待研发,才让小米今年来能吸引到真正的技术人才。

 

现在小米的产品和技术是脱耦的。

 

一个需要预研的技术,这个研发团队需要被保护起来,不要被业务所累。

 

经过一年的努力,新版 Kaldi 在小米团队的努力下,终于要在 11 月下旬开源。

 

而 Kaldi 只是小米在开源技术上的一角。去年小米为 NuttX 开源操作系统贡献了近 1/3 的代码。

 

据不完全统计小米在 GitHub 上已经创立超过 120 个开源项目。

 

 

基础研究方面,小米在自然语言处理、语音识别领域皆有建树。

但“AI 大神”云集的小米过去在技术上却异常低调。

 

我们却很少能看到小米向 AI 学术会议提交论文,或是参加 AI 性能测试“刷榜”。

 

究其原因,崔宝秋解释说,过去小米做的第一件事就是把产品落地,快速占领市场,没有时间参加比赛、发表文章或进行学术交流。小米很多工程师也不善言辞。

 

 

他一直鼓励员工多出去交流,今后应该会有更多的小米工程师在技术场合露面。今年的开发者大会就是一个“分水岭”。

 

这一次,技术低调的小米终于选择了高调。

 

小米的技术研发和招聘规模都在逐年扩大,是小米加码技术的直接体现。

 

去年小米研发投入 70 亿,今年研发投入将超过 100 亿,并扩招 3000 名工程师。

 

雷军表示,明年小米还将在 10 个重点领域招收 5000 名工程师,占小米目前员工总数的近 40%。

 

 

这一年,手机上的“黑科技”让很多消费者对小米刮目相看,120W 超级快充、UWB 一指连都技术都属小米首发。

 

不出意料,明年小米还会有更多手机黑科技,而 AIoT 会是小米的另一个发力点。

 

据小米统计,拥有 5 件小米智能设备用户已经超过 310 万。面对消费升级,个人设备越来越多,未来 AIoT 市场大有可为。

 

 

当然,还有一件事很重要,也是小米的初心。

 

现在的小米 10 手机已经在通过小米的智能工厂生产,高度自动化的“黑灯”产线绝大部分都是小米自主研发的生产设备在工作。

 

过去,“性价比”是小米逢山开路遇水搭桥的法宝,是用亲民价格打造感动人心的产品。

 

现在,小米正在把更多黑科技纳入到更多产品和功能中。

 

技术小米,面临重估

而技术,也正在给小米带来整体变化。

 

一方面,这种变化体现在大众认知中。

 

特别是小米 MIX 发布起,小米就正在成为手机技术创新的核心驱动玩家,影响业态至今的全面屏革命,起于小米,还在不断进化。

 

 

而随着相机、语音交互和整体操作功能方面的不断优化,手机和 AIoT 成为双引擎,小米的技术底色也在更大范围内得到认可。

 

小米很技术,正在成为越来越广泛的共识。

 

另一方面,技术之力,也不断转换为产品之力,推动小米核心增长。

 

最具代表性事件,是小米手机超越苹果,重返全球第三。

 

今年 10 月底,三家市场研究机构 IDC、Canalys 和 Counterpoint 分别发布了第三季度全球智能手机市场统计报告,三家数据均显示,小米手机出货量升至全球第三。

 

 

这也是小米自 2014 年之后,再次重返全球第三,并且也创造了小米史上最高出货量。

 

相较而言,如果 2014 年小米是理念的胜利、风口上的胜利,顺势而为的胜利。那么现在重返巅峰,就是创新的胜利、技术的胜利,千淘万漉后的胜利。

 

而且小米上上下下,也深知这种胜利如何而言、怎样延续。

 

越来越多强调技术立业,越来越广泛展示技术底色,越来越公开表达对技术人才渴求……

 

 

技术,就是小米开诚布公的发展之路。

 

当然,对于如此技术化发展的小米,资本市场也给出了反馈。

 

小米股价和市值,也不断被刷新。

 

截至 11 月 9 日,小米集团(HK.1810)股价涨至 25.5 港元,市值超过 6100 亿港元,涨势强劲,还在不断上扬中。

 

但这个技术化小米,还只是小米新十年的开端。

 

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容,未经账号授权,禁止随意转载。

 

 

量子位 QbitAI · 头条号签约作者

 

 

վ'ᴗ' ի 追踪 AI 技术和产品新动态

 

 

一键三连「分享」、「点赞」和「在看」

 

 

科技前沿进展日日相见~