加入星计划,您可以享受以下权益:

  • 创作内容快速变现
  • 行业影响力扩散
  • 作品版权保护
  • 300W+ 专业用户
  • 1.5W+ 优质创作者
  • 5000+ 长期合作伙伴
立即加入
  • 正文
    •  
    • 体积缩小、屏幕变大……改头换面的 E2
    •  
    • 依旧强悍的智能降噪能力,满足多样化场景需求
    •  
    • 除了听声识字,E2 还学会了“看图说话”
    • 总结
  • 推荐器件
  • 相关推荐
  • 电子产业图谱
申请入驻 产业图谱

用一颗摄像头打破AI录音笔固有形态,搜狗AI录音笔E2创新出发

2020/12/08
247
阅读需 14 分钟
加入交流群
扫码加入
获取工程师必备礼包
参与热点资讯讨论

论一颗摄像头带给 AI 录音笔的变化。

时隔 7 个月左右,搜狗新一代 AI 录音笔 E2 也正式上市。

相较于上一代的 E1,E2 可以说是从内到外发生了变化,而相较于 S1,两者的差别进一步被缩小,E2 更是带来了创新性的功能。

最近一段时间,镁客网也拿到了一部“E2”,并进行了数天的深度测评:

 

体积缩小、屏幕变大……改头换面的 E2

在拿到 E2 包装盒的一瞬间,如果忽略外壳产品图下面大大的“E2”两字,我或许会认为这是 S1 的升级版“S2”,之所以有这样的感觉,实在是因为 E2 在外观上与 S1 可以说是近乎一样。

当然,在打开包装盒后,两者之间的差别也是一眼就可看出,同时,E2 与上一代 E1 的差别也可谓天差地别。

这一次,搜狗为 E2 配备的全面屏分辨率为 340*800,足有 3.46 英寸,比之原先的 1.54 英寸大了一倍多,比之 S1 3.5 英寸的大屏不遑多让。需要注意的是,虽然屏幕大了,但是 E2 整体机身的大小比 E1 只小不大。

犹记得在 E1 的设计上,诸如录音键、多功能 M 键和电源键是排布在机身正面,并排于屏幕下方,而这一次,E2 全面屏的设计,也使得这些功能件被安排分散在了机身左右侧。

图 | 搜狗 AI 录音笔 E2 机身右侧

具体来看,机身左侧为音量加减键以及电源键,右侧排列的是录音键、多功能 M 兼以及 SIM 卡槽,至于机身底部,则是充电口与 3.5mm 耳机孔。这其中,SIM 卡槽的存在,意味着 E2 可以独立联网使用。

E2 机身顶部与 E1 一样,依旧是采用镂空样式,除了扬声器,还配备 2 颗 10mm 心型哈曼指向麦,机身正面左右两侧对称分布了 6 个小细孔,内置 6 颗全向数字麦,从而形成 8 麦阵列,实现 15m 超远拾音和 360°拾音。

就在屏幕的顶部中间,我们还能看到一个麦克风指示灯,它能够显示三种颜色,绿色闪烁代表录音正常,黄色亮起表示噪声太大,红色亮起则意味着讲话声太大。

值得说道的是,E2 的背面带了点新花样——一颗 800 万像素摄像头,以及一个闪光灯,这也是 E2 此次在功能上最大的升级,具体如何,我们留到后面细说。

E2 整体包装以白色为主,除了机身主体,另外还有 Type-C 接口充电(数据)线、取卡针以及一份说明书。

图 | 搜狗 AI 录音笔 E2 配件展示

E2 机身则以黑色为主,配以红色、金色细节设计。因为整体材料以塑料为主,因此 E2 在重量上并没有什么负担,小巧便携到足以一手掌控,随踹随走、随用随拿。与此同时,后壳大面积采用 TPU 材料,这也使得 E2 具备了减震和防滑的能力,于日常使用十分友好。

此外,E2 机身内存为 32G,实际内存为 29G 左右,电池容量为 2000mAh,能够持续录音 10 小时以上,对于学生、记者等用户群体闻言,这一存储空间和续航能力已经是绰绰有余。当然,若实在文件过多,用户也可以选择将部分文件上传至云端,如此也可在手机端、PC 端和网页端做到多屏共享,实现多人、异地的内容同步。

 

依旧强悍的智能降噪能力,满足多样化场景需求

AI 录音笔最为基础的功能就是“录音”,但是在某些时候,“录音”这一简单的事情却不会那么简单能够做到,比如遭遇周边环境音干扰,又或者对话者音量过低等等,这些都能够成为致使录音文件失效的因素。

在这一点上,E2 很好的延续了 E1、S1 的强大基因。首先在面向的特定场景方面,E2 与两位前辈一样,皆基于 clairVoice8 麦克风阵列算法提供四种录音模式,分别是会议、采访、听课和音乐:

会议和采访模式中,用户只需将 E2 平放在桌面,即可实现 360°拾音;

听课模式中,将 E2 的顶端指向声源,可做到定向拾音;

音乐模式中,同样是将 E2 的顶端指向声源,可做到高保真拾音,与此同时,搜狗也贴心的为用户提供了 MP3 等 5 种录音格式选择。

另外,利用 pureVoice AI 降噪算法,E2 也提供三种降噪模式(音乐模式不支持该功能),分别是真实音质(保留真实人声和环境音)、人声增强(过滤环境音,显著增强人声)、纯净人声(深度删除环境音,仅保留人声),让用户在使用过程中能够依据自身需求进行选择。

图 | 搜狗 AI 录音笔 E2 录音模式与降噪方式

选定录音模式和降噪方式之后,用户短按录音键即可一键开始录音,过程中可随时更换语种,以及暂定或继续录音。当录音结束并保存本地之后,用户可点击机身屏幕主页面的“录音文件”查看录音情况,若先前忘记选择降噪方式,用户也可点击录音详情页下方的“降噪方式”,打开“纯净人声降噪”以听取降噪处理之后的录音。

针对这一功能,镁客网也以一段会场采访录音做了实验,在“纯净人声降噪”功能关闭的情况下,录音中周边稀稀落落的交谈声和偶尔的碗碟碰撞声能够清晰听到,但当打开降噪功能后,我们能够听到的只剩下纯净的人声,对于之后录音转换文字的整理还是能够提供一些帮助的。

 

除了听声识字,E2 还学会了“看图说话”

相比于传统录音笔,AI 录音笔最大的特色在于语音识别与转写、中外文互译。

实时转写方面,E2 当前共支持包括中文在内的 11 种语言和 11 种方言,覆盖基础的英文、韩语、日语、德语,以及粤语、四川话、南京话、贵州话等等。

过程中,用户也可以根据实际情境任意切换语言或语种,从而保证录音的完整性和准确度。

值得一提的是,因为前面提到的摄像头,实时转写也多了一个功能——图片实时拍摄与插入。基于这一功能,用户将能够同步记录声音与画面。而在实时转写结束后,用户也可以将该录音文件中的图片进行“文字提取”处理,不过该功能的启用需要一个前提,即录音文件已经作转写处理。

图 | 图文提取 gif

官方介绍称,OCR 技术共可识别 13 种图片语言。而在实时转写之外,用户也可以打开 E2 的摄像机拍摄文档、路标等,做到“拍照秒变文字”。基于这一功能,即使以后走出过门语言不通,只要 E2 在手,也不怕因为不会读、看不懂文字而抓耳挠腮了。

至于转写的速度,镁客网以一段时长 39 分钟的录音进行测试,原始录音文件以中文为主,间杂少许英文词汇,转换过程总共不超过 3 分钟。为了进一步提高转换文字的精准度和可读性,减少不必要的口语化词汇等等,用户也可以点击左下角的“智能整理”,选择区分讲话人(机主可提前录入自己的声纹信息以加强区分精准度)、智能辅助校正、隐藏空录音等功能。

依据 E2 的官方介绍,它一共可精准识别 8 种专业领域数据,覆盖财经贸易、医疗、IT 科技、政府、文化体育、工业制造、建筑、教育,在“转写确认”界面,用户可依据实际情境进行选择。

当然,与 E1 和 S1 一样,M 键在实时转写过程中也承担着“划重点”的作用,若是有遗漏,也可在录音文件转写之后回听录音,并利用 M 键一键标记重点。

图 | 搜狗 AI 录音笔 E2 重点标志

除了用户自行标记重点,系统在转写录音的过程中也会智能提取重点,并排列成摘要,供用户后期查阅和快速定点回听。只不过相较于用户自己所标注的,系统的重点提炼在精准性上还存在那么一点欠缺。

整体来看,录音文件转写在识别精准度上较之实时转写有所提升,虽然还存在些许误差,不过尚在接受范围内。当然,如果强迫症患者实在看不下去,也是可以边回听边进行编辑调整的。出于对观感、编辑便利性以及效率的考虑,用户在编辑的过程中也可以点击“智能控制”调整字体大小以及录音播放倍速。

此外,若用户急需在众多保存的录音中找到某一段,也可长按 M 键唤醒智能语音助手,经由语音交互找出自己想要的录音记录。

图 | 搜狗 AI 录音笔 E2 智能助手

翻译方面,E2 提供四种模式,分别是对话翻译、自由对话翻译、同声传译和拍照翻译,前三者可以提供 63 种语言互译服务,最后一个涉及到 OCR 识别,因此只能提供 13 种语言的互译,覆盖全球 200 多个国家和地区。

离线状态下,E2 支持 8 种语言的中外互译,只需提前下载离线包即可。

图 | 搜狗 AI 录音笔 E2 离线翻译包

对话翻译模式中,录音键和 M 键将各自承担一种语言的录入工作,在具体的应用过程中,需要用户长按按键以采集对应语种,继而由系统识别并翻译成另一种语种。对于两个语言不通的交流者而言,利用录音笔进行逐个转写或许会耗费些时间,但能有效避免交谈过程中因语音来回交叉而带来的错乱问题,保证内容的准确性。

在上一代,对话翻译模式仅支持中文与其他语言的翻译,升级到现在,63 种语言之间的互译已经不成问题。

图 | 搜狗 AI 录音笔 E2 可翻译语种(部分)

自由对话翻译模式中,将录音笔两段分别指向双方讲话人,系统即可自动识别双方讲话状态并录音、中英互译,无须手动操作即可满足跨语言采访、交流等长时间交流的需要。当然,保持更为严谨一点的态度,用户也可以在对话界面右上角的设置中打开“手动打断”按钮,届时哪方说话就点击哪方的对话框,一段结束之后,再由另一方点击自己这边的录入框以录入语音。

或许会有人觉得,这样一来的翻译方式不就与对话翻译模式类似吗?其实不然,不管是录入方式的便利程度,以及双方对于交流内容的理解程度都是不一样的。换一种说法,前者更适合应用于与陌生人的对话,譬如问路等场景,后者更适用于合作伙伴、朋友之间的交流互动。

视频 | 自由对话翻译

相比于对话翻译,同声传译不需要用户在过程中长按某个键,点击屏幕顶端即可调换翻译方向。若中途需要暂停 / 继续,只需短按一下录音键即可,适用于单方面的发言录入,譬如演讲、上课等等。

从测试结果来看,在发音正常的情况下,E2 的识别和翻译准确度接近完美,些微差错也在可接受范围内。

至于拍照翻译,正如字面意思,只需要打开摄像头对着文档拍一张照片,上传成功之后即可实时翻译成另外一种语言。如若需要的话,用户也可以点击界面的“纯文本”按钮,从而直接查看文本信息,而不是对着照片查看比蚂蚁还小的译文。

图 | 拍照翻译 gif

总结

众所周知,录音笔市场一直都是相对小众的,主要受众群体集中在新闻媒体、政府、事业单位等。

依据中国报告网数据,国内录音笔市场呈现行业发展缓慢、替代风险大等特点,一句话概括,因为手机等数码产品的冲击等因素,国内录音笔市场长时间处于“供过于求”的境遇。

对于这一点,搜狗 CEO 王小川也予以承认,他此前曾提到,以前录音笔是专业小众市场,记者用的多一些,注入 AI 后,重新焕发活力,会有更大的想象空间。

而从目前的情势来看,显然,在 AI 能力的加持下,录音笔领域的竞争正在从刚性需求转向消费分级。此时,搜狗创新性的为 AI 录音笔增加一颗摄像头,在颠覆过往录音笔传统形态的同时,也为录音笔未来的升级增添了更多的可能性。

推荐器件

更多器件
器件型号 数量 器件厂商 器件描述 数据手册 ECAD模型 风险等级 参考价格 更多信息
TFP401APZPG4 1 Texas Instruments 165-MHz TMDS DVI receiver/deserializer with HSYNC & Panelbus™ integrated circuit 100-HTQFP 0 to 70

ECAD模型

下载ECAD模型
$9.99 查看
L9678P-S 1 STMicroelectronics Low end System Basis Chip for Airbag including PSI5 remote sensor interface
暂无数据 查看
MGM13S12F512GA-V3 1 Silicon Laboratories Inc Consumer Circuit,
$19.81 查看

相关推荐

电子产业图谱

镁客网隶属于南京镁一刻网络科技有限公司旗下,关注人工智能、虚拟现实、半导体、新能源、新材料、航空航天等新兴创新的硬科技领域,以科技媒体为核心,致力于打造硬科技领域的产业服务平台,推动硬科技产业落地,助力传统产业升级。目前已上线微信公众号、今日头条、搜狐号、百家号等多个内容平台。