用一颗摄像头打破AI录音笔固有形态，搜狗AI录音笔E2创新出发

论一颗摄像头带给 AI 录音笔的变化。

时隔 7 个月左右，搜狗新一代 AI 录音笔 E2 也正式上市。

相较于上一代的 E1，E2 可以说是从内到外发生了变化，而相较于 S1，两者的差别进一步被缩小，E2 更是带来了创新性的功能。

最近一段时间，镁客网也拿到了一部“E2”，并进行了数天的深度测评：

体积缩小、屏幕变大……改头换面的 E2

在拿到 E2 包装盒的一瞬间，如果忽略外壳产品图下面大大的“E2”两字，我或许会认为这是 S1 的升级版“S2”，之所以有这样的感觉，实在是因为 E2 在外观上与 S1 可以说是近乎一样。

当然，在打开包装盒后，两者之间的差别也是一眼就可看出，同时，E2 与上一代 E1 的差别也可谓天差地别。

这一次，搜狗为 E2 配备的全面屏分辨率为 340*800，足有 3.46 英寸，比之原先的 1.54 英寸大了一倍多，比之 S1 3.5 英寸的大屏不遑多让。需要注意的是，虽然屏幕大了，但是 E2 整体机身的大小比 E1 只小不大。

犹记得在 E1 的设计上，诸如录音键、多功能 M 键和电源键是排布在机身正面，并排于屏幕下方，而这一次，E2 全面屏的设计，也使得这些功能件被安排分散在了机身左右侧。

图 | 搜狗 AI 录音笔 E2 机身右侧

具体来看，机身左侧为音量加减键以及电源键，右侧排列的是录音键、多功能 M 兼以及 SIM 卡槽，至于机身底部，则是充电口与 3.5mm 耳机孔。这其中，SIM 卡槽的存在，意味着 E2 可以独立联网使用。

E2 机身顶部与 E1 一样，依旧是采用镂空样式，除了扬声器，还配备 2 颗 10mm 心型哈曼指向麦，机身正面左右两侧对称分布了 6 个小细孔，内置 6 颗全向数字麦，从而形成 8 麦阵列，实现 15m 超远拾音和 360°拾音。

就在屏幕的顶部中间，我们还能看到一个麦克风指示灯，它能够显示三种颜色，绿色闪烁代表录音正常，黄色亮起表示噪声太大，红色亮起则意味着讲话声太大。

值得说道的是，E2 的背面带了点新花样——一颗 800 万像素摄像头，以及一个闪光灯，这也是 E2 此次在功能上最大的升级，具体如何，我们留到后面细说。

E2 整体包装以白色为主，除了机身主体，另外还有 Type-C 接口充电（数据）线、取卡针以及一份说明书。

图 | 搜狗 AI 录音笔 E2 配件展示

E2 机身则以黑色为主，配以红色、金色细节设计。因为整体材料以塑料为主，因此 E2 在重量上并没有什么负担，小巧便携到足以一手掌控，随踹随走、随用随拿。与此同时，后壳大面积采用 TPU 材料，这也使得 E2 具备了减震和防滑的能力，于日常使用十分友好。

此外，E2 机身内存为 32G，实际内存为 29G 左右，电池容量为 2000mAh，能够持续录音 10 小时以上，对于学生、记者等用户群体闻言，这一存储空间和续航能力已经是绰绰有余。当然，若实在文件过多，用户也可以选择将部分文件上传至云端，如此也可在手机端、PC 端和网页端做到多屏共享，实现多人、异地的内容同步。

依旧强悍的智能降噪能力，满足多样化场景需求

AI 录音笔最为基础的功能就是“录音”，但是在某些时候，“录音”这一简单的事情却不会那么简单能够做到，比如遭遇周边环境音干扰，又或者对话者音量过低等等，这些都能够成为致使录音文件失效的因素。

在这一点上，E2 很好的延续了 E1、S1 的强大基因。首先在面向的特定场景方面，E2 与两位前辈一样，皆基于 clairVoice8 麦克风阵列算法提供四种录音模式，分别是会议、采访、听课和音乐：

会议和采访模式中，用户只需将 E2 平放在桌面，即可实现 360°拾音；

听课模式中，将 E2 的顶端指向声源，可做到定向拾音；

音乐模式中，同样是将 E2 的顶端指向声源，可做到高保真拾音，与此同时，搜狗也贴心的为用户提供了 MP3 等 5 种录音格式选择。

另外，利用 pureVoice AI 降噪算法，E2 也提供三种降噪模式（音乐模式不支持该功能），分别是真实音质（保留真实人声和环境音）、人声增强（过滤环境音，显著增强人声）、纯净人声（深度删除环境音，仅保留人声），让用户在使用过程中能够依据自身需求进行选择。

图 | 搜狗 AI 录音笔 E2 录音模式与降噪方式

选定录音模式和降噪方式之后，用户短按录音键即可一键开始录音，过程中可随时更换语种，以及暂定或继续录音。当录音结束并保存本地之后，用户可点击机身屏幕主页面的“录音文件”查看录音情况，若先前忘记选择降噪方式，用户也可点击录音详情页下方的“降噪方式”，打开“纯净人声降噪”以听取降噪处理之后的录音。

针对这一功能，镁客网也以一段会场采访录音做了实验，在“纯净人声降噪”功能关闭的情况下，录音中周边稀稀落落的交谈声和偶尔的碗碟碰撞声能够清晰听到，但当打开降噪功能后，我们能够听到的只剩下纯净的人声，对于之后录音转换文字的整理还是能够提供一些帮助的。

除了听声识字，E2 还学会了“看图说话”

相比于传统录音笔，AI 录音笔最大的特色在于语音识别与转写、中外文互译。

实时转写方面，E2 当前共支持包括中文在内的 11 种语言和 11 种方言，覆盖基础的英文、韩语、日语、德语，以及粤语、四川话、南京话、贵州话等等。

过程中，用户也可以根据实际情境任意切换语言或语种，从而保证录音的完整性和准确度。

值得一提的是，因为前面提到的摄像头，实时转写也多了一个功能——图片实时拍摄与插入。基于这一功能，用户将能够同步记录声音与画面。而在实时转写结束后，用户也可以将该录音文件中的图片进行“文字提取”处理，不过该功能的启用需要一个前提，即录音文件已经作转写处理。

图 | 图文提取 gif

官方介绍称，OCR 技术共可识别 13 种图片语言。而在实时转写之外，用户也可以打开 E2 的摄像机拍摄文档、路标等，做到“拍照秒变文字”。基于这一功能，即使以后走出过门语言不通，只要 E2 在手，也不怕因为不会读、看不懂文字而抓耳挠腮了。

至于转写的速度，镁客网以一段时长 39 分钟的录音进行测试，原始录音文件以中文为主，间杂少许英文词汇，转换过程总共不超过 3 分钟。为了进一步提高转换文字的精准度和可读性，减少不必要的口语化词汇等等，用户也可以点击左下角的“智能整理”，选择区分讲话人（机主可提前录入自己的声纹信息以加强区分精准度）、智能辅助校正、隐藏空录音等功能。

依据 E2 的官方介绍，它一共可精准识别 8 种专业领域数据，覆盖财经贸易、医疗、IT 科技、政府、文化体育、工业制造、建筑、教育，在“转写确认”界面，用户可依据实际情境进行选择。

当然，与 E1 和 S1 一样，M 键在实时转写过程中也承担着“划重点”的作用，若是有遗漏，也可在录音文件转写之后回听录音，并利用 M 键一键标记重点。

图 | 搜狗 AI 录音笔 E2 重点标志

除了用户自行标记重点，系统在转写录音的过程中也会智能提取重点，并排列成摘要，供用户后期查阅和快速定点回听。只不过相较于用户自己所标注的，系统的重点提炼在精准性上还存在那么一点欠缺。

整体来看，录音文件转写在识别精准度上较之实时转写有所提升，虽然还存在些许误差，不过尚在接受范围内。当然，如果强迫症患者实在看不下去，也是可以边回听边进行编辑调整的。出于对观感、编辑便利性以及效率的考虑，用户在编辑的过程中也可以点击“智能控制”调整字体大小以及录音播放倍速。

此外，若用户急需在众多保存的录音中找到某一段，也可长按 M 键唤醒智能语音助手，经由语音交互找出自己想要的录音记录。

图 | 搜狗 AI 录音笔 E2 智能助手

翻译方面，E2 提供四种模式，分别是对话翻译、自由对话翻译、同声传译和拍照翻译，前三者可以提供 63 种语言互译服务，最后一个涉及到 OCR 识别，因此只能提供 13 种语言的互译，覆盖全球 200 多个国家和地区。

离线状态下，E2 支持 8 种语言的中外互译，只需提前下载离线包即可。

图 | 搜狗 AI 录音笔 E2 离线翻译包

对话翻译模式中，录音键和 M 键将各自承担一种语言的录入工作，在具体的应用过程中，需要用户长按按键以采集对应语种，继而由系统识别并翻译成另一种语种。对于两个语言不通的交流者而言，利用录音笔进行逐个转写或许会耗费些时间，但能有效避免交谈过程中因语音来回交叉而带来的错乱问题，保证内容的准确性。

在上一代，对话翻译模式仅支持中文与其他语言的翻译，升级到现在，63 种语言之间的互译已经不成问题。

图 | 搜狗 AI 录音笔 E2 可翻译语种（部分）

自由对话翻译模式中，将录音笔两段分别指向双方讲话人，系统即可自动识别双方讲话状态并录音、中英互译，无须手动操作即可满足跨语言采访、交流等长时间交流的需要。当然，保持更为严谨一点的态度，用户也可以在对话界面右上角的设置中打开“手动打断”按钮，届时哪方说话就点击哪方的对话框，一段结束之后，再由另一方点击自己这边的录入框以录入语音。

或许会有人觉得，这样一来的翻译方式不就与对话翻译模式类似吗？其实不然，不管是录入方式的便利程度，以及双方对于交流内容的理解程度都是不一样的。换一种说法，前者更适合应用于与陌生人的对话，譬如问路等场景，后者更适用于合作伙伴、朋友之间的交流互动。

视频 | 自由对话翻译

相比于对话翻译，同声传译不需要用户在过程中长按某个键，点击屏幕顶端即可调换翻译方向。若中途需要暂停 / 继续，只需短按一下录音键即可，适用于单方面的发言录入，譬如演讲、上课等等。

从测试结果来看，在发音正常的情况下，E2 的识别和翻译准确度接近完美，些微差错也在可接受范围内。

至于拍照翻译，正如字面意思，只需要打开摄像头对着文档拍一张照片，上传成功之后即可实时翻译成另外一种语言。如若需要的话，用户也可以点击界面的“纯文本”按钮，从而直接查看文本信息，而不是对着照片查看比蚂蚁还小的译文。

图 | 拍照翻译 gif

总结

众所周知，录音笔市场一直都是相对小众的，主要受众群体集中在新闻媒体、政府、事业单位等。

依据中国报告网数据，国内录音笔市场呈现行业发展缓慢、替代风险大等特点，一句话概括，因为手机等数码产品的冲击等因素，国内录音笔市场长时间处于“供过于求”的境遇。

对于这一点，搜狗 CEO 王小川也予以承认，他此前曾提到，以前录音笔是专业小众市场，记者用的多一些，注入 AI 后，重新焕发活力，会有更大的想象空间。

而从目前的情势来看，显然，在 AI 能力的加持下，录音笔领域的竞争正在从刚性需求转向消费分级。此时，搜狗创新性的为 AI 录音笔增加一颗摄像头，在颠覆过往录音笔传统形态的同时，也为录音笔未来的升级增添了更多的可能性。

器件型号	数量	器件厂商	器件描述	ECAD模型	参考价格	更多信息
TFP401APZPG4	1	Texas Instruments	165-MHz TMDS DVI receiver/deserializer with HSYNC & Panelbus™ integrated circuit 100-HTQFP 0 to 70	ECAD模型下载ECAD模型	$9.99	查看
L9678P-S	1	STMicroelectronics	Low end System Basis Chip for Airbag including PSI5 remote sensor interface		暂无数据	查看
MGM13S12F512GA-V3	1	Silicon Laboratories Inc	Consumer Circuit,		$19.81	查看

器件型号

数量

器件厂商

器件描述

数据手册

ECAD模型

风险等级

参考价格

更多信息

TFP401APZPG4

Texas Instruments

165-MHz TMDS DVI receiver/deserializer with HSYNC & Panelbus™ integrated circuit 100-HTQFP 0 to 70

$9.99

查看

L9678P-S

STMicroelectronics

Low end System Basis Chip for Airbag including PSI5 remote sensor interface

暂无数据

查看

MGM13S12F512GA-V3

Silicon Laboratories Inc

Consumer Circuit,

$19.81

查看

用一颗摄像头打破AI录音笔固有形态，搜狗AI录音笔E2创新出发

体积缩小、屏幕变大……改头换面的 E2

依旧强悍的智能降噪能力，满足多样化场景需求

除了听声识字，E2 还学会了“看图说话”

总结

推荐器件

相关推荐

电子产业图谱