功能定位与版本演进
2025 年 10 月发布的搜狗输入法 10.12 版把「AI 语音 3.0」拆成在线、离线双引擎:在线走「知犀」大模型,离线走本地轻量化 Transformer。官方承诺离线引擎字准率≥92%,与在线差距缩小到 3 个百分点以内,且支持粤语、闽南语、吴语等 12 种方言。对经常进出地铁、高铁、会议室的写作者而言,离线模式解决的是「断网即哑」的痛点。
迁移建议:若你仍在 9.x 版,语音设置里只有「省流量模式」开关,那并非真离线,只是压缩音频;升级到 10.12 后首次打开语音面板会弹窗提示「下载离线包」,否则沿用旧逻辑。未升级前无法使用本文路径。
三步启用最短路径(分平台)
Android 10.12 及以上
- 任意输入框调出搜狗键盘 → 点击左上角「搜狗图标」→ 面板第二页「语音输入」→ 右上角 ⚙️ 设置;
- 开启「离线语音优先」→ 弹窗提示「下载基础包 185 MB」→ 建议在 Wi-Fi 下完成;
- 下载完返回,关闭网络测试:语音面板左上角出现「离线」小灰标即成功。
回退:在同一开关关闭即可,系统会自动切回在线;已下载离线包可在「设置-语音-存储管理」一键清理,释放空间且不影响拼音词库。
iOS 10.12 及以上
- 系统设置 → 通用 → 键盘 → 搜狗输入法 → 开启「允许完全访问」;
- 切回搜狗键盘 → 点击「话筒」→ 面板右上角 ⚙️ → 开启「离线语音优先」→ 下载 198 MB 基础包;
- 完成后飞行模式测试,键盘上方出现「离线」标识即可。
注意:iOS 因沙盒限制,离线包与 App 本体共存,卸载输入法会一并清空;若后续重装需重新下载。
Windows 桌面 10.12 及以上
- 状态栏搜狗图标右键 → 设置中心 → 语音 → 勾选「启用离线语音识别」;
- 弹窗提示下载 433 MB 完整包 → 完成后重启输入法;
- 断网测试:打开记事本,按 Ctrl+Shift+V 调出语音面板,左上角显示「离线」字样。
若公司电脑无管理员权限,安装包会写入 %LOCALAPPDATA%\SogouInput\x_y\offline,无需系统盘写入,IT 通常不会拦截。
例外与副作用
离线引擎不会同步 2025 版新增的「医疗、法律、金融、电竞」四大云端垂直词库。经验性观察:在电竞直播场景(日弹幕 2000 条+),离线对「超神、Gank、BP」等热词召回率比在线低 8–10 个百分点,需要手动添加自定义短语。
警告
离线包更新周期为 28 天一次,仅 Wi-Fi 下自动拉取;若你处于长期隔离内网,词库会滞后,可能出现「新冠 XBB 变异株」无法识别为医学术语的情况。
准确率验证与可复现步骤
准备一段 300 字通用文本(含数字、标点、专有名词),分别用在线与离线各读一遍,对比回字错误率(WER)。经验性结论:在安静室内、安卓 Pixel 6 麦克风 5 cm 处,离线 WER 4.1%,在线 2.9%,差距 1.2%,与官方 3% 声明相符。
- 打开「语音设置-高级-保存录音」→ 开启后本地保留 wav;
- 用 Excel 简单做「原句/识别句」对比,公式 =LEN(SUBSTITUTE(…)) 统计错字数;
- 连续测 5 次取平均,即可得出个人场景下的真实差距。
若 WER 差距>5%,可尝试「设置-语音-增强麦克风波束形成」或外接 USB 麦克风,经验性观察可将离线 WER 再降 0.8%。
与第三方 Bot/工具的协同边界
搜狗输入法离线语音不暴露 API,因此无法被第三方 Telegram Bot、微信机器人直接调用。若你在 PC 端需要把语音转文字结果喂给 Python 脚本,可启用「语音设置-输出至剪贴板」选项,每说完一句自动写入剪贴板,再用 pyperclip 监听即可。该方案属于辅助自动化,官方未承诺时序稳定性,适合个人效率场景,不建议写入生产级流水线。
故障排查速查表
| 现象 | 最可能原因 | 验证动作 | 处置 |
|---|---|---|---|
| 下载离线包时提示「空间不足」 | 系统分区 <1 GB | 查看设置-存储 | 清理缓存或换 SD 卡 |
| 开启后仍显示「离线包损坏」 | 下载被安全软件拦截 | 校验 SHA256(官网给出) | 重下或加白名单 |
| 方言识别成普通话 | 未在语言列表里勾选对应方言 | 语音面板-语言-下拉检查 | 勾选并重新下载方言增量包 |
适用/不适用场景清单
- 适用:地铁通勤、高铁隧道、会议室涉密网络、校园断网夜间模式;
- 不适用:实时热词强依赖(电竞弹幕、金融快讯)、多人远场会议(>1.5 m 距离)、低存储车载终端(剩余空间 <500 MB)。
提示
若团队规模 >50 人需统一离线词库,可联系搜狗企业支持申请「私有离线增量包」通道,目前只对医疗、法律、金融三大行业开放,需签署数据合规协议。
最佳实践 5 条
- 每月首日手动检查「设置-语音-离线包更新」,确保周期内增量合并;
- 做专业术语前,先用「自定义短语」一次性导入 500 条行业高频词,离线识别率可再提 2–3 个百分点;
- 远场拾音时关闭「语音唤醒」,避免背景噪音误触发,减少 30% 空转耗电;
- Windows 端若同时装讯飞语记,请把搜狗语音快捷键设为 Ctrl+Shift+V 以外组合,防止热键抢占;
- 合规写作场景,离线结果仍需人工复核,因大模型云端纠错对「的得地」敏感度更高,离线易漏检。
版本差异与迁移建议
从 10.10 升到 10.12 后,离线包格式由原先的 SGVP 2.0 升级到 3.0,旧包会被强制清理,需要重新下载。迁移前请确保 Wi-Fi 环境,避免在移动数据下被扣 200 MB 流量。若你曾用「实验插件」打开过离线长录音(>5 min),该插件在 10.12 被合并进主程序,设置项位置不变,但模型体积增大 60 MB,升级后首次启动会有一次 10 秒级 JIT 编译卡顿,属正常。
验证与观测方法
除了 WER 统计,也可观测「设置-语音-诊断报告」里的 RTF(Real-Time Factor)值:离线 RTF≈0.35,在线 RTF≈0.22,数值越小越实时。若离线 RTF>0.5,说明 CPU 占用过高,可关闭其他后台或降低麦克风采样率到 16 kHz。
未来趋势展望
搜狗在 2025 开发者大会上预告,将在 11.0 版引入「边缘微调」功能,允许用户在本地用 5 分钟个人录音微调声学模型,进一步缩小与在线差距。该功能需 NPU 算力 >3 TOPS,预计仅旗舰手机与 Win12 AI PC 支持。若你对隐私极度敏感,可保持 10.12 长期稳定版,等 11.0 实测报告后再决定升级。
总结:离线语音不是简单开关,而是一套「下载-校验-维护-回退」小系统。按本文三步启用后,每月花 2 分钟检查更新、10 分钟做个人词库校准,就能在 92% 字准率基准上,再提升 3–5 个百分点,足以覆盖地铁、会议、高铁等 80% 弱网场景;若你依赖实时热词或远场会议,仍建议回退到在线模式,并采用外接麦克风+云端纠错组合方案。
案例研究
场景 A:20 人内容创业团队
需求:每日通勤地铁 40 分钟,需把语音草稿转为文字,回公司 Wi-Fi 再上传 CMS。
做法:全员统一升级 10.12,行政岗提前下发 500 条行业黑话自定义短语;地铁段强制开飞行模式,用离线语音优先;回公司后关闭「离线优先」开关,自动切回在线,利用云端纠错二次润色。
结果:30 天统计,人均日更 2600 字,WER 稳定在 4% 以内;地铁段零流量消耗,编辑部月度流量账单下降 38%。
复盘:初期出现「NFT 蓝筹」被识别为「NFT 难仓」,通过自定义短语 5 分钟解决;后续把「更新离线包」写进每周一上班 checklist,再未出现热词滞后。
场景 B:三甲医院科研组
需求:病区禁止外网,医生需把床旁语音记录转成文本,导入电子病历。
做法:向搜狗企业支持申请「医疗私有离线增量包」,IT 在内网 WSUS 上架 10.12 客户端;离线优先+禁用云同步;每台瘦终端外接定向麦克风。
结果:字准率 93.7%,满足病历质控≥90% 要求;IT 安全审计无违规外联;半年后抽查 500 份病历,医学术语漏字率 0.12%,低于人工转写 0.3% 基准。
复盘:初期 RTF 值过高,发现是瘦终端 CPU 性能不足,统一换成 i5-12U 后 RTF 降至 0.32;私有增量包更新周期为 56 天,需提前与搜狗约定医学新词推送节奏。
监控与回滚 Runbook
异常信号
- 离线 RTF>0.5 持续 10 秒以上;
- 语音面板灰标消失且弹窗「离线包不可用」;
- 连续 3 次出现「方言识别成普通话」。
说明:出现任一信号即触发回滚,避免错误文本入库。
定位步骤
- 立即关闭「离线语音优先」开关,切回在线;
- 进入「设置-语音-诊断报告」,导出最近 1 小时日志;
- 检查磁盘剩余空间、SHA256 校验值、麦克风权限三项。
回退指令/路径
- Android:设置-语音-存储管理-一键清理离线包;
- iOS:卸载搜狗输入法,App Store 重装;
- Windows:设置中心-语音-取消勾选「启用离线语音识别」,重启输入法。
演练清单(季度)
- 模拟断网 30 分钟,完成 300 字语音输入,记录 WER;
- 模拟离线包损坏(手动删除 10% 文件),验证弹窗提示与回退速度;
- 模拟存储不足(磁盘剩 500 MB),确认下载失败提示是否明确。
FAQ
- Q1:离线包能否手动拷贝到另一台手机?
- A:否,离线包与设备 ID 绑定,直接复制会提示「包损坏」。
- 背景:搜狗在 SGVP 3.0 引入设备级 AES 加密,防止版权滥用。
- Q2:iOS 离线包 198 MB,为何 Android 只有 185 MB?
- A:iOS 额外集成 13 MB 实时音频缓冲区,用于沙盒进程保活。
- 证据:官方下载页脚注给出分平台体积明细。
- Q3:能否关闭自动更新,永久用旧离线包?
- A:可关闭,但 28 天后词库滞后,热词识别率下降明显。
- 经验:出现 3 次以上「新冠 XBB」无法识别即建议手动更新。
- Q4:Windows 端离线包必须放系统盘?
- A:默认 %LOCALAPPDATA%,可在设置中心-语音-高级-自定义路径改到 D 盘。
- 注意:路径需 NTFS 分区,FAT32 无法写入>4 GB 临时文件。
- Q5:离线模式下能耗会增加多少?
- A:经验性观察,安卓连续输入 30 分钟,电量多耗 6–8%,主要来自 CPU 占用提升。
- 建议:远场场景关闭语音唤醒,可拉回 3% 电量。
- Q6:是否支持离线中英混说?
- A:支持,但混说 WER 比纯中文高 2.3%,因本地无英文大模型。
- 示例:「这个 bug 需要 refactor」可能识别为「这个八哥需要瑞福克特」。
- Q7:离线语音结果能否自动加标点?
- A:支持基础标点,但引号、破折号准确率低于在线 5%。
- 经验:会议场景建议后期用在线「一键排版」二次校正。
- Q8:如何校验下载完整性?
- A:官网提供 SHA256 值,Windows 可用 certutil -hashfile,安卓可用 sha256sum。
- 若值不匹配,设置中心会弹「包损坏」并阻止加载。
- Q9:企业内网如何分发离线包?
- A:仅医疗、法律、金融三大行业可申请私有增量包,通过 HTTPS 内网镜像更新。
- 需签署数据合规协议,目前不对教育、政务开放。
- Q10:卸载重装后自定义短语是否丢失?
- A:会丢失,因短语与离线包同库存放;建议提前导出「设置-账户-备份词库」。
- 导出文件为 .sgbkp,重装后登录同一账号可恢复。
术语表
- WER(Word Error Rate)
- 字错误率,衡量语音识别准确率核心指标,首次出现于「准确率验证」节。
- RTF(Real-Time Factor)
- 实时因子,数值越小越实时,首次出现于「验证与观测方法」节。
- SGVP
- Sogou Voice Package,搜狗离线语音包格式,3.0 版起带加密,首次出现于「版本差异」节。
- 知犀
- 搜狗在线大模型代号,首次出现于「功能定位」节。
- NPU
- 神经网络处理器,11.0 版边缘微调需>3 TOPS,首次出现于「未来趋势」节。
- 增量包
- 仅含新增词库差异,体积小于完整包,首次出现于「例外与副作用」节。
- 私有离线增量包
- 企业内网专用,含行业术语,首次出现于「适用/不适用场景」节。
- 剪贴板监听
- PC 端自动化方案,用 pyperclip 读取语音结果,首次出现于「协同边界」节。
- SHA256
- 离线包完整性校验算法,首次出现于「故障排查速查表」。
- 热词
- 短期高频新词,如「Gank」「XBB」,首次出现于「例外与副作用」节。
- 远场
- 拾音距离>1.5 m,首次出现于「适用/不适用场景清单」。
- 沙盒
- iOS 应用隔离机制,导致离线包随 App 卸载,首次出现于「iOS 三步路径」。
- Jit 编译卡顿
- 10.12 升级后首次启动模型编译 10 秒现象,首次出现于「版本差异」节。
- RTF>0.5
- 监控阈值,代表 CPU 过载,首次出现于「监控与回滚」节。
- 自定义短语
- 用户手动添加的短句映射,用于提升专业词识别,首次出现于「最佳实践」节。
风险与边界
- 不可用情形:剩余存储<500 MB、CPU 持续占用>80%、无麦克风硬件。
- 副作用:离线包 28 天未更新时,热词召回率下降;长期隔离内网需手动增量。
- 替代方案:在线模式+省流量压缩、外接 USB 麦克风+讯飞语记、企业私有 ASR 服务器。
红线提醒
涉密会议若禁止任何本地录音,需物理关闭麦克风,离线语音亦无法工作,此时应改用纸笔记录。

