欧易

欧易(OKX)

国内用户最喜爱的合约交易所

火币

火币(HTX )

全球知名的比特币交易所

币安

币安(Binance)

全球用户最多的交易所

打开思路,在线看片在线翻译,哪国的都行

2023-03-01 17:14:48 762

摘要:自从去年微软 Edge 上的那个「大声朗读」背后的微软云 AI 语音合成被我们扒出来后,先后分享过很多白嫖他们官网 Demo 的第三方文字转语音工具。但从实际出发考虑,你会发现这类「文字转语音」工具咱也就图个热闹,远没有「语音转文字」工具来...

自从去年微软 Edge 上的那个「大声朗读」背后的微软云 AI 语音合成被我们扒出来后,先后分享过很多白嫖他们官网 Demo 的第三方文字转语音工具。

但从实际出发考虑,你会发现这类「文字转语音」工具咱也就图个热闹,远没有「语音转文字」工具来得实用。

毕竟在工作学习里,像整理会议录音材料,扒学习视频上的文字资料等等,在语音转文字工具的帮助下,相信会有实打实的效率提升

但是,我不知道大家有没有了解过语音转文字这个领域啊,单从我的了解来说,这类工具提供了按次、按小时的免费识别额度后,都是要花钱搞定音频识别的。

周三那篇评测手机上输入法语音识别率的时候,我就在想,有没有机会利用输入法上的语音识别,达到听写转文字的效果呢?

诚然,实现这个很简单,完全可以一个设备播放音频,再用另一个设备识别,但对于咱这种天天折腾电脑的人来说,实在是太不优雅了。

所以我在这个思路上摸索了一下,整理了一套优雅的解决方案,而其折腾的核心,在于一个虚拟音频驱动工具,VB-CABLE。

这个玩意的玩法实在是创意无限,只要你思路打开,题目中的玩法只是其中之一。

VB-CABLE

我们先简单了解一下这个虚拟音频驱动是干嘛的哈,不知道大家还记不记得上个月我整活的那个男变女变声器,这软件我玩了一天,同事们被我恶心吐了

变声器的实现原理是什么?简单说,就是拦截了实际的输入音频(录音)后,经过变声处理,并输出新的音频。

VB-CABLE 这个虚拟音频驱动的原理,本质上和变声器类似,它拦截了电脑上的音频输出,并虚拟成了新的输入。

安装很容易,从官网上下载的安装压缩包,解压后里面有两个安装程序,咱 Win10 选 64 位的双击即可。

步骤也很简单,在安装窗口那里点击「Install Driver」,当安装成功的窗口弹出,VB-CABLE 就搞定了。

注意,如果这一步的安装失败,多半是权限的事,大家可以试试右键以管理员身份运行安装。

然后咱们还需要一点点简单的配置,去右下角托盘里找到声音设置的图标,右键选择「打开声音设置」:


在 Windows 自带的设置里,把输入和输出分辨换成「CABLE」开头的两个虚拟设备。

此时,你电脑打开音、视频播放的音频,就成了新的输入音频,到了这一步,你会发现,耳机、音响里正在播放的声音突然没了,这就证明它正在干活。

如果你还想听,别急,在刚刚那个设置界面的右上角,找到「声音控制面板」。

然后在「录制」里找到「CABLE」开头的虚拟设备,右键选择「属性」。

在弹窗里找到「侦听」,勾选「侦听此设备」,并选择真实的播放设备,注意,这里每个人的播放不一样,或耳机或音响或屏幕,大家按实际的选就行了。

此后,我们就可以一边正常听电脑播放的音、视频,一边享受虚拟驱动带来的效果了。至于 VB-CABLE 这个虚拟驱动怎么用?下面我为大家准备了三个场景:

使用姿势

既然是使用,就得借助别的工具了,先来个简单的,比如 Windows 电脑自带的听写功能。

场景一

这个功能可能很多小伙伴不知道,其实我也是看了评论才知道的,说是现在的识别率很高。

想了解的小伙伴可以直接去设置里搜「听写」,里面就有关于微软听写的介绍:

使用起来就是,打开需要识别的音视频后,在任意文本界面,「Win+H」唤出听写,然后它就能帮你自动转成文字了。

但我实际体验中碰到了一些问题,不知道是不是网络环境问题啊,这玩意我总觉得有点傻,重复打开了好几次才能正常识别一句,据说 Win11 对听写功能进行了优化,Win11 的小伙伴可以自行试试看。

但我还想用这个系统自带的听写啊,所以不服输的我,找到了听写这个功能的出处,它本是 Office 的一个名为「Dictate」的插件,属于微软程序员折腾出的业余项目。

但后来因为效果好,这个插件被吸纳内置到了 Office 和 Windows 上。。。

电脑上我用不了,但 Office 上我能用啊,「开始」里的「听写」,就是它真身:

不过还需要我们在听写的设置里,把麦克风选成「CABLE」。

这个时候,开始播放音、视频,再开启听写,就能达到语音转文字的效果了:


场景二

在上面这个场景的最后,我发现在微软 Office 上的听写里,还支持识别其他语言:

那有没有可能实现一边识别,一边翻译的效果呢?Office 这里是不行的,只支持识别单一语言,但我在这个基础上发散了一下思路,想到了谷歌翻译。

在谷歌翻译的左侧,不有个语音翻译的按钮嘛?

点了以后,仔细看链接栏,那里会多出来个小图标,是申请麦克风权限的图标,一样的,把麦克风换成「CABLE」的虚拟设备。

做好了这些准备工作,我从 B 站找了个日语采访的生肉视频,把输入语言换成日语,把输出语言换成中文,边识别边翻译的效果,在这里就搞定了。

除了日语,其他谷歌翻译支持的语言,也可以做到边识别,边翻译的效果,看到这里,老司机们或许会有个大胆的想法,没错,确实可以,我已经试过了。

PS:谷歌翻译不是刚刚被禁嘛,大家可以修改 hosts 利用有效的 IP 访问,但速度会慢上一些,限于篇幅就不展开了,至于其他的大厂翻译我没试,有兴趣的小伙伴可以自行探索。

场景三

到这里,其实已经把 VB-CABLE 的使用场景介绍的差不多了,但是呢,我可没忘今天这篇的初心哈,即用上输入法的语音来进行识别。

怎么搞?告诉大家一个小技巧,在安卓模拟器的设置里,往往可以更改音频的输入、输出设备,那么就简单了,只要我们把麦克风和扬声器换成虚拟的「CABLE」不就行了。

我在模拟器上下载了讯飞输入法,和用来记录文字的锤子便签:

我们只要像手机那样开始语音输入,然后再打开视频,电脑上就自动搞定了转换:

结语

至此,这次折腾就算结束了,大家可别被微软听写、谷歌翻译、模拟器输入迷住了眼,我们所围绕着的核心,一直都是 VB-CABLE 这个虚拟音频驱动。

有了它,只要第三方工具支持调换麦克风,我们都能做到白嫖它们的接口,实现音频转换的功能。

想清楚了这一点,我们的思路才能被打开,老规矩,我把官网上下载的压缩包放蓝奏云了,感兴趣的小伙伴快去试试吧。

https://wwz.lanzouw.com/ia2Cp0ep0yuj

本文首发于微信公众号网罗灯下黑(wldxh8),未经授权请勿转载!

一如既往感谢各位小伙伴的支持和关注!

版权声明:本站所有文章皆是来自互联网,如内容侵权可以联系我们( 微信:bisheco )删除!
友情链接
币圈社群欧易官网