Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feederwechat2rss.xlab.app
Get the latest updates from 技艺丛谈 directly as they happen.
Follow now 19 followers
Last updated about 1 month ago
over 2 years ago
原创 叶顺平 2022-08-22 00:04 北京 第一次参与翻译技术书籍,聊聊其中的苦乐与收获 大概三年前,本人参与了一本技术书籍的翻译,书籍是《The Design and Implementation of the...
over 2 years ago
叶顺平 2022-08-21 01:20 北京 AI是否已经在“说话”方面赶上人类? 先来听听三条音频,做个真假声测试。上面三条音频的正确答案,会在文章发布后的第二天,于本文留言区公布。欢迎收藏后再回来看,结果相信会打破你的三观。近日出门问问公司推出了新一代合成引擎MeetHiFiVoice,在发音人音质、韵律节奏等方面均有质的提升。下面我们来欣赏一段视频(大部分为魔音工坊用户制作的视频片段),看看目前的技术,做出来的作品配音效果是否足够以假乱真了?在大众的固有印象中,AI配音总是给人机械的印象。那么人工智能经过这么多年的发展,TTS是否已经摘掉了“一听就是机器人”的帽子呢?三年前,出门问问有个公众号投票,针对MeetVoice的合成效果进行了一次”以假乱真“的声音鉴别投票,投票结果如下图。投票数据显示,当时的AI和真人的声音已经接近“傻傻分不清”了。不过当时参与投票的发音人比较少,并且投票的时候预先知道了两条???频里“一条为真一条为假”,不够接近真实世界的现状,说服力还不够强。这次,出门问问升级了技术,推出了MeetHiFiVoice 引擎,技术团队在公司内部组织了近两百人的评测,应用了8位发音人(分别是「魔音工坊」的满超ZN、采采、杨婧、魔千雪、魔小杰、魔天轮、魔小凡、魔丽娘),并且合成的声音不使用训练集里的文本,评测的方式加大了难度,不再是两条音频里一个为真一个为假,而是更加挑战地对32条音频进行独立的真假判断。比赛规则:• 邀请超过150人参与比赛;• 设置奖项,让大家都能够认真听音频投票,而不是应付了事;• 使用32条音频,设置32个投票。参与的用户只需要听该音频,投票该音频是“真人”还是“合成”。投票前,不告知用户真人和合成的比例等任何额外信息;• 投票数少于30条音频的用户作废,不计入统计;以下是某支音频的投票结果:可以看到,该条音频总共有190人参与投票,投真人106票,投合成84票。我们先来听听这条音频:下面再来分析看看最终的评测结果,以下是总体的投票信息:可以看到,在本次投票中,大家倾向于认为音频是合成的(虽然实际上真人和合成的比例是5:5)。那么,对32支音频的判别准确率怎么样呢?大家接着看下面的详细数据。对32支音频的投票结果进行分析从上面的表格可以看到,音频的平均准确率只有59.4%,而盲猜的???确率也会有50%,说明真人的辨别能力,和盲猜结果相差无几。大概有10条音频,真人和合成的得票数在40%-60%之间,也就是说,大部分人都无法分辨出来。对176个投票用户的投票结果进行的分析(投票结果比例图表:指不同得分范围对应的人员比例)从以上图表可以看出,准确率低于盲猜(50%准确率,即50分)的用户,达到了19.9%,说明对这部分用户而言,合成已经真正达到“以假乱真”。而得分为60分以下的用户,占到了55.7%,也就是说,过半的用户,可以在一定程度上辨别真假,但是接近盲猜(高了不到10分)。176个用户里,最高得分为75分。另外, 我们还重点看了下四位声音领域的专业用户的投票结果(其中C和D是专门邀请来进行测试的,不在统计的176个用户里)。专业的主播和配音从业者,也很???有效判断出某个音频是AI还是真人,更何况对声音不太敏感的普通大众?看到这里,你还会认为“AI配音很机械”,或“配音还是得使用真人,否则效果不自然”么?是的,媲美真人的配音时代已经来临!下面我们来听几支音频,看看哪些音频是比较容易被AI克隆的,哪些是AI难以逾越的。先来看看“以假乱真”的合成音频1。上面这支采采的音频,有高达55.8%的用户认为它是真人原声,而不是合成的。有一些投票用户认为,该音频“有吐气之感”,确信它是真人,而不是合成的。再来看看真人音频2。满超老师的这支音频,目前对AI而言,依然是不可逾越的高峰。由于满超老师的演绎水平很高,可能导致大部分用户认为AI目前做不到这个水平,所以有75%的用户投票“真人”。满超老师已经入驻魔音工坊,他和杨婧老师的《斗罗大陆》有声书,堪称有声小说的标高,有兴趣的朋友可以在“云听”收听两位老师的精彩演绎。再来听听满超老师激情风格的样音,看看真人可以做到多“真”,张力多强:当然,主播的演绎越好,风格越多变,对AI来说越是无法逾越的高峰。不过技术在持续进步,路漫漫其修远兮,魔音工坊团队也会持续勇攀高峰,争取开发出更好的AI模型以飨用户。目前出门问问MeetHiFiVoice...
over 2 years ago
原创 叶顺平 2022-08-20 23:32 北京 作为工程师工作11年了,这里分享下自己的三段“产品经理”经历。 工程师角色很少转型为产品经理的,我也不例外,目前更多的角色还是工程师。近期收听了不少播客,大部分都是互联网产品经理和创作者主理的,于是有一定的冲动,做一做播客尝试看看。不过做播客并不容易,就和做视频号一样,对习惯写文字的人来说,需要做一些改变。播客还是以后再说吧,这次我们先使用文字梳理下我过去的几次“产品”经历。先说一下这次时隔两年再次开始写文章的原因:1,公众号10周年了,觉得不应该荒废了。2,看到小宇宙等平台里的很多蛮出色的互联网人,都一直在坚持输出,尤其是在小宇宙“为爱发电”做播客,觉得坚持写作(或者叫内容输出)是一个好的习惯。这次重新开始,希望能坚持一定的写作频率。我在09年开始实习,第一次实习做的是一个聊天工具,其实就是高仿版本的QQ。当时我的角色是「Windows开发部经理」,算是研发负责人,不过刚开始的半年多时间里,公司里这个项目并没有正经的产品经理,所以我也承担了一定的产品角色。对于还在读研的我来说,开发一款QQ这样复杂度的软件,并不容易,不管是技术难度,还是产品复杂度。那会做了几个事情:深度玩了下QQ的所有功能。包括所有按钮,所有菜单,所有产品文案,甚至包括支持的所有设置信息。反复测试文件传输,音频通话,视频通话,文本聊天,表情包等功能。深度调研的Miranda项目,以及一些第三方的IM框架。第一次实习,虽然没有太深度参与产品定义(因为产品本身就是copy的),但是却对当时最大的互联网产品做了深入的了解,虽然仅限于功能细节的了解,没有能够从产品创新,商业模式等入口,但是也有了一定的收获,那就是对产品保持好奇心。写到这里,想到了近期面试一个产品候选人的有趣经历。有个大概工作了七八年的产品,当我问他几个比较大的互联网产品的时候,他提到最大的是QQ,然后是淘宝和微信等。我接着问,那微信和QQ的DAU大概是多少,他提到QQ大概是三五亿,微信DAU大概是QQ的一半。我接着为,为什么QQ的日活会是微信的两倍呢?他说微信主要是成年人在用,而QQ很多小孩也在用。当时我挺震惊的,原来作为产品经理这个职业的从业者,可以对微信和QQ的基本数据如此陌生!第二次产品经历,则是我的第二份正式工作。当时在宜搜科技工作,最后半年的时候,团队做了很多创新产品的尝试,比如安卓市场的App Store(类似豌豆荚),比如新闻阅读产品(类似今日头条,或者内容为主的UC浏览器)。不过可惜的是,当时团队的产品能力不够强,更多的还是趋势的判断,但是产品创新能力并不够强,而技术执行能力也不够强,导致产品做出来只能自己玩玩,基本都停留在从0 到1的阶段,还没有进入大规模推广阶段,团队核心成员就四散纷飞了。那会我其实也做过一次产品尝试,做一款新型的视频搜索产品。当时是13年,移动互联网方兴未艾,各种移动互联网的产品创新层出不穷。那会有几个视频方面的痛点:优酷土豆等视频网站四分五裂,很多看一个电影或者电视剧,往往不知道哪个网站才有。搜索的成本很高。有时候搜索到了,那个视频却需要付费,但是大家都还没有同时购买好几个视频网站会员的习惯。当时电驴等BT搜索网站还很多,但是产品使用体验一般。很多能搜索到资源的网站,都是小团队做的,技术能力有限,产品体验更是糟糕。迅雷等下载软件,以及百度云盘等产品,都开始推出在线云播产品功能,用户在大规模增长中。基于上面的几个现状,我觉得有机会开发一个综合的视频搜索产品,可以解决几个痛点:搜索版权视频,一个入口查找主流视频网站的资源,并且标记出来哪些视频是需要会员才能播放的,哪些是可以免费观看的。精准搜索种子文件,或者是magnet 链接,并且做一些去重。搜索到种子后,直接使用云播产品一键播放。版权视频和种子资源的搜索,整合在一起,一个搜索按钮搞定所有视频搜索需求。当我把原型出来后,当时我的leader还让一位前端,一个产品,一个设计师配合我,当时大概花了小一个月的时间,开发了这个产品的雏形,并且在贴吧等地方简单推了下。没有想到的是,还是有很多用户进我们用户交流的QQ群的。我们几个同事自己也会使用这个产品去找一些视频看,使用下来,对我们自己是有产品价值的。当时之所以快速开发了出来,是因为我们团队之前是做网页搜索的,爬虫,网页解析,索引等都是我们团队负责的。而我自己当时也业余时间读了开源搜索引擎的源代码,所以利用我们几百亿网页资源,快速从一些特定网站中解析magnet链接,然后利用我们团队的索引检索能力,搭建一个原型系统还是非常快速高效的。遗憾的是,这个产品因为后来的“扫黄打非”停摆了,当时因为色情资源等问题,百度网盘和迅雷的云播功能,都进行了深度整改,于是种子搜索和播放的核心体验无法依赖云播产品搭建起来,加上有一定的触雷风险,大家也就不再重点看这个项目了。过了一段时间,团队大动荡,我也离开了公司,来到了出门问问。而我的第三次产品经历,则是目前在出门问问做的魔音工坊。魔音工坊是一款AI配音软件,旨在为用户提供全方位的编辑功能,人机结合,快捷生成高品质无错误的音频,配音效果媲美真人。有大量的音频创作者有AI配音的需求,主要几个原因:1,自己的声音不好听。2,普通话不标准。3,找朋友配音很麻烦。找专业的配音机构又太贵。4,家里没有安静的环境,更不可能有专业的录音棚。5,专业麦克风不便宜。6,配音念错了,需要反复重念,时间成本高,甚至枯燥无聊。第三段经历,我则不再是简单地参与魔音工坊这个产品,而是从产品创意的提出,核心功能的定义,核心技术的推进,交互和设计细节的反复讨论和确定,都下了大量的功夫。这次经历,也算了让我完成了工程师到“产品经理”的角色转型,虽然岗位还是技术岗位,不过花在产品上的功夫已经不比技术少了。所幸的是,魔音工坊这个产品不再是胎死腹中的产品点子,也不是藏之深闺(公司内使用)或者浅尝辄止,而是迭代了两年多,并且得到了蛮多用户的认可。对这个产品感兴趣的朋友,可以在我的视频号观看产品介绍视频。在过去的推文里,也有两三篇相关的文章。下面的文章,我会来简单总结下作为工程师和作为产品角色的差异,以及两个角色的欢乐与痛苦,而我又是如何从这两种不同的角色中获得兴奋点的。 阅读原文 跳转微信打开
over 4 years ago
最近在做的一款配音产品,非常适合自媒体作者,读者朋友们,如果你有配音需求,可以考虑下魔音工坊。 网址:https://voice-maker.mobvoi.com/ 购买会员的话,找我有优惠。后台私信我,或者公众号里找一下我的联系方式。
over 4 years ago
最近在做的一款配音产品,非常适合自媒体作者,读者朋友们,如果你有配音需求,可以考虑下魔音工坊。 网址:https://voice-maker.mobvoi.com/ 购买会员的话,找我有优惠。后台私信我,或者公众号里找一下我的联系方式。
over 4 years ago
魔音工坊是一款AI配音软件,旨在提供全方位的编辑功能,人机结合,快捷生成高品???无错误的音频,配音效果媲美真人。 影视解说中,有大量创作者有AI配音的需求,主要几个原因: 1,自己的声音不好听。 2,普通话不标准。 3,找朋友配音很麻烦。找专业的配音机构又太贵。 4,家里没有安静的环境,更不可能有专业的录音棚。 5,专业麦克风不便宜。 6,配音念错了,需要反复重念,时间成本高,甚至枯燥无聊。 影视解说人群而言,AI配音就是非常好的选择。而魔音工坊是目前市面上非常专业的配音软件,已经有很多抖音达人,靠这款软件,在两三个月内就做到了大几十万粉丝。 我们来看看魔音工坊有什么强大功能,又怎么使用吧
over 4 years ago
魔音工坊是一款AI配音软件,旨在提供全方位的编辑功能,人机结合,快捷生成高品质无错误的音频,配音效果媲美真人。 影视解说中,有大量创作者有AI配音的需求,主要几个原因: 1,自己的声音不好听。 2,普通话不标准。 3,找朋友配音很麻烦。找专业的配音机构又太贵。 4,家里没有安静的环境,更不可能有专业的录音棚。 5,专业麦克风不便宜。 6,配音念错了,需要反复重念,时间成本高,甚至枯燥无聊。 影视解说人群而言,AI配音就是非常好的选择。而魔音工坊是目前市面上非常专业的配音软件,已经有很多抖音达人,靠这款软件,在两三个月内就做到了大几十万粉丝。 我们来看看魔音工坊有什么强大功能,又怎么使用吧