当前位置:主页 > K蕙生活 >柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最 >

柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最

发布时间:2020-07-17作者: 阅读:(917)

柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最

语音助理风行,从硅谷到东亚的中国、日本公司,不少科技公司投入资源进来发展这块。但对不少新创还是学生研究人员来说,首先第一步遇到的问题是,他们没有大公司资源,也无法靠一己之力收集所需要的训练资料。Mozilla 看到这个问题,决定用开放创新 (Open Innovatoin) 方式来收集语音资料。Mozilla 的同声计画 (Common Voice)运行一段时间,并且已经释出英文的语料库出来,可以供 AI 训练语言辨识模组。台湾社群的努力,开始台湾的语音收集计画,并且收录包括柯 P、蔡总统文告,变成语音训练资料库的一部分。

Mozilla 的 Kelly Davis 是语音辨识的专家,说语音辨识是相当複杂的过程,细部拆解可以分成语音截取、语音辨识、自然语言理解/对话 AI、自然语音生成,以及合成对话。目前同声计画专注在收集语音资料这一步,然后收集足够多的对话文字和语音资料,就可以做 Speech to text 的转换。他们自己评估需要收集不同人共 10,000 小时的录音,就能训练出可以媲美 Google 语音助理效果的语音辨识 AI 了。

柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最

语音相关技术彼此之间的关係,而同声计画则是在第二步语音辨识这边。(Mozilla 提供)

由于全球的科技公司以北美为主,因此做语音助理这块,用北美男性口音效果最好。但北美的人口只是全球人口一部分,要能够服务全球所有人口,必须广纳全球各地不同人的声音,儘量多样的声音,男女老幼声音都要能尽力收录。

柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最

同声计画专注 Speech-to-Text 这块,而 Mozilla 另一个计画 Deep Learning 则是做语音生成这块。

资源少,还没办法好好写说明文件

同声计画团队的 Michael Henretty 称讚先前《科技新报》的文章有类似一步一步带的操作步骤说明,还有清础说明那些平台可以用,特定平台又要怎幺用,他们团队小,而且为了避免计画人力过大,影响既有 Mozilla 的任务,以小团队的方式进行,甚至美编还得共用。同声计画还没有时间精力撰写说明文件。Michael 听到下载出问题的状况,如同前面提及的文件还不大够的问题,说他们还没有时间好好优化流程,之后要好好来改善。

柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最

如何录音的说明,同声计画还没有太多精力撰写。同声计画也有想要拍说明影片,介绍如何录音及验证录音资料。

同声计画资源不多的状况,还反映在这个计画还并没有 logo。很多素材的现况,如充做吉祥物角色的机器人,则是去年在台湾的设计思考工作坊的产物。Henretty 说他们希望之后有更多资源进来,计画本身有更多动力,週边的行销资源也能改善。

同声计画团队指他们听到不少参与者的心声,如加上录音排行榜,以及离目标 10,000 小时完成度的百分比饼图。另外针对收集录音对象,能够更细致的询问年龄、出生地,让 AI 训练更为精确。

柯 P、蔡总统文告成为素材之一

Mozilla 台湾社群联络人 Irvin 说他们收集属于公有领域的素材,像是不受台湾着作权保护的政府官员说话的新闻稿。因此训练的素材有柯文哲市长的致辞新闻稿,或是蔡文英总统的文告,各位可以念到柯 P 语录或是蔡总统的发言。

维基百科是规模相当庞大的文字资料库,但受限维基百科採用 CC-BY-SA 方式授权,因此不能使用。由于预期语音的应用会需要混搭,因此採用宽鬆的 CC0 授权,帮助新创和学生发展不同的语音应用。

目前同声计画计画共录製 900 小时,有 112 个国家参与。同声计画已经是全球第二大开源语料库,预计不久之后,2018 年年中会超越最大 LibriSpeech 成为最大开源语料库。

柯 P 语录、蔡总统文告也收录,Mozilla 同声计画要建构无使用限制的全球最

LibriSpeech 是全球最大的开放语料库,但预料不久应会被同声计画超越。

而各别语言拆开论述。大家关心台湾的部分,目前已经收集 36 小时的录音,这不过是从 6 月 30 日开始的累积成果,这样的成绩相当不错。如果依据同样速度前进,可以很快超车排名第二、第三的法国和德国,站上第二名的位置。

开放创新,多个利益相关者共同参与的创新方式

Mozilla 强调开放创新的理念,相对之下就是传统公司关起门的研发。Mozilla 发展同声计画,就有来自学界的帮忙,如威尔斯的 Bangor University in Wales 长期致力收集和保存凯尔特语言,就提供语言学的专业知识,实际的语音收集技术,以及另一种接触人的方法。Bangor University 的老师就说,他们出去收集素材,会被要求有偿进行,但 Mozilla 发起的计画,却能动员人们免费参与,免费给录音出来。Bangor University 已经收集五年了,成果却比不上同声计画。

Davis 就说同声计画与 Bangor University 的合作就是相当典型的开放创新,Bangor University 提供语言保存角度可以怎幺做的作法,Mozilla 则是提供软体技术的支援。

儘管同声计画资料库採用 CC0 的授权,别人用资料可以不必标示出处,但同声计画团队表示,仍希望能被使用者告知,知道他们辛苦收集的资料用在何方。商业公司如 Google,已经有用到释出的英文语料资料了,新创公司 Mycoft 则是搭配 Mozilla 另一语言专案 Deep Speech,做出类似 Siri 的产品。

台语、客语,多个原住民语言都可能收录

不少人可能好奇能否收录 Taigi (台语)、Hakka (客家话)、众多原住民语言等台湾语言。同声计画团队指他们的力量有限,无法接触世界上每种语言。以他们角度则是儘可能 empower 各个社群,要他们来参与,鼓励他们参与,在由社群制订方法和收录文字资料。而台湾社群相当积极推动同声计画,也让台湾很快就能收集自家的语言资料了,成为亚洲第一个开始的语言。

Irvin 提台湾社群讨论时,有想过以汉字、台湾罗马字并列的方式生出台语的文字资料,而原住民语言则先列出用汉字写的文句,族人依据他们族语的念法,直接念出来。

同声计画团队说中文的挑战相当巨大,像是有繁简体字两套文字书写方式,同样的文字说话的语音不同,地理分布导致语言有相当大的差异。所以这就是社群内部讨论的重要性所在,最终依据讨论成果列出收录方式和文字的资料库。

有这幺多技术可以做,为何挑选语音辨识。Davis 表示不少人不识字,对于电脑惯用的键盘输入并不熟悉,如果直接用语音方式操作,会更为直接,能够接触需要网路的人。未来 Mozilla 的 Firefox 浏览器,计画加上直接声控的功能。

上一篇: 下一篇:

相关阅读