您的位置：首页 >热讯 >

聚焦：新西兰企业家用AI“拯救”毛利语，帮助少数民族语言进入数字世界

2022-06-16 05:22:20 来源：DeepTech深科技

在新西兰一个偏远的乡村小镇，一对土著伙伴正在挑战人工智能可能是什么，以及它应该为谁服务这一议题。新西兰最北端地区一座古老而灰色的建筑的后屋里，最先进的人工智能计算机之一正在帮助重新定义这项技术的未来。

TeHiku 传媒是一家由合作伙伴彼得-卢卡斯·琼斯（Peter-Lucas Jones）和基奥尼·马赫洛纳（Keoni Mahelona）运营的非营利性毛利人广播电台，他们以 50% 的折扣价购买了这台机器，以训练自己的自然语言处理算法。如今两人的核心梦想是振兴毛利语，并接管他们所在团体的各种数据。

马赫洛纳是夏威夷土著，在爱上了新西兰后定居在这里，他笑着谈起了这种奇异的情况。“这台电脑就被放在凯塔亚的一个架子上，就在这样一个穷困潦倒并拥有大量土著人口的废弃之地。我想我们已经有点低调了，”他说。

该项目与人工智能行业经典运作方式完全不同。在过去的十年里，人工智能研究人员以“越多越好”为教条将该领域推向了新的极限：积累更多的数据，生成更大的模型（即用这些数据训练的算法），以产生更好的结果。

这种方法带来了显著的突破，但也导致了巨大成本。各路公司永不停息地挖掘人们的面孔、声音和行为数据，以扩大营业额。通过来自整个人口的数据而建立的人工智能模型，已经使得少数族裔和某些团体被边缘化，即使他们仍极大地受制于该技术的影响。

多年来，越来越多的专家一致认为，这些技术冲击正在重复着殖民历史的模式。他们说，全球人工智能的发展正在使没有发言权的团体和国家陷入贫瘠——这些社区和国家已经被以前的殖民帝国贫困化。

图 | 彼得-卢卡斯·琼斯参加了 2019 年的土著人工智能研讨会。（来源：《麻省理工科技评论》）

这一点在人工智能和语言文字中尤为明显。“越多越好”的理念已经创造了具有强大的自动完成和文本分析功能的大型语言模型，现在被用于搜索、电子邮件和社交媒体等日常网络服务。但是，这些通过吸引大量互联网资源而建立的模式，也在加速语言文化的消失，就像以前的殖民和同化政策一样。

只有最通用的语言才有足够的使用者和足够的潜在利润，而科技巨头则收集它们所需的数据以助其发展。因此，在日常工作和生活中对这些服务的依赖，迫使一些团体使用主导语言，而不是他们自己的语言。

(资料图片仅供参考)

“数据是殖民化的最后一个前沿阵地，”马赫洛纳说。

在利用人工智能帮助复兴毛利人的语言时，马赫洛纳和琼斯即这两位毛利人，想要做一些不同的事情。他们克服了资源限制，开发了自己的人工智能语言工具，并创建了收集、管理和保护毛利人数据流的机制，以免在没有毛利人群体同意的情况下使用。

正如硅谷许多人所应对的“人工智能苦果”一样，琼斯和马赫洛纳的方法可以为新一代人工智能指明道路，它不将边缘化的人仅仅视为数据对象，而是将他们重新确立为同享未来的共同创造者。

像全球许多土著语言文化一样，毛利人随着殖民化开始衰落。

1840 年，英国宣称奥特亚罗瓦即新西兰的毛利语名字，成为其殖民地后，英语逐渐成为当地经济活动的通用语。1867 年，《本土学校法案》使英语成为毛利人儿童可以使用的唯一语言。作为更广范围同化政策的一部分，学校开始羞辱、甚至殴打那些试图使用毛利语的毛利学生。

在接下来的几十年里，城市化打破了毛利人社区，削弱了文化和语言保护的中心。许多毛利人也选择离开，以寻找更好的经济出路。在一代人的时间里，说毛利语的毛利人比例从 90% 骤降到 12%。

20 世纪 70 年代，毛利人团体的领袖和活动人士震惊于这一现象，拼命努力扭转这一趋势。他们创建了儿童语言沉浸式学校和成人学习项目。他们走上街头游行，要求毛利语和英语享有同等的地位。

1987 年，当地政府通过了《毛利人语言法案》，宣布毛利语为一种官方语言。三年后，政府开始资助创建毛利社区、或部落，以及像 TeHiku 媒体一样的电台，其以毛利语公开广播，以提高该语言的普及性。

我今天交谈过的许多毛利人，某种程度上是用他们父母或祖父母是否说过毛利语，来认同自己的毛利人身份。在一个能接触到代际语言文化传播的环境中长大，被认为是一种殊遇。

语言文化存续的黄金准则是：在孩童时期通过日常接触来学习它们。作为一个青少年或成年人，在学术环境中学习会更困难。每个部落的毛利语都有其独特的口音、惯用语和区域历史风格，而一本教科书通常只教授一种或“标准”的毛利语版本。

换句话说，语言不仅仅是一种交流的工具。它表达了一种文化传统，因为它从父母传到子女，从子女传到下一代，并通过那些使用它以及赋予其意义的人而演变。语言被文化影响的同时也发挥着影响，语言塑造了人际关系、世界观和自我认同。“这是我们的思考和向彼此表达自我的方式，”另一位使用人工智能复兴一种迅速消亡语言的本土技术专家迈克尔·朗宁·沃尔夫（Michael Running Wolf）说。

因此，保护一种语言就是保护一种文化历史。但尤其是在数字时代，要摆脱一种少数民族语言的下坡路，就需要不断保持警惕。每一个不支持该语言的新交流方式都迫使人们选择使用主导语言，或是放弃融入多数文化的机会。

“如果这些新技术只能用西方语言，我们现在就会被排除在数字经济之外，”朗宁·沃尔夫说，“如果不能在数字经济中发挥作用，那么我们的语言文化将真的很难蓬勃发展。”

随着人工智能的出现，语言的复兴现在正处于一个十字路口。这项技术可以进一步确立主导语言的霸权地位，也可以帮助少数民族语言进入数字世界，这也是琼斯和马赫洛纳抓住的机遇。

早在琼斯和马赫洛纳开始这段旅程之前，他们就在惠灵顿的游泳俱乐部成员聚会烧烤时相遇了。两人一拍即合。马赫洛纳带着琼斯骑了一次长途自行车。“剩下的都是陈年旧事了，”马赫洛纳说。

2012 年，两人搬回了琼斯的家乡凯塔亚，琼斯成为了 TeHiku 媒体公司的 CEO。由于其与世隔绝，该地区仍然是奥特亚罗瓦（即新西兰）经济最贫困的地区之一，但同样，它的毛利人口数量也是该国保护得最好的地方之一。

在其 20 多年的广播历史中，TeHiku 公司已经积累了丰富的电视音乐音频材料存档，包括琼斯自己的祖母拉哈·莫罗亚（Raiha Moeroa）的录音，她生于 19 世纪末，她的毛利语在很大程度上没有受到殖民影响。

琼斯看到了一个数字化档案的机会，并创造了一个比较现代化的代际语言文化传播方式。大多数毛利人不再和他们的毛利部落生活在一起，也不能依靠附近的亲戚来进行日常的毛利语交流。然而，有了数字文馆，他们就可以随时随地听从前的长辈们的毛利语。

当地的毛利人部落允许琼斯继续推进这项工作，但需要一个地方在线存放这些材料。他和马赫洛纳都不喜欢把它们上传到 Facebook 或 YouTube 上，因为这将允许科技巨头们利用宝贵的数据“肆意妄为”。

几年后，一些公司确实开始与说毛利语的人合作，以获取此类数据。例如，Duolingo 公司试图创建语言学习工具，然后将其在毛利人团体中推广。琼斯说：“我们的数据将被那些抛弃我们这些语言的人利用，把它作为一种服务卖给我们。”“这就像拿走属于我们的土地再卖回给我们一样，”马赫洛纳补充道。

唯一的选择是为 TeHiku 建立自己的数字托管平台。凭借工程背景，马赫洛纳同意领导这个项目，并加入了该公司，担任 CTO。

数字平台成为 TeHiku 建立数据主权的第一步——群体通过这一策略寻求对自己数据的管控，以确保对其未来的控制。毛利人数据主权网络的联合创始人塔胡·库库泰（Tahu Kukutai）说，对毛利人来说，对这种数据自治权的渴望植根于历史。

在最早的殖民地人口普查中，在一系列毁灭性的战争中，英国人杀死了数千名毛利人并没收了他们的土地，之后英国收集了有关部落数量的数据，以跟踪政府的同化政策的成功与否。

因此，数据主权是土著居民抵抗的最新例子——反对殖民者、反对单一民族国家，现在又反对大型科技公司。“名词可能是新的，语境可能是新的，但数据主权建立在一个非常古老的历史之上，”库库台说。

2016 年，琼斯开始了一项新项目：在 90 多岁的毛利语使用者失去他们的语言和知识之前采访他们。他想创建一个工具，在每次采访都显示一个文字转录。然后，毛利语学习者将能够将鼠标悬停在单词和词组上看到它们的定义。

但几乎没人足够精通这种语言能人工转录音频。受到像 Siri 这样的语音助手的启发，马赫洛纳开始研究自然语言处理。“教电脑说毛利语是绝对必要的，”琼斯说。

但 TeHiku 传媒面临着一个先有鸡还是先有蛋的问题。为了建立一个毛利语的语音识别模型，它需要大量的转录音频。为了转录音频，它需要精通这门语言的人，而这个群体人数太少，这也正是模型一开始就想要弥补的。然而，有很多初级和中级毛利语使用者能够熟读毛利单词，但是不能从录音中辨认出来。

因此，琼斯和马赫洛纳，以及 TeHiku 传媒的 COO 苏珊娜·邓肯（Suzanne Duncan），设计了一个聪明的解决方案：与其转录现有的音频，不如让人们录下自己阅读一系列事先设计好的语句的录音，以捕捉该语言全部音域的声音。

对于一个算法，这种方法得到的数据集使用起来没有差别。从这成千对万的语音和文本句子对中，该算法将学会识别音频中的特定毛利语音节。

该队宣布举行了一场比赛。琼斯、马赫洛纳和邓肯联系了他们能找到的每一个毛利人社区团体，包括一些传统的毛利舞蹈团和毛利浮架独木舟竞速队，他们透露，提交录音数量最多的团队，将获得 5000 美元的大奖。

整个毛利群体都动员起来了，竞争变得激烈起来。毛利人团体成员特·米辛加·科涅（Te Mihinga Komene），作为一名教育家和利用数字技术振兴毛利语的倡导者，一人就录音了 4000 个短语。

金钱并不是唯一的驱动力。人们接受了 TeHiku 传媒的愿景，并相信它能保护他们的数据。“TeHiku 传媒说，‘对于你们给我们的数据，我们都是监护人的身份。我们会接管数据，但你仍然拥有你们音频的所有权，’”米辛加说，“这是很重要的。这些价值观定义了我们的毛利人身份。”

在 10 天内，TeHiku 传媒从大约 2500 人录制的约 20 万段录音中收集了总时长 310 小时的语音-文本对，这是人工智能领域研究人员闻所未闻的参与度。“除了毛利人组织，没有人能够做到，”迦利布·摩西（Caleb Moses）说，他是毛利人的数据科学家，他在社交媒体上了解了情况后加入了这个项目。

尽管与通常用于训练英语语言模型的成千上万小时的数据相比，这些数据量仍然很小，但这足以启动整个项目。利用这些数据辅助引导 Mozilla 基金会现有的开源模型， TeHiku 传媒创建了第一个准确率为 86% 的毛利语语音识别模型。

（来源：《麻省理工科技评论》）

从那时起，这种方法在其他人工智能语言技术中开枝散叶。马赫洛纳、摩西和一个新组建的团队创建了第二种和第三种算法，分别用于自动标记复杂的毛利语短语和向毛利语学习者提供发音准确性的实时反馈。

该团队甚至尝试了用语音合成技术来创建相当于 Siri 的毛利语语音助手，尽管最终没有达到可以部署的质量要求。

一路走来，TeHiku 传媒建立了新的数据主权协议。像摩西这样的毛利人数据科学家仍然很少，但那些来自社区之外的人不能随心所欲地使用这些数据。琼斯说：“如果他们想尝试探索这些数据，他们会问我们，而我们基于我们的价值观和原则作出决定方式。”

这可能具有挑战性。开源的、自由发展的数据科学文化往往与数据主权的实现背道而驰，人工智能领域文化也是如此。琼斯说，TeHiku 传媒有时不得不拒绝一些数据科学家的请求，因为他们“只是想访问我们的数据”。现在，公司正寻求通过实习项目和开放初级职位来培养更多的毛利人数据科学家。

后来，TeHiku 传媒通过其全新数字语言平台 PapaReo，开放了绝大部分工具的接口。公司还与毛利人领导的组织合作，比如教育有限公司 Afed，后者正在开发一款应用程序来帮助毛利语学习者练习他们的发音。

“这颠覆了传统规则，”Afed 公司创始人卡姆·斯威森-万加（Cam Swaison-Whaanga）说，他也在进行自己的毛利语学习之旅。学生们不再需要为在课堂上当着老师和同学面前大声说话而感到害羞。

TeHiku 传媒也已经开始与小规模的土著居民合作。在太平洋地区，许多人和毛利人有相同的波利尼西亚祖先，他们的语言有共同的根源。利用毛利语数据作为基础，库克群岛的研究人员能够训练库克群岛的初始语言模型，仅使用几十小时的数据就能达到大约 70% 的准确率。

马赫洛纳说：“这不再仅仅是教电脑说毛利语了。”“这是在为太平洋地区语言建立一个语言基础。我们都在努力保持我们语言的活力。”

但琼斯和马赫洛纳知道，总有一天，他们将不得不与土著社区和组织之外的团体合作。如果他们想让毛利语真正无处不在——甚至在 iPhone 和安卓系统上拥有说毛利语的语音助手，他们就需要与科技巨头合作。

“虽然你有能力在社区做很酷的语音识别等等，但你得让团体里的人把它用起来，”凯文·斯坎内尔（Kevin Scannell）说，他是一位推动振兴爱尔兰语言的计算机科学家，他在自己的研究中也在努力应对这种妥协，“有一个可以让你输入文本并输出语音的网站很重要，但这和让每个人都能在手机上用起来并不一样。”

TeHiku 传媒正在为这种不可避免的情况做准备。它创建了一个数据许可，根据毛利人的监护原则，阐明了未来合作的基本原则。在许可范围内只授予数据访问权限给尊重毛利人价值观的组织，并将使用数据所获得的任何利益传回给毛利人民。

该许可证尚未被 TeHiku 传媒之外的组织使用，关于其可执行性仍存在问题。但这个想法已经激发了其他人工智能研究人员的灵感，比如 Mozilla 基金的 “公共语音”项目里的凯瑟琳·西宇（Kathleen Siminyu），该项目无偿收集语音数据，以建立用于不同语言的语音识别的公共数据集。

目前，这些数据集可以用于任何目的进行下载。但去年，Mozilla 基金开始探索一种更类似于 TeHiku 传媒的许可，贡献己方数据的语言社区将被赋予对这些数据集更多的控制权限。

凯瑟琳说：“希望能让人们知道，对数据集的贡献会让你对数据集的使用更有发言权。”

谷歌的人工智能伦理研究团队前联合负责人玛格丽特·米切尔（Margaret Mitchell）也同意这一观点，该团队进行数据管制和所有权领域方面的研究。“这正是我们想要广泛地为各种不同类型技术所开发的许可。我真的很想看到更多这样的东西，”她说。

在某些方面，TeHiku 传媒很幸运。毛利语可以利用以英语为中心的人工智能技术，因为它在字母表、声音和单词结构等关键特征上与英语有足够的相似性。毛利人也是一个相当大的土著群体，这使他们能够积累足够的语言数据，并找到像摩西这样的数据科学家来帮助现实他们的愿景。

“大多数其他社区还不够大，不足以产生这些幸运的偶然事件，”杰森·爱德华·刘易斯（Jason Edward Lewis）说，他是一名数字技术专家和艺术家，他共同组织了土著人工智能网络。

与此同时，他说，TeHiku 传媒已经成为一个强有力的证据，证明人工智能可以在硅谷富有的盈利组织之外，由它应该服务的人建立。

图 | TTeHiku 媒体因其语言振兴方面的工作而获得新西兰创新奖（来源：《麻省理工科技评论》）

这个例子已经激励了其他人。迈克尔·朗宁·沃尔夫和他的妻子卡罗琳（也是一名土著技术专家）正在努力为马卡人建立语音识别。马卡人是太平洋西北海岸的土著居民，他们的语言只剩大约十几人使用。

任务是艰巨的，马卡语是多词素综合性的语言，意思是一个单词，由多个类似于前缀和后缀的部分构成，可以表达整个英语句子。现有的自然语言处理技术可能不适用。

在 TeHiku 传媒获得成功之前，“我们甚至没有考虑过调查马卡语，”卡罗琳说，“但当我们听到他们正在做的了不起的工作时，就像是在我们脑海里燃放的烟花：‘哦天哪，这终于有可能了。’”

基金会的西宇表示，TeHiku 传媒的工作也为人工智能社区的其他成员带来了启示。按照当今的行业运作方式，个人和团体很容易被剥夺权利；价值并不产生自那些提供数据的人，而是那些拿走数据的人。“他们（科技巨头）认为，‘你的声音数据本身一文不值。它实际上需要我们这样有能力筹集数十亿美元的机构，这样每个数据才有意义，’”她说。

她补充说，通过 TeHiku 传媒的这种方式，自然语言处理技术“成为开始弄清楚集体所有权如何运作的一个很好的过渡方式”，“因为不管语言使用得有多广泛，这些语言都属于民族自身。”

-End-

支持：王贝贝

原文：

https://www.technologyreview.com/2022/04/22/1050394/artificial-intelligence-for-the-people/

关键词：人工智能语音识别