处于颠覆性技术前沿的是人工智能的发展,怎样通过图灵测试?以及计算机所能经历的限制。出于这个原因,图灵测试旨在评估计算机是否“聪明”到足以被误认为是人类。
什么是图灵测试?
图灵测试是一种看似简单的确定机器是否可以展示人类智能的方法:如果一台机器可以与人类进行对话而不被检测为机器,它就展示了人类智能。
图灵测试是在 1950 年由数学家和计算先驱艾伦图灵发表的一篇论文中提出的。它已成为人工智能(AI) 理论和发展的根本动力。
理解图灵测试
现在,我们生活的许多方面都可以看到计算技术的快速进步。我们有可以在眨眼间将一种语言翻译成另一种语言的程序,可以在几分钟内清洁整个家庭的机器人,可以创建个性化退休投资组合的财务机器人,以及可以追踪我们健康和健身水平的可穿戴设备。
处于颠覆性技术前沿的是人工智能的发展,以及计算机所能经历的限制。出于这个原因,图灵测试旨在评估计算机是否“聪明”到足以被误认为是人类。图灵测试的批评者认为,可以制造一台具有思考能力但没有自己的思想的计算机。他们认为人类思维过程的复杂性无法编码。
测试在法官管理的审讯室进行。测试对象,一个人和一个计算机程序,是隐藏在视线之外的。法官与双方进行对话,并尝试根据对话的质量来识别哪个是人,哪个是计算机。图灵的结论是,如果法官不能区分,计算机就成功地展示了人类的智能。也就是说,它可以思考。
图灵测试的历史
二战期间,艾伦·图灵 (Alan Turing) 在寻找破解德国密码信息的更有效方法时,发展了计算机科学的一些基本概念。战后,他开始思考人工智能。
在他 1950 年的论文中,图灵首先提出了一个问题:“机器能思考吗?” 然后他提出了一项旨在帮助人类回答这个问题的测试。
一些早期的计算机早期声称有能力在非常基本的情况下愚弄人类。1966 年,约瑟夫·魏岑鲍姆 (Joseph Weizenbaum) 创造了 ELIZA,这是一种可以提取特定单词并将单词转换为完整句子的机器。ELIZA 是最早欺骗人类测试人员认为它是人类的计算机之一。
不到十年后,一个名为 PARRY 的聊天机器人被建模来模仿偏执型精神分裂症患者的行为。一组精神科医生被要求分析与真实患者的对话和 PARRY 对话。当被要求识别哪些成绩单是计算机程序时,该小组只能在 48% 的时间内识别出机器。6个ELIZA 和 PARRY 的批评者指出,图灵测试的全部规则都没有得到满足,也没有表明完整的机器智能。
2014 年,一个名叫尤金·古斯特曼 (Eugene Goostman) 的聊天机器人被一些人认为是第一个通过图灵测试的机器人。
今天的图灵测试
图灵测试有其缺点,但它仍然是衡量人工智能项目成功与否的标准。图灵测试的更新版本有不止一名人类法官审问这两个主题并与之交谈。如果超过 30% 的评委在五分钟的谈话后得出结论认为计算机是人,则该项目被认为是成功的。
勒布纳奖是一年一度的图灵测试竞赛,由美国发明家和活动家休·勒布纳 (Hugh Loebner) 于 1991 年发起。Loebner 制定了额外的规则,要求人类和计算机程序与四名法官中的每一个进行 25 分钟的对话。9获胜者是其程序从评委那里获得最多选票和最高排名的计算机。
2014 年,雷丁大学的凯文·沃里克 (Kevin Warwick) 组织了一场图灵测试竞赛,以纪念艾伦·图灵 (Alan Turing) 逝世 60 周年。一个名叫 Eugene Goostman 的计算机聊天机器人,他有一个 13 岁男孩的角色,在那个事件中技术上通过了图灵测试。他获得了 33% 相信他是人类的法官的选票。
2018 年,Google Duplex 展示了通过电话执行任务的能力。在各种演示中,Duplex 安排了理发预约并叫了一家餐厅,而线路另一端的人并没有意识到他们正在与机器互动。10然而,批评者指出这种交互不符合实际的图灵测试,并声称该测试仍未被机器击败。
图灵测试版本
图灵测试有多种变体,所有变体都具有相同的目的,即检测受访者是人还是机器。每种变体都采用不同的方法向受访者提出不同的问题并评估回答。
模仿游戏
图灵测试较早的应用之一,模拟游戏版本经常利用三方。第一个人是男性,第二个人是女性,第三个人负责确定前两个人的性别。第一个人的任务往往是试图欺骗第三个人,而第二个人的任务往往是试图帮助第三个人正确识别每个性别。
模仿游戏的未来迭代已经演变成双方都试图欺骗第三人错误地识别性别。无论如何,模仿游戏的目的是确定审讯者是否可以被愚弄。
标准释义
图灵测试的另一个常见版本并不努力看计算机是否可以被愚弄,而是看计算机是否可以模仿人类。在图灵测试的标准解释变体中,第一个人是计算机,第二个人是男女。
在这个变体中,第三个人试图发现前两个人中哪个是人,哪个是计算机。审问者不是被测试的对象;相反,是计算机试图愚弄人类(与模仿游戏下的相反方向相反)。例如,可能会询问一系列个人理财问题,以确定其关于行为金融的回答是否符合合理预期。
科幻小说反乌托邦系列银翼杀手中虚构的 Voight-Kampff 是一部关于测试机器智能行为的想法的戏剧。
图灵测试的变体
自图灵测试创建以来,为了更好地检测人类和机器,出现了更多现代方法。图灵测试的这些变体不断发展以在技术进步期间保持相关性。
- 反向图灵测试旨在让人类欺骗计算机,让计算机相信它不是在审问人类。
- 全面图灵测试结合了感知能力和被问者操纵物体的能力。
- Marcus 测试让测试对象查看媒体并回答有关所消费内容的问题。
- Lovelace Test 2.0让测试对象创造艺术并检查他们这样做的能力。
- 最小智能信号测试仅向测试对象询问二元问题(即只允许回答真/假或是/否)。
图灵测试的局限性
图灵测试有很多批评者,上述变体试图减轻原始图灵测试的一些局限性。不过,重要的是要注意图灵测试的缺点及其分析可能存在的不足之处。
- 图灵测试需要一个非常受控的环境来执行。在整个测试过程中,测试参与者必须相互隐藏,但双方必须有可靠的通信方式。
- 图灵测试可能不适合测试智能,因为不同的计算系统的结构不同。因此,计算机的性能可能存在固有的、自然的限制。
- 图灵测试正在发展;然而,技术进步的发展速度更快。想想摩尔定律,它指出处理能力的快速增长伴随着成本的快速下降。随着计算机获得更多能力,历史测试方法可能不再适用,因为计算机获得了更多类似人类的能力。
- 图灵测试评估智力,尽管它可能不是衡量所有类型智力的合适标准。例如,计算机可以根据其处理与人类类似的反应的能力成功地愚弄审问者。然而,这可能并不真正表明情商或意识;它可能仅仅意味着计算机有一套高度相关和有效的代码。
怎样通过图灵测试
图灵测试与询问者一起工作,询问测试对象一系列问题。每一方都在一个单独的区域,因此不允许身体接触。根据答案是否可以区分人类受试者是否会给出反应来评估测试对象给出的反应。
有机器通过了图灵测试吗?
2018 年,在一年一度的 Google I/O 年度开发者大会上推出了 Google Duplex。该机器安排了美发沙龙预约,并通过电话与美发沙龙助理进行互动,作为对话的一部分。尽管一些评论家对结果有不同的看法,但有些人认为 Google Duplex 通过了图灵测试。
人类能否通过图灵测试?
是的。尽管图灵测试基于知识和智力,但它也涉及评估如何给出答案以及答案是否被解释为偷偷摸摸。
例如,假设被要求提供 43,219 和 87,878 的总和。能否提供正确答案只是考试的一部分;图灵测试评估您提供答案所需的时间,您回答时提出的任何澄清问题,或者您是否理解添加而不是主题两个数字。根据任何人的反应,都有可能被误认为是计算机(即,如果您不小心减去而不是添加数字,这可能是有罪的证据)。
图灵测试题的例子有哪些?
潜在图灵测试问题的一个有趣示例可能基于语言和文字游戏。例如,一个问题可能会问“时间飞行和飞机飞行有什么不同?”。虽然这类问题对于不熟悉英语的参与者可能不公平,但它也是能够做出逻辑区分的一个例子,其中单个实例(即 fly 这个词)在不同的上下文中可能意味着不同的东西。
图灵测试问题的另一个例子通常是无意义的问题。诸如“击球手戴头盔是足球的区别吗?”之类的问题。在语法上是不正确的,并且很容易被人类检测为没有任何意义。但是,机器可能仍会尝试解析响应。
写在最后
图灵测试是一种评估,以确定机器是否能够表现出与人类相同的智能。现在有许多图灵测试的变体,随着技术的不断进步,可能需要新的确定智力的解决方案。