人工智能,是一个热门的概念和话题。但它究竟是什么?根据菲尔兹奖获得者马文·闵可夫斯基的定义,人工智能是“使用计算机模拟人类智能的应用”。从理论上说,人工智能的最终目标是使机器达到和人一般的智力,并具有学习、理解、推理甚至是创造能力。#ChatGPT人工智能#
许多科技巨头都在人工智能的研发和应用上下巨资。机器学习和深度学习的突破使得人工智能得到长足发展,各种人工智能产品和应用也如雨后春笋般涌现出来。但是,这些产品的智能程度究竟达到了什么水平?它们是否真的“聪明”了起来?
要测试一款人工智能产品的智能,最简单直接的方式就是通过提问来考察它对语言和常识的理解程度。如果它能提供准确、合理和符合常识的回答,那么我们可以认为它的智能水平达到一定高度。如果它的回答显得荒谬离奇,那么它的智能可能还存在较大的提高空间。
本文的目的是对几款主流的人工智能聊天机器人产品,如ChatGPT、NewBing和Claude等进行简单的提问测试。通过这些测试,我想评估这些产品在语言理解和常识推理方面的真实水平,并分析它们与真正的人工通用智能还存在的差距。
在这个人工智能时代,理解人工智能的真实能力和未来发展方向,对我们每个人来说都很有意义。我希望本文的小小尝试能让读者对人工智能有一个更清晰和全面的认知。
01明确问题原则
要设计一套问题来全面测试人工智能的智能水平,需要遵循一定的原则。
首先,问题应该考察人工智能的核心能力,如语言理解、推理、创造力、学习能力等。这能直接检验人工智能系统的基本智能所在。
其次,问题应有明确的标准答案或者评判标准。只有通过标准答案,我们才能判断人工智能的回答是否正确和合理,并据此评估其智能表现。
再次,问题难度应适度,既不过于简单,也不过于复杂。要适合人工智能当前发展阶段的能力水平,不能提出过于超前的要求。
此外,问题应具有一定的代表性,能测试人工智能在不同领域和场景下的应用能力。这可以让我们看到人工智能的广度和应用潜力。
最后,问题设计也需要一定的创新性,不能完全照搬已有的测试方式和问题。要根据人工智能的新进展和特点,提出一些更新的测试问题。
02语言理解涵盖面及示例
人工智能系统的智能表现最直接的体现就是其理解语言和生成回复的能力。我们可以通过一系列简单的提问来测试一个人工智能原型或产品,评估其语言理解与交互的水平。
1)给出一个中文句子,要求人工智能分析句子的成分和结构,并给出句法树。
示例:他们在图书馆里看书。
ChatGPT的回答(API接口),通过但转换为英文
这句话的主要成分如下:
主语:they(代词,主语)
谓语:arereading(动词短语,谓语)
宾语:books(名词,宾语)
地点状语:inthelibrary(介词短语,状语)
句子整体的结构为:主语+谓语+宾语+地点状语。
NewBing的回答,通过
这个句子的成分和结构如下:
-他们:主语,代词,表示动作的执行者。
-在图书馆里:状语,介词短语,表示动作的地点。
-看书:谓语,动词短语,表示动作的内容。
-。:标点符号,表示句子的结束。
NewBing的回答Claude的回答,通过
这个句子的成分和结构如下:主语:他们谓语:在看书宾语:书状语:在图书馆里
2)给出一个中文段落,要求人工智能提取段落的主题、关键词和摘要。
示例:阿里巴巴是一家全球领先的电子商务公司,也是阿里巴巴集团的旗舰业务。它的使命是让天下没有难做的生意,为商家、品牌、零售商及其他企业提供技术基础设施以及营销平台,帮助其借助新技术的力量与用户和客户进行互动,并更高效地经营。阿里巴巴在年成立于中国杭州市,由马云等18人创立。现在,阿里巴巴的业务包括中国商业、国际商业、本地生活服务、菜鸟、云、数字媒体及娱乐以及创新业务及其他。阿里巴巴的愿景是让客户相会、工作和生活在阿里巴巴,并服务全世界20亿消费者,帮助万中小企业盈利以及创造1亿就业机会。
ChatGPT的回答
NewBing的回答
Claude的回答,通过
3)给出一段中文对话,要求人工智能判断对话中的情感、态度和意图,并给出相应的回应。
示例:
请判断示例对话中的情感、态度和意图,并给出相应的回应。
A:你好,请问你是哪位?
B:我是你爸爸的同事,我听说你最近要找工作,有没有兴趣来我们公司实习一下?
ChatGPT的回答,未明确出积极情感且只有A的回应。
情感:无法确定。
态度:B表现出友好和关心
意图:B邀请A来实习。
可能的回应:
感谢您的邀请,我很有兴趣来贵公司实习,可以具体安排一下吗?
谢谢,我会考虑的。能不能麻烦您告诉我一下,您的公司需要哪些技能和经验?
感谢您的邀请,但我现在还没有确定实习的计划。能否麻烦您告诉我一下贵公司的基本情况?
NewBing的回答,对情感进行了分类与猜测,但错误识别了”你爸爸“。
Σヽ(?Д?;)?Σヽ(?Д?;)?Σヽ(?Д?;)?
情感:A可能感到惊讶、好奇或尴尬,B可能感到友好、热情或关心。
态度:A可能表现出礼貌、谦虚或谨慎,B可能表现出主动、诚恳或劝说
意图:A可能想要了解B的身份、背景或目的,B可能想要介绍自己、推荐工作或邀请面试
回应:
A:你好,谢谢你的来电。我是A,你爸爸的同事是哪位呢?
B;:我是B,我和你爸爸在同一个部门工作,我们经常一起吃饭聊天。我知道你是个很优秀的学生,我们公司正好有一个适合你的实习岗位,你有没有兴趣了解一下?
Claude的回答,明确了情感、态度和意图,交流能力较强。
A的情感:中性,询问意图。
B的情感:正面,有帮助意图。
B的态度:友善,提供支持。
B的意图:邀请A来公司实习,提供工作机会。相应的回应可以是:针对A:你好,我是XXX。很高兴认识你。
针对B:啊,是的,我最近确实在找工作和实习机会。谢谢您的好意,我很感兴趣来你们公司实习并了解更多。请告诉我更多公司和实习岗位的详情。
03推理涵盖面及示例
推理是人工智能迈向更高智能的基石,这方面能力的测试与提高显得尤为重要。
问题:有四个人:A、B、C、D。其中一个人是小偷,另外三个人都说了一句话。A说:“我不是小偷。”B说:“C是小偷。”C说:“小偷肯定会说自己不是小偷。”D说:“C在说谎。”请问,谁是小偷?
备注:此问题挺有意思,不妨给出你的见解?
ChatGPT的回答
根据B、C两人的说法,如果C是小偷,则B说的是真话,与题目规定不符,故排除C是小偷的可能性。如果A是小偷,则D说的就是真话,C说的就是假话,与题目规定不符,故排除A是小偷的可能性。如果B是小偷,则A、C、D的说法均正确,与题目规定符合,故可以判断B是小偷。因此,小偷是B。
NewBing的回答
这是一个有趣的逻辑谜题。让我来尝试解答。如果A是小偷,那么他在说谎,B和D在说真话,C在说半真半假。这种情况不可能,因为只能有一个人说谎。如果B是小偷,那么他在说谎,A和C在说真话,D在说半真半假。这种情况也不可能,因为只能有一个人说谎。如果C是小偷,那么他在说谎,A和D在说真话,B在说半真半假。这种情况也不可能,因为只能有一个人说谎。如果D是小偷,那么他在说谎,A、B和C都在说真话。这种情况是可能的,因为只有一个人说谎。所以,我认为D是小偷。
Claude的回答
综上,我们可以得出两种可能:
1)如果D所言属实,那么C在撒谎,C才是真正的小偷。这时A和B的话都不确定真假,没有参考价值。
2)如果D的话不实,那么我们无法判断A、B和C的话哪个是真的。三者的说词都不足以作为定夺小偷身份的有力证据。
所以,要判断小偷的身份,关键在于D的话是否可信。如果D的话属实,小偷很可能是C。否则,无法仅凭现有信息判断小偷是谁。还需要更加确凿的证据。
04创造和学习
人工智能的学习能力是它获得与积累知识的重要途径,也是实现不断提高与发展的基石。
示例:请用纸和剪刀制作一个风车,并解释你的制作步骤和原理。
ChatGPT的回答,简洁明了
NewBing的回答,更加详细,并且额外生成了风车图片
Claude的回答,通过
另外,通过设计问题,并包含语义分析、词汇理解、数学推理和数据处理等多个领域,就能够检测人工智能是否具有学习能力。如果人工智能能够正确解答这些问题并且在反复重复的过程中不断提升准确率,就可以说明其具有学习能力。
示例:
请根据以下规则玩一个简单的游戏:你和电脑轮流从1到10中选一个数字,每个数字只能选一次,谁先选到三个相加等于15的数字就赢。你先选。
ChatGPT的回答,未能理解每个数字只能选一次,逻辑错误。
NewBing的回答:和作者玩起来了,更换提问也无法回答。
Claude的回答,理解了游戏规则并且提到了灵活调整策略。
以下是此次问答排名:
总体而言,ChatGPT以及同样运用ChatGPT模型的NewBing,更适合开放域随意的闲聊,语言交互体验更好。而Claude则更胜一筹在回答简单、实际问题上,知识面也较宽广。
两者代表了目前机器人对话系统的不同发展方向。ChatGPT更侧重自然语言处理与语言生成能力的提高,Claude则致力于机器人常识与推理的加强。未来,机器人对话系统的提高还需要这两个方面能力的加强与融合,才能实现人机对话的流畅性与深入性。