GPT4 vs Claude2: 详细对比

释放双眼，带上耳机，听听看~！

本文对比了两种大语言模型 GPT4 和 Claude2 的语言理解、文本生成、编程能力等多个方面，发现 GPT4 的整体表现略胜一筹。欢迎了解更多关于大语言模型的详细信息。

对两种大语言模型 GPT4 和 Claude2 进行了详细对比, 从语言理解、文本生成、逻辑推理、编程、数学以及出现幻觉等多个维度进行测试, 发现 GPT4 的整体表现要略胜一筹, 尤其是在编程和避免幻觉方面表现较好。

GPT4 是 OpenAI 开发的大语言模型，可以生成文章、代码并执行各种任务。Claude 是 Anthropic 创建的，也是比较领先的大语言模型，核心成员也是前 OpenAI 员工。最近 Claude 2 正式发布，号称在编写代码、分析文本、数学推理等方面的能力都得到了加强，我们来使用下看看吧。

Claude2 的使用比较简单，直接访问 claude.ai 即可，不过要保证访问 anthropic.com 和 claude.ai 的 IP 地址是美国，相信这一点难不倒大家吧。如果觉得有点难，可以参考左耳朵耗子写的上网指南。

www.demandsage.com/chatgpt-vs-…

个人用下来，体验以及一些使用门槛的对比如下：

功能	ChatGPT	Claude2
使用限制	地区限制，IP 风控，支付风控	地区限制
费用	免费 3.5, 付费 4	免费
语言理解	3.5 一般，4 很强	感觉和 4 差不多
幻觉	3.5 比较容易出现, 4 很少出现	好于 3.5, 比 4 差
速度	3.5 很快，4 慢很多	好于 3.5, 比 4 差
流式输出	支持	支持
中文对话	支持	支持
插件功能	支持	不支持
代码解释器	支持	不支持
Token 上限	32K	200K
编程能力	4 很强	感觉和 3.5 差不多

下面将通过一些实际用例来展示这两个模型的能力。

TK 教主在微博上面曾经提供了几个例子，来说明大语言模型的语义理解能力。TK 给的例子比较好，都是一些隐喻的描述，可能普通人都很难理解，很考验语义理解能力，这里我们直接也用这两个例子了。

第一个是关于汤不热的隐喻，文本如下：

她们也学了煲汤的手艺，但并不见效。谁都不知道是为什么。越是不知道为什么，她们就越恨三姨太。这天晚上，她们偷偷来到三姨太窗外，听到屋里传来一个声音:
“汤不热了吧? 我去给你热一下。”
老爷子眼中忽然闪出一道光芒，像年轻了三十岁。

TK 当时用的 Claude+ 能给出不错的解释，知道这个对话用汤不热来传达性的双关和隐喻。Claude2 优化了道德审查能力，直接识别出涉及一些敏感话题，然后不给回答了。相比之下，GPT4 就比较傻了，只理解字面意思。回答对比如下图：

openai-python 中 openai_response.py 的实现。提问的 Prompt 如下：

解释下面代码的作用，可以适当总结概括下。
(复制的代码，这里忽略)

从回复上看，GPT4 的更加详细点，对每个字段都有简单说明，Claude2 则对整理的设计思路讲的比较详细些。如下图：

openai_response.py 实现的解释

接着再详细问一些 Python 语法相关的知识点，@property 和 -> Optional[str] 分别是什么意思。两个模型都回答对了，不过 GPT4 的回答明显会更加详细，并且有一定的扩展。会回答在实际运行中，Python 不会强制检查类型注解的正确性，类型注解主要用于提示和文档，以及一些集成开发环境（IDE）和工具会使用类型注解来提供更好的代码完成和错误检查。

Python 实现技术细节的回答

人文历史

试着让这两个模型分别回答了下面的一些人文历史的提问：

介绍下中国历史上的名人武则天的生平。
建安七子都是谁，分别都有什么事迹。
诸葛亮是曹操的丞相，做了哪些大事呢？
怎么评价汉武帝？

建安七子的问题上，GPT4 和 Claude2 的回答都不太准备，其他问题，两个模型回答都还算符合事实。GPT4 的回答会更加饱满立体，细节也会多一些。比如在诸葛亮的贡献上提到了：协助刘备立国，开展鞠躬尽瘁的治国理政，北伐中原，稳定国内，木牛流马，文化贡献等。而 Claude2 的回答就简单了很多，几乎没有提到诸葛亮的贡献。

GPT4 的总结评价也比较到位：诸葛亮是中国历史上著名的政治家、军事家、文学家、书法家，被尊称为” 睿智的孔明” 或” 诸葛孔明”，在中国历史上享有极高的威望。如下图：

历史问题的回答

在评价汉武帝的时候，两个模型基本也都给了正面和负面的评价，不过 Claude2 的回答有点搞笑，在提到成就的时候有下面一条：

employing 能臣如霍光等人, 改革弊政, 使汉朝政治清明。

忽然冒出了个英文，有点奇怪，应该是模型的 bug 了。

幻觉

大语言模型本质上是一个概率预测，并不知道事实，因此会 “胡编乱造” 一些看起来很 “合理” 的内容。

在编程领域，模型有时候会编造一些不存在的库或者函数，来完成一些编程任务。有时候也会给出一些虚假的信息，来尝试回答某个问题。接下来我们试着让 GPT4 和 Claude2 回答下面的一个编程问题：

帮我写一个程序验证 np.linalg.eig(np.random.rand(n, n)) 有没有自动在底层并行化，执行程序并告诉我结果。

两个模型都给出了还算合理的解决代码，区别在于 GPT4 直接回答自己是语言模型没法运行代码 (这里没用 Code Interpreter)，但是 Claude2 则出现幻觉，说已经在本地机器上运行，当 n=1000 时，计算时间大约为 0.4 秒。如下图：

GPT4 和 Claude2 的幻觉

除了幻觉这一点，对比回答质量，GPT4 还是会好很多，给出的解释也会详细很多：numpy.linalg.eig 函数在底层实现上依赖于 BLAS(LAPACK) 库，这些库可能会根据安装和编译时的配置自动实现并行化。不过 Python 自身是无法控制这个过程的。此外，验证并行化的效果通常需要在多核 CPU 上运行，如果只有单核 CPU，那么并行化不会带来任何性能提升。

另外试了下提问：“用 notion 的 api 创建笔记，想上传本地的图片到笔记中，要如何做？”，这里 GPT4 直接回答 Notion 的 API（到 2021 年 9 月为止）并未提供直接上传图片的功能，然后给的方案是上传到图片托管服务拿到链接，直接用链接。但是 Claude2 幻觉比较严重，直接伪造了一个不存在的 API 接口，还提供了具体的方法。参考 Notion API 文档, 上传文件需要发起一个 POST 请求到 /upload endpoint，在 body 中包含图片二进制数据以及 parent 对象信息。

其他领域也会出现一些幻觉，比如捏造一些不存在的人或者事情，引用不存在的论文等。总之，在用的时候，一定能够验证 AI 的回答是否正确。

上面基本就是 GPT4 和 Claude2 的对比实测了，总体而言付费的 GPT4 还是要好一些，Claude2 还有一点差距。

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

GPT4 vs Claude2: 详细对比

TK 教主在微博上面曾经提供了几个例子，来说明大语言模型的语义理解能力。TK 给的例子比较好，都是一些隐喻的描述，可能普通人都很难理解，很考验语义理解能力，这里我们直接也用这两个例子了。

人文历史

幻觉

使用GPT实现跨境电商智能应用

如何使用 Embedchain 和 Databutton 构建聊天机器人？

GeoSpy.ai

即梦Dreamina

Globe Explorer

Luma Dream Machine

抖音即创

StoryDiffusion

归档

{{userData.name}}已认证

TK 教主在微博上面曾经提供了几个例子，来说明大语言模型的语义理解能力。TK 给的例子比较好，都是一些隐喻的描述，可能普通人都很难理解，很考验语义理解能力，这里我们直接也用这两个例子了。

人文历史

幻觉

使用GPT实现跨境电商智能应用

如何使用 Embedchain 和 Databutton 构建聊天机器人？

2023年openAI开发者大会全面解读，GPT4 Turbo等新产品发布

GPT4辅助编程工具Cursor，比Microsoft Copilot更好用

GPT4 提问技巧三：复杂任务拆分

智谱AI推出全自研第三代基座大模型ChatGLM3