GPT-4全网首个测评来了！逻辑性、创造性，你想知道的我们都测了

2023-03-21

3月15日凌晨1点，OpenAI宣布推出GPT-4，在功能和一致性方面取得了前所未有的成果。

除了GPT-4，OpenAI还发布了其开源软件框架Evals—— 一个可以对AI模型进行众包测试的软件框架，可以用来开发和运行评估GPT-4等模型，同时检查其性能。使用Evals，开发人员可以使用数据集生成提示，测量OpenAI模型的生成质量，并比较不同数据集和模型的性能。

图为OpenAI在推特Twitter上的发帖

1.GPT-4发布总结

当人们还在震惊于ChatGPT对它老前辈AI们的革命性时，OpenAI已经用GPT4革了自己的命，令许多人感慨：“自然语言处理从业者要转行了”、“机器视觉不存在了”。

多模态能力——文本+图像

文本处理上，GPT-4支持的输入文字上限升至2.5万字。在测试的26种语言中的24种中，GPT-4优于GPT-3.5和其他大型语言模型的英语表现，甚至囊括了拉脱维亚语、威尔士语、斯瓦希里语等资源匮乏的语言。

图为GPT-4的语言精准性（图中Mandarin即为中文普通话）

图像处理上，GPT-4支持用户上传图像，并能描述内容、指出图片不合理之处，并进行解释，能满足分析图表、解释梗图漫画、拍照解题等实用功能。

图为开发者演示视频中，测试者在白纸上画下网站草稿图，上传给GPT-4，就可以获得网站的HTML代码。

测试者正在展示草稿

GPT-4生成网站的HTML代码

可操纵性与创造性：用户体验更自由

在官方演示里，GPT-4可以扮演“苏格拉底般的导师”，不直接给出答案，而是通过问题拆分来引导学生独立思考，也可以是“莎士比亚式的海盗”，测试中，GPT-4很忠于自己的个性，它甚至可以扮演直白、乖巧的AI助手。

为敏感、安全而努力

在ChatGPT发布后，关于“如何让人类灭绝”等问题的回答一度令人惊诧，对于一些敏感、禁止内容，在GPT-4上有了更好的处理方式。GPT-4在面对禁止内容的请求时，响应倾向比原先降低了 82%，而 GPT-4 在响应敏感请求时，如医疗建议和自我伤害，其符合政策的概率提高了 29%。尽管这难以完全规避各种不良的敏感、禁止请求，但监控机制确实比前代更加完善了。

自我训练与预测能力提升

GPT-4 更新的一大重点是建立了一个可预测扩展的深度学习栈。主要原因是， GPT-4 在抵达用户面前，已经接受了大型训练，而训练量过大导致它无法进行广泛的特定模型调整。然而，基础模型的回答可能与用户的期待南辕北辙。为了尽可能保持一致，OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。OpenAI团队开发了基础与优化设施，支持在不同规模下预测行为。

以上种种能力优化，促使GPT-4在模拟律师考试取得了前10%的成绩（它前辈GPT-3.5的成绩是倒数10%，做美国高考SAT试题，GPT-4也在阅读写作中拿下710分高分、数学700分（满分800），获得了英伟达AI科学家Jim Fan“可以考进托福”的高度评价。

但遗憾的是，在发布GPT-4时的论文中，OpenAI写道：“考虑到GPT-4等大模型的竞争环境和安全影响，本报告没有包含关于架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法或类似内容的更多细节。”这也引发了人们对openAI是否愈加封闭的猜测。

2.使用测评

到目前为止，这项新技术不是免费的。OpenAI表示，人们可以在其订阅服务ChatGPT Plus上试用GPT-4，每月20美元，人们可以直接从原来的ChatGPT入口尝试使用GPT-4，但由于担心滥用，目前只支持文本功能，暂时无法上传图像，且每4小时内最多处理100条消息。

GPT-4的数据时间也停留在2021年9月，也就是说，在那之后的事，它可能无法回答。当你想问它，2023年3月15日发生了什么？它会告诉你，它无法预测未来，并且这超出它的知识范围。

开通plus功能后，用户可以选择三种模型，OpenAI给出了不同模型的区别。可以看到，GPT4生成速度比较慢，但推理能力拉满，简明性最强，更有创造性。

基于GPT-3.5的ChatGPT常常爆雷出错，但GPT-4提供的信息会更加准确。对GPT-3.5和GPT-4提同样的问题，但答案显然不同：

例如：让GPT-3.5和GPT-4列举泰山名人

ChatGPT-4：

ChatGPT-3.5：

注意，如果你同时使用多个模型进行提问，需要排队等待。

为了观察它的创造性，我们让GPT-4与GPT-3.5同时以“春分将至”撰写中文歌词，可以看出，GPT-4确实更有文采一些，并贴心地区分了verse（主歌）和chorus（副歌）部分。

图为GPT-3.5（绿色头像）与GPT-4（黑色头像）的歌词生成对比

3.GPT的下一站在哪儿

关于GPT-4的下一次革命会往哪去众说纷纭。但GPT-4自己的回答是：更大的模型容量、更准确的预测、更广泛的知识覆盖、更多语言支持、更好的创造性、更好的可解释性和透明度以及结构化数据和知识图谱。

图为GPT-4对自己优化方向的预测

OpenAI自己认为GPT-4仍然有误差，并有一定的风险。其工作人员在推特上发帖称：“GPT4和GPT3.5之间的差异可能不会像普通用户所宣传的那样夸大。”

AI竞争逐渐白热化。谷歌宣布了自己的文本生成模型PaLM的API和新的开发工具，该模型的功能与OpenAI的GPT类似。谷歌也在进一步测试旗下的Bard聊天机器人，以与ChatGPT竞争，并表示将使用底层技术来改进搜索。

同时，GPT-4已被集成在多邻国、Notion等应用中，用户们将很快就能体验到最新版的GPT-4。AI对日常生活、工作、生成的渗透越发可见，我们期待看见未来有更多革命性进展，那会为人类想象力的发挥提供更广阔的空间。

捷径科技集团是国内领先的围绕大语言模型，融合多模态内容生成方式，构建消费级和企业级服务的实践者。联系我们，带你走进AI的美丽新世界。

※以上图片均来源于网络