斯坦福与Meta的研究:Gemini Pro推理能力胜过GPT-3.5 Turbo?

近期,谷歌发布的Gemini Pro备受争议,之前在常识推理任务上的表现相对GPT模型逊色。然而,最新研究由斯坦福大学和Meta联手完成,为Gemini Pro辩护,强调其在推理性能上的强大潜力。

斯坦福与Meta的研究:Gemini Pro推理能力胜过GPT-3.5 Turbo?

早前的研究表明Gemini Pro在一些任务上不如GPT-3.5 Turbo。然而,斯坦福和Meta的学者认为,以往的评估主要基于有限数据集(HellaSWAG),未能全面展现Gemini的真正常识推理实力。

为了更公正地评估Gemini的性能,研究人员设计了一系列需要跨模态整合常识知识的任务。他们对12个常识推理数据集进行全面分析,涵盖了从一般任务到专业领域的各类任务。

在四个大模型(Llama-2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo)的评估中,整体而言,GPT-4 Turbo的表现最佳。然而,Gemini Pro的性能与GPT-3.5 Turbo相当,相比之下略低于GPT-4 Turbo。

研究者发现Gemini Pro在处理社会和道德推理数据集方面表现强大,但在一般推理和语境推理任务上存在一些差异。这也反映了不同模型在应对常识推理任务时采用了不同的策略,具有各自独特的能力和局限性。

对于多模态数据集VCR,Gemini Pro Vision表现出色,展现了对视觉场景的精准理解和对动作后果的准确预测。这说明Gemini Pro已经具备类似人类认知的复杂视觉信息处理能力。

总体而言,研究人员认为以往的评估方法未能完全准确捕捉到Gemini Pro的推理潜力,新的测试集表明Gemini在复杂推理任务中具有强大能力。这一研究结果有望为Gemini Pro在常识推理领域的声誉提供更多正面支持。

本文来自投稿,不代表TePhone特锋手机网立场,如若转载,请注明出处:https://www.tephone.com/article/3424

Like (0)
Tech News的頭像Tech News作者
Previous 2024年1月4日 04:00:00
Next 2024年1月4日 05:00:00

相关推荐

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *