斯坦福与Meta的研究：Gemini Pro推理能力胜过GPT-3.5 Turbo？

Tech News • 2024年1月4日 04:30:00 • 新闻 • 334 views

近期，谷歌发布的Gemini Pro备受争议，之前在常识推理任务上的表现相对GPT模型逊色。然而，最新研究由斯坦福大学和Meta联手完成，为Gemini Pro辩护，强调其在推理性能上的强大潜力。

斯坦福与Meta的研究：Gemini Pro推理能力胜过GPT-3.5 Turbo？

早前的研究表明Gemini Pro在一些任务上不如GPT-3.5 Turbo。然而，斯坦福和Meta的学者认为，以往的评估主要基于有限数据集（HellaSWAG），未能全面展现Gemini的真正常识推理实力。

为了更公正地评估Gemini的性能，研究人员设计了一系列需要跨模态整合常识知识的任务。他们对12个常识推理数据集进行全面分析，涵盖了从一般任务到专业领域的各类任务。

在四个大模型（Llama-2-70b、Gemini Pro、GPT-3.5 Turbo和GPT-4 Turbo）的评估中，整体而言，GPT-4 Turbo的表现最佳。然而，Gemini Pro的性能与GPT-3.5 Turbo相当，相比之下略低于GPT-4 Turbo。

研究者发现Gemini Pro在处理社会和道德推理数据集方面表现强大，但在一般推理和语境推理任务上存在一些差异。这也反映了不同模型在应对常识推理任务时采用了不同的策略，具有各自独特的能力和局限性。

对于多模态数据集VCR，Gemini Pro Vision表现出色，展现了对视觉场景的精准理解和对动作后果的准确预测。这说明Gemini Pro已经具备类似人类认知的复杂视觉信息处理能力。

总体而言，研究人员认为以往的评估方法未能完全准确捕捉到Gemini Pro的推理潜力，新的测试集表明Gemini在复杂推理任务中具有强大能力。这一研究结果有望为Gemini Pro在常识推理领域的声誉提供更多正面支持。

本文来自投稿，不代表TePhone特锋手机网立场，如若转载，请注明出处：https://www.tephone.com/article/3424

Like (0)

Tech News作者

0 0

苹果新专利提升iPhone/iPad多点触控体验，采用先进技术优化触摸控制器

Previous 2024年1月4日 04:00:00

微软移动端 Edge 浏览器升级，正名“微软 Edge：AI 浏览器”全面迎接人工智能时代

Next 2024年1月4日 05:00:00

新闻

美国E3游戏展永久停办小岛秀夫发文感谢

据外媒报道，E3作为全球最大的游戏展，每年让许多喜爱的游戏的人密切关注，近日，美国娱乐软件协会ESA宣布，有着近28年历史的E3游戏展将正式落幕并永久停办。而在这一消息公布后，日本…

聆听
2023年12月14日
33400
安卓

realme真我GT5 Pro手机维修备件价格公布主板2249元起

真我 GT5 Pro 手机是一款备受关注的高性能旗舰手机，近日官方公布了其维修备件的价格。这些备件价格包括了主板、电池、屏幕等主要部件的维修价格，对于用户来说具有重要的参考意义。 …

偌岸丶
2023年12月15日
2.1K00
新闻

iPhone 14是去年全球最畅销智能手机半数在中美两国市场

2月28日消息，据外媒报道，有市场研究机构发布的报告显示，苹果霸占去年全球智能手机畅销榜，前7款均是来自他们，余下的3款则是来自三星电子。

数码最前线
2024年2月29日
35100
新闻

Telegram的普及之路：创新与谨慎的完美融合

在不断演变的数字世界中，电报（Telegram）这一消息应用程序凭借其独特的功能在与其他竞争对手形成鲜明对比的同时，成功地找到了自己的市场定位。随着其日益增长的受欢迎程度，Tele…

Ai-i
2024年1月3日
30200
新闻

特斯拉柏林超级工厂汽车周产量首次突破6000辆

特斯拉柏林工厂总监安德烈・蒂埃里格在接受采访时透露，该工厂在1月底因零部件短缺而停产前不久，首次在一周内生产了6000辆汽车，成功突破了这个里程碑。他补充说，停产两周并不会影响工厂…

偌岸丶
2024年2月7日
36900
iPhone

苹果向开发者发布 iOS 17.5 和 iPadOS 17.5 首个测试版

今天，苹果向开发者发布了即将推出的 iOS 17.5 和 iPadOS 17.5 更新的首个测试版，供开发者进行测试。这一更新是在苹果发布 iOS 17.4 和 iPadOS 17…

小雨
2024年4月3日
46000
新闻

比特币ETF的最大威胁：无人谈及的风险

随着首批比特币ETF开始交易，一个问题一直在困扰我：除了一些例外，几乎每个申请成为比特币ETF的人都打算选择Coinbase作为托管方。这种风险的集中，加上加密托管的高风险性质和安…

binbin
2024年1月13日
37400
新闻

美国中低收入家庭汽车购买减少，导致汽车销售放缓

根据通用汽车公司和其他几家汽车制造商的最新报告，2023年年底，美国汽车销售的增长势头开始放缓，这主要是由于中低收入家庭汽车购买减少所致。与此同时，丰田汽车在竞争对手中保持了强劲的…

Ai-i
2024年1月5日
27500
新闻

探秘史上最畅销的手机

在不到五十年的时间里，手机从笨重昂贵的“砖头”发展成了可以轻松握在手掌中的时尚便捷设备。从最初的“砖头”手机到现代智能手机时代的转变，一路上充满了创新、激烈竞争和对便利性的不懈追求…

小雨
2024年2月21日
37000
iPhone

苹果Apple iPhone 16将在整个产品线中包含操作按钮

iPhone 15 Pro和Pro Max推出了一个全新的用户可配置按钮，称为动作按钮，现在，外媒MacRumors已经看到大量证据证实苹果计划在整个iPhone 16系列中加入动…

偌岸丶
2023年12月6日
38600
新闻

深度解析：如何选择最佳VPN服务

在当今数字化的世界中，保护个人隐私和数据安全变得至关重要。选择一家可靠的VPN服务成为维护在线安全的首要任务。但面对市场上众多的VPN提供商，如何找到最适合自己的服务呢？以下是一些…

小雨
2024年1月14日
40100
新闻

为何EigenLayer是下一个价值十亿美元的空投机会？

在加密货币领域，只有少数项目能够在空投初期为早期用户创造数十亿美元的财富，但我们很可能会看到另一个热门协议很快加入这个行列。今天，我们将探讨为什么EigenLayer是一个改变游戏…

暴雨
2024年1月27日
41800
新闻

PayPal 宣布全球裁员9%：2500名员工受影响

全球支付巨头 PayPal 近日宣布了一项裁员计划，计划裁员9%，预计将影响2500名员工。这一消息是由 PayPal 首席执行官亚历克斯・克里斯（Alex Chriss）在本周二…

Apple
2024年2月2日
39600
新闻

iPhone和安卓手机即将迎来下一代非接触支付技术

大多数人每天使用智能手机进行非接触支付时几乎不用思考，但现在下一代技术即将在iPhone和安卓手机上出现。NFC论坛——其董事会成员包括苹果、谷歌、高通和索尼——刚刚概述了一种名为…

tp_admin
2024年7月4日
36700
新闻

深度解读 ERC-6551：开创社交与游戏的NFT新标准

最近在NFT社区中，ERC-6551的提出引起了广泛关注，这是一项由第三方团队（Future Primitive）提出的新提案。这一提案不仅为新的NFT项目提供了广阔的可能性，还使…

cl15
2024年1月4日
30400
导购

华为Pura 70系列手机及官方手机壳同步上市，打造全方位用户体验

今日，华为正式推出备受瞩目的Pura 70系列手机，并同步上市了多款与该系列手机完美适配的官方手机壳。这一举措不仅展示了华为在产品设计上的创新实力，也进一步提升了用户的使用体验。 …

binbin
2024年4月18日
73600
安卓

真我Realme发布C67：首款C系列5G智能手机

Realme最近推出了C67 5G，这是其面向预算市场的C系列中的第一款5G智能手机。C67 5G也是Realme最薄的设备之一，更是其细分市场中最薄的设备，仅有7.89mm厚…

cl15
2023年12月19日
78100
AI

OpenAI ChatGPT Mac 版应用全面开放，支持语音对话

OpenAI 公司宣布，其首款适用于 Mac 的 ChatGPT 聊天机器人应用已正式向所有用户开放下载。在经过一个月的测试阶段后，该应用现在不再限于 Plus 付费订阅用户，任何…

小雨
2024年6月26日
45400
新闻

华为Pura 70系列手机维修价格揭晓：备件透明，维修更省心

华为今日在其官方网站上公布了Pura 70系列手机的维修备件价格，为消费者提供了透明、清晰的维修成本参考，进一步提升了售后服务体验。 Pura 70系列作为华为旗下的高端旗舰机型，…

cl15
2024年4月19日
1.1K00
安卓

Google发布全新Pixel 9系列智能手机，搭载Gemini AI技术

Google今天正式推出多款全新Pixel系列智能手机，包括Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro和Pixel 9 Pro XL，这些新机型都搭载…

cl15
2024年8月14日
40400

斯坦福与Meta的研究：Gemini Pro推理能力胜过GPT-3.5 Turbo？

相关推荐

發佈留言

Share To :