你的自拍和聊天记录，正被硅谷大厂砸数十亿美元疯抢

tp_admin • 2024年4月8日 07:00:00 • 新闻 • 368 views

【新智元导读】2026 年的数据荒越来越近，硅谷大厂们已经为 AI 训练数据抢疯了！它们纷纷豪掷十数亿美元，希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过，如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天，该怎么办？

谁能想到，我们多年前的聊天记录、社交媒体上的陈年照片，忽然变得价值连城，被大科技公司争相疯抢。

现在，硅谷大厂们已经纷纷出动，买下所有能购买版权的互联网数据，这架势简直要抢破头了！

图像托管网站 Photobucket 的陈年旧数据，本来已经多年无人问津，但如今，它们正在被各大互联网公司疯抢，用来训练 AI 模型。

为此，科技巨头们愿意拿出实打实的真金白银。比如，每张照片价值 5 美分到 1 美元，每个视频价值超过 1 美元，具体情况去取决于买家和素材种类。

总之，为了购买 AI 训练数据，巨头们已经展开了一场地下竞赛！

而最近闹得轰轰烈烈的 Meta 图像生成器大翻车事件，更是让 AI 的训练数据「刻板印象」暴露无遗。

如果喂给模型的数据无法改变「偏见」，那各大公司要遭遇的舆论风波，只怕少不了。

Meta 的 AI 生图工具画不出来「亚洲男性和白人妻子」或「亚洲女性和白人丈夫」

Table of Contents

巨头狂砸数十亿美元，只为买到数据「黄金」

根据路透社报道，在 2000 年代，Photobucket 处于巅峰期，拥有 7000 万用户。而今天，这家顶级网站的用户已经骤降到了 200 万人。

但生成式 AI，给这家公司带来了新生。

CEO Ted Leonard 开心地透露，目前已经有多家科技公司找上门来，愿意重金购买公司的 130 亿份照片和视频。

目的，当然就是训练 AI。

为了得到这些数据，各大公司都非常舍得割肉。

而且，他们还想要更多！据说，一位买家表示，自己想要超过 10 亿个视频，而这，已经远远超出了 Photobucket 能提供的数量。

据粗略估计，Photobucket 手中握着的数据，很可能价值数十亿美元。

OpenAI 陷起诉风波，版权太敏感了

现在眼看着，大家的数据都不够用了。

根据 Epoch 研究所的分析，到 2026 年，科技公司很可能会耗尽互联网上所有的高质量数据，因为他们消耗数据的速度，远远超过了数据的生成速度！

训练 ChatGPT 的数据，是从互联网上免费抓取的。Sora 的训练数据来源不详，CTO Murati 接受采访时支支吾吾的表现，险些又让 OpenAI 大翻车。

虽然 OpenAI 表示，自己的做法完全合法，但前方还有一堆版权诉讼在等着他们。而其他大科技公司都跟着学乖了，大家都在悄悄地为付费墙和登录屏幕背后的锁定内容付费。

外媒记者走访了 30 多名专业人士，发现这背后隐藏的，是一个黄金市场。

虽然很多公司对于这个不透明的 AI 市场规模表示缄默，但 Business Research Insights 等研究人员认为，目前市场规模约为 25 亿美元，并预测十年内可能会增长近 300 亿美元。

生成数据淘金热，让数据商乐开花

对科技公司来说，如果不能使用免费抓取的网页数据档案，比如 Common Crawl，那成本会是一个很可怕的数字。

但是一连串版权诉讼和监管热潮，已经让他们别无选择。甚至，硅谷已经出现了一个新兴的行业 —— 数据经纪人。而图片、视频供应商们，也随之赚得盆满钵满。

手快的公司，早就反应过来了。ChatGPT 在 2022 年底亮相的几个月内，Meta、谷歌、亚马逊和苹果就已经迅速和图片库提供商 Shutterstock 达成协议，使用库中的数亿份图像、视频和音乐文件进行训练。

根据首席财务官透露的数据，这些交易从 2500 万美元到 5000 万美元不等。

而 Shutterstock 的竞争对手 Freepik，也已经有了两位大买家，2 亿张图片档案中的大部分，会以 2 至 4 美分的价格授权。

OpenAI 当然也不会落后，它不仅是 Shutterstock 的早期客户，还与包括美联社在内的至少四家新闻机构签署了许可协议。

让内容「合乎道德」

同时兴起的，还有 AI 数据定制行业。

这批公司获得了与播客、短视频和与数字助理互动等现实世界内容的授权，同时还建立了短期合同工网络，从头开始定制视觉效果和语音样本。

作为代表之一的 Defined.ai，已经把自己的内容卖给了谷歌、Meta、苹果、亚马逊、微软等多家科技大厂。

其中，一张图片卖 1 到 2 美元，一部短视频卖 2 到 4 美元，一部长片每小时可以卖到 100 到 300 美元，文本的市价则是每字 0.001 美元。

而比较麻烦的裸体图像，售价为 5 到 7 美元，因为还需要后期处理。

而这些照片、播客和医疗数据的所有者，也会获得总交易额 20% 至 30% 的费用。

一位巴西数据商表示，为了获得犯罪现场、冲突暴力和手术的图像，他需要从警察、自由摄影记者和医学生手里去买。

他补充说，他的公司雇用了习惯于看到暴力伤害的护士来脱敏和标注这些图像，这对未经训练的眼睛来说是令人不安的。

而将图像脱敏、标注的工作，则交给惯于看到暴力伤害的护士，毕竟未经训练的人眼看到这些图像，会很不安。

然而，这些 AI 模型的「燃料」，很可能会引发严重的问题，比如 —— 吐出用户隐私。

专家发现，AI 会反刍训练数据，比如，它们会吐出 Getty Images 水印，逐字输出纽约时报文章的段落，甚至再现真人图像。

Getty Images 指责 Stability AI「以惊人的规模肆无忌惮地侵犯它的知识产权」

也就是说，几十年前某人发布的私人照片或私密想法，很可能在不知情的情况下，被 AI 模型原样吐了出来！

这次「ChatGPT 在回复中泄露陌生男子自拍照事件」，让大家颇为恐慌

这些隐患，目前还没有有效方法解决。

调查显示，用户愿意每月多付 1 美元，让自己的个人数据不被第三方使用

Altman，也看上了合成数据

另外，Sam Altman 也早看到了合成数据的未来。

这些数据不是人类直接创造的，而是由 AI 模型生成的文本、图像和代码，也就是说，这些系统通过学习自己产生的内容来进步。

既然 AI 能创造出接近人类的文本，当然也就能自产自销，帮自己进化成更先进的版本。

只要我们能够跨过合成数据的关键阈值，即让模型能够自主创造出高质量的合成数据，那么一切问题都将迎刃而解。

——Sam Altman

不过，这件事真的这么容易吗？

人工智能研究者们已经研究合成数据多年，但要构建一个能自我训练的人工智能系统并非易事。

专家发现，模型如果只依赖于自我生成的数据，可能会不断重复自己的错误和局限，陷入一个自我加强的循环中。

这些系统所需的数据，就像是在丛林中寻找一条路径，如果它们仅仅依赖于合成数据，就可能在丛林里迷路。

—— 前 OpenAI 研究员、现任不列颠哥伦比亚大学计算机科学教授 Jeff Clune

对此，OpenAI 正在探索如何让两个不同的人工智能模型协作，共同生成更高质量、更可靠的合成数据。其中一个负责生成数据，另一个则负责评估。

这种方法是否有效，还未可知。

「规模」Is All You Need

数据为什么对 AI 模型这么重要？这要从下面这篇论文说起。

2020 年 1 月，约翰斯・霍普金斯大学的理论物理学家 Jared Kaplan 与 9 位 OpenAI 研究人员共同发表了一篇具有里程碑意义的人工智能论文。

他们得出了一个明确的结论：训练大语言模型所用的数据越多，其性能就越好。

正如一个学生通过阅读更多书籍能学到更多知识一样，大语言模型能通过更多的信息更精确地识别文本模式。

很快，「只要规模足够大，一切就皆有可能」便成为了 AI 领域的共识。

论文地址：https://arxiv.org/ abs / 2001.08361

2020 年 11 月，OpenAI 推出的 GPT-3，便利用了当时最为庞大的数据进行训练 —— 约 3000 亿个 token。

在吸收了这些数据后，GPT-3 展现出了惊人的文本生成能力 —— 它不仅可以撰写博客文章、诗歌，甚至还能编写自己的计算机程序。

但如今看来，这个数据集的规模就显得相当小了。

到了 2022 年，DeepMind 将训练数据直接拉到了 1.4 万亿个 token，比 Kaplan 博士在论文中预测的还要多。

然而，这一记录并未保持太久。

2023 年，谷歌发布的 PaLM 2，在训练 token 上更是达到了 3.6 万亿 —— 几乎是牛津大学博德利图书馆自 1602 年以来收集手稿数量的两倍。

为训 GPT-4，OpenAI 白嫖 100 万 + 小时 YouTube 视频

但正如 OpenAI 的 CEO Sam Altman 所说，AI 终究会消耗完互联网上所有可用的数据资源。

这不是预言，也不是危言耸听 —— 因为 Altman 本人就曾亲眼目睹过它的发生。

在 OpenAI，研究团队多年来一直在收集、清理数据，并将其汇集成巨大的文本库，用以训练公司的语言模型。

他们从 GitHub 这个计算机代码库中提取信息，收集了国际象棋走法的数据库，并利用 Quizlet 网站上关于高中考试和作业的数据。

然而，到了 2021 年底，这些数据资源已经耗尽。

为了下一代 AI 模型的开发，总裁 Brockman 决定亲自披挂上阵。在他的带领下，团队开发出了一款全新名的语音识别工具 Whisper，可以快速准确地转录播客、有声读物和视频。

有了 Whisper 之后，OpenAI 很快便转录了超过 100 万小时的 YouTube 视频，而 Brockman 更是亲自参与到了收集工作当中。

最终的故事大家都知道了，在如此高质量数据的加持下，地表最强的 GPT-4 横空出世。

谷歌：我也一样

有趣的是，谷歌其实早就知道 OpenAI 在利用 YouTube 视频收集数据，但从未想过要出面阻止。

你猜的没错，谷歌也在利用 YouTube 视频来训练自家的 AI 模型。

而如果要对 OpenAI 的行为大加指责，他们不仅会暴露自己，甚至还会引发公众更加强烈的反应。

不仅如此，那些储存在 Google Docs、Google Sheets 等应用里的数十亿文字数据，也是谷歌的目标。

2023 年 6 月，谷歌的法律部门要求隐私团队修改服务条款，从而扩展公司对消费者数据的使用权限。

也就是，为公司能够利用用户公开分享的内容开发一系列的 AI 产品，铺平道路。

据员工透露，他们被明确指示要在 7 月发布新的条款，因为那时大家的注意力都在即将到来的假期上。

7 月 1 日发布的新条款不仅允许谷歌使用这些数据开发语言模型，还能用于创建像 Google Translate、Bard 和 Cloud AI 等广泛的 AI 技术和产品

Meta 数据不足，高管被迫天天开会

同样在追赶 OpenAI 的，还有 Meta。

为了能够超越 ChatGPT，小扎不分昼夜地催促公司的高管和工程师加快开发一个能与之竞争的聊天机器人。

然而，到了去年年初，Meta 也遇到了和其他竞争者一样的难题 —— 数据不足。

尽管 Meta 掌管着庞大的社交网络资源，但不仅用户没有保留帖子的习惯（很多人会删除自己之前的发布），而且 Facebook 毕竟也不是一个大家习惯发高质量长文的地方。

此前，小扎曾自豪声称 Meta Platforms 的访问数据，是 Meta AI 的一大优势

生成式 AI 副总裁 Ahmad Al-Dahle 向高层透露，为了开发出一个模型，他的团队几乎利用了网络上所有可找到的英文书籍、论文、诗歌和新闻文章。

但这些还远远不够。

2023 年 3 月到 4 月，公司的商务发展负责人、工程师和律师几乎每天都在密集会议，试图找到解决方案。

他们考虑了为获取新书的完整版权支付每本 10 美元的可能性，并讨论了收购出版了斯蒂芬・金等作者作品的 Simon & Schuster 的想法。

与此同时，他们还讨论了未经允许就对网络上的书籍、论文等作品进行摘要的做法，并考虑进一步「吸收」更多内容，哪怕这可能招致法律诉讼。

好在，作为行业标杆的 OpenAI，就在未经授权的情况下使用了版权材料，而 Meta 或许可以参考这一「市场先例」。

根据录音，Meta 的高管们决定借鉴 2015 年作家协会（Authors Guild）对谷歌的法庭判决。

在那个案例中，谷歌被允许扫描、数字化并在在线数据库中编目书籍，因为它仅在线上复制了作品的一小部分，并且改变了原作，这被认定为合理使用。

在会议中，Meta 的律师们表示，用数据训练人工智能系统应当同样被视为合理使用。

但即便如此，Meta 似乎还是没攒够数据……

AI 生图工具拒绝「白人和亚洲人」合影

最近，外媒 The Verge 的记者在多次尝试后发现，Meta 的 AI 图像生成工具并不能创建一张东亚男性和白人女性同框的图片。

不管 prompt 是「亚洲男性与白人朋友」、「亚洲男性与白人妻子」、「亚洲女性与白人丈夫」，还是经过魔改的「一位亚洲男性和一位白人女性带着狗微笑」，都于事无补。

当他将「白人」改为「高加索人」时，结果依旧如此。

比如「亚洲男性和高加索女性的婚礼日」这个 prompt，得到的却是一张身穿西装的亚洲男性与身着旗袍 / 和服混搭的亚洲女性的图像……

AI 居然难以想象亚洲人与白人并肩而立的场景，这着实有些匪夷所思。

而且，在生成的内容中，还隐藏着更加微妙的偏见。

举个例子，Meta 总是将「亚洲女性」描绘成东亚面孔，似乎忽略了印度作为世界上人口最多国家的事实。与此同时，「亚洲男性」多为年长者，而亚洲女性却总是年轻化。

相比之下，OpenAI 加持的 DALL-E 3，就完全没有这个问题。

对此，有网友指出，出现这个问题的原因是 Meta 在模型训练时没有输入足够多的场景示例。

简而言之，问题不在于代码本身，而在于模型训练时所使用的数据集不够丰富，没有充分覆盖所有可能的场景。

但更深层次的是，AI 的行为是其创造者偏见的体现。

在美国媒体中，「亚洲人」通常就是指东亚人，不符合这一单一形象的亚洲人几乎从文化意识中被抹去，即便是符合的人也在主流媒体中被边缘化。

而这，只是因数据造成的 AI 偏见的一隅而已。

Expand and read the remaining 86%

本文来自网络转载，不代表TePhone特锋手机网立场，原文出处：IT之家；原文链接：ithome.com/0/760/362.htm

AI 训练数据硅谷大厂聊天记录自拍

Like (0)

tp_admin用户

0 0

AirPods配备屏幕到底有多实用？这个仿冒品揭示了答案

Previous 2024年4月8日

超 4000 原生应用加入华为鸿蒙生态，两个月增长幅度达 20 倍

Next 2024年4月8日

新闻

苹果面临集体诉讼：被指故意抬高产品价格

3月20日，美国司法部和16个州以及地区检察长联手对苹果公司提起了反垄断诉讼。随着司法部的提起诉讼，美国加州和新泽西州至少有三起集体诉讼正在进行，原告代表数百万消费者，指控苹果通过…

binbin
2024年3月27日
31500
新闻

印度推出首款“Made in India”平板电脑 Milkyway，搭载 BharatGPT 与 8 英寸高清屏幕

周二，Epic Foundation发布了面向学生的首款“印度设计”的平板电脑。这款平板电脑以实惠的价格提供了学生所需的所有基本功能。此外，它还包含了 BharatGPT 的人工智…

cl15
2024年2月22日
49100
新闻

AirTag 2024：iOS 17.5更新揭示苹果即将推出重大新功能

苹果的AirTag是一款令人惊叹的设备。这是一个微小的追踪器，可以藏在您的行李、汽车、手提包或其他您想要找到的物品中。但请注意“藏”这个词：如果您能找到它，别人也可以。不过，在接下…

小雨
2024年4月6日
40600
安卓

三星 Galaxy S24 Ultra 手机支持5000万像素的5倍长焦模式

据爆料，三星 Galaxy S24 Ultra 手机的5倍长焦功能支持5000万像素模式，可以拍摄分辨率为6120×8160的高清长焦照片，其原片的解析度非常出色。据之…

Ai-i
2023年12月22日
36700
新闻

中国太空通信速度飙升，1GB电影1秒传至空间站成为现实

在四川卫视的“又见・东方神话”跨年节目中，国星宇航执行副总裁赵宏杰博士透露，中国已经在太空中实现了10G量级的激光通信速率，为实现高效传输提供了强有力支持。赵博士表示：“举个例子，…

binbin
2024年1月4日
32200
新闻

Web3 社交：引领数字世界的新浪潮

在当今社交媒体领域，我们正目睹着一场巨大的转变，这一现象被称为“投机大迁移”。这场运动最初是由加密市场的投机吸引力所引发，但现在已经演变成了对 Farcaster 和 Lens 等…

Ai-i
2024年1月30日
50700
安卓

BCI放出11月新机激活量 Xiaomi小米重回中国产品牌榜首

据外媒报道，来自BCI调研机构放出了11月新机激活量，其中小米以18.3％提升至国产品牌榜首，而苹果以21.1％的份额排名第一。对此，小米集团卢伟冰表示，离苹果还有差距，继续努力…

暴雨
2023年12月11日
37600
安卓

一加OnePlus 12R定档将于明年1月23日全球发布

据海外媒体报道，一加手机正式官宣，他们将于2024年1月23日在海外正式发布一加12R。据爆料，一加12R的外观和一加12基本一致，后置圆形摄像头模组，正面为一块双曲面屏幕。同…

聆听
2023年12月18日
44200
新闻

BONK的涨势使Solana Saga手机的价格飙升至2000美元

封存未开封的手机盒子里包含了3000万个BONK代币的空投，这似乎使销售不佳的Saga手机重新焕发了生机。一个以狗为主题的迷因代币可能刚刚使Solana的Saga手机的销售复苏，…

cl15
2023年12月21日
32300
iPhone

苹果发布Xcode更新，VisionOS应用不得使用AR和VR字眼

苹果公司今日发布了Xcode的更新，邀请开发者向App Store提交VisionOS应用。然而，其中有一点颇具趣味性，苹果在最新的指南要求中表示，开发者在描述他们的新应用时，不应…

Tech News
2024年1月9日
32600
安卓

最新消息！揭示三星Samsung Galaxy XCover 7的内存和定价细节

根据多个消息和传闻，三星正在开发XCover系列的一款全新智能手机，该系列专为耐用设备而设计，而这款即将发布的手机被命名为Galaxy XCover 7。它将作为Galaxy XC…

Tech News
2023年12月25日
58500
新闻

用户称佩戴苹果 Vision Pro 后出现健康问题：头痛、黑眼圈、颈部酸痛

4 月 10 日消息，据 MarketWatch 报道，一些苹果 Vision Pro 用户在佩戴头显设备后出现了健康问题。该网站采访了几位用户，他们反映在使用 Vision Pr…

偌岸丶
2024年4月10日
38000
新闻

AI助力创新与想象力 – 解析人工智能如何引领创意领域的变革

在创意领域不断演变的背景下，人工智能（AI）已经崭露头角，超越了曾经的未来主义氛围，成为我们日常生活的一个重要组成部分。随着创造力在个人和专业领域占据中心舞台，AI在放大和重塑我们…

Apple
2023年12月28日
40700
安卓

小米 Civi 4 Pro 迪士尼公主限定版图赏：内嵌“魔镜”的深度定制机

6 月 27 日消息，小米 Civi 4 Pro 迪士尼公主限定版手机今晚发布，12GB+512GB 售价 3299 元，现已全渠道开售。据介绍，这款新品采用了复古化妆镜设计，铂…

Ai-i
2024年6月30日
50800
新闻

DDoS攻击冲击Bitcoin Ordinals网站，引发争议

近期，以其独特的比特币区块铭文而闻名的Ordinals.com网站意外成为分布式拒绝服务（DDoS）攻击的受害者。这一事件在加密货币社区内引发了争议，一些批评者将其视为“虚伪行为…

聆听
2023年12月29日
29500
新闻

苹果 iOS 18 将允许欧盟 iPhone 用户将默认导航应用从“地图”更改为其他应用

苹果最近更新了“DMA 合规报告非机密摘要”文件，透露了对 iOS 未来的一些改进计划。其中之一是允许欧盟 iPhone 用户将默认导航应用从“地图”更改为其他应用。这项计划预计将…

玩机客
2024年3月9日
41100
iPhone

欧洲第三方 iPhone 应用商店 Setapp 官宣 5 月 14 日正式上线

5 月 14 日消息，MacPaw 今天官宣，将于今年 5 月 14 日在欧盟成员国内，针对苹果 iPhone 推出第三方应用商城 Setapp。 MacPaw 于今年 2 月开始…

cl15
2024年5月14日
43400
新闻

LG在CES 2024前发布搭载AI处理器的2024款OLED电视

LG在即将于下周在拉斯维加斯举行的CES 2024展会前，刚刚宣布了一款新的OLED电视系列。LG Signature OLED M4和OLED G4电视惊喜搭载更新的AI处理器，…

tp_admin
2024年1月5日
46100
新闻

WhatsApp安卓用户备份聊天记录可能会收费

多年来，谷歌与WhatsApp合作，使得在Google Drive上存储WhatsApp备份是免费的，但这一时代即将结束，情况即将发生改变。当我换手机时，大多数情况下，我会从旧手…

Android
2024年2月13日
82200
导购

华为HUAWEI首款开放式耳机FreeClip 售价199欧元

近日在迪拜的创新新品发布会上，华为带来了首款开放式耳机—华为FreeClip，该产品可全天舒适佩戴。从形态来看，华为FreeClip由舒适豆（Comfort Bean）、声学球（…

小雨
2023年12月13日
31200