虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

AI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?

2025-01-30来源:ITBEAR编辑:瑞雪

在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯源计划(DPI)的国际性研究团队应运而生。

Longpre强调,对于基座模型的能力而言,互联网的规模和数据的异构性至关重要。对规模的需求也促进了合成数据的大量使用。除了语言模型外,近年来多模态生成式AI(GenAI)也迅速崛起,如图像和视频生成模型。这些模型同样需要尽可能多的数据,而视频模型的语音和图像数据集中,超过70%的数据都来自YouTube。这一现象对拥有YouTube平台的谷歌及其母公司Alphabet极为有利,因为文本数据分布在整个互联网上,由许多不同的网站和平台控制,但视频数据的权力却如此集中地掌握在一家公司手中。

AI Now Institute联合执行董事Sarah Myers West对此表示担忧,她认为谷歌在开发自己的人工智能模型(如Gemini)方面具有巨大优势,这引发了人们对其如何向竞争对手提供数据的疑问。更深层次的问题是,如果我们所交互的大多数AI数据集都反映了以利润为导向的科技巨头的意图和设计,那么这些大公司可能会以符合自己利益的方式重塑我们世界的基础设施。

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难做出正确的数据选择,也无法保证模型训练过程中没有使用过受版权保护的数据。最近,OpenAI、Google等公司与出版商、Reddit等主要论坛以及网络社交媒体平台达成了独家数据共享协议,这进一步加剧了数据垄断的趋势。这一趋势有利于AI领域的最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界研究人员、非营利组织和小公司的利益。

更令人担忧的是,用于训练AI模型的数据严重偏向西方世界。DPI团队分析的数据集中,超过90%来自欧洲和北美,而非洲的数据占比不到4%。Hugging Face首席伦理学家Giada Pistilli指出,英语在训练数据中占据主导地位的原因之一是互联网中90%以上的内容仍然是英语;另一个原因是便利性:将其他语言的数据集放在一起并考虑其他文化需要进行更多的数据工作以及开发人员的有意识意图。这导致多模态模型的输出往往以西方文化为焦点,例如当提示AI模型生成婚礼的景象和声音时,可能只能得到西式婚礼相关的内容。

数据集代表了人类社会中的偏见,而经过这些数据训练的模型又加剧了这些偏见。这可能导致AI模型推动一种以美国为中心的世界观,同时不经意间抹去其他语言和文化。为了解决这个问题,DPI团队呼吁加强数据收集方面的规范化进程,提高数据透明度和多样性,以确保AI技术的公平性和可持续性发展。

华为Mate80 GTS来袭:7.2寸巨屏配风扇,麒麟9030 Pro芯片性能拉满
还会有一款内置风扇的特别版,但在华为Mate80系列官宣后没多久,就说这款内置风扇的Mate80机型没有了,被砍掉了。华为Mate80 GTS并非是简单的内置风扇Mate80版,其屏幕尺寸达到了7.2寸,搭…

2025-12-29

2026年1月手机新品扎堆来袭 六大品牌新机亮点纷呈引期待
【CNMO科技消息】随着12月进入尾声,1月份智能手机市场的新品也开始收到更多消费者关注,尤其是今年的春节相对较晚,1月份各大手机品牌还有充足的时间展开竞争。近日,知名数码博主数码闲聊站爆料了各家1月份的新品…

2025-12-28

AI代码编辑器Windsurf Wave 13版来袭:SWE-1.5模型登场,多升级助力开发
为了让更多开发者体验这一强力工具,Windsurf 宣布该模型将在接下来的三个月内免费提供。在界面交互方面,更新带来了多会话并行视图,用户现在可以在单个窗口中通过分割窗格或标签页,并排查看并操作多个 Cas…

2025-12-28

小米17 Ultra续航充电实测揭晓,6800mAh大电池表现几何?
前两天小米发布了全新17 Ultra,今日正式上市,实际续航充电表现如何,数据库5.0也进行了实测,来简单整理下~配备6800mAh电池的小米17 Ultra在小白测评数据库5.0模型下实测续航表现如下:三…

2025-12-28

荣耀WIN系列携万级大电池登场!超长续航+极致性能,2599元起售
并且荣耀WIN系列搭载自研青海湖电池管理算法和自研电化学模型算法,在电池材料和能效管理等领域持续引领行业,有了荣耀WIN系列,出门再也不用携带充电宝。 更重要的是,荣耀WIN全系搭载荣耀东风涡轮散热,风扇体…

2025-12-27