虎科技
业界资讯 手机产品 数码产品 移动互联 软件产品 智能汽车 生活家电 关于我们 热点资讯

AI数据源头揭秘:巨头垄断加剧,西方文化主导下的模型偏见何时休?

2025-01-30来源:ITBEAR编辑:瑞雪

在人工智能领域,LLM和Agent技术日新月异,取得了高度成熟的进展。然而,相比之下,数据收集方面的规范化进程却明显滞后。一个引人深思的问题摆在了人们面前:AI训练所需的海量数据究竟源自何处?为了解答这一问题,一个名为数据溯源计划(DPI)的国际性研究团队应运而生。

Longpre强调,对于基座模型的能力而言,互联网的规模和数据的异构性至关重要。对规模的需求也促进了合成数据的大量使用。除了语言模型外,近年来多模态生成式AI(GenAI)也迅速崛起,如图像和视频生成模型。这些模型同样需要尽可能多的数据,而视频模型的语音和图像数据集中,超过70%的数据都来自YouTube。这一现象对拥有YouTube平台的谷歌及其母公司Alphabet极为有利,因为文本数据分布在整个互联网上,由许多不同的网站和平台控制,但视频数据的权力却如此集中地掌握在一家公司手中。

AI Now Institute联合执行董事Sarah Myers West对此表示担忧,她认为谷歌在开发自己的人工智能模型(如Gemini)方面具有巨大优势,这引发了人们对其如何向竞争对手提供数据的疑问。更深层次的问题是,如果我们所交互的大多数AI数据集都反映了以利润为导向的科技巨头的意图和设计,那么这些大公司可能会以符合自己利益的方式重塑我们世界的基础设施。

数据集之间的集成和沿袭缺乏一致性,这使得开发人员很难做出正确的数据选择,也无法保证模型训练过程中没有使用过受版权保护的数据。最近,OpenAI、Google等公司与出版商、Reddit等主要论坛以及网络社交媒体平台达成了独家数据共享协议,这进一步加剧了数据垄断的趋势。这一趋势有利于AI领域的最大玩家,他们有足够的财力进行数据交易,但却牺牲了学术界研究人员、非营利组织和小公司的利益。

更令人担忧的是,用于训练AI模型的数据严重偏向西方世界。DPI团队分析的数据集中,超过90%来自欧洲和北美,而非洲的数据占比不到4%。Hugging Face首席伦理学家Giada Pistilli指出,英语在训练数据中占据主导地位的原因之一是互联网中90%以上的内容仍然是英语;另一个原因是便利性:将其他语言的数据集放在一起并考虑其他文化需要进行更多的数据工作以及开发人员的有意识意图。这导致多模态模型的输出往往以西方文化为焦点,例如当提示AI模型生成婚礼的景象和声音时,可能只能得到西式婚礼相关的内容。

数据集代表了人类社会中的偏见,而经过这些数据训练的模型又加剧了这些偏见。这可能导致AI模型推动一种以美国为中心的世界观,同时不经意间抹去其他语言和文化。为了解决这个问题,DPI团队呼吁加强数据收集方面的规范化进程,提高数据透明度和多样性,以确保AI技术的公平性和可持续性发展。

荣耀X8d新机现身吉尔吉斯斯坦:7000mAh大电池配亿级主摄引关注
【CNMO科技消息】CNMO从外媒获悉,荣耀X8d新款手机已正式现身,尽管尚未举行官方发布会,但该机已在吉尔吉斯斯坦的零售网站上亮相。其核心配置包括一块6.77英寸、分辨率为1080×2392的AMOLED屏…

2025-12-12

鸿蒙商用新篇开启:鸿蒙电脑企业版与擎云 HM740引领办公变革
传统部署模式下,500台电脑的镜像制作、测试验证、分发部署与人工调试需耗时10天,而通过华为HEM云端部署平台,管理员只需几步网页操作,即可完成应用、桌面配置与设备策略的预设置,员工开箱联网后,在启动阶段便能…

2025-12-12

小米17副屏成功密码:从设计到生态,如何让“小屏”成就“大用”?
回顾这几年的手机发展史,副屏绝对不是新鲜概念,早在2017年,魅族就在PRO 7的机身背面塞过一块小屏,只用来显示时间和天气;后来小米11 Ultra、游戏手机也搭载了形态各异的副屏,不过整体还是起一个装饰…

2025-12-12