Nature:大模型公司的“开源洗白”,严重阻碍科学可重复性和创新

⭐发布日期:2024年10月09日 | 来源:惠农网

⭐作者:蒂亚·莫里 责任编辑:Admin

⭐阅读量:737 评论:9人

【澳门天天结果查询小龙女开的什么】

【2020年澳门天天彩记录0080】

【澳门彩结果2020年全年记录表格】 【正版资料免费大全2019手机版】 【2020澳门彩记录】 【刘伯温免费记录】 【新澳门最近记录查询表图片】 【2021年澳门天天彩历史记录】 【2021年澳门记录下载】 【六叔公澳门资料网站敢跟敢赢】
【二四六天天彩资料大全报码】 【澳门号码查询结果表2024年】 【澳门2021年结果记录…彩吧资讯】 【2020年港澳码网址查询】 【澳门49选7直播现场】 【2021全年资料免费大全下载刘伯温】 【澳门二四六结果查询网】 【2020澳门记录查询结果52期】

【编者按】科技巨头所声称的开源 AI 模型,是否是真正意义上的开源模型?近期 Nature 上的一篇报道或许可以给我们一些启示。


日前,Nature 杂志编辑 Elizabeth Gibney 刊文深入分析了大语言模型(LLM)的透明度和开放性,揭示了所谓的“开源”背后隐藏的问题。


作者指出,许多声称开源的 AI 模型,实际上在数据和训练方法上并不透明,无法满足真正的科学研究需求。这种“开源洗白”(open-washing)现象严重阻碍了科学的可重复性和创新。


通过对多种模型的详细评估,文章提出了一份开放性排行榜,揭示了当前 AI 开源的现状。尤其值得关注的是,一些小型公司和研究团队在有限资源下,反而表现出了更高的透明度和开放性。


在这个 GenAI 时代,真正的开源不仅仅是代码的开放,更是数据、训练方法和模型细节的全面透明。这不仅是为了科学的进步,也是为了确保 AI 技术在社会中的负责任应用。


学术头条在不改变原文大意的情况下,做了简单的编译。内容如下:


许多支持聊天机器人的 LLM 被声称是开源的,但限制了对代码和训练数据的访问。


分析了许多流行聊天机器人模型的研究人员表示,像 Meta 和微软这样的科技巨头将他们的 AI 模型描述为“开源”,但未能披露有关底层技术的重要信息。


关于 AI 模型的开源定义尚未达成一致,但支持者表示,“完全”开源有助于科学研究,并且让 AI 更加负责任也至关重要。当欧盟的人工智能法案生效时,什么算作开源可能会变得更加重要。该立法将对被归类为开源的模型实施不那么严格的监管。


一些大公司声称拥有开源模型,并从中获益,但试图“尽可能少地披露信息”,荷兰奈梅亨拉德堡德大学的语言科学家 Mark Dingemanse 说。这种做法被称为“开源洗白”。


Dingemanse 和他的同事、计算语言学家 Andreas Liesenfeld 一起创建了一个排行榜,列出了开源最多和开源最少的模型(见表)。Dingemanse 说:“令我们惊讶的是,资源相对较少的小公司却开源更多。” 他们的研究结果于 6 月 5 日发表在 2024 ACM FAccT 的会议论文集中(见表)。



开源模型到底有多“开源”?


两位语言科学家评估了各种聊天机器人模型的不同组件是否是开源(✔)、部分开源(~)或闭源(X)。


都柏林圣三一学院(Trinity College Dublin)的认知科学家、位于加州 Mountain View 的非营利组织 Mozilla Foundation 的人工智能问责顾问 Abeba Birhane 表示,这项研究消除了“围绕当前开源辩论的许多炒作和废话”。



什么是开源?


“开源”一词来源于软件领域,意指可以访问源代码且对程序的使用或发行没有限制。但考虑到大型 AI 模型的复杂性和涉及的数据量庞大,使它们开源远非易事,专家们仍在努力定义开源 AI。Dingemanse 表示,将模型所有方面开源对于公司来说并不总是可取的,因为这可能会使它们面临商业或法律风险。其他人也认为,完全自由地发布模型有被滥用的风险。


但被贴上开源的标签也能带来巨大好处。开发者通过展示自己严谨和透明的形象,已经可以获得公共关系的回报,而且很快会产生法律上的影响。今年通过的欧盟人工智能法案将免除一定规模的开源通用模型的广泛透明度要求,并让它们承担较少的义务,目前这些义务尚未定义。Dingemanse 说:“公平地说,在受欧盟人工智能法案管辖的国家,‘开源’一词将具有前所未有的法律权重。”


在他们的研究中,Dingemanse 和 Liesenfeld 评估了40个大语言模型(LLM)——这些系统通过在大量数据中进行词语和短语之间的关联来学习生成文本。所有这些模型都声称是“开源”或“开放”的。他们通过评估模型在代码和训练数据的可用性、发布的文档内容以及模型的易访问性等14个参数,制作了一个开放性排行榜。对于每个参数,他们判断这些模型是开源的、部分开源的还是闭源的。


专注于开源技术的伦敦非营利公司OpenUK的首席执行官Amanda Brock表示,这种分析开源的滑动尺度方法非常实用。


研究人员发现,许多声称是开放或者开源的模型——包括Meta的Llama和Google DeepMind的Gemma——实际上只是“开放权重”(open weight)。


这意味着外部研究人员可以访问和使用这些训练过的模型,但不能检查或自定义它们。他们也无法完全了解这些模型是如何针对特定任务进行微调的;例如,使用人类反馈。Dingemanse说:“你并没有开源太多……然后你就能获得开源的信誉。”


作者们表示,特别令人担忧的是,模型训练数据不是透明的。他们表示,在他们分析的模型中,大约有一半没有提供关于数据集的详细信息,仅有泛泛的描述。


谷歌发言人表示,公司对描述模型使用的语言“非常精准”,选择将其Gemma大型语言模型标为开放而非开源。“现有的开源概念并不总是能直接应用于AI系统”,他们补充道。微软的发言人称,公司试图“尽可能准确地描述可用的内容及其程度”。“我们选择公开模型、代码、工具和数据集等材料,因为开发者和研究社区在推动AI技术进步方面发挥着重要作用。”Meta未回应Nature的评论请求。


分析发现,小型公司和研究团队制作的模型往往比大科技公司制作的模型更开源。作者们以由一个国际性、主要是学术合作项目构建的BLOOM为例,强调它是一个真正开源的AI。



同行评审“过时了”


他们发现,详细介绍这些模型的科学论文极其罕见。同审评审似乎“几乎完全过时了”,被挑选案例的博客文章或缺乏细节的公司预印本所取代。Dingemanse说,公司“可能会在其网站上发布一篇看起来很炫的论文,表面上看起来非常技术化。但是如果你仔细阅读,根本没有任何关于该系统使用了哪些数据的具体说明。”


目前尚不清楚这些模型中有多少符合欧盟对开源的定义。根据该法案,开源指的是在“自由和开放”的许可下发布的模型,例如允许用户修改模型,但对访问训练数据没有任何规定。该论文指出,细化这一定义可能会成为“企业游说和大公司瞄准的一个焦点”。


Dingemanse表示,开放性对科学发展很重要,因为它对可重复性至关重要。“如果你无重复它,那就很难称之为科学,”他说。研究人员创新的唯一方法是通过调整模型来实现,而要做到这一点,他们需要足够的信息来构建自己的版本。


不仅如此,模型还必须接受审查。Dingemanse说:“如果我们无法了解内部运作,我们也不知道是否应该对此印象深刻。”例如,如果一个模型通过了某个特定测试,但它是通过大量训练测试样本实现的,那就不算是一个成就。而且没有数据问责制,没人知道是否使用了不当或有版权的数据,他补充道。


Liesenfeld说,他们希望帮助同行科学家在寻找用于教学和研究的模型时,避免“陷入我们曾经陷入的同样陷阱”。


原文链接:

https://www.nature.com/articles/d41586-024-02012-5

【2024澳门天天开好彩大全免费】 【新澳天天开奖资料大全最新】
【2024年天天开好彩资料】 【新澳天天开奖资料大全最新54期】
【2024澳门天天开好彩大全53期】 【澳门天天开彩期期精准】
【2024全年资料免费大全】 【新澳天天开奖资料大全】
【澳门内部最精准免费资料】 【2024澳门天天开好彩大全】
【2024年新奥门天天开彩免费资料】 【新澳2024今晚开奖资料】 【下载港澳彩结果】
上一条新闻 下一条新闻

推荐文章

发表评论

富司纯子

2秒前:Dingemanse 说:“公平地说,在受欧盟人工智能法案管辖的国家,‘开源’一词将具有前所未有的法律权重。

IP:15.74.4.*

Abdellah

2秒前:但是如果你仔细阅读,根本没有任何关于该系统使用了哪些数据的具体说明。

IP:71.39.6.*

卓玛措吉

2秒前:但考虑到大型 AI 模型的复杂性和涉及的数据量庞大,使它们开源远非易事,专家们仍在努力定义开源 AI。

IP:64.93.7.*

惠农网APP介绍

APP图标

2020澳门彩结果直播回放视频APP名:惠农网

版本:V7.87.201

更新时间:2024-10-08 13:17

246期澳门结果今天开什么号码这是一个功能强大的澳门六会彩结果六季APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:而且没有数据问责制,没人知道是否使用了不当或有版权的数据,他补充道。

澳门2020结果记录11月1日APP介绍

APP图标

天天彩票app安卓版下载最新版APP名:惠农网

版本:V2.69.627

更新时间:2024-10-08 22:19

2024澳门结果查询直播下载这是一个功能强大的百度搜索澳门2020今晚开什么APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Dingemanse说,公司“可能会在其网站上发布一篇看起来很炫的论文,表面上看起来非常技术化。

2020澳门记录完整365期期更新APP介绍

APP图标

澳彩图库结果172期查询APP名:惠农网

版本:V6.45.630

更新时间:2024-10-08 19:18

2024澳门结果出来36期这是一个功能强大的2021澳门天天彩现场结果查询直播APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:“我们选择公开模型、代码、工具和数据集等材料,因为开发者和研究社区在推动AI技术进步方面发挥着重要作用。

2020年的澳门记录APP介绍

APP图标

现场直播澳门了吗现在结果查询APP名:惠农网

版本:V9.40.958

更新时间:2024-10-08 13:19

澳门直播场全网最快这是一个功能强大的246期澳门结果查询网APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:该论文指出,细化这一定义可能会成为“企业游说和大公司瞄准的一个焦点”。

澳彩六叔公推荐APP介绍

APP图标

2023的新澳门结果查询四不像APP名:惠农网

版本:V9.44.266

更新时间:2024-10-08 24:16

澳门天天彩是正规公司吗知乎号这是一个功能强大的澳门彩结果下载APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:Dingemanse说:“如果我们无法了解内部运作,我们也不知道是否应该对此印象深刻。

澳门天天彩结果风险分析图表最新APP介绍

APP图标

澳门网址是多少APP名:惠农网

版本:V4.15.629

更新时间:2024-10-08 19:18

澳彩结果官网下载苹果版本这是一个功能强大的2020年澳门记录历史结果APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:该立法将对被归类为开源的模型实施不那么严格的监管。

澳门天天开彩结果现场直播视频下载APP介绍

APP图标

奥彩今天晚上结果查询表 澳彩91期APP名:惠农网

版本:V9.75.585

更新时间:2024-10-08 23:15

新澳六叔精准资料大全这是一个功能强大的新澳门记录十结果查询网APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:尤其值得关注的是,一些小型公司和研究团队在有限资源下,反而表现出了更高的透明度和开放性。

269期澳门六开彩开APP介绍

APP图标

澳门结果+记录表2023最新APP名:惠农网

版本:V9.69.968

更新时间:2024-10-08 22:21

2020澳门天天彩视频大全这是一个功能强大的澳门结果+结果2023十二生肖APP,可以帮助你完成各种任务。包括最新24小时热点资讯,今日最新:不仅如此,模型还必须接受审查。