第一批被大模型气死的人…

发布日期:2024-11-13 15:22

来源类型:荆楚网 | 作者:朱淑真

阅读提醒: 话说,大模型火爆两年来 第一批被“气死”的人 都已经“头七”了 …… 有人说,不至于吧 俺看各家发的大模型都挺厉害的 个个天赋异禀,牛掰三连 ...
【2024澳门精准正版免费大全】 【2023资料免费大全】 【六开彩澳门开奖结果查询今晚】 【2024新澳资料大全免费】 【新澳门彩历史开奖结果走势图】 【奥彩免费资料图片大全】 【澳门天天彩资料正版免费特色快8】 【新澳免费资料大全精准版】 【新澳36码期期必中特资料】 【二四六澳门免费全全大全】 【7777788888新澳门正版】 【2004新奥精准资料免费提供】 【2024新奥资料免费精准】

话说,大模型火爆两年来

第一批被“气死”的人

都已经“头七”了

……

有人说,不至于吧

俺看各家发的大模型都挺厉害的

个个天赋异禀,牛掰三连

您说的没错,在很多通用场景

尤其C端娱乐、陪伴、效率提升等应用

大模型们这两年干了不少“人事儿”

可一旦到B端严肃场景,就不一样了

比如,有人把大模型接入ERP、BI系统

搞点严谨的数据分析、成本核算

分分钟给你整成一团乱麻

让你不得不从头核对,比自己算还累

还有人拿大模型做了招标助手

指望它能读标书、写标书

结果,看错了标底、写错了应答

本来能中的标都废了…

……

凡此种种“气死人”的案例

皆因通用大模型对行业场景“水土不服”

动不动就出现幻觉、现了原形

嘿嘿

这么说吧,就目前通用大模型的能力

任何企业都很难拿来直接就用

真气死个人儿,可怎么办呢?

⬇️

让大模型在企业级严肃场景、垂直场景能够快速落地、把活干好,最有效的方法就是对大模型进行精调(Fine-tuning)。

所谓「精调」,就是把这些看起来有点“气人”的通用大模型,使用特定任务、特定场景的数据,进行再训练或者微调。

说白了,一方水土养一方大模型,把通用大模型拉回家,喂点我家的专用饲料,搞搞特训,让他们按我们要求的样子“二次发育”。

特训完成后,这些大模型就成了我们的专属大模型,在我们需要的特定业务场景下,也能聪明滴搬砖。

精调省去了从零开始的时间成本、训练成本,表面上看,对企业好像很简单。

但实际上,每一步都有坑…

01、大模型「精调」,有哪些难点?

首先,已有的预训练模型怎么选?

理论上讲参数越大模型越聪明,可是参数大意味着精调的训练成本会增加,而未来推理部署的成本也会更高。

第二,一份高质量的训练数据对精调模型达标起着至关重要的作用,但是,高质量的数据来之不易,要经历繁琐的数据清洗和耗时的数据标注。

数据不行,越调越糊…

第三,虽然精调消耗的算力跟预训练不是一个数量级的,但对企业来说,也是一笔不小的开支。

算力囤少了,精调不够劲儿,算力囤多了,后期就是巨大的沉默成本。

第四,精调完成,还要把模型部署落地到生产场景,与企业业务对接集成,提供推理服务。

这个环节,同样要考虑部署集成的可操作性,易用性,以及长期运营成本。

一旦搞不好,就可能成为烂尾工程,前面的付出全打水漂。

怎么样,是不是左右都是难?

直接采用通用大模型,会被各种出乎意料的幻觉“气死”,选择精调后使用,也可能会被这一路的坑儿“气死”。

02、如何快速搞定大模型「精调」?

怎么破?有人给出了解法,这就是「腾讯云TI平台」。

TI平台是腾讯云面向开发者、政企提供的一站式人工智能开发服务平台。

既可以应用于传统AI/ML场景,也可以应用于生成式AI场景,客户不需要再去找单独的MaaS平台。

TI平台打通了从数据标注、数据构建,到模型训练、模型评估、模型部署,再到AI应用开发和落地的全流程链路。

并且与鹅厂公有云基础设施(存/算/网/安能力)无缝衔接,开箱即用。

用TI平台来进行大模型精调,各种难题都可以迎刃而解↓

01、解决模型选择困难症

面对眼花缭乱的各种通用大模型,企业容易陷入到选择困难症。

TI平台预置了鹅厂自研的混元大模型和行业大模型,并优中选优,全面接入主流开源模型,同时提供通用训练框架和推理加速框架。

更贴心的是,鹅厂刚刚开源了一个“吊炸天”的混元模型:「混元Large」。

混元Large有3890亿总参数量、520亿激活参数量,并支持256K上下文长度,是目前业界参数规模最大、性能领先的开源MoE模型。

MoE模型也就是专家混合模型(Mixture of Experts),有点像“三个臭皮匠,抵过诸葛亮”。

它把多个擅长不同任务的子模型混合在一起,组成“专家团队”,以此来提供更强的能力。

MoE模型通过一种叫做门控网络的机制,根据输入数据的特点,来选择激活哪几个专家(子模型)。

由于MoE模型工作的时候通常只激活一小部分专家(比如100个激活2-3个),这可以在显著降低计算量的同时,不影响模型性能。

同时因为“群贤毕至、专家云集”,每个专家各有所长,MoE模型可以处理更加多样化、复杂的输入数据,得到更优的结果。

因此,混元Large在推理速度和参数规模之间取得了平衡,显著提升了模型的处理能力。

当然鹅厂还注入了一大堆黑科技,比如:高质量合成数据、随机补偿路由策略、KV缓存压缩、专家特定学习率缩放等等。

测试结果显示,混元Large在CMMLU、MMLU、CEval、AGIEval等多学科评测集以及中英文NLP任务、代码、数学等9大维度表现出色,超越Llama3和Mixtral等主流开源模型。

so,当企业既想更好的模型性能,又想要更低的算力开销,以前没得选,现在混元Large就是终极答案。

02、解决数据清洗和标注难题

选完模型,下一步要准备精调数据,这个环节有两大难题↓

第一是数据来源和格式各异,不同数据来源和不同业务场景,应该采用不同的清洗手段,不同格式的数据,需要更灵活的存储方式。

第二是数据标注效率低下,精调数据通常保存在云存储、云文件系统中,传统标注方案往往涉及数据反复来回拷贝,占用额外空间且耗时耗力。

采用鹅厂TI平台,完全不用担心数据准备环节的难题。

首先,平台预置了一套数据清洗pipeline脚本,这可是腾讯优图算法专家沉淀多年的清洗大模型数据的经验,开箱即用。

同时腾讯云TI平台的大模型标注工具非常灵活,特色创立了基于schema(数据集的结构和格式)的定义方式,可以完全自定义工作台,让标注更方便。

由于腾讯云TI平台本身就是云原生的,可以无缝对接用户待标注数据的云文件系统,标注结果直接保存在原文件路径。

标注过程中,不再需要反复拷贝,省时省力省空间。

03、精调过程稳定高效易用

数据准备好之后,就可以进入具体精调环节。

TI支持低代码、灵活自定义两种精调模式自由选择,并预置了训练镜像,快速发起训练,简单易用。

精调训练过程中,TI提供了三层保障机制,减少任务中断,提升精调效率。

同时,TI基于鹅厂自研的“Angel”加速能力,让训练和推理的速度更快,资源消耗更少。

还有一点也很重要,企业在使用TI实施精调训练时,调用的是鹅厂云端算力,按需使用,不要再自己抢卡囤算力,大大节省资金成本。

而且,TI平台也支持政企私有化部署,全面适配国产算力卡,单平台支持多卡异构纳管,让企业可以有多种选择。

04、模型效果评估与部署难题

大模型精调以后,效果到底怎么样?会不会还是有点“犯浑”?这事儿不能等精调完再检查,要在过程中就把握好。

鹅厂TI平台提供了一套完善的模型评估体系,从精调的不同阶段定义了「轻量体验、客观评测、主观评测」等“考试环节”,并且支持在精调训练的任一checkpoint进行抽查。

好,“智商”检测合格,开始部署。

TI内置推理加速器,可达两倍以上加速比,让推理应用跑到飞起。

同时提供统一的大模型调用API和体验工具,大幅缩短业务接驳大模型的周期。

在应用发布环节,TI提供可视化应用编排,并可以纳管边缘集群,通过云端控制边缘服务发布,快速落地生产场景。

就这样,有了腾讯云TI平台,从模型选择、数据准备,到精调训练、调试评估,再到模型部署和应用,一路畅通。

聪明滴、懂行业、懂场景的大模型,终于有谱啦。

当然,更靠谱的方案,我留在了最后,那就是——

用腾讯云TI平台精调鹅厂刚刚新鲜开源的「混元Large」MoE模型。

顶流的开源模型+顶流的精调平台,体验更加不一般↓

目前,混元-Large × TI的强强联合服务,已经在腾讯云上开放,登录TI平台,您可以完成以下目标:

1、通过直接问答,体验Hunyuan-Large的最新能力;2、构造自定义评测集横评Hunyuan-Large和其他模型;3、将Hunyuan-Large API接入到自有大模型应用;4、基于自有数据集精调Hunyuan-Large,以满足垂直场景效果。

返回搜狐,查看更多

责任编辑:

【新奥资料免费精准大全】 【2024新奥门正版资料免费提拱】 【曾夫人论坛免费资料大全】 【新奥天天免费资料大全正版优势】 【二四六天天彩免费资料大全最新】 【新澳精准资料大全免费更新】 【新澳精准资料网址】 【新澳今天最新资料网站】 【新澳好彩免费资料大全最新版本】 【澳门天天免费资料大全192.1】 【7777788888马会传真】 【新奥正版全年免费资料】 【六盒大全经典全年资料2024年版】 【新奥天天精准资料大全】
【新澳天天开奖资料大全】 【新澳2024今晚开奖资料】 【新澳门正版免费大全】 【新澳2024年正版资料】 【澳门码今晚开什么特号9月5号】 【澳门免费材料资料】 【奥门平特肖】 【香港好彩二四六免费资料大全澳门】 【新门内部资料精准大全最新章节免费】 【新澳门资料免费资料】 【7777788888澳门】 【新澳门资料大全正版资料查询】 【2024年新奥正版资料免费大全】 【新澳正版资料免费提供】

下载中心

视频封面

视频名称:广东梅州一公立医院停诊,卫健局称其要申请破产,员工:今年没怎么发工资

大小: 5.4GB 下载:(58944) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:女子举报被名校博士以恋爱为名骗走3920万 男方:系诽谤

大小: 2.6GB 下载:(439141) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:新电梯网早新闻今天是2024年11月8日 十月初八 星期五

大小: 2.8GB 下载:(920334) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:女子举报被名校博士以恋爱为名骗走3920万元,男方否认:她这是诽谤

大小: 7.3GB 下载:(805846) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:被誉为中部黄埔军校,知名校友名满天下,你知道是哪个学校吗?

大小: 8.6GB 下载:(655020) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:大衣嫂旺夫相真是有福之人,大衣哥走到今天归功于大衣嫂旺夫!3年前,宁夏7岁小女孩一笑走红,后拒百万签约,如今怎么样了?

大小: 2.9GB 下载:(491734) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:普京与特朗普通话:未来国际关系的新机遇与挑战

大小: 8.4GB 下载:(123227) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:今年末地方政府专项债务限额将增至3552万亿元——协同发力推出化债组合拳力荐!近两年口碑与播放双双爆棚的短剧 TOP 8

大小: 3.4GB 下载:(473483) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:进博会单日最大客流量超22万人次!欧盟超40家企业预订下一届

大小: 6.8GB 下载:(946377) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普宣布在总统选举中获胜,他有哪些政治主张?带来哪些影响?

大小: 3.4GB 下载:(323361) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:【世界看进博】“相约进博 共享机遇” 进博会助力更多最不发达国家融入全球发展

大小: 9.5GB 下载:(558097) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:贝恩投资(Bain Capital)陈中崛:并购重组中的价值创造与协同效应

大小: 9.8GB 下载:(990066) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:比亚迪暂缓加拿大上市进程,美国电动新势力股价暴跌|海外日报

大小: 4.3GB 下载:(321921) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:中听|卫生巾集体缩水”,绝不能让女性用品背刺女性

大小: 5.8GB 下载:(539774) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:马上评丨上映前就遭盗版,伤害的不只是《风流一代》

大小: 2.8GB 下载:(141218) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:100亿“打水漂”?富士康梦碎美国,人民日报:减轻苹果依赖症

大小: 1.1GB 下载:(36687) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:文化客厅NO23丨人与帝国,兴亡世界史的启示

大小: 7.4GB 下载:(15463) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:入淘首秀翻车,章小蕙难成李佳琦

大小: 8.5GB 下载:(730213) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普的第二任期:他将如何获得更大的权利?

大小: 1.5GB 下载:(784626) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:女子大闹航班辱骂殴打空少,自称哈尔滨某高校老师,叫嚣“有背景”

大小: 5.1GB 下载:(813600) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:离谱!台湾3岁女童遭男保姆性侵,家属下体红肿,保姆登门道歉?

大小: 5.9GB 下载:(334864) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:听说,不少投资人都在聊“ESK”

大小: 8.8GB 下载:(230475) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:无论谁当选,大批富人都计划在大选后逃离美国

大小: 2.9GB 下载:(900162) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:特朗普的胜利:拜登和哈里斯的首次联合回应,世界屏息以待!

大小: 5.9GB 下载:(950864) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:关于散文的美学——读陈胜乐新著《中国散文美学综论》感言

大小: 6.6GB 下载:(311094) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:长沙20多名志愿者帮8旬独居腿疾老人修路:累趴了,但老人再也不怕摔跤

大小: 4.7GB 下载:(934606) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:川航一航班因引气故障备降广州,专家:备降或紧急返航是正确处置

大小: 1.1GB 下载:(328233) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:法国大革命时期的督政府为何没能成为混乱的终结者?

大小: 6.2GB 下载:(574309) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:前三季中国贸易顺差创新高的深层寓意

大小: 7.6GB 下载:(747671) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:老黄你变了!英伟达已经不再只专注于游戏

大小: 3.4GB 下载:(401124) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)
视频封面

视频名称:联想集团副总裁王会文:加速“数实融合”是平稳迈向碳中和的关键

大小: 4.6GB 下载:(725992) 语言: 中文字幕 最后更新: 2024年11月14日

下载视频 (注:防盗链已开启)

评论

打开APP查看56条评论

王建隆

9秒前

采用鹅厂TI平台,完全不用担心数据准备环节的难题。

姜汉娜

6分钟前

但实际上,每一步都有坑…

姬重耳

5天前

并且与鹅厂公有云基础设施(存/算/网/安能力)无缝衔接,开箱即用。

发表您的评论: