昆仑万维CEO方汉演讲实录:语言大模型的技术进展和应用前景
5月31日,由品玩主办的「模型思辨」国内大模型产业生态研讨会在北京举办。360集团创始人周鸿祎、百度、阿里巴巴、商汤科技、昆仑万维、Zilliz、瀚博半导体等来自大模型产业链上的头部互联网公司、芯片、数据库、应用项目、投资机构等100多位VP级的嘉宾参与此次研讨会,深度探讨中国大模型产业生态的建设。
会中,昆仑万维CEO方汉进行了主题分享《语言大模型的技术进展和应用前景》。他认为:要想AI市场天花板足够高,一定不是做针对B端或者针对C端的工具,而是做端到端的内容生成工具,更多用户能够直接创造内容,从而形成新的社区。只有端到端的内容生成工具催生的内容社区才是天花板比较高的发展方向,中国厂商在这方面是大有可为的。
以下是方汉演讲全文:昆仑万维是一家A股上市公司,目前在全球大概有4亿月活用户,海外收入占比78%,目前在七十多个国家和地区都有业务开展,二十个国家以上有自己的海外团队。
【资料图】
我们是从2020年底开始做大模型研发,并于今年4月发布「天工」大模型。应该说我们在预训练大模型赛道做得比较久,刚开始是比较机缘巧合进入这一赛道。我们是一家内容+社交的公司,因此对内容赛道的任何科技进展和第二曲线是非常敏感的。
记得在2020年6月GPT-3发布的时候,我是集团CTO,花了很多精力去研究,得出的认知是GPT-3是内容生成领域的里程碑。说一说我们对大模型生态的认知,大模型的出现会带来应用市场的重构。
首先,任何一个应用是否能够在线上完成闭环,一旦能够完成闭环的应用就一定是值得大模型重塑。现在所有的生产力工具仍然是PC电脑,完成闭环的工作都有哪些?首先是微软Office系列或者中国的WPS,这是在线上完成闭环工作的第一个分类,第二个分类是美术人员使用Adobe全家桶来进行美术工作,第三个分类是编程人员使用各种各样的编程工具在线上完成业务工作。可以看到大模型在文本生成图像、辅助写作、辅助编程方面极大的应用,这也印证了我们的观点,就是线上完成闭环的产品和应用都是值得用大模型重做的。
再来分析应用场景的容错率,对容错率容忍度越高的场景越是容易应用大模型,现在大模型对美术行业冲击是最大的,所有中国做电商的去做商品图片或者拍商品照片、拍模特照片都已经是被文本生成图像大模型所取代,我觉得这是非常自然的事情。大家都知道最早文本生成图像的图片都有一个缺点,就是手指头画不好,一个图片有六个手指头和五个手指头对我们有什么损害?大模型是可以容忍的,但如果是在金融方面少一两个小数点,其实可能就非常致命。整个内容行业大模型的应用一定是最快和最早的,因为大家对内容出错的容忍度是非常高的,这也是现在大模型各行各业的应用可以验证的。
我们现在的策略是对国内市场To B和To C并重,大模型在B端应用的经验是什么?大家都知道ChatGPT训练的时候百分之九十二的语料是英文,中文语料占比非常低。很多人说中文语料质量不高,但可以说中文有一项数据是领先英文的,就是中小学生的全科题库,大概一亿五千万道,高质量的大概两千万道,但没办法直接给大模型使用。因为我们所有的题都是以图片的格式,很少有文本描述,我们能用这些数据干什么?就是把所有题转化为纯文本描述的格式丢给大模型训练,然后大模型才能理解。我们近两年多时间的大模型研发,花了特别多的时间去做数据处理,怎样把行业数据生成大模型可以用的数据,其实这是最难的事情。
打个比方,大家平时去看中学或者小学的数学题,往往是有题目、有答案,但如果不写解题过程,大模型是没有办法解题的,只能背答案。很多行业数据只有题和答案,但缺少解题过程,要把解题过程补上就非常工程化,非常需要时间和经验积累。
全世界最大的金融信息服务提供商Bloomberg,发布了BloombergGPT产品,大家认为OpenAI能不能快速赶上?经过我和他们内部技术人员的沟通,应该还是很难的,他们内部有将近60名算法工程师花了七、八年时间只干一件事情,就是把金融财报数据化。大家可能觉得这是很简单的事情,因为有PDF,格式基本都是成立的,我们只是把图表和表格结构化,但这里有太多工程的技巧。每个材料表格都有行、列,每一列数据都是DAU、ROI,如何把不同来源的数据格式单位转成统一的单位,这些是非常工程化的事情。
在B端所有人都要干一个事,帮助各行各业生产或者转化大模型可以理解的数据格式。大家知道OpenAI在海外订阅制模式已经取得非常大的成功,但在中国对C端收费采用订阅制是不会成立的,一定是以免费模式为主。
海外所有AIGC创业的小公司基本都是想做SaaS和公开服务,中国私有化部署大模型将是一个更主要的趋势。现在我们有很多做硬件的厂商正在全力以赴去做NVIDIA的替代品,除了硬件厂商的努力以外,NVIDIA已经掌握了前所未有的高度,整个市值已经超过一万亿。大家只看到硬件厂商的努力,很多人没有看到由于现在硬件成本高昂,导致大学教授和博士手上没有卡就没有办法做科研,全部都在想方设法利用手上有限的消费显卡资源去做一些工作,主要工作就是优化。
最新的优化成果就是可以把65B的预训练大模型弄到只有24GB显存的4090去跑。软件优化速度是以每年一百倍的进化速度迭代,相信人人手机自带ChatGPT的时代一定会到来,人人消费级显卡可以跑类ChatGPT的大模型没有任何问题。大家可能不知道,ChatGPT-3.5的AI是不到30B的模型,微软为了优化,不断地降低模型参数,到现在个人判断已经不会超过10B。我们认为这种私有化部署会极大地刺激大模型在低端GPU的运行效率,因为在中国免费以及私有化部署都是非常值得关注的方向。
目前海外的策略主要是针对To C市场,因为昆仑万维出海经验比较丰富,曾经孵化的DAU在一千万以上的产品有四五个,覆盖社交、音乐、浏览器和工具场景,针对海外C端拓展经验非常丰富。现在我们的判断是,在C端做内容生成工具本身是没有太大商业前景的,一定要做端到端的内容生成社区才有前景。
全世界游戏研发公司百分之九十以上都是使用两家公司的产品:一家叫做Unreal,一家叫做Unity,但其实他们的游戏收入是非常低的。Unreal自己下场做《战争机器》系列也没有赚钱,后来做了一个产品叫做《绝地求生》,这个产品也成为Unreal的主力收入产品。当产品收入开始走下坡路,他们的CEO提到一个概念,叫做元宇宙。Unity的引擎部分也是不赚钱的,就做了Unity S广告联盟。
个人认为,要想AI市场天花板足够高,一定不是做针对B端或者针对C端的工具,而是做端到端的内容生成工具,更多用户能够直接创造内容,从而形成新的社区。我们认为只有端到端的内容生成工具催生的内容社区才是天花板比较高的发展方向,中国厂商在这方面是大有可为的。
“与志同道合的人创造出改变世界的产品”是我们公司的愿景,我从1995年开始做互联网,目睹了两次大的技术革命:一次是互联网,一次是移动互联网,等到快退休的时候又赶上AIGC这一波大的浪潮。个人认为,AIGC这一波浪潮是所有人的机会,同时对中国企业来说也是在全球市场上开疆拓土的一个非常好的机会。原因无它,如果说美国是全世界AIGC领域的老大,中国肯定是排在第二位的位置,其他国家距离前两位的差距都比较远,希望大家能够在AIGC领域取得自己的一席之地。
标签:

壮汉融合的文化遗产——陈氏滴水观音艾灸保健疗法
2022-06-20

夏季吃什么水果养阴生津?葡萄是个不错的选择
2022-06-20

凉茶≠凉的茶 喝凉了的凉茶真的健康吗?凉茶为什么不能凉着喝
2022-06-20

国家统计局:5月份一线城市二手住宅销售价格环比下降0.4%
2022-06-20

金科服务:拟收购佳源服务73.56%股权框架协议终止
2022-06-20

金茂物管4.5亿元收购首置物业服务公司100%股权
2022-06-20

旭辉控股回应大裁员:正考虑对造谣者采取必要措施
2022-06-20

山东深耕文化资源 推动旅游业高质量发展
2021-12-02

四川非遗传承人张雄志:巧手捏面塑 指尖传非遗
2021-12-02

10月以来我国寒潮为何如此频繁?中国气象局回应
2021-12-02
夏季吃什么水果养阴生津?葡萄是个不错的选择
凉茶≠凉的茶 喝凉了的凉茶真的健康吗?凉茶为什么不能凉着喝
国家统计局:5月份一线城市二手住宅销售价格环比下降0.4%
金科服务:拟收购佳源服务73.56%股权框架协议终止
金茂物管4.5亿元收购首置物业服务公司100%股权
旭辉控股回应大裁员:正考虑对造谣者采取必要措施
哈尔滨新增本土确诊病例3例 活动轨迹公布
哈尔滨市公布3例新增本土新冠肺炎确诊病例活动轨迹
山东深耕文化资源 推动旅游业高质量发展
今年新增952件(套)!南京大屠杀再添新证
四川非遗传承人张雄志:巧手捏面塑 指尖传非遗
10月以来我国寒潮为何如此频繁?中国气象局回应
56位残疾人士登上黄山 互利互勉共建生活希望
安徽潜山两车相撞 已致8人死亡3人受伤
上海洋山海关首次在出口货运渠道查获夹带卷烟
山西忻州古城:一城风华延续千年历史文脉
呼伦贝尔新巴尔虎右旗公布1例无症状感染者行动轨迹
西藏林芝:多彩民俗活动迎接工布新年
面对儿童不得不防的“杀手”,这把椅子很重要!
新增“53+1” 内蒙古累计本土确诊病例增至185例
昆明公安打击破坏生物多样性犯罪 抓获130名涉案嫌疑人
山西朔州“11·11”较大透水事故调查报告发布 对38人问责处理
“海关国门小卫士”竞争上岗 淘汰率接近一半
深圳摧毁特大品牌化妆品走私网
28人被问责!山西石港煤业“3·25”事故调查报告公布
湖南韶山以河长制带动全民治水 让每一处水面“长治久清”
民进会员谈反映社情民意信息工作:心怀大我 敢讲实情
80岁“留守”奶奶短视频诉孤独 千万网友心疼:我们陪您唠嗑
40年来为子弟兵送出1.3万余双布鞋和鞋垫的“布鞋奶奶”走了


- 当男幼师是什么体验?他们说:有委屈尴尬 但大部分是幸福
- 庐阳警方通报幼童坠亡事件:嫌疑人已被刑拘
- 内蒙古新增本土确诊病例53例、本土无症状感染者1例
- 哈尔滨市启动部分地区第一轮全员核酸检测
- 四川通江发生两车相撞事故 致3人死亡
- 11月谣言在“身边”,别信这些无稽之谈
- 追剧为何上瘾?你追的不是剧,而是及时满足的快感
- 对症下药“十年痼疾”,“茶博士”帮老茶园重焕生机
- 不会融化的“果冻冰块”研制成功 有望改变食物冷藏方式
- “逆行”考研=集体滑落?这结论该慎下
- 老鼠油治烫伤致孩子进ICU 害人偏方为何被奉为灵丹妙药
- 老人被野猪咬伤 打猎者赔了5万多
- 既促进生产又保护生态他用古代农耕智慧造福现代农业
- “布鞋奶奶”走了 曾亲自给部队子弟兵送鞋40年
- 试行“家长学校”“持证上岗”?可以引导但不宜“法外加槛”
- 成为“南京胖哥”后的日子:见义勇为被捅伤 他说不后悔
- “法不责众”不是健走团“占道”的护身符
- 北京五道口增设行人信号灯四面全绿时段
- 北京道路停车支持ETC无感支付
- 北京多措并举提高生物多样性 今冬将迎300万只候鸟
- 北京:建议研考考生考前14天在京备考
- 将“干部”当店名 这个口子不能开
- 北京市2022年民生实事邀市民投票
- 吸氢气就能抗癌又防衰?最新“科学”流言榜发布
- 北京:242辆京牌小客车参加司法处置
- 云南磨憨边检站中老边境缴毒逾4公斤
- 故宫博物院2022年年票紧急停售 恢复销售时间将另行公告
- 世界艾滋病日:关于艾滋病,我想和你聊聊
- 北京:保障在校体育锻炼1小时获较高认可
- 满洲里高风险地区增至6个 中国内地新冠疫苗接种超25亿剂次
- 内蒙古满洲里公布55例本土确诊病例行动轨迹
- 四川绵竹首次拍摄到野生大熊猫标记行为 划定领地或吸引异性
- 广州长隆举办“猿猴特展” 稀有“夜猴”首秀
- 满洲里对公路、铁路口岸所有环节和场地加强闭环管理
- 安徽合肥警方严打食药环知森领域违法犯罪 侦破重特大案件14起
- 北京海关今年已查获2700余批次涉嫌侵权商品
- 福建福州海警局利用无人机成功查获一起非法采矿案
- 陕西83所高校辅导员“比技能、拼实力” “以赛促学”提升专业素质
- 西安警方侦破特大制毒贩毒案 缴获成品半成品疑似毒品10余公斤
- 全球首次荒漠猫卫星颈圈跟踪研究取得新进展
- 内蒙古满洲里公布55名确诊病例详情:有26名学生
- 中国唯一艾滋病患儿学校成立十周年
- 昆明境外既往感染复阳病例关联人员两轮核酸检测均为阴性
- 重庆:非法捕捞工具集中销毁 营造良好禁捕氛围
- 中演协发声明辟谣网络不实言论 将依法维护权益
- 浙江:中老年群体艾滋病感染者占比有增加趋势
- 宁夏:保障三孩生育政策配套支持措施
- 青海茫崖森警大队救助濒危野生动物黑鸢
- 西宁市发放公交“蓝焰卡” 消防指战员可免费乘车
- 河北衡水中级以上职称医师下沉乡镇卫生院 实现优质人才全覆盖