世界快消息!谈谈GPT 模型背后以数据为中心的 AI
人工智能 (AI) 在改变我们生活、工作和与技术互动的方式方面取得了巨大的进步。最近,取得重大进展的领域是大型语言模型 (LLM) 的开发,例如GPT-3、ChatGPT和GPT-4。这些模型能够准确的执行语言翻译、文本摘要和问答等任务。
虽然很难忽视 LLM 不断增加的模型规模,但同样重要的是要认识到,他们的成功很大程度上归功于用于训练他们的大量高质量数据。
在本文中,我们将从以数据为中心的 AI 角度概述 LLM 的最新进展。我们将通过以数据为中心的 AI 视角研究 GPT 模型,这是数据科学界中一个不断发展的概念。我们通过讨论三个以数据为中心的 AI 目标:训练数据开发、推理数据开发和数据维护,来揭示 GPT 模型背后以数据为中心的 AI 概念。
(资料图片仅供参考)
LLM 是一种自然语言处理模型,经过训练可以在上下文中推断单词。例如,LLM 最基本的功能是在给定上下文的情况下预测缺失的标记。为此,LLM 接受了训练,可以从海量数据中预测每个候选单词的概率。下图是在上下文中使用 LLM 预测丢失标记的概率的说明性示例。
GPT模型是指OpenAI创建的一系列LLM,如GPT-1、GPT-2、GPT-3、InstructGPT、ChatGPT/GPT-4等。与其他 LLM 一样,GPT 模型的架构主要基于Transformers,它使用文本和位置嵌入作为输入,并使用注意力层来模拟令牌的关系。
GPT-1 模型架构
后来的 GPT 模型使用与 GPT-1 类似的架构,除了使用更多模型参数和更多层、更大的上下文长度、隐藏层大小等。
什么是以数据为中心的人工智能以数据为中心的 AI是一种新兴的思考如何构建 AI 系统的新方法。以数据为中心的人工智能是系统地设计用于构建人工智能系统的数据的学科。
过去,我们主要专注于在数据基本不变的情况下创建更好的模型(以模型为中心的 AI)。然而,这种方法在现实世界中可能会导致问题,因为它没有考虑数据中可能出现的不同问题,例如标签不准确、重复和偏差。因此,“过度拟合”数据集不一定会导致更好的模型行为。
相比之下,以数据为中心的人工智能专注于提高用于构建人工智能系统的数据的质量和数量。这意味着注意力在数据本身,模型相对更固定。使用以数据为中心的方法开发人工智能系统在现实场景中具有更大的潜力,因为用于训练的数据最终决定了模型的最大能力。
需要注意的是,“以数据为中心”与“数据驱动”有着根本的区别,后者只强调用数据来指导人工智能的发展,通常仍以开发模型而不是数据为中心。
以数据为中心的人工智能与以模型为中心的人工智能之间的比较
以数据为中心的 AI 框架包含三个目标:
训练数据开发就是收集和生产丰富、高质量的数据,以支持机器学习模型的训练。推理数据开发是为了创建新的评估集,这些评估集可以提供对模型的更细粒度的洞察力,或者通过数据输入触发模型的特定功能。数据维护是为了在动态环境下保证数据的质量和可靠性。数据维护至关重要,因为现实世界中的数据不是一次性创建的,而是需要持续维护。以数据为中心的 AI 框架
为什么以数据为中心的 AI 使 GPT 模型成功几个月前,Yann LeCun 在推特上表示 ChatGPT 并不是什么新鲜事。事实上,ChatGPT 和 GPT-4 中使用的所有技术(变压器、从人类反馈中强化学习等)一点都不新鲜。然而,他们确实取得了以前模型无法实现的结果。那么,他们成功的原因什么?
训练数据开发。通过更好的数据收集、数据标记和数据准备策略,用于训练 GPT 模型的数据的数量和质量有了显着提高。
GPT-1:BooksCorpus 数据集用于训练。该数据集包含4629.00 MB 的原始文本,涵盖各种类型的书籍,例如冒险、幻想和浪漫。-以数据为中心的 AI 策略:无。-结果:在该数据集上使用 GPT-1 可以通过微调提高下游任务的性能。GPT-2:训练中使用WebText 。这是 OpenAI 中的一个内部数据集,通过从 Reddit 抓取出站链接创建。-以数据为中心的 AI 策略:(1) 仅使用来自 Reddit 的出站链接来整理/过滤数据,该链接至少获得 3 个业力。(2) 使用工具Dragnet和Newspaper来提取干净的内容。(3) 采用去重和其他一些基于启发式的清洗。-结果:过滤后得到 40 GB 的文本。GPT-2 无需微调即可获得强大的零样本结果。GPT-3:GPT-3的训练主要基于Common Crawl。-以数据为中心的 AI 策略:(1) 训练分类器根据每个文档与WebText(高质量文档)的相似性过滤掉低质量文档。(2)利用Spark的MinHashLSH对文档进行模糊去重。(3) 使用WebText、图书语料库和维基百科扩充数据。- 结果:45TB的明文过滤后得到570GB的文本(本次质量过滤只选择了1.27%的数据)。GPT-3 在零样本设置中明显优于 GPT-2。InstructGPT:让人类评估调整GPT-3 的答案,使其更好地符合人类的期望。他们为标注者设计了测试,只有通过测试的人才有资格标注。他们甚至设计了一项调查,以确保注释者全心投入到注释过程中。-以数据为中心的 AI 策略:(1)使用人类提供的提示答案通过监督训练调整模型。(2)收集比较数据以训练奖励模型,然后使用此奖励模型通过人类反馈强化学习(RLHF)调整GPT-3。- 结果:InstructGPT 表现出更好的真实性和更少的偏差,即更好的对齐。ChatGPT/GPT-4:OpenAI 没有透露细节。但众所周知,ChatGPT/GPT-4 很大程度上沿用了之前 GPT 模型的设计,他们仍然使用 RLHF 来调整模型(可能有更多和更高质量的数据/标签)。人们普遍认为,随着模型权重的增加,GPT-4 使用了更大的数据集。推理数据开发。由于最近的 GPT 模型已经足够强大,我们可以通过在模型固定的情况下调整提示或调整推理数据来实现各种目标。例如,我们可以通过提供要总结的文本以及诸如“总结它”或“TL;DR”之类的指令来引导推理过程,从而进行文本摘要。
及时调整设计正确的推理提示是一项具有挑战性的任务。它严重依赖启发式方法。一个很好的调查总结了不同的促销方法。有时,即使是语义相似的提示也会有非常不同的输出。在这种情况下,可能需要基于软提示的校准来减少方差。
LLM推理数据开发的研究仍处于早期阶段。在不久的将来,可以在 LLM 中应用更多已用于其他任务的推理数据开发技术。
数据维护。ChatGPT/GPT-4作为商业产品,不仅训练一次,而且不断更新和维护。显然,我们无法知道在 OpenAI 之外如何进行数据维护。因此,我们讨论了一些通用的以数据为中心的 AI 策略,这些策略已经或将很可能用于 GPT 模型:- 连续数据收集:当我们使用 ChatGPT/GPT-4 时,我们的提示/反馈可能反过来被 OpenAI 使用进一步推进他们的模型。可能已经设计并实施了质量指标和保证策略,以在此过程中收集高质量数据。- 数据理解工具:可以开发各种工具来可视化和理解用户数据,促进更好地了解用户需求并指导未来改进的方向。- 高效的数据处理:随着ChatGPT/GPT-4用户数量的快速增长,需要一个高效的数据管理系统来实现快速的数据采集。
上图是ChatGPT/GPT-4 通过“赞”和“不赞”收集用户反馈的示例。
数据科学界可以从这波 LLM 浪潮中学到什么LLM的成功彻底改变了人工智能。展望未来,LLM可以进一步彻底改变数据科学生命周期。我们做出两个预测:
以数据为中心的人工智能变得更加重要。经过多年研究,模型设计已经非常成熟,尤其是在Transformer之后。数据成为未来改进 AI 系统的关键方式。另外,当模型变得足够强大时,我们就不需要在日常工作中训练模型了。相反,我们只需要设计适当的推理数据来从模型中探索知识。因此,以数据为中心的人工智能的研发将推动未来的进步。LLM将实现更好的以数据为中心的人工智能解决方案许多繁琐的数据科学工作可以在LLM的帮助下更有效地进行。例如,ChaGPT/GPT-4 已经可以编写可工作的代码来处理和清洗数据。此外,LLM 甚至可以用于创建训练数据。例如使用 LLM 生成合成数据可以提高文本挖掘中的模型性能。
标签:
推荐
- 世界快消息!谈谈GPT 模型背后以数据为中心的 AI
- 新资讯:漱玉平民:拟收购控股济南平嘉及辽宁天士力
- 前有零跑T03/后有比亚迪海鸥 五菱缤果前景如何?
- 金针菇炒肉
- 潮人最爱的九分裤,怎样穿最好看
- 每日热点:servo是什么意思中文翻译_servo是什么意思
- 身残志坚励志视频_身残志坚 最新消息
- 环球最资讯丨一文看懂2023款坦克500:软件策略优化,四处硬件升级,价格不变
- 民政部:面向困难群众的惠民殡葬政策全面建立|全球时快讯
- 3月31日猪肉概念板块涨幅达3%
- 全球今亮点!我区拓渠道促匹配助重点群体就业
- 多地种植牙医疗服务降价|当前关注
- Robbins将在FII Institute峰会做闭幕发言
- 落花人独立微雨燕双飞怎么对_落花人独立微雨燕双
- 网红陈三废25岁妻子怀四胎,婆婆承诺生儿奖50W,被疑18岁就生娃
- 江苏成全国首个个体工商户在册总量破千万省份
- 3月30日晚间公告集锦:新希望大幅下修业绩预告 2022年预亏13.5亿至15.5亿元-消息
- 青龙管业2022年实现营收净利双增 上市12年连续分红回报投资者
- 三顾茅庐时间 三顾茅庐时间地点-世界快消息
- 全球视点!上实控股2022年股东应占溢利23.14亿港元 房地产业务盈利3亿港元
- 最新:奇富科技出席中国互金协会专委会研讨 坚持科技驱动理性消费决策
- 天天最资讯丨初步数据显示西班牙3月通货膨胀率为3.3%
- 环球关注:马斯克为什么呼吁暂停AI训练?看下ChatGPT的回答吧
- 日本角川出版公司奥运项目负责人承认向东京奥组委官员行贿 天天滚动
- 今日要闻!Google 结合 AI 和航拍图像在搜索中推出新的极端高温警报
- 云梦曾店镇:便民服务暖人心 志愿者助力电子医保卡激活
- 别克gl8外观硬朗大气,十分符合国人的审美
- 专家提醒:千万不要侧躺玩手机 科普标准姿势 天天信息
- 环球观速讯丨武昌区白沙洲街道:优化“两新”群体服务 共同缔造美好“新”家
- 天天热讯:连媒:昆山俱乐部不存在历史债务,只是在未来发展上存在巨大分歧
- 一个月赚走16000亿?美瑞银行“暴雷”,华人富豪真的慌了?
- 杀必死图集_杀必死什么意思
- 文家庄村_关于文家庄村简介
- 踊跃的近义词有哪些(踊跃的近义词)
- 动态:Lucid(LCID.US)拟裁员18% 大摩赞许降本计划
- 美国又反对俄乌停火,德国对乌军援引发俄担忧,克宫:不是好兆头
- 艾叶粑粑怎么做出来颜色绿_艾叶粑粑怎么做-天天热资讯
- 当前资讯!四害是哪四害天官赐福_四害是哪四害
- [快讯]瀛通通讯:关于实际控制人的一致行动人股份减持计划期限届满暨实施情况
- 新航成都天府国际机场至新加坡客运航线顺利首航
- 市值跌去4000亿,长城如何“守城”?
- 兰西县气象台发布大风蓝色预警【IV级/一般】【2023-03-29】
- 即时:红楼梦中,贾府为什么会得罪皇帝?
- 中国驾驶证能在哪几个国家使用看完才知道,这几千块花得值了
- 上海证大早盘股价涨近10%,2022年营业额下跌约46.5%_环球速讯
- 分居2年起诉离婚多久能判-每日讯息
- 2023四川九市二诊英语试卷及答案汇总_更新中
- 中物联:1-2月社会物流总额53.5万亿元,同比增长2.9%
- 图灵奖巨佬解惑,为什么把 0 作为第一个元素下标,而不是直观的 1?|环球快消息
- 世界时讯:航发控制(000738):第九届第七次监事会会议决议,审议关于2022年度监事会工作报告的议案等议案
- 清空历史记录全部删除(清空历史记录)
- 全球短讯!罕见喊话旧爱林志玲!言承旭感情现况曝光,网友惊老婆是谁
- 工信部节能与综合利用司开展工业领域氢能应用专题调研 全球简讯
- 家里跳虫如何产生的 家里跳虫怎么产生的 环球热资讯
- 两耳不闻窗外事的人_两耳不闻窗外事_环球热闻
- 快讯2023-03-28 18:08:59
- 扬杰科技:IGBT等产品线大幅增长,2022年年归母净利润同比增38.17%至10.61亿元 环球实时
- 山东海阳核电站地址查询_山东海阳核电站地址
- 每日报道:柳叶冬青_关于柳叶冬青简述
- 【全球时快讯】淄博师范高等专科学校召开高质量发展学科专业组对话会
- 每日聚焦:姆队上线!姆巴佩在下半场开始前“悉心指导”卡马文加
- 外媒:马斯克的脑机接口公司正寻找人体试验合作伙伴
- 速讯:不吃早餐的危害有哪些?_不吃早餐的危害有哪些
- V观财报|暴涨65%!“当红炸子鸡”同花顺股东拟集体减持,或套现超88亿 焦点热门
- 野木瓜片的功效与作用_野木瓜
- 如何提取图片上的印章_怎么提取图片中的印章
- 环球头条:叶辰萧初然最新更新章_叶辰萧初然刚刚更新最新2173章
- 《咸鱼之王》珍珠兑换攻略-每日速读
- 天天讯息:巴黎德转身价:姆巴佩1.8亿欧最高,内马尔&梅西身价均下降
- 研究发现水稻抗稻瘟病新分子模块
- 国内黄金价格今天多少一克(2023年3月27日)
- 越智月光的实力 越智月光|焦点热文
- 世界热门:政和县举办第五届政和白茶开茶节
- 世界通讯!美的置业2022年核心净利润38.7亿元 同比下降29%
- 当一艘船沉入海底是什么歌_当一艘船沉入海底是《后会无期》里面的歌词吗
- 环球消息!一年租金只要3000元,人才公寓开启“白菜价”模式
- 沃格光电:创东方富凯及创东方富本拟合计减持不超2.16%股份
- 关注:工信部:1—2月份我国软件业务收入14461亿元,同比增长11%
- 环球观焦点:三国吴国怎么灭亡的(三国吴国)
- 炫富孙女哭得再惨也洗脱不了贪腐疑云,究竟是怎么一回事?
- win7放大镜怎么取消_win7放大镜
- dnf熟练度怎么提升的_dnf熟练度怎么提升|环球播报
- 亿帆医药:盐酸去氧肾上腺素注射液获批上市
- 农商银行A股首份年报发布 常熟银行2022年度营收、净利双增-环球速递
- 怎么在微信上发状态 全球观速讯
- 环球时讯:正数人七十倒数十七人不管怎么数都是中国人打一字_正数
- 清明节将至 多样祭祀方式让思念有“形”更有“情”
- 入住爱心病房 开启“修心”治疗
- 送男友实用礼物排行榜|每日消息
- 全球微动态丨世界即时:惠州惠东旅游景点_惠东旅游景点
- 天天看热讯:助企业拓宽资源对接渠道 5G+工业互联网论坛举行
- 乐昌市属于哪个省(乐昌市属于哪个省) 今日最新
- 世界要闻:希腊旅游攻略,
- 天天动态:柚子皮怎么熬水喝?
- 徐静蕾直发_徐静蕾晒光头造型
- 林妈妈买扫帚庆祝小两口十周年,林志颖一脸抗拒,结果出人意料|每日速看
- 焦点速看:天壕环境与中国油气控股签署重组意向条款清单
- 梁思成于林徽因有几个孩子
- 环球快资讯丨欧莱雅中国第二家自建智能运营中心落户崇川 拟于2024年破土动工
- 环球滚动:月掩金星
X 关闭
行业规章
X 关闭