以大模型为代表的生成式人工智能正在成为推动新一轮科技创新、产业升级、生产力跃迁的重要力量。本文通过研究大模型的技术特点和核心能力,分析国内外石油石化行业的探索实践,从行业勘探开发、炼油化工、产品销售、安全环保等业务环节对提质增效、转型发展的需求出发,提出了大模型在石油石化行业的应用场景,并对未来大模型在石油石化行业落地的发展趋势进行展望。
人工智能概念自1956年在达特茅斯会议被提出以来,逐步朝着更高的智能水平和适应性发展。2022年底,ChatGPT震撼上线,揭开了大模型时代的序幕。大模型是具有大量参数和复杂结构的人工智能模型,通常基于深度学习技术,能够处理大量数据并从中学习复杂的模式和关系,打开了迈向通用人工智能的序幕。
我国高度重视人工智能和大模型的发展。自二十大以来,各级政府发布多项大模型支持与监管政策,通过明确发展方向、强化基础资源,营造应用生态、加强规范和监督、强调伦理合规等措施,为国内大模型产业的发展提供支撑,推动大模型技术的创新应用。
各行业亦积极推动大模型融入数字化进程。互联网、游戏等数字原生行业数字化程度高,数据积累丰富,技术接受能力强,大模型应用实践相对丰富成熟。金融、广告等服务业对客户服务和数据处理存在强需求,较为适配大模型技术能力。而石油石化等能源行业受限于生产的复杂性和高度的专业化,大模型应用推进相对较慢。
根据Gartner发布的2024年人工智能成熟度曲线预测,大模型已度过夸大预期的顶峰,有望在未来2~5年内,对社会产生显著影响(见图1)。石油石化行业亟待紧抓窗口期,积极提升大模型应用深度和广度,助力企业优化配置、提质增效,辅助科研创新、提升客服质量、强化安全管控、重塑产业链,推动行业高质量发展。
大模型的技术概述与核心能力
1.大模型定义和特点
目前,业界对大模型尚未形成明确统一的定义。国家工信安全中心提出大模型是指人工智能预训练大模型,具有海量参数和复杂架构,用于深度学习任务的模型,拥有强大的处理能力和表征能力。中国信息通信研究院提出大模型即预训练的基础模型,在海量数据和计算资源的基础上预先训练出来的,具有大规模参数的深度学习模型。腾讯定义大模型狭义上可指代基于Transformer技术框架的大语言模型,广义上则包含了语言、声音、图像、视频等多模态大模型。OpenAI认为大模型是一种能够处理图像和文本输入,并生成文本的大规模多模态模型,主要应用于对话系统、文本摘要和机器翻译。
虽然业界尚未构建统一的标准来界定大模型,但是存在一些公认的判定指标,也是大模型相较于传统人工智能的显著特征,如参数规模大、通用性强、具备涌现能力。具体而言,大模型拥有至少亿级、甚至超过万亿级规模的参数量,且性能随着模型规模、数据集大小、训练所用计算量的指数增加而线性提高;大模型具有强于传统模型的通用任务求解能力,能够在广泛的任务类型上表现出良好的性能,不需要对每个新任务进行特别定制或重新训练;涌现能力是小模型中不存在但在大模型中出现的能力,当模型扩展到一定规模时,模型的特定任务性能突然出现显著跃升的趋势,远超过随机水平。
2.大模型的主要分类
根据训练数据的不同,大模型可以分为四类,分别为处理文本数据的语言大模型,处理图像、视频等数据的视觉大模型,处理文本、图像、音频等多模态数据的多模态大模型,以及融合数据建模和方程求解的科学计算大模型。
根据应用场景的不同,大模型可以分为通用大模型、行业大模型和领域大模型三类。通用大模型旨在提供广泛的知识和能力,不专注于任何特定的行业或任务,基于大规模多样化的数据集进行训练,可以应用于文本生成、语言理解、图像识别等通用的任务和领域。通用大模型以发展通识能力为主,在专业性方面不能充分满足行业的特定需求,存在“有幻觉、成本高”等情况,因此,构建行业大模型成为弥合技术与需求间差距的必然产物。行业大模型主要针对行业的特定需求,在行业特定的数据上进行微调,或外挂行业专业知识库,以理解行业的专业知识、减少幻觉,提供更加精准和高效的服务。领域大模型是根据业务场景特点对行业大模型的进一步细分,使用少量业务标注数据进行微调,或外挂业务领域的专业知识库,得到的面向特定应用场景的具体模型,并与传统人工智能模型(小模型)协同,提升解决具体问题的表现。
3.大模型的典型应用
随着文本、代码、图像、音视频等生成技术逐步完善提升,大模型在知识管理、内容生成、数据分析、任务调度等典型场景的应用日益深入成熟。
知识管理是运用大模型的摘要、规划等能力,基于检索增强生成技术,外挂知识库和知识图谱,让大模型基于知识库的知识对问题进行回答,大幅消除幻觉,提升企业员工知识获取和共享效率,辅助提升员工工作效率。许多行业在研发设计、生产制造、营销服务等多环节据此构建知识问答助手,用于查询规章制度、技术标准、设备手册、历史文档等知识,相当于智能化搜索引擎。
内容生成是运用大模型的生成能力,包括文本生成、图像生成及代码、表格等泛文本生成能力,自动化生成日常的各种专业化文档,提高员工工作效率。企业多用于 PLC(Programmable Logic Controller,可编程逻辑控制器)控制代码、应用开发文档、生产管理大屏、专业技术方案、检验报告、招投标文档等的生成。
数据分析是以自然语言方式进行运营数据查询,能够自动生成可视化报表并进行分析后给出决策参考,为管理和运营人员提供更高效的交互。企业可据此构建智能助理、运营助理、员工助理、数据分析建模助手等应用,通过自然语言交互查询数据,查找问题根因并快速做出决策,提高数据分析和决策改善的效率。
任务调度是利用大模型插件生态、大模型与小模型的结合、多模态大模型,发展Agent,即代理能力,使大模型与其他应用、现实世界的机器和设备等连通,在更广泛的范围协助进行任务调度和问题解决,涉及实时数据处理、自动化控制、环境感知和决策支持等方面。
大模型在石油石化行业的探索实践
1.行业领先企业积极布局大模型
沙特阿美整理了超过90年的历史数据,通过分析钻井计划、地质数据、历史钻井时间和成本,推荐最理想的油井方案,为成品油提供价格趋势、市场动态和地缘政治洞察力在内的预测。埃克森美孚采用设备手册、工单、设备的维护数据,以及公开的维基百科数据在内的语料库,并添加有关的物理和化学名词解释,提升专业任务的表现性能。壳牌利用生成式人工智能在保证质量的同时,使用比传统所需的少得多的地震镜头生成地下成像,提高作业效率和速度,提升勘探效率。
中国石油打造昆仑大模型,训练了地震解释、测井处理解释等八大模型,研发走滑断裂识别、火山岩识别等18个应用场景,搭建了智算算力环境。中国科学院大连物化所发布智能化工大模型,实现化工知识的快速检索及化工流程工艺的自主设计和优化,有望缩短化工工艺流程的研发周期。
2.石油石化行业大模型应用场景
石油化工行业勘探开发技术含量高,加工流程长,反应机理繁杂,新材料产品研发复杂,在基本的语言、视觉大模型之外,多模态大模型及科学计算大模型更能发挥技术主导应用,数据分析、任务调度等典型应用将为行业提质增效,实现高质量发展带来显著影响。
(1)原油开采
油藏勘测开发存在大量不确定性,利用大模型建立油藏地质模型,整合海量的地震解释和钻探资料,应用地质学和空间数学算法,建立高精度地质模型,定量描述储层参数;利用模型模拟地下流体的渗流过程,开展地下油藏构造、复杂储层、剩余储量量化分析,演绎开发过程,验证开发态势,模拟水驱、气驱等工业实践;利用油井运行参数、地层渗透率等物性参数变化训练大模型,辨别地下特殊工况,实现地下油藏精准分析和有效开采,提高油藏开采量及开采效率。
(2)原油输送
当前大部分炼化企业的原油进厂依靠船舶、管道,由于油种繁多、到港不确定性、码头罐存复杂性等因素,混油输送的特殊工况不可避免。因油品粘度、密度及输送压力造成湍流与平流并存的混油段无法精确计算,直接影响到原油加工方案的即时性调整。通过构建原油长输模型,辅以原油性质、输送参数、距离、界面剂检测、管网调度规则等,形成原油混油段计算大模型,尽量精准的计算混油段,并利用规则寻优,减少混油段的产生,降低对生产企业的原料切换扰动,提高原油利用效率。在原油混油段计算大模型的基础上,辅以管线参数、运行参数、油品性质、首末站及中间站空间、原油调和等参数,实现长输管线的运营调优,从全局上降低原油途耗和管输动力消耗。
(3)原油加工
如何精准地模拟原油组分性质以匹配最优的加工工艺,是石油加工的首要任务。传统的全流程分析、物性库模拟、光谱、质谱分析比对,在精准分析和及时性上存在一定制约,工艺调整存在滞后性。利用大模型,构建原油组成精准分析与模拟,结合现有的分析方法、分子组成数字模拟技术,一方面实现未知油种的精准分子表达,另一方面实现稠油段胶质、沥青质、杂原子化合物、高缩合烃类等未知组成部分及化学反应的模拟,提高原油组分级的表达,精准匹配加工参数和二次加工的适应性调整,达到“分子级”“宜烯则烯宜芳则芳”,最大限度地挖掘不同原油品质的效益。
未来新型的生物质转化燃油、废塑料化学再生技术中,针对复杂组分、多维多尺度化学反应表达,以及在细分科学领域的溢油表征鉴定中,大模型亦有较大的应用价值。
(4)工艺管理
工艺方面横向构建原油采购、存储、加工、公用工程、物流的全局供应链优化大模型,以期实现企业供应链过程效益最大化;纵向构建现场自控优化、工艺实时优化、调度决策优化、生产及检维修计划优化、经营决策优化的企业运营优化大模型,以期实现企业加工过程效益最大化。
(5)材料研发
石油石化行业存在大量的催化剂、新材料研发环节,科研人员的精力被反复的平行试验和分析识别所困扰,研发周期长,效率不高。结合热力学模型、动力学反应模型、电镜或谱图分析模型等,大模型可通过自动化分析和模拟预测来指导实验参数的选择和调整,缩短实验周期,降低平行试验量,提高检测和识别效率,最大限度地协助科研人员高效和有效的试验,缩短研发周期,提高研发效率。
(6)产品销售
产品销售环节贴近于市场,更多体现在供应和消费端大模型的应用。智能客服应用可基于通用大模型微调或外挂专业知识库形成,而智能决策、风控防诈、数字接待、智能售后、营销策略、客户画像、市场分析等应用,需要与生产企业工艺、质量、物流、仓储等综合建模,形成产品全生命周期管理模型。
(7)环保管理
环保方面构建视频识别与网格化泄漏检测相结合的VOCs排放识别大模型,弥补人眼不可识别无组织排放物的短板,降低企业无组织排放污染。构建综合原油及中间品产成品分析、工艺技术、运行设备、监测技术的一体化大模型,并结合工程改造,实现源头减排,促进环保排放的溯源管理。
(8)安全管理
安全方面利用安全评估方法、视频和人员行为、工艺设备参数等数据,构建安全识别大模型,实现基于评估体系的安全预警预测,防患于未然,降低企业安全风险。应急管理中整合应急预案、视频、预站位、工艺、物料、设备、储运、地理、管网等多元素多形态数据,由大模型生成实时的应急处置、消防站位、上下游联动、疏散及联防救援等方案,确保应急救援安全、有序、准确,最大限度降低事故影响,避免次生事故。
(9)能源与公用工程
节能方面,以能量源、能源消耗、换热网络、能量等级、热源与冷源输送等全局视角,构建企业多等级热网大模型,实现能量的综合和有效利用,降低能源成本。碳排放方面建设企业碳排放核算模型,与生产工艺参数,温室气体排放源参数结合,动态识别企业碳排放强度和碳足迹,并与碳交易体系一同建模,实现企业碳资源说得清、降得下。
(10)设备管理
在专业管理的基础上,一方面结合工艺及成本、设备现场工况及视频、润滑油质及水冷运行等,以企业安全第一,效益最大化为目标,构建一个全局视角的设备维修大模型,综合评估设备故障带来的事故风险、非计划停工、检维修的产量损失及检维修费用;另一方面结合现有的健康性管理,针对同行业,不同企业,相同工艺的同类设备,结合相关工艺参数及辅助设施参数,利用大模型评估设备健康。
3.大模型在石油石化行业落地的挑战
大模型具备算力、算法、数据三个核心要素,三要素共同驱动大模型性能提升与应用深化。在行业落地应用大模型过程中,面临算力资源、数据质量与安全、可靠性和实时性、人才培养等方面的挑战。
(1)算力资源缺口较大
行业大模型的参数规模一般为十亿至百亿级别,虽然已远低于通用大模型,但考虑模型的复杂度、请求的并发数以及响应时间等因素,大模型对计算和存储资源提出较高要求,支持大模型的微调和推理应用门槛较高。
(2)数据质量和安全要求高
行业场景和数据关联度复杂,数据结构多样质量参差不齐;运营关键信息敏感性高,数据泄露经济损失风险较大;行业数据标准等尚未完全规范统一,数据共享过程中存在困难。
(3)可靠性和实时性不足
生产环境工艺复杂、操控精度高、安全标准严苛,大模型由于幻觉问题,结果缺乏可解释性,在一些场景应用的准确率较低,无法完全代替业务专家做出决策。同时,企业很多生产场景需要模型能够在毫秒级甚至微秒级的时间内做出响应,对计算资源要求极高。
(4)高端复合人才短缺
大模型落地需与企业的业务流程、运营模式和实际需求相匹配,企业缺少既懂机器学习、数据科学、软件工程等领域知识、能够优化大模型算法架构,又能理解石油石化行业业务应用场景的复合型人才。
石油石化行业大模型发展展望
大模型作为当前人工智能领域的重要技术,在创造新价值、适应新产业、重塑新动能等方面发挥着越来越重要的作用,分层次分梯度深化应用、与可信数据空间协同、行业内联合创新、注重版权安全及生态打造成为未来大模型在石油石化行业落地的发展趋势。
(1)大模型的建设应分层次分梯度开展
石油石化行业大模型是在通用大模型的基础上,利用行业数据和专家经验微调形成,而用于解决具体业务场景问题的领域大模型则是基于行业大模型进行微调。从难易程度及应用角度来看,大模型在行业的落地应用需注重与行业相关机理模型的融合和互促,探索以逐渐丰富的领域大模型来推动行业大模型深入建设。
(2)大模型的建设要结合数据可信开展
鉴于行业大模型的特点,无论是数据还是算法,都应广泛来自于行业,而不限于某个企业,因此,石油石化行业大模型的建设需同步考虑行业可信数据空间的构建,在保障数据安全的前提下打破企业之间的算法和数据壁垒,促进行业内企业的算法和数据安全、可靠和高效利用,实现可信任数据地共享应用,体现数据资源价值。
(3)大模型的建设需要行业内联合创新
石油石化行业大模型建设是一项复杂的系统性工程,训练难度高、时间长,数据需求量大、采集成本高、模态多,需要强大的算力以及优化算法。因此,中国石化、中国石油、中国海油乃至大型石油化工民企和地方企业需联合创新,统筹顶层设计,一同参与到石油石化行业大模型建设中来,行业内横向拉通,充分安全地共享算法模型与高质量数据集,体现出全貌价值。
(4)大模型建设要考虑版权安全及生态
当前的通用大模型一般由大型IT公司和具备优势的创业公司研发,无论是开源还是闭源,都有很多限制性问题,因此,石油石化行业大模型需关注版权和信息安全问题。要清醒理性认识到行业大模型这个复杂的工程,需要IT企业、高等院校、研究机构、相关人才组成一个自主可控的良好的生态来一同推进。