摘 要:人工智能技术在测井解释中的应用由来已久,但单方法应用研究多,系统集成应用少。当今云计算、大数据和人工智能技术的规模应用,再次推动了测井解释智能化发展。以多学科数据融合的数据湖为基础,在专业软件的基础上进行智能解释模块开发,将测井智能解释引入到传统的解释流程中,辅助测井分析人员快速挖掘隐藏的高价值信息。利用大数据治理工具将数据湖连接到智能模型,实现大数据与智能算法融合。通过系统开发实现基于大数据的智能解释模型和传统专业软件的集成,搭建基于地质图件导航的测井智能解释环境,形成地质、油藏背景下的智能化测井解释工作模式,增强测井评价复杂储层的能力,提高工作效率。
关键词:大数据;智能算法;测井解释;智能解释环境
0引言
人工智能技术作为第四次工业革命的重要推动力,是大数据、算法和算力的重要结合,给各行各业带来了革命性的变革,也为测井技术的发展提供了强大的技术支持。测井技术的应用深度与广度主要取决于资料解释的信息丰度,其中的重要环节依赖于解释方法与软件的开发[1-3]。目前,国内外测井解释软件功能齐全、种类繁多,促进了解释技术进步,提高了测井解释水平,解决了一批测井解释评价的难题。但是随着勘探开发目标的日益复杂化和隐蔽化,现有的解释方法和软件难以准确描述储层的复杂状态[4]。测井对储层的非线性响应,导致处理解释质量不高,要准确研究非均匀地层测井信息所蕴含的地质信息,需要研发新的测井解释方法[5]。人工智能作为一种改进计算机求解问题的方法[1],可以弥补传统解释方法的不足,使测井分析人员摆脱大量低知识层次的分析工作。将人工的知识和经验系统化、条理化形成“智能助手”,帮助测井分析人员解决更深层次的地质问题。
为此,国内外进行了大量的实践。斯伦贝谢公司推出的DELFI勘探开发认知环境,将复杂的数值模拟、数据分析等变得智能和快捷。国内也在积极探索适合中国特色的测井智能化解释道路,这给传统测井解释技术发展带来了新动能和良好的发展前景[6-8]。20世纪,中国测井科技工作者在人工智能单方法应用和专家系统开发等方面都取得了重要的研究成果[9-22]。然而,这些成果并没有及时地转化为生产力。究其原因是缺乏两个关键环节,一是缺少足量的专业大数据作为智能计算的基础;二是缺少符合测井智能解释业务的集成应用环境。
前人取得的研究成果为测井智能解释系统的开发和应用奠定了基础。按照测井解释软件走集成化道路[3]的思路,长庆油田通过系统开发和应用环境搭建,实现了大数据、人工智能和测井解释软件的集成应用。将“数据”“算法”“场景”3个关键要素有机结合,形成了基于大数据的测井智能解释环境,提高了测井参数计算精度和流体识别准确率,提升了测井分析效率,促进了测井解释由单井解释向多井评价、油藏分析转变。
1总体思路和系统架构
1.1总体思路
测井解释软件是测井资料处理与解释的重要工具和载体,是运用各种现代技术综合解决地质问题的重要手段,是测井解释技术能力的综合体现,也是衡量测井技术水平的一个重要指标[8]。斯伦贝谢公司在Techlog解释软件中开发了主成分分析、回归、聚类、决策树、神经网络等智能功能模块。这些模型的训练样本主要是软件的工区数据,一方面数据量不足,另一方面针对算法的数据预处理较少,导致应用受限。DELFI系统建立了跨专业协同工作环境,采用开放式的软件开发模式,通过Studio集中管理Techlog与Petrel、ECLIPS等地质、油藏软件的数据,实现了地质、工程业务智能化与协同化。然而,涉及国家地质数据的安全问题,中国不能像引进专业软件一样引进DELFI系统,只能走自主研发的道路。
长庆油田经过10余年的数字化油田建设,建成了数字化油气藏研究系统(RDMS)[6],盘活了15万余口井的地质、钻井、测井、录井、分析化验、试油(气)等多学科数据。RDMS实现了专业数据自由推送、实时关联、在线可视等基础功能;开发的基于地质图件的数据导航系统(CQGIS)实现了多学科数据自动收集、整理,以及软件的无缝衔接[23-25],这些建设成果逐渐成为大数据技术应用的基础。针对测井软件开发的数据接口打通了数据湖的通道,通过以专业软件为基础开发大数据治理工具,实现样本数据快速提取[26-30]。在专业软件中开发智能解释模块,将智能应用引入到传统测井解释流程中,实现专业软件、智能应用和数据湖的耦合集成。在RDMS、CQGIS和解释软件之间,搭建起以地质、油藏为约束的测井智能化解释评价环境。
1.2系统架构
系统自下而上由数据层、功能层和应用层组成,从功能上分为样本数据治理、数据综合分析、模型训练与优选、模型评估与管理,应用上分为建模应用和极简应用(如图1)。在数据层开发数据解编模块处理测井数据体,实现测井数据与试油、岩心分析、录井等资料的数据模型和数据结构统一。数据治理工具在深度域上进行数据治理,完成连续数据和离散数据的匹配。解释人员通过专业软件选择储层特征数据,并依据试油结论给特征数据打上标签,将这些数据按层位存入样本数据库。进入样本库的数据可直接用于模型训练与优化,形成用于测井参数计算和流体识别的智能模型,通过模型优选,组合成针对性推荐智能模型组,供用户调用。
系统应用分为极简应用和建模应用两种模式。极简应用模式面向普通用户,普通用户不用关心模型训练和参数优化等工作,根据系统推荐的最优模型组合,开展单井或多井的专业解释工作,在智能系统的辅助下专注于参数计算、流体识别及产能预测工作。建模应用模式面向专家用户,主要负责特征优选、模型构建、参数优化、模型评估工作,是系统正常运行的基础。
在此系统架构下,智能系统运行的业务流程大致分为:①依托RDMS数据流进行样本数据治理,建设机器学习样本库;②根据智能算法特点,通过数据综合分析工具在样本库中进行特征优选,并进行预处理,形成模型训练的特征矩阵;③通过超参数设置构建模型,并进行模型迭代训练,优化参数,对模型进行评估;④组合单一功能的智能模型,形成智能模型组;⑤用户通过极简应用模式调用智能模型组进行测井解释评价。其中①~④在建模应用模式下进行,⑤在极简应用模式下进行。
2测井大数据治理
在专业解释软件的基础上开发大数据治理工具,实时绘制测井专业图件,对多专业数据进行快速集成和直观展示,对数据进行补全、融合、抽取等治理。让专家用户专注于储层特征的分析、选取和打标签工作。
通过开发数据接口,在数据湖中自动收集井基本信息(如坐标、钻井液、钻头等信息)、地质分层、试油、录井、分析物性等数据,并自动转换为数据治理工具的数据格式,批量推送到治理工具;专业软件调用测井绘图模板直接成图,并可以自由补充其他数据,完成特征匹配和数据检查后,选择储层特征值,打上相应标签(如油层、油水同层、差油层、含油水层、干层、泥岩、砂岩、煤、隔夹层等)。最后,一键式自动提取目标井基本信息、单点数据、特征值、试油数据、岩心分析数据等,并批量提交入库。以上过程构成了测井大数据治理流程(如图2)。
选取样本数据应当遵循以下原则:①尽可能选择具有单层试油数据的储层提取样本数据;②以一个压裂试油单元为最小单位选取特征值,一个单元可以包含若干特征值,每个特征值的标签可以不同;③以储量计算标准为依据确定标签属性,尤其要仔细鉴定油水同层和含油水层;④在一个试油单元中尽可能多地选取不同标签的数据,除了选取有效储层外,还应附带上下盖层及隔夹层的数据;⑤样本库数据要尽量保证各标签样本数据相对平衡。
相关知识推荐:中石油职称评定论文发表技巧
按照地质分层,样本库进行分层管理数据,利用“分区分层,分而治之”的数据治理策略,逐步建立盆地级的机器学习样本库。数据治理和样本库建设是一个长期的过程,贯穿于智能系统应用的整个生命周期。后期或可采取以智能促智能的思路加快样本数据库建设。
3智能模型训练和管理
经过长期的研究和实践,前人[9-22]将有监督学习、无监督学习、强化学习等算法纷纷引入到测井解释中,形成了各具特色的应用技术。由于样本数据量较少,数据缺乏精细的预处理,导致模型泛化能力较低,距工业化应用存在一定距离。本次系统开发将这些成果进行了优化集成,开发了“模型参数自动寻优”“模型组合优化推荐”“专业图件在线绘制”“应用效果实时展示”等功能模块,实现了智能算法集成应用。
3.1智能模型训练
结合测井解释业务特点,对支持向量机、K-近邻、神经网络等算法进行优化,使智能算法与传统解释理念融合。通过集成TensorFlow深度神经网络算法[31-32],保证系统功能可扩展。以上算法的核心原理及训练方法成熟可靠,在系统开发过程中主要在数据预处理和模型自动训练方面做了大量工作,下面以支持向量机识别复杂油水层为例进行简要介绍。
3.1.1智能算法与测井解释方法的结合
研究认为,支持向量机分类算法思想与测井常规油水识别图版基本思想是一致的,目标是寻找不同类别数据的边界。支持向量机学习不同类别数据之间的决定边界,通常只有位于边界的部分数据点起到重要作用,这些点被称为“支持向量”(图3a)[33]。在传统的交会图解释方法中,利用声波时差与电阻率交会图(图3b)确定油层类的电性下限值,然后把各下限值用直线连接起来作为油水界限(图3b)。二者的基本思想都是通过统计分析,确定出一个合理的决策边界[34],用于数据分类。
在复杂储层的测井解释中,常规油水识别图版适应性较差,在图版上表现为油水界限不清晰,如图3b蓝圈数据点所示。油层类和水层类混杂在一起,常规解释方法无法确定有效的油水界限,导致图版解释符合率较低,主要原因是常规二维交会图仅使用了电阻率和声波时差两个测井信息,未使用其他测井资料信息。为了充分挖掘这些信息,测井分析家通过近似条件假设和严格的数学模型推导[1],构建储层敏感参数,制作各种解释图。通过这种类似降维的方法,将更多的测井信息引入到二维图中,但仍然没有使用全部测井信息。
在二维图中增加一个维度的测井信息,带来的相关信息量成倍增加,通常表示为三维流体识别图(图4a),这种交会图在实际使用时非常不方便。即使在单个二维交会图中的油水界限都很不规则(图4b中黑色曲线),如果再增加图4c、图4d所示的两个交会图的不规则油水边界,油水决策边界将变为三维空间的一个超平面。这个超平面无法直观展示,应用难度大。支持向量机利用核函数可以将多维数据映射到非线性的高维空间,通过超参数控制决策超平面的复杂程度[33],可以准确逼近这个超平面。支持向量机利用灵活的决策边界寻优技术,在非线性高维空间中开展测井解释,这给正确识别非常规复杂储层流体性质提供了有效的解决方案。
3.1.2样本数据预处理
目前,大多数机器学习模型都采用梯度下降算法进行模型训练,其中心思想是迭代调整参数使成本函数最小化[34],当成本函数达到全局最小,得到的参数组合就是最佳拟合参数;否则,模型要么过拟合,要么欠拟合,泛化应用效果均不会太好。大多数机器学习算法对数据尺度非常敏感,当输入模型的多维数据尺度差异很大时,会使梯度下降算法寻找成本函数的全局最小值变得异常困难。
用支持向量机进行分类时,支持向量对决策边界起到了决定性作用。如图5a,因为密度与电阻率数据数值差异较大,支持向量之间的“距离”小,分类效果非常差;经过预处理后二者尺度变得接近(图5b),分类效果明显改善。支持向量之间的“距离”被放大,决策边界更容易求取[33]。
众所周知,各测井曲线之间数据尺度差异大,数据分布形式也有较大不同。如图6中声波时差和自然伽马曲线数据尺度和分布形态都比较相近,类似于正态分布特征;而电阻率和密度曲线不但数据尺度相差大,分布形态也不相同。数据的这些特征都会影响最优决策边界的计算。依据机器学习特征工程要求,结合测井数据特点,对电阻率曲线进行对数变换后,与其他曲线同时采用Z分数标准化方法[33][公式(1)]进行预处理,使数据尺度和分布形态一致(如图7所示),这对于大多数机器学习算法是非常重要的。公式(1)中需要用到区域样本数据的平均值和标准差。由统计学大数定律[35]可知,对于某条测井曲线,在同一地区或地层范围内,当样本数据足够多时,数据的标准差和平均值趋于稳定。因此,对于样本数据的预处理可以直接使用大样本数据的标准差和平均值,利用公式(1)直接计算,保证了数据预处理标准的一致性。——论文作者:石玉江1 刘国强2 钟吉彬3 王 娟3 张文静3
* 稍后学术顾问联系您