b2c信息网

您现在的位置是:首页 > 军事新闻 > 正文

军事新闻

爬虫地震数据的项目背景(python大数据爬虫项目)

hacker2022-07-14 06:32:26军事新闻93
本文目录一览:1、现在的网络爬虫的研究成果和存在的问题有哪些2、

本文目录一览:

现在的网络爬虫的研究成果和存在的问题有哪些

网络爬虫是Spider(或Robots、Crawler)等词的意译,是一种高效的信息抓取工具,它集成了搜索引擎技术,并通过技术手段进行优化,用以从互联网搜索、抓取并保存任何通过HTML(超文本标记语言)进行标准化的网页信息。

其作用机理是:发送请求给互联网特定站点,在建立连接后与该站点交互,获取HTML格式的信息,随后转移到下一个站点,并重复以上流程。通过这种自动化的工作机制,将目标数据保存在本地数据中,以供使用。网络爬虫在访问一个超文本链接时,可以从HTML标签中自动获取指向其他网页的地址信息,因而可以自动实现高效、标准化的信息获取。

随着互联网在人类经济社会中的应用日益广泛,其所涵盖的信息规模呈指数增长,信息的形式和分布具有多样化、全球化特征,传统搜索引擎技术已经无法满足日益精细化、专业化的信息获取和加工需求,正面临着巨大的挑战。网络爬虫自诞生以来,就发展迅猛,并成为信息技术领域的主要研究热点。当前,主流的网络爬虫搜索策略有如下几种。

深度优先搜索策略

早期的爬虫开发采用较多的搜索策略是以深度优先的,即在一个HTML文件中,挑选其中一个超链接标签进行深度搜索,直至遍历这条超链接到最底层时,由逻辑运算判断本层搜索结束,随后退出本层循环,返回上层循环并开始搜索其他的超链接标签,直至初始文件内的超链接被遍历。

深度优先搜索策略的优点是可以将一个Web站点的所有信息全部搜索,对嵌套较深的文档集尤其适用;而缺点是在数据结构日益复杂的情况下,站点的纵向层级会无限增加且不同层级之间会出现交叉引用,会发生无限循环的情况,只有强行关闭程序才能退出遍历,而得到的信息由于大量的重复和冗余,质量很难保证。

宽度优先搜索策略

与深度优先搜索策略相对应的是宽度优先搜索策略,其作用机理是从顶层向底层开始循环,先就一级页面中的所有超链接进行搜索,完成一级页面遍历后再开始二级页面的搜索循环,直到底层为止。当某一层中的所有超链接都被选择过,才会基于该层信息检索过程中所获得的下一级超链接(并将其作为种子)开始新的一轮检索,优先处理浅层的链接。

这种模式的一个优点是:无论搜索对象的纵向结构层级有多么复杂,都会极大程度上避免死循环;另一个优势则在于,它拥有特定的算法,可以找到两个HTML文件间最短的路径。一般来讲,我们期望爬虫所具有的大多数功能目前均可以采用宽度优先搜索策略较容易的实现,所以它被认为是最优的。

但其缺点是:由于大量时间被耗费,宽度优先搜索策略则不太适用于要遍历特定站点和HTML文件深层嵌套的情况。

聚焦搜索策略

与深度优先和宽度优先不同,聚焦搜索策略是根据“匹配优先原则”对数据源进行访问,基于特定的匹配算法,主动选择与需求主题相关的数据文档,并限定优先级,据以指导后续的数据抓取。

这类聚焦爬虫针对所访问任何页面中的超链接都会判定一个优先级评分,根据评分情况将该链接插入循环队列,此策略能够帮助爬虫优先跟踪潜在匹配程度更高的页面,直至获取足够数量和质量的目标信息。不难看出,聚焦爬虫搜索策略主要在于优先级评分模型的设计,亦即如何区分链接的价值,不同的评分模型针对同一链接会给出不同的评分,也就直接影响到信息搜集的效率和质量。

同样机制下,针对超链接标签的评分模型自然可以扩展到针对HTML页面的评价中,因为每一个网页都是由大量超链接标签所构成的,一般看来,链接价值越高,其所在页面的价值也越高,这就为搜索引擎的搜索专业化和应用广泛化提供了理论和技术支撑。当前,常见的聚焦搜索策略包括基于“巩固学习”和“语境图”两种。

从应用程度来看,当前国内主流搜索平台主要采用的是宽度优先搜索策略,主要是考虑到国内网络系统中信息的纵向价值密度较低,而横向价值密度较高。但是这样会明显地遗漏到一些引用率较小的网络文档,并且宽度优先搜索策略的横向价值富集效应,会导致这些链接量少的信息源被无限制的忽略下去。

而在此基础上补充采用线性搜索策略则会缓解这种状况,不断引入更新的数据信息到已有的数据仓库中,通过多轮的价值判断去决定是否继续保存该信息,而不是“简单粗暴”地遗漏下去,将新的信息阻滞在密闭循环之外。

网页数据动态化

传统的网络爬虫技术主要局限于对静态页面信息的抓取,模式相对单一,而近年来,随着Web2.0/AJAX等技术成为主流,动态页面由于具有强大的交互能力,成为网络信息传播的主流,并已取代了静态页面成为了主流。AJAX采用了JavaScript驱动的异步(非同步)请求和响应机制,在不经过网页整体刷新的情况下持续进行数据更新,而传统爬虫技术缺乏对JavaScript语义的接口和交互能力,难以触发动态无刷新页面的异步调用机制并解析返回的数据内容,无法保存所需信息。

此外,诸如JQuery等封装了JavaScript的各类前端框架会对DOM结构进行大量调整,甚至网页上的主要动态内容均不必在首次建立请求时就以静态标签的形式从服务器端发送到客户端,而是不断对用户的操作进行回应并通过异步调用的机制动态绘制出来。这种模式一方面极大地优化了用户体验,另一方面很大程度上减轻了服务器的交互负担,但却对习惯了DOM结构(相对不变的静态页面)的爬虫程序提出了巨大挑战。

传统爬虫程序主要基于“协议驱动”,而在互联网2.0时代,基于AJAX的动态交互技术环境下,爬虫引擎必须依赖“事件驱动”才有可能获得数据服务器源源不断的数据反馈。而要实现事件驱动,爬虫程序必须解决三项技术问题:第一,JavaScript的交互分析和解释;第二,DOM事件的处理和解释分发;第三,动态DOM内容语义的抽取。

前嗅的ForeSpider数据采集系统全方位支持各种动态网站,大部分网站通过可视化的操作就可以获取。对于反爬虫机制严格的网站,通过ForeSpider内部的脚本语言系统,通过简单的脚本语言,就可以轻松获取。

数据采集分布化

分布式爬虫系统是在计算机集群之上运转的爬虫系统,集群每一个节点上运行的爬虫程序与集中式爬虫系统的工作原理相同,所不同的是分布式需要协调不同计算机之间的任务分工、资源分配、信息整合。分布式爬虫系统的某一台计算机终端中植入了一个主节点,并通过它来调用本地的集中式爬虫进行工作,在此基础上,不同节点之间的信息交互就显得十分重要,所以决定分布式爬虫系统成功与否的关键在于能否设计和实现任务的协同。

此外,底层的硬件通信网络也十分重要。由于可以采用多节点抓取网页,并能够实现动态的资源分配,因此就搜索效率而言,分布式爬虫系统远高于集中式爬虫系统。

经过不断的演化,各类分布式爬虫系统在系统构成上各具特色,工作机制与存储结构不断推陈出新,但主流的分布式爬虫系统普遍运用了“主从结合”的内部构成,也就是由一个主节点通过任务分工、资源分配、信息整合来掌控其他从节点进行信息抓取。

在工作方式上,基于云平台的廉价和高效特点,分布式爬虫系统广泛采用云计算方式来降低成本,大规模降低软硬件平台构建所需要的成本投入。在存储方式方面,当前比较流行的是分布式信息存储,即将文件存储在分布式的网络系统上,这样管理多个节点上的数据更加方便。通常情况下使用的分布式文件系统为基于Hadoop的HDFS系统。

目前市场上的可视化通用性爬虫,大都牺牲了性能去换取简易的可视化操作。但前嗅的ForeSpider爬虫不是。ForeSpider采用C++编程,普通台式机日采集量超过500万条/天,服务器超过4000万条/天。是市场上其他可视化爬虫的10倍以上。同时,ForeSpider内嵌前嗅自主研发的ForeLib数据库,免费的同时支持千万量级以上的数据存储。

通用型和主题型网络爬虫

依据采集目标的类型,网络爬虫可以归纳为“通用型网络爬虫”和“主题型网络爬虫”两种。

通用型网络爬虫侧重于采集更大的数据规模和更宽的数据范围,并不考虑网页采集的顺序和目标网页的主题匹配情况。在当前网络信息规模呈现指数增长的背景下,通用型网络爬虫的使用受到信息采集速度、信息价值密度、信息专业程度的限制。

为缓解这种状况,主题型网络爬虫诞生了。不同于通用型网络爬虫,主题型网络爬虫更专注采集目标与网页信息的匹配程度,避免无关的冗余信息,这一筛选过程是动态的,贯穿于主题型网络爬虫技术的整个工作流程。

目前市面上的通用性爬虫的采集能力有限,采集能力不高,网页结构复杂的页面无法采集。前嗅ForeSpider爬虫是通用型的网络爬虫,可以采集几乎100%的网页,并且内部支持可视化筛选、正则表达式、脚本等多种筛选,可以100%过滤无关冗余内容,按条件筛选内容。相对主题型爬虫只能采集一类网站而言,通用型的爬虫有着更强的采集范围,更加经济合理。

什么是项目背景?项目背景怎么写?

项目背景就是弄明白为什么我们要做这个活动、为什么要开这个小组、为什么要开这个个案。

写的时候主要抓住这几点,表意要清晰明显即可。

项目背景可从以下几个方面写:

1、项目的提出原因 。

2、项目环境背景 。

3、项目运作的可行性 。

4、项目优势分析(资源、技术、人才、管理等方面)。

5、项目的独特与创新分析。

项目背景是站在客观的角度观察行业、政策、竞争者、客户、技术等方面的变化和情况,必要性则是从项目自身的角度看自己应该采取什么行动,才不至于在项目背景(也是预测)下导致的未来情况中处于劣势。

汶川地震地质背景Geological Background

5.12汶川8.0级地震发生在青藏高原东缘的龙门山断裂带,该地区地处青藏高原与四川盆地的构造边界。自第四纪以来,新构造运动十分活跃。

The 5.1 2 Wenchuan Earthquake happened at the Fault zone of Longmen Shan(Dragon's Gate Mountains)in the eastern edge of the Tibetan Plateau.The region locates the tectonic boundary of Sichuan basin and Tibetan Plateau.The neotectonic movement is very active.

5.12汶川地震地质灾害

5.12汶川地震地质灾害

龙门山地震断裂带是青藏高原周边地形梯度变化最强烈的地区,在50km范围内从四川盆地平均海拔600rn左右,迅速变为5000m左右的高原,地形高差达4400m。

The Longmen Shan earthquake fault zone is the edge region of Tibetan Plateau with the highest changes in land topographical gradients.The altitude at its foreland in Sichuan basin is600m and increases to5000m on the Plateau over a horizontal distance of50km.The altitude difference is4400m.

龙门山地震断裂带为一条长约500km,宽30~50km的北东走向的构造带,主要由四条断裂带组成:F1:汶川-茂汶断裂;F2:映秀-北川断裂;F3:灌县-安县断裂;F4:平武-青川断裂,这些断裂带晚第四纪以来的活动性质以挤压逆冲为主,并伴有右旋走滑分量。此次汶川8.0级大地震形成长近300km的地震断裂带。

Longmen Shan fault zone is of500km long and30to50km wide with north--eastern striking di rection.It is composed of fou r faults:F1:Wenchuan-Maowenfault;F2:Yingxiu-Beichuan fault;F3:Guanxian-Anxian fault;F4:Pingwu-Qingchuan fault.Since Late Quate rnary,the active characteristics of the faults have been mainly compressing and thrusting with right rotational sliding component.This Wenchuan earthquake formed a quake faulting zone of 300 km long.

5.12汶川地震地质灾害

龙门山地震断裂带的活动构造

Active fault system of the Longmen Shah Earthquake Fault Zone

汶川地震发震的地球动力学机制模型Geodynamic mechanism model for focal mechanism of Wenchuan Earthquake

龙门山地震断裂带的构造变形十分强烈,其新生代隆升可能与青藏高原的下地壳流引起的向东挤出与四川盆地坚硬结晶基底的阻挡之间的相互作用有关,此次大地震的发生很可能是下地壳流向东挤出所产生长期应力积累释放的结果。

Structural deformation of the Longmen Shan earthquake fault zone is very strong.The uplift of the zone in Cenozoic may be due to the interaction between the eastern extrusion induced by the lower-crustal channel flow beneath Tibetan Plateau and the buttressing of the rigid crust of Sichuan basin.The occurrence of this Earthquake may be a result of the release of the long-time stress accumulation caused by the eastern extrusion of the lower-crustal channel flow.

网络爬虫的产生背景

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:

(1) 不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。

(2)通用搜索引擎的目标是尽可能大的网络覆盖率,有限的搜索引擎服务器资源与无限的网络数据资源之间的矛盾将进一步加深。

(3)万维网数据形式的丰富和网络技术的不断发展,图片、数据库、音频、视频多媒体等不同数据大量出现,通用搜索引擎往往对这些信息含量密集且具有一定结构的数据无能为力,不能很好地发现和获取。

(4)通用搜索引擎大多提供基于关键字的检索,难以支持根据语义信息提出的查询。

为了解决上述问题,定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。与通用爬虫(general?purpose web crawler)不同,聚焦爬虫并不追求大的覆盖,而将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。

1 聚焦爬虫工作原理以及关键技术概述

网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

相对于通用网络爬虫,聚焦爬虫还需要解决三个主要问题:

(1) 对抓取目标的描述或定义;

(2) 对网页或数据的分析与过滤;

(3) 对URL的搜索策略。

抓取目标的描述和定义是决定网页分析算法与URL搜索策略如何制订的基础。而网页分析算法和候选URL排序算法是决定搜索引擎所提供的服务形式和爬虫网页抓取行为的关键所在。这两个部分的算法又是紧密相关的。

2 抓取目标描述

现有聚焦爬虫对抓取目标的描述可分为基于目标网页特征、基于目标数据模式和基于领域概念3种。

基于目标网页特征的爬虫所抓取、存储并索引的对象一般为网站或网页。根据种子样本获取方式可分为:

(1) 预先给定的初始抓取种子样本;

(2) 预先给定的网页分类目录和与分类目录对应的种子样本,如Yahoo!分类结构等;

(3) 通过用户行为确定的抓取目标样例,分为:

(a) 用户浏览过程中显示标注的抓取样本;

(b) 通过用户日志挖掘得到访问模式及相关样本。

其中,网页特征可以是网页的内容特征,也可以是网页的链接结构特征,等等。

油气田地震勘探资料存储的实践与应用

李红霞1 符京生1 张永胜2 惠玉凤2

(1.中石油长庆油田公司档案馆;2.中石油东方公司研究院长庆分院)

摘要 为抢救和保护地震勘探数据磁带档案,改变长期以来地震磁带容量利用率低,保管成本高的现状,长庆油田应用地震资料全容量存储技术,完成了地震勘探数据载体的转换,实现了地震磁带全容量存储,有效解决地震勘探数据保存和再组织问题,效果显著。本文介绍了长庆油田地震资料全容量存储技术开发的背景、研究成果及应用实施情况。

关键词 地震勘探数据 磁带存储 容量利用率 测线标签 磁带操作程序

地震勘探数据磁带是油气勘探的重要资料,是地震勘探工程施工成果的载体,是物探科技工作者智慧的结晶,是企业的宝贵财富。石油天然气行业标准亦规定磁带为地震勘探数据成果长期和永久保存介质,这一管理形式在油田企业一直沿用至今。近年来,随着地震勘探技术水平的发展,施工设备的更新换代,存储技术的不断发展,传统的保管利用模式已无法适应现代化办公条件下生产科研工作的需求,加之所保存的地震勘探资料时空跨度大,严重制约着磁带档案的规范化、标准化、现代化管理水平的发展,潜藏着因历史资料载体到期老化等因素致使数据无法正常读取和使用的巨大风险。基于此,长庆油田开展了将库存地震勘探数据由低密度磁带向新型高密度磁带的数据转储工作,探索出地震勘探数据磁带全容量存储技术,从根本上解决了地震勘探数据磁带档案管理中的诸多问题。

1 长庆油田地震勘探数据磁带管理现状

长庆油田档案馆保存着迄今为止30多年来在鄂尔多斯盆地及其周边地区采集的全部地震勘探原始及成果数据磁带,是长庆油田唯一的地震勘探档案集中保管地,库存各类地震磁带9万多盘。近年来,随着档案管理系统的推广应用,狠抓了地震勘探数据磁带档案基础业务,实现了磁带档案目录的电子化,其中成果磁带采取了案卷级和文件级相结合的编目规则,利用效率得以有效提升。然而磁带这一载体的特殊性,影响着磁带的安全管理,制约着磁带管理水平的进一步提高,主要表现在以下几个方面:

一是磁带数量大、型号繁杂,部分已到保管期限。现库存磁带包括3480、3490、3590、3592及九轨半英寸磁带共5种,其中3480、3490、九轨半英寸磁带占库存总量的97.45%,库存一半的磁带已到规定的保管期限,加之磁带机对不同型号磁带的互不兼容性,导致部分陈旧磁带数据随着相应磁带机生产下线而无法正常读取使用。

二是数据格式多样,不便利用和管理。其中大部分为SEG-D格式,部分是TIPEX、TAR格式,现阶段已无与之匹配的操作系统,数据无法读取,这种多格式共存给地震勘探数据的标准化、规范化管理也带来不便。

三是磁带容量利用率低,增加了保管成本。传统磁带管理因受磁带物理标签及现场施工方式的影响,通常磁带容量利用率仅有21%,容量空置率高,造成磁带数量的无谓增加和成本的极大浪费。

四是利用效率低。一直以来,长庆油田采用磁带对磁带一对一拷贝,通过复制归档磁带数据开展对外提供利用工作,这一管理方式在确保管理安全方面效果显著,但利用效率却大受影响,在面对利用量小且任务较分散的利用工作时,这一方式基本能够满足,也未突显明显矛盾,然而面对近几年油田勘探生产任务的大量攀升,经常面临集中大量的数据利用工作,即使工作人员24小时不停歇加班加点,但因这种传统数据拷贝速度受限于设备数量、设备运转情况的影响,常常很难满足实际工作的需要。所以对地震勘探数据开展抢救式介质转换、升级,探索改进地震勘探数据磁带档案管理已迫在眉睫。

2 地震资料全容量存储的目的

1)抢救和保护油田勘探资料,确保资料信息随时代发展、软硬件条件进步,能得到完整保护。

2)采用国际国内通用格式形式加以转录、存储,使不同设备不同时期地震勘探资料得以通用性识别。

3)大容量存储的应用,保证地震资料信息完整,今后复制、抢救数据更加高效,便于长期安全性保存。

4)便于高效服务油田勘探开发,由于油田勘探程度愈来愈高,隐蔽性、小型性、复杂性油气藏也成为勘探的主要目标,对地震资料的进一步应用也愈来愈多。

3 地震资料全容量存储技术

3.1 地震资料全容量存储技术概述

地震资料全容量存储是采取标准的SEGY磁带格式,将包含地震测线的关键标识性信息(包括测线名称、地区等)和档案管理重要元素(包括全宗、目录号、保管号等)组成的具有重要识别性质的简单的测线编码电子标签,记录在SEGY卷头未定义区域,通过地震数据磁带操作程序,独立完成地震测线数据的卸带和磁带检索。将测线数据及相应的电子标签一同写入直至记满一盘3592磁带为止。

地震资料全容量存储理论上是对历史地震勘探数据载体的升级转换,是对数据格式和载体型号的统一规范;这一技术的核心是使得地震勘探数据存储不再受限于磁带物理标签限制,而是取决于磁带本身的存储量,可将传统磁带容量提高至98%左右,这对于磁带档案保管的集中地——档案部门来说,将有效减少磁带数量,降低管理成本,缓解库存压力;同时这一技术符合地震磁带标准格式,形成的存储磁带能够在GeoEAST、CGG等处理系统中直接读出,便于利用和管理。

3.2 测线标签和磁带标签目录

测线标签和磁带标签目录是一行限长EBCDIC码字符串,包含卷盘号、卷内序号、测线名、成果类型、队号、数据范围、工区、生产年度、数据来源等测线标示信息(表1),与测线SEGY数据文件一一对应。将一盘地震SEGY磁带的测线标签顺序存放,形成磁带标签目录文本文件。

表1 测线数据文件与测线数据标签

3.3 地震资料全容量存储操作程序

地震数据的SEGY格式,实际上是一种特殊的加密格式,通常只能由理解SEGY格式的软件来读取,如GeoEAST、PROMAX、CGG等,且须有地震资料数据处理背景的人员操作完成。在Linux系统下,使用C语言编制一组SEGY格式磁带专用程序,根据磁带标签目录,脱离通用处理系统直接驱动磁带机,完成标准地震SEGY格式磁带的写入、读出和磁带扫描。

3.3.1 磁带机工作特点

与磁盘直接访问不同,磁带是一种流式数据设备,只能顺序访问。磁带基本读写单位为块(BLOCK),块与块间有一物理间隙(GAP),用于磁头定位。SEGY磁带数据文件有若干块组成,文件尾有一特殊数据标志EOF标示文件结束,而双EOF通常表示磁带数据结束。程序设计中,通过系统调用磁带设备数据结构,完成磁带的寻块和读写EOF等控制操作。

3.3.2 写磁带

程序功能是将磁带标签目录文件所列的测线SEGY磁盘文件及其测线标签,顺序写入一盘磁带(图1)。写带前应先用tpsize命令估算写带容量,以确保磁带全容量存储。有记带日志帮助确定写带正确。实际应用中,譬如在提供磁带拷贝记带时,测线标签可以选择空白。

3.3.3 读磁带

程序功能是从一盘磁带中顺序卸出全部或指定序号的SEGY文件到磁盘(图2)。查询标签目录获得卸带文件号。有读带日志帮助确定读带正确。

图1 写磁带流程

图2 读磁带流程

3.3.4 磁带扫描

程序功能是扫描一盘地震成果磁带,列出全部SEGY文件标签和卷头及道头信息,检查SEGY数据磁带或SEGY数据文件的合规性。

4 地震资料全容量存储的应用

4.1 应用方案

1)将多格式数据向SEGY格式转换。

2)转储数据编目规则,采用档案著录规则与物探技术规则相结合,包含卷盘号、卷内序号、测线名、成果类型、队号、数据范围、工区、生产年度、数据来源等信息内容。

3)数据采用磁带加磁盘双模式存储,其中磁带采用近年通用、普通的350 GB容量的3592磁带,这种新型的高密度磁带可大幅度减少磁带数量,便于保管和保护;磁盘采用RAID6冗余技术方式,便于日常频繁大量的数据利用。

4.2 应用实例

长庆油田利用上述技术历时两年半完成了1980~2010年共9万多盘各类地震勘探数据(包含原始与成果)的转储,共形成转储磁带90多盘,存储量40TB。特别是档案目录中的原始测线,全部得到样本保存,实现并保证了长庆油田地震历史成果的永久保存。

4.3 应用效果

4.3.1 磁带数量大幅减少,有效缓解了库存压力

转储前,9万多盘不同种类不同型号磁带共占用两个库房320平方米存放空间,转储后,同样的数据量只形成了90多盘3592磁带(350GB),仅用了一个资料柜的1/3。

4.3.2 抢救保护了地震勘探数据,保证资料持续可用

通过转储,抢救恢复了无法读取的TIPX格式和掉粉损坏磁带的地震勘探数据,保证了所有地震数据的有效性,同时也为下一步确定4万多盘已到保管期限的九轨半英寸磁带鉴定处置方案提供了可靠依据。

4.3.3 实现了标准化、规范化,便于管理和利用

通过地震资料全容量转储,长庆油田所有不同历史时期不同格式地震勘探数据全部实现了以国际通用的3592高密度数字磁带为载体,数据格式为SEG-Y的标准存储模式,便于硬件设施的配备及日常维护工作的开展,使管理更加便捷,利用更加顺畅。

4.3.4 提高检索效率,全面提升了地震勘探数据的利用服务水平

检索效率大幅提升。通过集中统一更改、补充、完善,规范和丰富了长庆油田30多年来的地震勘探数据及目录信息,提高了检索的准确性;完善了地震勘探磁带管理信息电子编码技术规则,制定了由卷盘号、卷内顺序号、测线名、队号、工区等10个信息因素组成的具有地震测线和档案目录独特识别信息的地震勘探磁带测线信息电子编码和档案编目、著录规则,用以地震勘探数据库的检索;形成了以档案目录号、保管号为内容的互见目录,可实现磁带测线信息电子编码标签与档案测线目录的双向信息查询,提高了检索效率。

利用服务方式有了突破性发展。本次转储除采用传统的磁带存储外,开创了磁盘阵列备份存储的新模式,实现了地震勘探磁带数据的数字化管理,实现了从目录检索到数据直接拷贝的系统管理操作,改变了传统通过目录检索获得实物档号,取出实体采取磁带对磁带的一对一拷贝的半信息化操作,在提高利用效率的同时,也为快速高效地开展地震勘探数据的再组织奠定了基础,开启了地震数据管理利用新篇章。

4.3.5 提高了工作效率,降低了劳动强度

以3490磁带为例,一天按8小时工作时间计算,在机器运转良好,工作人员不间断工作的情况下,每天一台3490磁带机最多能完成30多盘磁带数据的拷贝,若一条测线原始数据磁带350盘左右,存储量约150GB,采用传统地震数据磁带拷贝,用一台机器拷贝最快10天,而通过磁盘阵列数据拷贝仅用2个多小时即可完成。据初步测试,完成1TB数据量拷贝需18个小时左右。经转储整理后,在实现高效率数据拷贝和再组织的同时,大大降低了劳动强度,解放了人力。也符合大数据时代快速、高效生产科研工作的需要。

4.3.6 两种存储互为补充,提升了地震勘探数据的安全有效性

采取磁带和磁盘阵列两种方式存储,可根据实际需要相互转换,互为补充,降低了保管风险,最大限度地维护了企业的利益;降低了对磁带数据的重复利用次数,有效地保护了存储介质及地震勘探数据;历史数据载体的升级转换,是一次全面地毯式的核查,是对过去收集检验工作的又一次复核、巩固和补充,是对存放多年数据有效性的全面检验,是做好数据档案保护工作的又一举措,对于档案保管部门意义重大。

5 结束语

地震资料全容量存储成果在实际工作中的应用证明,其提高磁带容量,减少库藏量,降低管理成本效果显著,规范标准化程度高,适合地震勘探数据信息化数字化管理;磁带及磁盘阵列双模式存储在有效降低保管风险,实现方便灵活利用及数据再组织等功能方面,得到相关科研生产部门的一致认同。地震资料全容量存储技术适合地震勘探数据磁带档案管理或地震勘探数据信息的集中管理部门,且数据量越大,效果也越明显。该技术不仅解决了传统地震勘探数据磁带档案管理中的诸多问题,而且使地震勘探数据磁带档案迈上数字化管理新台阶,将更好地服务于油气田的勘探开发与科研工作。

发表评论

评论列表

  • 青迟胭话(2022-07-14 17:34:11)回复取消回复

    的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后

  • 只酷弥繁(2022-07-14 12:38:15)回复取消回复

    。当某一层中的所有超链接都被选择过,才会基于该层信息检索过程中所获得的下一级超链接(并将其作为种子)开始新的一轮检索,优先处理浅层的链接。这种模式的一个优点是:无论搜索对象的纵向结构层级有多么复杂,都会极大程度上避免死循环;另一个优势则在于,它拥有特定的算法,可以

  • 纵遇拥野(2022-07-14 15:22:51)回复取消回复

    对主题型爬虫只能采集一类网站而言,通用型的爬虫有着更强的采集范围,更加经济合理。什么是项目背景?项目背景怎么写?项目背景就是弄明白为什么我们要做这个活动、为什么要开这个小组、为什么要开这个个

  • 语酌空名(2022-07-14 14:51:03)回复取消回复

    据的重复利用次数,有效地保护了存储介质及地震勘探数据;历史数据载体的升级转换,是一次全面地毯式的核查,是对过去收集检验工作的又一次复核、巩固和补充,是对存放多年数据有效性的全面检验,是