如何在短短48小时内用使用百度云计算给地球做B超?

如何在短短48小时内依托百度云计算的大数据给地球做B超? 今年杭州云栖大会上,中国馆地震局的地球物理科学家王伟涛博士在Tech Insight的数据存储技术实战专场做了一场主题分享:名
hello百度云

如何在短短48小时内依托百度云计算的大数据给地球做B超?
今年杭州云栖大会上,中国馆地震局的地球物理科学家王伟涛博士在Tech Insight的数据存储技术实战专场做了一场主题分享:名为《云计算在地震学研究中的应用-利用bcs和海量数据创建虚拟地震》。 他介绍,原本需要一年计算时间的整个中国数千个地震台两两之间的五年数据的计算任务,在云计算中狂飙,48小时之内就计算完成了。

这到底是如何实现的呢?

我们的祖先凝望星河闪耀,却花费万年时间才摸索出天体运行规律。

我们的前辈坐看潮涌潮平,却历经千秋万代才能航行到大洋彼岸。

而我们自己,在这片土地上繁衍至今,却仍旧对脚下的大地懵然无知。

从观察记录到规律预测,几乎是人类科学史的全部逻辑。

但每次我们拼尽全力记下的数据,都只是抬高知识瀚海的涓涓细流。

当我们提笔开始繁复演算的时候,期待的是阿基米德跳出浴缸、牛顿举起苹果的那一刻。

王伟涛博士正是这样计算的执笔人,他来自中国地震局。他想知道的,是我们脚下大地的每个细节。

 

 

浩如烟海的计算

我们经历的每一次地震,都在提醒自己预测和预警这种灾害的迫切性。但是,我们距离这个目标还很远。

为更好的认识地震这一物理现象,需要极其的详细的地壳结构影像,而为了绘制这张地下地图,又需要详尽的数据计算。 目前为止人类打到地下最深的井是前苏联钻探的科拉超深井,约12.2公里,但是地震的震源深度往往在地下十几到几十公里,当前的科技根本无法在震源深度开展直接观测。

所以我们需要依靠分布在全国的数千个地震台来对地震波进行探测,震波在地下的传播特性,受到地质结构的影响,这也是地震波可以用来绘制地底图像的原理。这些地震台可以感知地震的“大震波”,也同样可以捕捉日常的“大地噪声”,例如海潮拍击大陆的震动。王伟涛说。

 


根据地震波进行地底成像的原理

 

王伟涛告诉记者,像他这样的地球物理科学家几乎都是半个程序员。 因为从地震波到地底成像,中间要经过超越一般人想象的大规模程序计算。他的计算模型是这样的: 每一次震动都会由近至远依次传递到各个地震台,所以理论上来说,每个地震台都会对同一次震动做出自己的记录,这些数据既有差异有又联系。

利用这些数据,可以计算出一些“虚拟地震”。 用每两个地震台之间进行数据互相关对比计算,就可以获取研究中国地下的总体结构所需要的宝贵数据。

 

 

虚拟地震可以模拟出和真实地震一样的数据,所以可以用于本来没有发生地震的地区的地底成像 每个地震波数据都有 E,N,Z(东西,南北,垂直)三个向度的分量,全国2000多个永久和临时地震台就是 6000 个分量,每年的数据量大概是 30TB,而我们的总数据量已经到了 PB 级别。

由于我们要相互对比每一个地震台每个时间点的每个分量数据,这些计算量是呈指数级增长的。 王伟涛的智慧和经验,恰恰表现在他所设计的程序和算法之上。 但耗费很大心力完成这个算法的王伟涛博士发现,他才踏上了万里长征的第一步,还有一个巨大的困难横亘在面前。

 

 

图中每两个地震台之间的连线(灰色)都是需要计算的数据,总计算量极其庞大。如果使用单机对这些数据进行计算,大概需要七年时间。按照一个人的职业生涯二十年计算的话,我在退休前只能完成三次计算。在这种情况下,大规模分布式的云计算似乎成为了唯一的选择。

然而,云计算的机理绝不像听起来这么轻盈。记者也采访到了中国地震局的合作伙伴阿里云的童鞋们,在他们眼里,云计算和科学研究一样,集合了人类最顶尖的智慧。

 


所需存储空间、计算量和预计单机计算所需的时间

 

分布式存储:有关农场的游戏

云存储就像一个大的农场,每个服务器就像一个工人,而你的数据就是羊。阿里云存储高级专家承宗说。看来他是个牧场达人。“分布式存储”,可以看作分布式计算的基础条件。也就是说,你的羊要先放进阿里云的“农场”,它的工人才会帮你照料、喂养、剪毛、纺线。

对于王伟涛博士的数据来说,仅仅是存储在云端,就需要无数“黑科技”。

向作者提问

  • 最新评论

全部评论