国立大学法人京都大学 宇宙総合学研究ユニット
-
業種
研究・教育
-
課題・要望
柔軟にスケーリング可能な ビッグデータ解析基盤の構築
-
製品・サービス
クラウド
- クラウド
- 研究・教育
- コスト削減
国立大学法人 京都大学には、理工系から人文社会系まで様々な分野の研究者が集まって、宇宙とそこに住む人類のことを総合的に研究する「宇宙総合学研究ユニット」という組織がある。今回、同ユニットでは、人工衛星から刻々と得られる太陽観測画像をもとに太陽フレアの発生を予測する「宇宙天気予報」に着手。画像解析処理の基盤として、アマゾンウェブサービス(以下、AWS)が提供するAmazon Elastic MapReduce(以下、Amazon EMR)を採用することによって、高精度のフレア発生予測を実現している。
太陽観測画像の分散解析にAmazon EMRを活用
「宇宙天気予報」を実現し、フレア発生を予測
太陽フレアの発生を予測する「宇宙天気予報」
京都大学 宇宙総合学研究ユニット
副ユニット長
京都大学大学院理学研究科付属天文台
教授・台長
柴田 一成 氏
京都大学 宇宙総合学研究ユニットは、幅広い分野の研究者を擁する総合大学としての京都大学の強みを活かし、宇宙理工学に関する基礎研究と融合領域の学問の開拓を目的に2008年4月より発足した部局横断型の組織である。
同ユニット副ユニット長で京都大学大学院理学研究科附属天文台 教授・台長の柴田 一成 氏は、宇宙科学とコンピュータ科学、人文・社会科学の知見を融合することによって、新たな知の地平を開拓することが同ユニットの使命であると説明する。「例えば、宇宙ステーションの中では、人種や国籍、文化といったバックグラウンドの異なる宇宙飛行士が何人も共同生活していますが、人が活動するところには、政治、法律、経済、医療などの人間の営み、学問で言えば主に人文・社会科学に属するような問題が必ず生じます。今や宇宙研究は、理工系だけには留まらない、総合的なアプローチが必要な時代になりました」。副ユニット長
京都大学大学院理学研究科付属天文台
教授・台長
柴田 一成 氏
このように人類の宇宙進出が進んだからこそ、新たなリスクとして認識されるようになった事態の一つに「太陽フレア」が引き起こす諸影響が挙げられる。太陽黒点の磁気エネルギーが引き起こす爆発である太陽フレアは、かつては美しいオーロラを起こすくらいで、人類活動への大きな影響はなかった。しかし、宇宙利用が進んだ現代においては、太陽フレアは巨大な磁気嵐を発生させることで、送電システムやコンピュータシステムに大きな障害を引き起こしたり、人工衛星の故障、GPS航法システムの停止、宇宙飛行士の放射線被ばくなど、太陽地球環境に様々な被害を及ぼすことが知られている。フレア発生の予測と事前対策は、早急に実現が必要なリスク管理の一つなのである。
同ユニットが研究する「宇宙天気予報」とは、太陽フレアの発生を機械学習アルゴリズムによって予測するものである。柴田教授は、「私たちの社会の安全を維持するためにも、気象予報や地震予知と同じくらいの緊急度で、宇宙天気予報を実現する必要があります」と語る。
フレア発生の予測と事前対策は、宇宙利用が拡大する現代社会に不可欠なリスク管理である
膨大な太陽観測画像の解析処理の高速化が課題に
宇宙天気予報では、過去から現在までに蓄積された太陽観測画像を解析し、フレア発生24時間前の観測値とフレア発生との相関性を機械学習によって獲得する手法が採られている。太陽観測衛星「ひので」や米国気象衛星「GOES」等から刻々と得られる太陽観測データは、既に莫大な量が蓄積されている。「これらの観測データを活用すれば、何十年も経験を積んだ研究者と同等の精度でフレア発生を予測できるのではないかと思ったのが、最初のきっかけですね」とは柴田教授。
だが、こうした宇宙天気予報のプロジェクトは、画像解析処理の基盤を構築する段になって、大きな課題に直面する。今回の研究では過去2年分の太陽観測画像をデータとして利用したが、これら膨大な量の非構造化データを高速に処理するための基盤を、限られた予算の中で短期間に構築しなければならなくなったのである。
当初、同ユニットでも、既設の物理サーバ11台を用いてHadoop/MapReduce 環境を構築することにより画像解析を行おうとした。
しかし、これら11台の既設の物理サーバ上に構築されたHadoop/MapReduce環境では、とにかく処理が遅すぎた。「必要な画像解析を完了するのに、2週間もかかりました。パラメータを変更して、もう一度解析しようとすると、また2週間かかることになる。さすがにデータ解析環境としては使えませんでしたね」と苦笑する柴田教授。
とはいえ、単純にハイスペックな物理サーバを増設して、処理能力を向上させればよいという問題でもなかった。仮に宇宙天気予報の予報システムが完成したとしても、当面は研究目的のみの利用となる。そのため、研究者たちは自分の研究に必要なときだけマシンをフル稼働し、そうした一時的な繁忙期が終わると、マシンはほとんど遊休状態になる。「たった数か月しか利用しないのに、高価な機器を何台も購入するのは、さすがに現実的じゃないなと思いましたね」と柴田教授は語る。
つまり、単に膨大な太陽観測画像を高速処理するだけでなく、研究者たちの活動パターンに合わせて、柔軟にスケーリングが可能な分散処理システムが求められたのである。
だが、こうした宇宙天気予報のプロジェクトは、画像解析処理の基盤を構築する段になって、大きな課題に直面する。今回の研究では過去2年分の太陽観測画像をデータとして利用したが、これら膨大な量の非構造化データを高速に処理するための基盤を、限られた予算の中で短期間に構築しなければならなくなったのである。
当初は既設の物理サーバ11台を用いてHadoop/MapReduce環境を構築したが...
今日、ビッグデータの活用基盤として広く利用されている代表的なプラットフォームに、Hadoopがある。Hadoopでは、MapReduceと呼ばれるフレームワークを使って、1台のマシンだと数時間以上かかるようなバッチ処理を複数のマシンに分散して、処理を高速化する。当初、同ユニットでも、既設の物理サーバ11台を用いてHadoop/MapReduce 環境を構築することにより画像解析を行おうとした。
しかし、これら11台の既設の物理サーバ上に構築されたHadoop/MapReduce環境では、とにかく処理が遅すぎた。「必要な画像解析を完了するのに、2週間もかかりました。パラメータを変更して、もう一度解析しようとすると、また2週間かかることになる。さすがにデータ解析環境としては使えませんでしたね」と苦笑する柴田教授。
とはいえ、単純にハイスペックな物理サーバを増設して、処理能力を向上させればよいという問題でもなかった。仮に宇宙天気予報の予報システムが完成したとしても、当面は研究目的のみの利用となる。そのため、研究者たちは自分の研究に必要なときだけマシンをフル稼働し、そうした一時的な繁忙期が終わると、マシンはほとんど遊休状態になる。「たった数か月しか利用しないのに、高価な機器を何台も購入するのは、さすがに現実的じゃないなと思いましたね」と柴田教授は語る。
つまり、単に膨大な太陽観測画像を高速処理するだけでなく、研究者たちの活動パターンに合わせて、柔軟にスケーリングが可能な分散処理システムが求められたのである。
Amazon EMRを活用し、太陽フレアの発生を高精度で予測
こうした課題を解消するため、同ユニットでは、ビッグデータ活用基盤の豊富な導入実績をもつブロードバンドタワーに太陽観測画像処理の基盤構築を依頼。ブロードバンドタワーは、宇宙天気予報のためのシステム基盤として、AWSが提供するAmazon EMRを提案した。
Amazon EMRは、Hadoop/MapReduceプラットフォームをAWSのクラウド内で利用可能にするウェブサービスだ。Amazon EMRでは、ユーザが指定した台数分、Hadoopクラスタを自動でセットアップすることによってMapReduceの実行基盤を提供。ノードのプロビジョニング、クラスタのセットアップ、Hadoopの設定、クラスタの微調整などの作業が不要なため、Hadoopを利用した大規模な分散処理システムを迅速に構築することができる。
ブロードバンドタワーが、Amazon EMRを提案したポイントは、その伸縮自在な拡張性にある。Amazon EMRでは、コンピューティングインスタンスを容易に追加・削除できるため、あらゆる規模のデータ処理に対応。使用するインスタンスのスペックも、その都度の必要に応じて自由に指定することができる。
今回の研究では、研究者の利用する間だけ大量のキャパシティが必要となるため、高スペックなEC 2インスタンスを10台ほど起ち上げ、分散処理させることによって、処理を高速化。ジョブの完了後には不要になったインスタンスを直ちにシャットダウンすることで、キャパシティのアイドリングが生じることもない。柴田教授は「今では1回の画像解析に2週間もかかることはなく、短時間で終わるため、ストレスを感じることはなくなりました」と満足げに語る。
さらに柴田教授は、使用するインスタンスの時間ごとに1時間単位で料金を支払うという、AWSの従量課金制も気に入ったという。「私は、ブロードバンドタワーと仕事をするまではAWSのことは全然知らなかったのですが、使った分だけ支払ってくださいという料金体系は非常にリーズナブルで、私たち研究者の利用形態にも合致してますね」
同ユニットは、こうしたAmazon EMRを基盤とするビッグデータ解析環境を利用することにより、太陽研究のエキスパートと同等の成功確率で、フレア発生の予測を実現。その研究成果は、学界からも高い評価を得ているという。「何十年も経験を積んだ太陽研究者にしかできなかった太陽フレア発生の予測が、コンピュータによって完全に自動化された。これは学界にも大きなインパクトがありましたね」と柴田教授は誇らしげに語る。
Amazon EMRは、Hadoop/MapReduceプラットフォームをAWSのクラウド内で利用可能にするウェブサービスだ。Amazon EMRでは、ユーザが指定した台数分、Hadoopクラスタを自動でセットアップすることによってMapReduceの実行基盤を提供。ノードのプロビジョニング、クラスタのセットアップ、Hadoopの設定、クラスタの微調整などの作業が不要なため、Hadoopを利用した大規模な分散処理システムを迅速に構築することができる。
ブロードバンドタワーが、Amazon EMRを提案したポイントは、その伸縮自在な拡張性にある。Amazon EMRでは、コンピューティングインスタンスを容易に追加・削除できるため、あらゆる規模のデータ処理に対応。使用するインスタンスのスペックも、その都度の必要に応じて自由に指定することができる。
今回の研究では、研究者の利用する間だけ大量のキャパシティが必要となるため、高スペックなEC 2インスタンスを10台ほど起ち上げ、分散処理させることによって、処理を高速化。ジョブの完了後には不要になったインスタンスを直ちにシャットダウンすることで、キャパシティのアイドリングが生じることもない。柴田教授は「今では1回の画像解析に2週間もかかることはなく、短時間で終わるため、ストレスを感じることはなくなりました」と満足げに語る。
さらに柴田教授は、使用するインスタンスの時間ごとに1時間単位で料金を支払うという、AWSの従量課金制も気に入ったという。「私は、ブロードバンドタワーと仕事をするまではAWSのことは全然知らなかったのですが、使った分だけ支払ってくださいという料金体系は非常にリーズナブルで、私たち研究者の利用形態にも合致してますね」
同ユニットは、こうしたAmazon EMRを基盤とするビッグデータ解析環境を利用することにより、太陽研究のエキスパートと同等の成功確率で、フレア発生の予測を実現。その研究成果は、学界からも高い評価を得ているという。「何十年も経験を積んだ太陽研究者にしかできなかった太陽フレア発生の予測が、コンピュータによって完全に自動化された。これは学界にも大きなインパクトがありましたね」と柴田教授は誇らしげに語る。
システム構成図
宇宙天気予報の実用化に向け、更なる精度向上に挑戦
同ユニットでは、今後の宇宙天気予報の実用化も視野に入れ、予測精度の更なる向上に取り組んでいる。柴田教授は、「今回の研究では高々2年分の観測画像の、しかも一部の波長しか使っていませんが、他の波長の観測画像もある。これらを活用すれば、更に予測精度も上げられると思いますね」と意気込む。
今回のプロジェクトを支援したブロードバンドタワーへの期待も大きい。「当然ブロードバンドタワーは、宇宙物理学や太陽のことはよく知らないし、私たちもITはまったくの素人。コミュニケーションが非常に難しい状況の中で、ブロードバンドタワーは、私たちの要望を真摯に聞き取り、最高のデータ解析環境を作ってくれました。宇宙天気予報は、宇宙利用が拡大する現代社会に不可欠なリスク管理ですので、実用化に向けて、今後もブロードバンドタワーには協力をお願いしたいですね」と柴田教授は語った。
今回のプロジェクトを支援したブロードバンドタワーへの期待も大きい。「当然ブロードバンドタワーは、宇宙物理学や太陽のことはよく知らないし、私たちもITはまったくの素人。コミュニケーションが非常に難しい状況の中で、ブロードバンドタワーは、私たちの要望を真摯に聞き取り、最高のデータ解析環境を作ってくれました。宇宙天気予報は、宇宙利用が拡大する現代社会に不可欠なリスク管理ですので、実用化に向けて、今後もブロードバンドタワーには協力をお願いしたいですね」と柴田教授は語った。
- 企業名
- 国立大学法人京都大学 宇宙総合学研究ユニット
http://www.usss.kyoto-u.ac.jp/
- 設立
- 2008年4月
- 所在地
- 京都市左京区北白川追分町 北部総合教育研究棟403号室
- 事業内容
- 分野横断型の総合的な宇宙の研究と教育・人材育成 シンポジウムや講演会、ワークショップなどの社会連携活動