北上 始

きたかみ はじめ

北上 始 Hajime Kitakami

情報学部 知的情報システム学科 教授
出身:北海道(青森県立三沢高等学校)
h.kitakami.su@it-hiroshima.ac.jp

"ビッグデータ"の中に眠る有益な情報を、効率的に"発掘"するには?

"データ"と言えば、従来は人間がキーボードで入力するものでした。しかしITが浸透した今は、多様なデータが自動でどんどん取り込まれています。インターネットでの検索ワードや、スマートフォンを持つ人の行動範囲、コンビニの購入履歴、さらには気象や遺伝子構造まで。機械とセンサーの発達により取得されたデータが、社会のいろいろな分野で蓄積されているのです。こうした"ビッグデータ"を有効に活用するには、自分に役立つ情報を効果的に"発掘"しなければなりません。これを「データマイニング」と言います。北上先生はさまざまな分野におけるデータマイニング技術を研究しています。

SNSの中から、意味のあるコミュニティを切り分け、盛衰を追う。

1万字のテキストから特定の単語を抜き出そうと思うと、検索システムに単語を入力しますよね。しかし単語として特定できない、例えば「人生の意味について調べたい」という場合はどうしますか。文字数が100万字に増えたら?さらにテキストが未知の外国語で書かれていたらどうでしょう。
あらゆる入力先から多様なデータが取得された"ビッグデータ"は、データが抽出しやすい形で並んでいる、とは限りません。むし雑多で無秩序に蓄積されているものです。例えば人間の遺伝情報など30億文字で構成されており、どこに意味のある単語が含まれているのか正確にわかっていません。私は、さまざまな"ビッグデータ"の中から、新たな知識を効率的に発掘する「データマイニング」の手法を研究しています。
今、注目しているのはSNSです。twitterやFacebookなどのSNSには多くの人が参加し、無数のネットワークを形成しています。一見すると雑多に絡み合う塊のようにですが、話題や嗜好、人同士の関わりといった基準で整理していくと、いくつかのコミュニティに分けられます。どういう基準で切り分けると、意味のあるコミュニティが抽出できるか、調べているんです。

SNS全体を俯瞰すると左のような点の塊になる。しかしこれを趣味や嗜好などの基準で選別すると、右のようにいくつかのコミュニティに分かれる。

ランダムに見えるアミノ酸配列の情報から有益な箇所を抽出。

SNSに関しては、切り分けたコミュニティが時間の経過と共にどう変化するか、に興味を持っています。拡大し続けるコミュニティがある一方、縮小し、消滅するコミュニティもある。どういうきっかけで拡大したり縮小したりするのか分かれば、市場や動向の予測に使えるかもしれません。
生命科学分野にも注目しています。生物の体の主要成分はタンパク質で、タンパク質は20種類のアミノ酸から構成されます。アミノ酸の種類と配列が異なると、タンパク質の構造や機能も多彩に変わります。アミノ酸の配列は、文字がランダムに並んでいるようにしか見えません。しかしここに、タンパク質の機能を決定する重要な文字列が隠れています。それをデータマイニングで抽出するわけです。
手法の一つに「類似する文字列を検索する」があります。似たような文字が並ぶ箇所は、機能も似ていることが多いもの。そこで既に機能がわかっている配列と似た箇所を探すのです。この場合、文字列にうまく索引をつけてやることが重要。これによってランダムな文字列が構造化され、「似ている」「似ていない」を判定しやすくなります。この索引構造は、さまざまな分野に応用が利くものです。

アミノ酸配列を表す文字列。一見、ランダムに並んでいるだけのように見えるが、文字に索引をつけて構造化すると、似た文字列のあることがわかる。

データを単なる数値・文字の羅列ととらえると、意味のある価値は"発掘"できない。

気象分野における「台風の予測」についても研究しています。過去、どこで発生した台風がどういう経路をたどり、どれほどの被害をもたらしたか、がデータ化されています。そこで蓄積された台風の画像を、似ている・似ていないなどの観点でグループにわけます。そこに各台風の発生期や発達期、経路などの情報を加えます。これらをもとに、今後発生する台風の将来を推定するのです。台風がどう成長し、どんな被害を与えそうか予測できるのでは・・・と考えています。
さまざまな分野で"ビッグデータ"の収集・蓄積は進んでいます。そうした状況を見据えれば、データマイニング技術はもっとレベルアップしないといけません。
ただし、データを単なる文字・数字の配列と捉えると、データマイニングはうまくいきません。例えば遺伝情報を扱う場合、進化学の知識が欠かせません。ヒトが進化の過程でどのような機能や形質を獲得してきたか、という視点がなければ、遺伝情報を構成する文字列のどこに意味がありそうか、イメージできません。同様にSNS情報を扱う場合、社会科学などの知識が必要。それらの知識があって初めて、ビッグデータは私たちに有益な価値をもたらすのです。

ゼミ取材 こぼれ話
「鉄道網の解析にも、データマイニングを活用しています」と北上先生。鉄道は駅同士の結びつきで成り立っています。この鉄道網を"ネットワーク"ととらえ、特徴的な形態に分類。どういう地域にどんな形態が登場しているか、都市の規模で形態にどんな差があるか明らかにすることで、地域の実情に合う鉄道のあり方を探るのです。「中四国地方では他地域に比べ、鉄道網の形態がバラエティーに富んでいる。それだけ鉄道が発達していると言えるでしょう」。データマイニング技術を駆使し、さまざまな価値の発掘を続ける北上先生は「今後は特に、データを自動抽出する仕組みの構築に力を入れたい」と意欲的です。