データサイエンスが未来を予測できるワケ ~広島工大での実例~

2019年07月11日

一見、関連性や共通性の見出だせない、乱雑に並んだデータも...

一見、関連性や共通性の見出だせない、乱雑に並んだデータも...

データサイエンスによる分析を行うと、整然と並び、一定の傾向を示すデータになります。

データサイエンスによる分析を行うと、整然と並び、一定の傾向を示すデータになります。

AI(人工知能)やビッグデータの活用を考える上で、最も重要なのはデータサイエンスだと言われます。
データを科学的に読み解き、論理的に仮説を組み立て、具体的な行動を起こすデータサイエンスが、新たな技術やサービスを生み出す原動力となるのです。

そのデータサイエンスを教育分野に導入したら、教育はどう進化するのか? そんな試みが広島工業大学で進められています。
代表例が期末試験の不合格確率を予測し、事前警告するというもの。期末試験で不合格になる確率の高まった学生に警告を出して奮起を促し、無事に単位取得できるように導くのです。しかもその警告は、学期の3分の1程度が経過した、まだ早期の時点で出すことができます。
期末試験が間近な学期終盤ならまだしも、なぜカリキュラムが半分も過ぎていない段階で"不合格になるかもしれない"と警告できるのでしょう。

教育ビッグデータと呼べる規模の情報を、機械学習の手法で効果的に評価することにより、未来の予測を可能にしているのです」

一連のプロジェクトを主導する廣瀬先生(データサイエンス研究センター長)は語ります。

「教育ビッグデータの分析によって未来を的確に予測し、教育プランに柔軟に役立てていく。今やそんな時代になってきたことを実感します」(廣瀬英雄先生/データサイエンス研究センター長)

「教育ビッグデータの分析によって未来を的確に予測し、教育プランに柔軟に役立てていく。今やそんな時代になってきたことを実感します」(廣瀬英雄先生/データサイエンス研究センター長)

1学年1000人の大規模なデータなので、分析精度も高まる。

廣瀬先生が担当するのは、微積分や線形代数学といった数学科目。数学では、授業の各回で、小テストが実施されます。1回あたり5~10問の小テストとは言え、1学年1000人の学生が、1学期全15回にわたって解答した結果は、それなりに大きな規模のデータとなります。この"教育ビッグデータ"を活用し、学生個々の期末試験の合格確率を予測するのです。

「期末試験を合格した学生と不合格となった学生とでは、小テストの結果に何か違いがあるのか、と思って調べました。しかし小テストの個別結果を比べても、大きな差は見られません。不合格者でも小テストでは好成績を残すことがありますし、逆に合格者でも小テストで芳しくない回もあります。全15回の平均値を取ってみましたが、やはり明確な線引きができません。 そこで小テストデータを累積し、"項目反応理論"という手法で評価してはどうか、と考えつきました」

期末試験を合格した学生の小テストの結果。共通の傾向は特に見いだせません。

期末試験を合格した学生の小テストの結果。共通の傾向は特に見いだせません。

期末試験に不合格だった学生の小テストの結果。合格者のものと比べても、目立った差異はありません。

期末試験に不合格だった学生の小テストの結果。合格者のものと比べても、目立った差異はありません。

項目反応理論は試験問題の難易度と学生の能力を同時に計算し、試験における"まぐれ当たり"などの要素を排除して、実力を適切に評価する手法のこと。教育データを科学的に取り扱う場面で、世界中で広く使用されていますが、日本での理工系科目への利用例は多くありません。

「このやり方で学生の習熟度の時間的な変化(トレンド)を見てみると、あれだけ判然としなかった合格者・不合格者の差が、くっきりと表れたのです」

期末試験合格者の習熟度トレンド。大部分の学生が、基準値の0より上に集まっています。

期末試験合格者の習熟度トレンド。大部分の学生が、基準値の0より上に集まっています。

期末試験不合格者の習熟度トレンド。合格者とは反対に、大部分の学生が、0より下に集まっています。

期末試験不合格者の習熟度トレンド。合格者とは反対に、大部分の学生が、0より下に集まっています。

後は、個々の学生の習熟度トレンドを割り出し、それが合格者トレンドと不合格者トレンドのどちらに類似しているか比較します。それにより、40%以上の確率で「期末試験に不合格となるかもしれない」と警告を出せるようになったのです。
学生の習熟度トレンドは、学期が3分の1程度過ぎた段階でもう割り出せます。その段階で警告を出せば、リカバリーする時間が十分にあるため、対象学生の奮起を促せるわけです。

「テスト結果を学生支援に活かす研究はいろんな大学で行われています。しかし、1学年の全学生1000人という大規模なデータを対象にする例は耳にしたことがありません。"教育ビッグデータ"を項目反応理論や機械学習の手法で分析し、警告を出すまでの成果に結びつけているのは、恐らく本学だけでしょう」



補習では、学生の習熟度に応じた問題をシステムが自動選択。

小テスト結果から合否確率を割り出すこのシステムも、実は廣瀬先生らが構築した学習支援プログラムの一部に過ぎません。

「プログラムは3つのシステムで構成されています。小テストを提供するのはLCTというシステムで、期末試験の合否アラートを出せるだけでなく、習熟度不足の学生を抽出する役目も果たします。習熟度不足の学生には補習授業を案内するのですが、補習用の演習問題を提供するのがCWTというシステム、また補習授業での理解度を測るための試験を提供するのがFPTというシステムです」

補習で使用するCWT(演習)、FPT(試験)の特徴は、受講学生の能力によって、提供する問題をシステムが自動で判別する点です。同じ補習授業で席を並べていても、AさんとBさんでは、CWTやFPTでこなしている問題が異なるのです。
補習が必要と判定された学生の弱点は一律ではありません。そんな状況で一律の問題を提供しても、習熟度の向上は望めません。そこで各学生の能力に合った問題を、システムに自動判別させようというわけです。

CWT・FPTにおいても、項目反応理論が活躍しています。LCT(小テスト)に加え、入学試験や入学後の能力テストなどの結果を集積した巨大な"教育ビッグデータ"を項目反応理論で評価することで、対象学生の能力や傾向が分析できます。それによって、その学生に最適の問題をCWTやFPTが提供するのです」

学習支援プログラムの一つであるLCTを受けるための画面。

学習支援プログラムの一つであるLCTを受けるための画面。

学生がLCTにより提供された小テストを受けているところ。出題・解答ともオンライン上で行われ、データは全て集約されます。

学生がLCTにより提供された小テストを受けているところ。出題・解答ともオンライン上で行われ、データは全て集約されます。

数学授業のさらなる質向上にも貢献。

学習支援プログラムには、数学問題約3000問がストックされ、項目反応理論により難易度がランク分けされています。LCT・CWT・FPTで問題を提供する際も、ストックから難易度を見ながら適切にチョイスするのですが、問題は数学担当教員で手分けして作成したものです。

「工科系大学の重要な基礎である数学を、全学生にしっかり習得させよう。そういった目的のもと、数学担当教員が一丸となれた。そのことが、学習支援プログラムを実現に導く原動力となったのは間違いありません。3000問あればかなり柔軟な対応が可能。不足していると感じたら、問題を新規作成して追加もできるので、システムが陳腐化することもありません」

これまでは各教員が、小テストの作成や採点に膨大な時間を割かれていました。しかしLCTの稼働で均質な小テストを提供できるようになり、採点の時間が大幅に削減できました。その分、授業の質をいっそう向上させることに時間をあてられるようになったのです。

廣瀬先生の著作物や、先生が寄稿した記事を掲載している雑誌。統計学がデータサイエンスを行うための下地になっているのです。

廣瀬先生の著作物や、先生が寄稿した記事を掲載している雑誌。統計学がデータサイエンスを行うための下地になっているのです。

AIやビッグデータの活用に、データサイエンスは欠かせない。

「入学後すぐに能力別試験を実施して学生を成績別に分け、習熟度に応じた授業を行う、ということはいろんな大学で行われています。しかし、入学時点の学生の能力がそのまま固定化されることは、まずありません。入学当初は優秀な成績だった学生が、途中でついていけなくなることは、往々にしてある。本学の学習支援プログラムはそういった、途中からドロップアウトしそうになった学生でもカバーできるのです」

そう語る廣瀬先生。今後は"教育ビッグデータ"をさらに集約し、多面的に活用したい、と意欲を語ります。

「例えば、授業や補習に学生がどれだけ出席しているか、どの時期に欠席しているか、といったデータを加えてみたら、今まで見えなかった傾向がつかめるのではないかと思っています。実は授業への出欠というのは、大きな情報なんです。出欠とLCT結果をつきあわせてみると、授業をもっと面白くするためのヒントが見えてくる...など、新たな発見があるかもしれません」

現在は習熟不足の学生のサポートを優先して行っていますが、逆の方向でも活用できるのではないか。すなわち、高い能力を持つ学生の可能性をさらに引き出すシステムとしても有効なのではないか。そうにらんで、先生は研究・分析を続けています。

「広島工業大学では今後、新入生のコンピテンシー(高い成果につながる行動特性)を測るテストの導入を検討しています。こうしたテストのデータと連携させると、学生の学習意欲をより向上させるシステムの構築につながるのではないでしょうか」と意欲を語る廣瀬先生。

「広島工業大学では今後、新入生のコンピテンシー(高い成果につながる行動特性)を測るテストの導入を検討しています。こうしたテストのデータと連携させると、学生の学習意欲をより向上させるシステムの構築につながるのではないでしょうか」と意欲を語る廣瀬先生。

今やあらゆる方面で、多くの人々がAIやビッグデータ、IoTなどを利用した新たな技術・サービス・事業の開発に取り組んでいます。
その根本となるのが、データサイエンスなのです。データを科学的に読み解き、論理的に仮説を組み立て、具体的な行動を起こす、というデータサイエンスの視点がなければ、AIもビッグデータも、その力をフルに発揮することはありません。
広島工業大学では既に、データサイエンスを様々な教育・研究の現場に導入しています。データサイエンスにより実践的に取り組むことで、研究・学習効果の最大化を図っているのです。そうした環境の中で学生たちは、データサイエンスの視点や本質、具体的な応用法を学んでいます。

データサイエンス研究センター


※9月28日(土)に開催される「2019年度放送大学国際シンポジウム」で、廣瀬先生が講演を行います。
詳細はこちら