材料科学論文の図表から情報抽出するツールの開発 Extracting Data From Figures in Materials Science Articles

thumb image

NEDO「超先端材料超高速開発基盤技術プロジェクト」の「計算機支援次世代ナノ構造設計基盤技術/材料データ構造化AIツール開発」では、材料科学分野における特許・論文等のすでに公開されている材料データや、素材企業が保有する材料データから物質の物性情報(物質名・物性・数値およびそれらの関係性)やプロセスデータ等を抽出してAIで利用可能な形にする研究開発プロジェクトを進めています。
このプロジェクトにおいて、ステアラボは奈良先端科学技術大学院大学(NAIST)の再委託を受け、「材料科学論文の図表から情報抽出するツールの開発」の課題に取り組んでいます。

論文の折れ線グラフ等からその図の作成に使った生データを再現すれば、AIで利用可能な形にできます。これをするためには、折れ線の数値読み取りとテキスト箇所の読み取りが必要となります。ステアラボでは、このテキスト箇所を自動で読み取るOCRツールを開発しています。
論文の図は、何らかのプロットソフトで描かれたものがほとんどであり、その中のテキスト箇所も機械的に書かれた文字となります。これはOCRにとっては比較的認識しやすい設定ですが、cm2やxiといった上付き・下付き文字や、特殊な数学記号など、材料科学論文特有のテキストがあり、公開されているOCRツールを利用するだけでは十分な認識性能が出せません。また、古い論文になると、画像の解像度の低かったり、ノイズが混じっていたりしているため、それらも文字認識精度を悪化させる原因となります。
このような問題点を解決するため、OCRを訓練するためのデータセットの構築や、新たなOCRツールの開発を行っています。

— 書籍 —

2021.12.13

Members