JP EN

研究アウトプットと研究者属性の関係性分析 国立大学・研究開発法人等の研究力の見える化 研究アウトプットと研究者属性の関係性分析

1. 「見える化」の目的

 国費としての研究費がどのように論文等のアウトプットに結びついているかを見える化するシステムを構築した。具体的には、商用書誌情報データベースに収録された論文データと府省共通研究開発システム(e-Rad)の研究者情報を紐付けることにより、研究アウトプットと研究者属性の関係性を可視化した。なお、本システムを用いた分析は、より効果的な資金配分の在り方を検討していく上で極めて重要であり、関係省庁による政策立案や大学・研究開発法人等による経営マネジメントの高度化に役立てていくことが期待される

2. 「見える化」の方法

2.1 利用した書誌情報データベース

  • A) Dimensions (Digital Science 社)
    2021 年 4 月時点の全世界バルクデータから内閣府が抽出した出版年が 2008 年~ 2021 年の論文データを用いた。
  • B) Scopus (Elsevier 社)
    2021 年 4 月時点において、Elsevier 社が抽出した出版年が 2008 年~ 2020 年の日本の研究機関からの論文データを用いた。
  • C) Web of Science (Clarivate Analytics 社)
    2019 年 10 月時点において Clarivate Analytics 社が抽出した出版年が 2008 年~2019 年の日本の研究機関からの論文データを用いた。文献の範囲は、自然科学、人文・社会科学、学術書籍、地域・成長分野である。
  • D) J-STAGE (JST)
    2021年12月時点において、JSTが抽出した出版年が2008年~2020年の日本の研究機関からの論文データを用いた。

2.2 書誌情報データベースの著者 ID と e-Rad の研究者番号との紐付け

論文著者属性の推定手法
2.2 図 1 論文著者属性の推定手法

 e-Rad に収録されている研究者データから、研究者番号、姓、名(フリガナと英字)、研究機関を抽出した。英字の姓名が収録されていないデータについては、フリガナから機械的に穴埋めを行った。 研究者番号と著者 ID の紐付けは、英字の姓、英字の名、研究機関の完全一致により行った。複数の著者 ID が付与されている研究者や、同一機関に同姓同名の研究者が所属する場合には、研究者番号に対し複数の著者IDが該当するが、完全一致条件を満たす全ての著者 ID を取得した。

各書誌情報データベースにおける手順は以下の通りである。

  • A) Dimensions
     Digital Science 社のオープンアクセスデータベースである Global Research Identifier Database から日本の研究機関の機関 ID (gridid) と機関名(英名、和名)のテーブルを取得した。e-Rad に収録されている研究機関名との機械的な突き合せを行い、機関名の不一致により紐付けできなかった主要機関については、機関名寄せ用のコラムをマニュアルで作成することで一致率を改善させ e-Rad 研究機関の gridid を得た。その後、著者の姓(英字)、著者の名(英字)、所属機関 (gridid) が完全一致し、かつ現在有効な著者 ID を API を介して取得した。
  • B) Scopus
     Elsevier 社から提供された機関名(英名)と機関 ID のテーブルと、e-Rad に収録されている研究機関名との機械的な突き合せを行い、機関名の不一致により紐付けできなかった主要機関については、機関名寄せ用フィールドをマニュアルで作成することで一致率を改善させ e-Rad 研究機関の Elsevier 社における機関 ID を得た。Scopus の著者データは姓名が分割されていなかったため、e-Rad の著者の名(英字)と著者の姓(英字)を半角スペースを介して結合し、姓名(英字)、所属機関が完全一致する著者 ID を SQL により取得した。
  • C) ScopusとJ-STAGEの統合
     「Scopus」と「J-STAGE」との統合データセットは、2021年12月時点における、2008年から2020年までのScopus(https://scopus.com)とJSTAGE(https://www.jstage.jst.go.jp/)のデータを統合して構築した。このデータセットでは、基本的なメタデータフィールド(タイトル、ページ、DOIなど)の一致を確認し、重複する論文は削除した。論文が重複する場合には、Scopusの論文データを優先的に使用した。
     被引用数のカウント等においては、J-STAGEの日本語の参考文献は英語に機械翻訳され、Scopusのデータベースと照合した。著者プロフィールにおいては自動マッチングプロセスにより照合され、マッチしなかった著者については、新たなプロフィールを作成した。
  • D) Web of Science
     Clarivate Analytics 社により提供された論文データには、機関 ID が付与されておらず、機関表記ゆれも多く見られた。e-Rad に収録されている研究機関名(英字)との機械的な突き合せを行い、機関名の不一致により紐付けできなかった主要機関については、機関名寄せ用フィールドをマニュアルで作成することで一致率を改善させた。その後、著者の姓(英字)、著者の名(英字)、所属機関が完全一致する著者 ID を SQL により取得した。なお、取得した著者 ID は、研究者自身が登録し、publons で公開されている Web of Science Researcher ID ではなく、Web of Science における著者を識別する ID である。データベースとして付与しているものであり、著者本人の確認を経ているものではない。

2.3 書誌情報と e-Rad の研究者属性の紐付け

 e-Rad 研究者番号と著者 ID の対応テーブルを用いて、各研究者に対応する書誌情報を各データベースから抽出した。論文著者の属性については 2.3 表 1 に示すとおり推定または取得した。可視化に用いた指標は 2.3 表2 のとおりである。

論文著者の属性
2.3 表 1 論文著者の属性
各指標の説明
2.3 表 2 各指標の説明

3. 「見える化」の結果

前節に述べた方法による「見える化」の結果を PDF 形式で提供いたします。以下のリンクよりダウンロードしてご活用ください。