Scholia

fumi · December 14, 2018

これはWikimedia Advent Calendar 2018 13日目の記事です。

ScholiaWikidataに学術情報集約して使おうという野心的なプロジェクトです。書誌、著者、機関等のデータをWikidataに入れることで、まとめや関連付けを行い、さらにその利活用を推進することができます。

図1: Scholia
図1: Scholia

Scholia のウェブサイトはhttps://tools.wmflabs.org/scholia/ です (図1)。ここでは、著者や機関のプロフィール、論文や賞といった単純な情報の提示や可視化から、機関をまたいだ共同研究や引用関係の比較のような凝った探索もできるようになっています。表示情報はすべてWikidataからSPARQLクエリで取得して作成されています。

図2: Turing Award
図2: Turing Award

コンピュータ科学の賞であるチューリング賞 (図2)を見ると、受賞者リストやその画像、トピック、受賞者の最近の論文や他に受賞した賞、居住地といった関連データを一覧することができます。これは、Wikidata上のチューリング賞 (Q185667) を起点として、SPARQLで取得していることになります。実際のSPARQLクエリはWikidata独自の拡張がされているのでそれに慣れないといけないですが、各表示ごとにクエリを見るためのリンクがあるので、中身を確認できます。例えばチューリング賞を受賞した人が他に受賞した賞のクエリは以下になります (実行結果へのリンク)。

SELECT ?number_of_corecipients ?award ?awardLabel
WITH {
  SELECT ?award (COUNT(?recipient) AS ?number_of_corecipients)
  WHERE {
   ?recipient wdt:P166 wd:Q185667 .
   ?recipient wdt:P166 ?award .
   FILTER (?award != wd:Q185667)
  }
  GROUP BY ?award
} AS %result
WHERE {
  INCLUDE %result
  SERVICE wikibase:label { bd:serviceParam wikibase:language "en,da,de,es,fr,jp,no,ru,sv,zh" . }  
}
ORDER BY DESC(?number_of_corecipients)

Wikidataなのでコミュニティによってこれらのデータが作られているわけですが、大きな影響があるのはWikiCiteです。WikiCiteは学術情報の中でも特にオープンな引用関係のデータや書誌データに興味があるコミュニティです。WikidataにはIdentifiersというセクションがあり、あるアイテムに対する外部識別子を集約する場所としてよく使われていますが、学術情報についても外部識別子を集約して、著者と論文と機関といった関係をWikidataのID上の関係を通して辿れるようにしようとしています。

外部識別子は、例えば書誌データにおいてはDOI (Digital Object Identifier)PMID (PubMed ID)、著者ではORCIDVIAFといった学術の世界ではメジャーなものから、GitHubTwitterのアカウントのようなWeb上のソーシャルアカウントまで広く入力されています。2018年ノーベル生理学・医学賞を受賞した本庶先生のアイテムにはORCIDやCiNii Booksのauthor ID等15の識別子が登録されています。そうすることで、Scholia上ではCiting authorsで本庶先生がciteした論文著者のORCIDを表示したりできます。

図3: Citing authors of Tasuku Honjo
図3: Citing authors of Tasuku Honjo

このように学術情報を集約して関連付けて再利用可能にするという試みは色々なところで行われているのですが、Scholiaは注目に値する活動です。網羅性という意味ではまだまだですが、それは時間とともに解決していく話だとおもいます。彼らの論文によると、将来これらがCVのように使われるのではということを考えているようです。

Twitter, Facebook