これはWikimedia Advent Calendar 2018 13日目の記事です。

ScholiaWikidataに学術情報集約して使おうという野心的なプロジェクトです。書誌、著者、機関等のデータをWikidataに入れることで、まとめや関連付けを行い、さらにその利活用を推進することができます。

図1: Scholia

Scholia のウェブサイトはhttps://tools.wmflabs.org/scholia/ です (図1)。ここでは、著者や機関のプロフィール、論文や賞といった単純な情報の提示や可視化から、機関をまたいだ共同研究や引用関係の比較のような凝った探索もできるようになっています。表示情報はすべてWikidataからSPARQLクエリで取得して作成されています。

図2: Turing Award

コンピュータ科学の賞であるチューリング賞 (図2)を見ると、受賞者リストやその画像、トピック、受賞者の最近の論文や他に受賞した賞、居住地といった関連データを一覧することができます。これは、Wikidata上のチューリング賞 (Q185667) を起点として、SPARQLで取得していることになります。実際のSPARQLクエリはWikidata独自の拡張がされているのでそれに慣れないといけないですが、各表示ごとにクエリを見るためのリンクがあるので、中身を確認できます。例えばチューリング賞を受賞した人が他に受賞した賞のクエリは以下になります (実行結果へのリンク)。

SELECT ?number_of_corecipients ?award ?awardLabel
WITH {
  SELECT ?award (COUNT(?recipient) AS ?number_of_corecipients)
  WHERE {
    ?recipient wdt:P166 wd:Q185667 .
  ?recipient wdt:P166 ?award .
  FILTER (?award != wd:Q185667)
 }
 GROUP BY ?award
} AS %result
WHERE {
 INCLUDE %result 
 SERVICE wikibase:label { bd:serviceParam wikibase:language "en,da,de,es,fr,jp,no,ru,sv,zh" . }  
}
ORDER BY DESC(?number_of_corecipients)
 

Wikidataなのでコミュニティによってこれらのデータが作られているわけですが、大きな影響があるのはWikiCiteです。WikiCiteは学術情報の中でも特にオープンな引用関係のデータや書誌データに興味があるコミュニティです。WikidataにはIdentifiersというセクションがあり、あるアイテムに対する外部識別子を集約する場所としてよく使われていますが、学術情報についても外部識別子を集約して、著者と論文と機関といった関係をWikidataのID上の関係を通して辿れるようにしようとしています。

外部識別子は、例えば書誌データにおいてはDOI (Digital Object Identifier)PMID (PubMed ID)、著者ではORCIDVIAFといった学術の世界ではメジャーなものから、GitHubTwitterのアカウントのようなWeb上のソーシャルアカウントまで広く入力されています。2018年ノーベル生理学・医学賞を受賞した本庶先生のアイテムにはORCIDやCiNii Booksのauthor ID等15の識別子が登録されています。そうすることで、Scholia上ではCiting authorsで本庶先生がciteした論文著者のORCIDを表示したりできます。

図3: Citing authors of Tasuku Honjo

このように学術情報を集約して関連付けて再利用可能にするという試みは色々なところで行われているのですが、Scholiaは注目に値する活動です。網羅性という意味ではまだまだですが、それは時間とともに解決していく話だとおもいます。彼らの論文によると、将来これらがCVのように使われるのではということを考えているようです。



カンファレンスカメラマン Advent Calendar 2017 22日目の記事です。

ガジェットについて書かなくなって久しいのですが、触っていないかというとそうではなくて、ここ数年はカメラとKickstarterがメインです。Kickstarterも半分はカメラ関係。3年半前に写真を始めたのですが理由は2つあって、NPOのセミナー記録のためと、子供が産まれたためです。意外と面白くて気がついたら写真を撮るのが日常になり常にカバンに何かのカメラは入れるようにしているので、携帯電話のカメラで十分だろと思っていたときから比べると人は変わるもんです。後基本飽きっぽいのに3年半も続いているので本物感あります。

私は研究のカンファレンスの他にオープンデータ、ウィキペディア、図書館あたりのコミュニティに良くいます。これまでの簡単なまとめはカンファレンスカメラマンカンファレンス #1でLTをした内容があるので貼っておきます。

今年カンファレンスカメラマンとして撮影していたのは以下の通りです。

  • 3月11日 LODチャレンジ2016 授賞式
  • 4月25日 第8回LinkedData勉強会
  • 8月3日 第1回Linked Open Data (LOD) 活用ワークショップ
  • 9月2-3日 Code4Lib JAPAN Conference 2017
  • 9月28日 LODチャレンジ2017 キックオフ
  • 10月14日 武田研大同窓会
  • 11月30日 実践!統計LOD活用セミナー in 東京
  • 12月2日 第22回知識情報学フォーラム
  • 12月15日 AXIES 2017内セミナー

参加者として少し撮っていたイベントもあります。

  • 3月5日 ウィキペディアタウンサミット 2017 京都
  • 8月21日 カンファレンスカメラマンカンファレンス #1
  • 10月8日 共通語彙基盤ワークショップ・ハッカソン
  • 10月16日 カンファレンスカメラマンカンファレンス #2
  • 11月8-10日 図書館総合展 2017

写真共有は、何も要求がなければとりあえずGoogle Photosでしています。縮小されてしまう点が本当に気に入らないですが手軽に無料で複数人で共有できるのこれしかないような。公開要求がある場合はFlickrにも載せています。

カンファレンス撮影時の現在のメイン装備は、Canon 5D Mark IVとEF 24-70mm F2.8L II USM + EF 70-200 F2.8L IS II USM です。自分一人だけで失敗できないときはいつもこの組み合わせです。カンファレンスカメラマンカンファレンス #1で”レンズ交換する奴は〜”と言われてしまいましたがレンズ交換しています。Peak Designのレンズホルダー便利に使っています。丁度昨日KickstarterのTriLensっていうキワモノのレンズホルダーが届いたのですが70-200付けて回転させるのは問題ありそうなのです。むしろこれ付けて単焦点だけでカンファレンスカメラマンやっても面白いかもしれません。

シャッター音気になるときもあるのでミラーレスやっぱり欲しいなーとおもうときもあります。また、他に撮る人がいたり、気楽な立場のときは、MFのレンズつけたり、フィルムカメラで撮ったりしています。プライベートではむしろフィルムで撮る率高いです。それはまた別に書きます。

来年の抱負としては、これまで本やウェブで独学でカメラや写真の勉強をしてきたのですが、カンファレンスカメラマンカンファレンス #2 でモデル撮影体験した後だとこれはポートレート撮影やストロボの講習会受けないとダメだなぁとおもいましたのでどこかで習いたいです。

この投稿にタグはありません。



昨年市川市に引っ越してきてからCode for Ichikawaをやるのはどうかという話をしていたのですが、今年10月に色々な縁があり、とりあえず有志ではじめてみることになりました。最初の活動内容としては、個人的に行っていた5374 市川版のメンテと、複数のメンバーが興味を持ったウィキペディアタウンということにしました。5374については、codeforichikawaのレポジトリに移行中です。

もう1つのウィキペディアタウンについては、昨日11月3日に第1回ウィキペディアタウン市川と銘打って開催をしました。真面目な開催報告はCode for Ichikawaのサイトに書きましたのでこちらは個人的な感想を書きます。

間に神戸の国際会議運営があったために準備期間が短く、かなり苦労しました。対象を何にするかが一番悩みました。観光雑誌に載っているような有名スポット、例えば市川市の神社仏閣だと葛飾八幡宮法華経寺弘法寺とかは当然のようにウィキペディアにエントリがあります。ウィキペディアタウンをやる上では新規エントリ作成が満足度が高いと伝え聞くのですが、
会場の周りでまだエントリがないけど現地調査楽しめそうで参考文献も見つけられそうなものとかいう制約条件を充足するものを探そうとするとはまります。今回は会場が先に市川市文化会館に決まったので本八幡周辺で探すことになりました。調べていると市川市役所の神社にある「市内で神主が常駐しているのは葛飾八幡宮、白幡天神社の2社」という記述を見つけたので、これはきっと記事にできるくらいの何かがあるだろうという当たりをつけて、市川駅南口図書館にリファレンスをお願いしつつ自分でも調査をしました。

菅野から真間あたりは文学者ゆかりが多いようなので、文学者を中心に見るということをしたところ、幸田露伴・文親子や永井荷風が近所に住んでいて云々とかそこそこ面白いエピソードが見つかったのですが、肝心の神社自体の歴史があんまりよくわからずどうしたもんかなとおもっていましたがやはり図書館側でも神社自体の記述はそんなに見つけられなかったという話でした。勉強になったのは、ここら一帯は昔葛飾郡だったので、葛飾ほげほげという資料が色々役に立つということです。今後のウィキペディアタウン市川でも活用できるでしょう。

また、柴田是真の連句が千葉県指定文化財になっているとのことで、内覧をお願いできないかとおもっていたのですが、電話で問い合わせたところ、普段は可なのですが丁度七五三で11/15までは無理ですと言われてしまいました。完全に七五三とか失念していましたが、日を改めて個人的に見てこようとおもっています。可能なら撮影も。

総じてかなり事前準備が大変で当日までかなりやきもきしましたが、白幡天神社の調査がこちらの想像以上に参加者の方々に興味を持っていただけたようでその点が良かったです。執筆のほうも楽しんで頂けたようです。市外からいらっしゃってサポートや執筆ガンガンして頂いたウィキペディアンな方々や資料用意して頂いた市川駅南口図書館の館長さまにはお礼申し上げます。

無事終わった後の焼き鳥は美味しかったです。ウィキペディアタウンは継続して行っていきたいので、次の手を考えていこうとおもいます。

おまけですが、白幡天神社と併設の白幡天神公園について、OpenStreetMapでラベル等の項目追加をしました。OSMは正直まだアカウント作ったばかりで不慣れなのでこう直せとかマッパーの人優しく教えてください。とりあえずその項目ISO codeだよと直されているのは確認しました:)。市川市全然書き込みが足りていない感があるのでマッパーの方のご参加もお待ちしておりますというかOSM書く会もやれると良いですね。

この投稿にタグはありません。



ここ最近オープンサイエンスの流れをうけて研究データのオープン化とか研究データ論文とかがにわかに話題になっているのですが,まずは自分がやってみないとということで,手始めに人工知能学会全国大会の原稿用に作ったデータセットにDOIふるというのをやってみました.なんでもDOIをふってくれるサイトとしてはfigshareとかがありますが,今回はZenodoを使ってみることにしました.理由はGitHub連携が面白そうだったからです.

ZenodoのSign UpはGitHubORCIDのアカウント持っていれば簡単にできます.私の場合はGitHubアカウントで登録して後からORCIDにも連携しました.

利用の仕方は,直接アップロードするか,Dropboxと連携するか,GitHubと連携するかになっています.一回毎に2GBまでOKだそうです.対象種類に制限はなくて,論文,ポスター,画像,ビデオ,ソフトウェア等何でも可能です.

今回作成したGitHubのレポジトリは,fumi/dbpedia-japanese-usecasesになります.DBpedia Japaneseを利活用しているアプリケーション,データセット,研究のリストという内容のデータをTSVで作成しました.

Zenodo側でGitHubレポジトリの連携をするのが以下の画面です.GitHub連携すると保有するレポジトリの全リストが取得されるので,連携したいレポジトリを明示的にOnにすれば良いです.Zenodo

その後に,連携したGitHubのレポジトリのほうで,”Releases”をクリックします.

GItHubのリリース
GItHubのリリース

次画面で”Draft a new release”をクリックすると,GitHub上でのリリースを行うフォームになるので,バージョン番号とコメント付けて”Publish release”をします.そうすると,Zenodo側が自動で新リリースの内容を取得してDOIを振ります.リリースした中身は,Zenodoのメニューの”My uploads”から辿ることが可能です.Zenodo

連携がうまく行っていれば先程リリースしたバージョンのリンクが含まれているはずですのでクリックします.次にしなければならないのが,データについての項目の編集です.”Edit”ボタンを押すと編集ができます.GitHubからの連携だとカテゴリが”Software”になっているので,データセットに変更する必要があります.他の項目は,AuthorやLicense,Keywordsという定番のものからFunding, Publicationなど研究関係の様々な項目が設定できるようになっています.Zenodo上でコミュニティを作るということもできるようです.変更が終わったら”Submit”すれば完了です.

編集画面
編集画面

編集が終わった後のView画面が以下です.

ZenodoのView
ZenodoのView

右のDOIバッジをクリックするとMarkdownやらHTMLやらでの埋め込みコードが取得できます.わりとすごいのがCite asのプルダウンメニューで殆どの論文誌や学会のrefをカバーしているところです.また,BibTexやEndNoteなどの形式のExportもできます.

使っていて不便だった点は,リリースをする毎に新しいDOIが発行されるのですが,同じもののバージョン違いのDOIに何の関連もないことと,項目内容の引き継ぎがないので毎回項目を再入力しないといけないことです.これが地味に面倒.また,別の問題としては,リリースをしないとDOIが発行されないので,READMEにDOIバッジをはっている場合,前のDOIバッジのREADMEが含まれたままリリースされることになることです.これは些細な話ではありますがリリースファイルをダウンロードすると一貫性がなくて不思議なきもちになります.

総じて連携は簡単で,とりあえずなんでもDOIをはっていくには便利そうなのでしばらく使おうとおもいます.



これは SPARQL Advent Calendar 2015 9日目の記事です.

以前Wikidata Linked Dataという記事を書いた通り,Wikidata のデータ提供部分はLinked Dataです.これまでもサードパーティがそのRDFで勝手SPARQLエンドポイントを立てていたりしたのですが,今年9月にWikimediaが公式にWikidata Query ServiceというSPARQLエンドポイントをβ公開しました.今回はこれを使ってみようとおもいます.

サンプル例にアメリカ歴代大統領というのがあったので,試しに歴代の内閣総理大臣を開始年でソートするクエリを書いてみました(SPARQL例へのリンク).

PREFIX wikibase: <http://wikiba.se/ontology#>
PREFIX wd: <http://www.wikidata.org/entity/> 
PREFIX wdt: <http://www.wikidata.org/prop/direct/>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX p: <http://www.wikidata.org/prop/>
PREFIX ps: <http://www.wikidata.org/prop/statement/>
PREFIX psv: <http://www.wikidata.org/prop/statement/value/>
PREFIX pq: <http://www.wikidata.org/prop/qualifier/>
PREFIX pqv: <http://www.wikidata.org/prop/qualifier/value/>

SELECT ?primeMinister ?primeMinisterLabel ?startTime
WHERE {
   ?primeMinister p:P39 ?positionStatement .
   ?positionStatement ps:P39 wd:Q274948 ; 
                      pq:P580 ?startTime .
  
   SERVICE wikibase:label {
      bd:serviceParam wikibase:language "ja,en" .
   }
 }
ORDER BY ?startTime

結果は45件で,データとしてはかなり欠けています.明治・大正時代の人が全然いませんし,近年をみても麻生太郎と鳩山由紀夫が入っていません.皆で日本に関するデータを整備していく必要があります.

Wikidataのデータは多言語化前提になっていて,全てのリソースにIDベースのIRIが振られていて,そのIRIに対して多言語によるラベルを付与するというモデルになっています.そのため,リソースによってラベルがある言語がバラバラになるので,言語指定のフォールバックができる仕組みをSPARQLを拡張して用意しています.上記のクエリのSERVICE wikibase:label { ... }の部分がそれです.bd:serviceParam wikibase:language "言語名"の言語名の部分に複数の言語を指定すると,その順番でラベルを使用します.例えば”ja,en”であれば日本語が主で,日本語がない場合は英語を取得します.指定した言語がない場合はリソースのIRIになります.SELECTで指定する変数として,実際にラベルを取得したい変数の最後に”Label”を付けたものを指定することで,自動的にラベルを取得できます.上記例では,?president 変数のラベルとして?presidentLabelを指定しています.

この自動ラベル変換機能は一々言語毎にFILTERをするといった複雑なことをしなくて済むので便利ですが,いくつか制約があります.まず,OPTIONALで使っている変数は現在エラーになるようです(これはバグかもしれません).また,ラベルの中身に応じてフィルターしたいときのように,クエリ内で変数を参照したいときには使えません.その場合は,SERVICE句の中で直接rdfs:labelでラベル変数を指定すれば良いです.但し,自動変換機能と併用することはできないので,必要なラベルを全て指定する必要があります.

Wikidataまだまだこれからですが,色んなエンティティを結びつけるデータとしてどんどん整理されつつあるので,揃ってくればかなり期待できるサービスだとおもいます.

参考:



有志でSPARQLについての解説本をインプレスR&Dさんより出版しました.すでに電子書籍は本日付で発売となっています (Kindle版, Kobo版, iBooks版, Google Play版).何故かGoogle Playはいきなり1割引しているようです...紙の本は後日Amazon.co.jpのプリント・オン・デマンド発売される予定です.



これはCivic Tech Advent Calendar 2014の19日目の記事です.

最近,Open Parkというプロジェクトを勝手にはじめてみました.直接のきっかけは,公園の禁止事項がどんどん増えているのを見て,そもそも地域の公園情報が全然共有されていないと感じたことでした.単純にボールを使って遊びたいと思っても,できる公園を探すのが大変です.大きい運動公園くらいになると検索サイトがあったりするのですが,住宅街の中の公園は殆ど何もなく,多くの場合は現地の掲示板や看板にのみ許可や禁止が書かれています.内容は法律や条例で禁止されているものからマナーまで様々です.最初は自治体がこの手の情報を全て管理しているのかと想像していたのですが,実はそうではなく愛護会のように地域住民のボランティアで成り立っている部分がかなりあることがわかりました.そこで,地域の公園データを収集・公開・共有できる場所が必要なのではないかと考えました.

公園看板
公園看板

とりあえず試作してみようということで,主に横浜市金沢区のオープンデータを利用して,Open Park Yokohamaというのを作ってみました.横浜市金沢区を最初の例として選んだ理由は,公園関連のデータが既にいくつか公開されていたためです.

現在Open Park Yokohamaでできることは,地図から公園を探すのと遊具の種類で探すことだけです.各公園のページでは,公園の基本データと,公園にある遊具や看板写真等を載せています.写真については手始めに30ヶ所程度の公園を撮影してきましたが,金沢区全域で190の公園があるので1/6程しかカバーしていません.

寺前さざなみ公園
寺前さざなみ公園

技術的な話としては,データは主に共通語彙基盤のコア語彙2.10Schema.orgをベースに設計をしてあります.一応現在のデータ用のSPARQLエンドポイントも出していますが,今後データ設計は変える予定ですのでお試し程度ということで.Linked Data対応等のAPI充実化はする予定です.

今取り組んでいるのは,公園写真を増やすことと,それらの写真から禁止事項や許可事項をデータ化して禁止・許可事項データを作ることです.やってみると結構大変で,公園毎に表現がバラバラだったり曖昧だったりします.顕著な例としては上の看板にある「危険な球技」や「危険なあそび」というのです.公園毎に「危険な球技」として列挙されている球技が異なりますし,そもそも「危険な球技」が何かがわからないので判断に困ります.これが,数を集めるとわかったりするのではないかと期待しています.全国でやってみると地域ごとの傾向があったりするかもしれません.

将来的には市民を巻き込んで発展していく仕組みが必要だと考えています.例えば横浜全体でやろうとすると公園が2000近くあるそうなので,スマートフォンで写真をアップロードしてもらったり,データを入力してもらったりして効率よく収集する仕組みがあるといいでしょう.OpenStreetMapで公園データを充実させて利用するというのもありえます.うまく全国で集められるようになると面白いなとおもっています.