これはCivic Tech Advent Calendar 2014の19日目の記事です.

最近,Open Parkというプロジェクトを勝手にはじめてみました.直接のきっかけは,公園の禁止事項がどんどん増えているのを見て,そもそも地域の公園情報が全然共有されていないと感じたことでした.単純にボールを使って遊びたいと思っても,できる公園を探すのが大変です.大きい運動公園くらいになると検索サイトがあったりするのですが,住宅街の中の公園は殆ど何もなく,多くの場合は現地の掲示板や看板にのみ許可や禁止が書かれています.内容は法律や条例で禁止されているものからマナーまで様々です.最初は自治体がこの手の情報を全て管理しているのかと想像していたのですが,実はそうではなく愛護会のように地域住民のボランティアで成り立っている部分がかなりあることがわかりました.そこで,地域の公園データを収集・公開・共有できる場所が必要なのではないかと考えました.

公園看板
公園看板

とりあえず試作してみようということで,主に横浜市金沢区のオープンデータを利用して,Open Park Yokohamaというのを作ってみました.横浜市金沢区を最初の例として選んだ理由は,公園関連のデータが既にいくつか公開されていたためです.

現在Open Park Yokohamaでできることは,地図から公園を探すのと遊具の種類で探すことだけです.各公園のページでは,公園の基本データと,公園にある遊具や看板写真等を載せています.写真については手始めに30ヶ所程度の公園を撮影してきましたが,金沢区全域で190の公園があるので1/6程しかカバーしていません.

寺前さざなみ公園
寺前さざなみ公園

技術的な話としては,データは主に共通語彙基盤のコア語彙2.10Schema.orgをベースに設計をしてあります.一応現在のデータ用のSPARQLエンドポイントも出していますが,今後データ設計は変える予定ですのでお試し程度ということで.Linked Data対応等のAPI充実化はする予定です.

今取り組んでいるのは,公園写真を増やすことと,それらの写真から禁止事項や許可事項をデータ化して禁止・許可事項データを作ることです.やってみると結構大変で,公園毎に表現がバラバラだったり曖昧だったりします.顕著な例としては上の看板にある「危険な球技」や「危険なあそび」というのです.公園毎に「危険な球技」として列挙されている球技が異なりますし,そもそも「危険な球技」が何かがわからないので判断に困ります.これが,数を集めるとわかったりするのではないかと期待しています.全国でやってみると地域ごとの傾向があったりするかもしれません.

将来的には市民を巻き込んで発展していく仕組みが必要だと考えています.例えば横浜全体でやろうとすると公園が2000近くあるそうなので,スマートフォンで写真をアップロードしてもらったり,データを入力してもらったりして効率よく収集する仕組みがあるといいでしょう.OpenStreetMapで公園データを充実させて利用するというのもありえます.うまく全国で集められるようになると面白いなとおもっています.

最近自分が何をしているかはここよりslideshareをみたほうが良いという感じになってしまっています.先日2013年7月5日に人工知能学会主催で行ったセミナーがこれまでのまとめのような内容なのでここでも共有しておきます.Linked Open Dataについて一から知りたい人向けです.

私も翻訳に参加したLinked Dataの本が2/4に発売されます.日本語でLinked Dataについて包括的に解説するはじめての本ですので,Linked Dataやオープンデータ,Web技術に興味がある方皆様に役立つとおもいます.是非お手にとって頂ければ幸いです.(目次案)

アマゾンのサーバでエラーが起こっているかもしれません。
一度ページを再読み込みしてみてください。

今年は全然ブログ書く気力がなかったので最後に軽くまとめを書いておこうとおもいます.まだ書いていないことも色々ありますが,総じて今年はオープンデータ・オープンガバメントが日本でも花開きそうな一年でした.

LODチャレンジJapan

オープンデータのコンテストとして,昨年度LODチャレンジ Japan 2011を開催しました.一委員として,主にチャレンジデーの運営等を担当していました.震災後から活動のお手伝いをしているsaveMLAKについて,オープンデータとして整備したので応募したところデータセット部門 最優秀賞を頂きました.これは私個人というよりsaveMLAKコミュニティ全体が評価されたということだとおもいます.

LODチャレンジは今年度も絶賛募集中です.応募〆切は2013年1月31日なので興味のある方は是非応募をご検討下さい.

DBpedia Japanese

長年日本のLinked Data業界的に懸念だった”日本語のハブがない”問題を解決するために,DBpediaの日本語版であるDBpedia Japaneseを立ち上げました.DBpediaはWikipediaのダンプデータを変換してLODとして再公開するコミュニティプロジェクトです.それの日本語Wikipedia分を担当しています.

DBpedia Japaneseまだ発展途上で,WikipediaのテンプレートやテーブルをDBpedia の語彙 (DBpedia OntologyやFOAF等)に対応付ける作業を進める必要があります.現時点でのマッピング状況はMapping Statistics for jaで見ることができます.
もしこの作業に興味のある方は http://lod.ac/wiki/DBpedia_Mappings を読んでいただければとおもいます.

特定非営利活動法人リンクト・オープンデータ・イニシアティブ

Linked Data / Open Dataの普及,利活用を推進していくためにNPO法人
今年4月に申請,8月に設立しました.社会的貢献として,主に技術面から日本のオープンデータ,オープンガバメント推進の手助けをしていく予定です.

すでに福井県鯖江市と技術面での共同作業をしていますし,関係者が省庁や地方自治体のオープンデータ・オープンガバメント関連委員会の委員を勤めたりしているなど,様々な活動を開始しています.今まで福井に行ったことなかったのに今年鯖江に4回も行く事になるとは去年の段階では想像していませんでした...

CKAN

GLOCOM主催のオープンデータ活用アイデアソンがきっかけで,CKANの日本語化プロジェクトをスタートしました.CKANはデータポータルサイトのFLOSSで,データカタログやデータストア,API等の機能を持っています.大分本家にフィードバックされているのですがまだまだ足りない作業もありますし,今後は日本語化だけではなくてCKAN自体にコミットして行くことが望まれるかなと.

この手のソフトウェアでは,他にOGPLがFLOSSになりました.SocrataもFLOSSになる予定らしいです.そんな中CKANを個人的に推している理由は,これがいくつかの意味でLinked Dataのプラットフォームでもあるからです.

CKANで入力されたカタログデータは実はLinked Dataとして公開されています.例えばブルガリア政府の支出についてのデータ.また,LOD Cloudに載せてもらうための手続きは,CKANで構築されたサイトthe Data Hub決められた情報を追加することです.

CKANについてはいずれまとまった文章を書くつもりです.

生物学関係

昨年から生物種名のLinked Dataについてあれこれやってきました.LODチャレンジ2011にLODAC BDLSを出し,それをベースにLODAC Speciesという種名のLinked Dataを構築しました.生物種に関するデータのハブになることを目指しています.また,これを利用した検索拡張のデモ (1, 2)とかも作りました.

生物学は分散データの統合プラットフォームとしてLinked DataやSPARQLの採用が進んでいる分野です.私もBiohackathon等様々なイベントに参加させて頂いて大変刺激になりました.

mmmap: Yet Another 学会支援システム

奈良で開催されたACM Multimedia 2012JIST2012用のスケジュール等をLinked Dataのアプリケーションとして作成しました.

Evernote APIの連載

技術評論社で昨年からEvernote APIについての不定期連載を書いていました.しかし,上記のOpen Data/Linked Data関連の仕事が今年一気に来たので執筆時間が取れず,途中で連載終了にさせて頂きました.Evernoteはユーザとしては今後も使い続けていきます.

ニコニコ学会β

深く運営に関わっているわけではないですが,ニコニコ学会βは手伝える範囲でお手伝いしています.今年はマッドネスの投票サイト(第2回,第3回を作ったりニコニコ超会議でスタッフやったりしていました.

EPUB3仕様書翻訳手伝い

とあるきっかけによりEPUB3仕様書の翻訳の手伝い(主に校正)をしています.電子書籍関係は元々興味対象なので,EPUBが広まるきっかけになればと.

本日DBpediaの日本語版を公開しました.これはWikipedia日本語版からデータを抽出してLinked Open Dataとして公開するものです.まだinfoboxからdbpedia-owl等の語彙へのマッピング作業等をしていないので取得できるデータが少ないですが,まずは第一段階ということで.

すでにEbookは販売されているのですが,O’reilly MediaからLearning SPARQLという本がでています.紙は7/22からのようです.一通り読みましたが,今のところ唯一のSPARQL解説本ですし,SPARQL1.1の細かい内容まで含んでいるのでお薦めです.セマンティックWeb プログラミングではSPARQLの話は少しでてくるだけでしたが,この本が補完してくれます.

既にWeb上では,SPARQLを使うことで政府データや音楽データ,生物データなどの多種多様なデータにアクセスできるようになっています.単なるWebAPIと異なるのは,SPARQLを一度覚えることで,SPARQLに対応しているサイトであればどこでも同じ仕組みでデータを使えるということです.他には複数のサイトからデータを取得してマージするときなどにメリットがあったりします.

日本でもすでに国立国会図書館典拠データ検索・提供サービス (Web NDL Authorities)DBCLSのAllie: A Search Service for Abbreviation / Long Form,我々のプロジェクトであるLODACなど,SPARQL Endpointを持っているサイトがでてきています.これらのデータを使うためにSPARQLを勉強するには良い本だと思います.

ちなみに今週末開催の第2回LinkedData勉強会のメインテーマはSPARQLです.SPARQLに少しでも興味がありましたら是非ご参加ください.

先日LinkedDataの勉強会を企画して行いました.今回はLinked Dataに興味があるけどどうやったらいいのかわからないという疑問に答えを見つけるために,プログラミング以外の方法でLinked Dataを作成するための支援ツールについて,有志に発表して頂きました.各発表資料はLinkedData.jpのページにまとめてあります.また,これを期にLinkedData.jp自体も少しずつ作り直しています.

個人の感想としては,Google Refineは今後データクリーニングをしたい人には必須のツールになるのではないかなと思いました.日本語がどの程度できるのかは未知なのですが,英語に関してはかなり良い精度でクリーニングできるようです.

これからは定期的に勉強会を開催していきたいと考えていますので,是非ご興味がある方はご参加ください.

オライリーさんの”Programming the Semantic Web”を有志で監訳した本が6/26に出ます.サンプルコードは監訳者一同が結構書き直して動くようにしたので,試しながら読めます.言語はPythonなんですが,Linked Dataなど,現在Web上にあるデータをどうやって使うのかという話がメインなので,他の言語でも役立つはずです.よろしかったら是非.

アマゾンのサーバでエラーが起こっているかもしれません。
一度ページを再読み込みしてみてください。

しばらく慌ただしかったのでブログを書けずにいました.twitterでは報告済みなのですが,新しいプロジェクトを始めるために4月末で早々に前職を退職し,5月中旬から別の職場に転職しました.Interop2010のW3Cブースにて概要を話しましたので,紹介代わりにスライドを貼っておきます.

同時期にW3CでもLibrary Linked Data Incubator Groupが始まりました.1年時限付きのグループで,既存の事例集めや要求事項まとめなどが目標のようです.このプロジェクトからも取り敢えず数名参加しています.しかし,一度標準化の世界に関わるとどこ行っても関わることになっているような気がしてこの世界狭いなと.

今日有志でSemweb&LOD勉強会を行いました.そこでとりあえず日本語で議論できる場所が必要ということになったため,Google GroupsにLinkedData.jpというグループを作りました.LinkedDataやSemantic Webについて議論したり開発したりする場になれば良いなと思っています.ご興味のある方は是非ご参加下さい.