有志でSPARQLについての解説本をインプレスR&Dさんより出版しました.すでに電子書籍は本日付で発売となっています (Kindle版, Kobo版, iBooks版, Google Play版).何故かGoogle Playはいきなり1割引しているようです...紙の本は後日Amazon.co.jpのプリント・オン・デマンド発売される予定です.

オライリーさんの”Programming the Semantic Web”を有志で監訳した本が6/26に出ます.サンプルコードは監訳者一同が結構書き直して動くようにしたので,試しながら読めます.言語はPythonなんですが,Linked Dataなど,現在Web上にあるデータをどうやって使うのかという話がメインなので,他の言語でも役立つはずです.よろしかったら是非.

アマゾンのサーバでエラーが起こっているかもしれません。
一度ページを再読み込みしてみてください。

RubyからRDFを使うライブラリをいくつか紹介してきましたが,最近急ピッチで開発されているRDF.rbが本命になりそうです.まだSPARQLは使えず,基本的なことしかできませんが,やっとどれを使ったらいいのかよくわからないという状況が変わりそうです.

ちゃんとした紹介を日本語で書こうと思っていたら,作者達が良くできたチュートリアルを書いてくれたので,それを翻訳することにしました.とりあえずここに置いておくことにします.

RubyによるRDFデータの解析と永続化 (Parsing and Serializing RDF Data with Ruby)

original text 2010/04/21 by Arto

このチュートリアルでは、Ruby用のライブラリRDF.rbを使ったRDFデータの解析と永続化の方法を学びます。RDFを基礎としたLinked Dataの永続化形式には色々ありますが、RDF.rbでは多くの形式が使えます。

このチュートリアルに沿ってコード例を試すには、RubyとRubygemsだけが必要です。最近のRuby 1.8.xや1.9.x、またはJRuby1.4.0以上なら動きます。

サポートしているRDF形式

現在RDF.rbで解析や永続化できるRDF形式は以下の通りです。


形式        | 実装                  | RubyGems gem
------------|-----------------------|-------------
N-Triples   | RDF::NTriples         | rdf
Turtle      | RDF::Raptor::Turtle   | rdf-raptor
RDF/XML     | RDF::Raptor::RDFXML   | rdf-raptor
RDF/JSON    | RDF::JSON             | rdf-json
TriX        | RDF::TriX             | rdf-trix

RDF.rb自体は比較的軽量なgemで、N-Triples形式のみビルトインでサポートしています。その他の形式についてはRDF::Raptor, RDF::JSON, RDF::TriXのようなプラグインとして、個別のgemにパッケージ化されています。このアプローチによって、コアライブラリを他から切り離して、RDF.rb自体がいかなるXMLやJSONパーサへの依存しないようにしています。

これら全ての形式サポートを一度に簡単にインストールできます。

$ sudo gem install rdf rdf-raptor rdf-json rdf-trix
Successfully installed rdf-0.1.9
Successfully installed rdf-raptor-0.2.1
Successfully installed rdf-json-0.1.0
Successfully installed rdf-trix-0.0.3
4 gems installed

注: RDF::Raptor gemはRaptor RDF Parser ライブラリとそのコマンドラインツールがシステムにインストールされている必要があります。MacやLinux, BSDディストリビューションのための簡単なRaptorのインストール方法は以下の通りです。

$ sudo port install raptor             # Mac OS X with MacPorts
$ sudo fink install raptor-bin         # Mac OS X with Fink
$ sudo aptitude install raptor-utils   # Ubuntu / Debian
$ sudo yum install raptor              # Fedora / CentOS / RHEL
$ sudo zypper install raptor           # openSUSE
$ sudo emerge raptor                   # Gentoo Linux
$ sudo pkg_add -r raptor               # FreeBSD
$ sudo pkg_add raptor                  # OpenBSD / NetBSD

Raptorのインストールや使用方法についての更なる情報は、我々の以前のチュートリアル RDF for Intrepid Unix Hackers: Trasmuting N-Triplesを見てください。

RDFデータの読み込み

もしあなたが急いでいて、すぐにRDFデータの正しい読み込み方を知りたいのなら、あなたが知る必要があることは本当に以下だけです。

require 'rdf'
require 'rdf/ntriples'

graph = RDF::Graph.load("http://datagraph.org/jhacker/foaf.nt")

この例では、まずはじめにRDF.rbとN-Triples形式のサポートを読み込んでいます。その後、RDF::Graphクラスの便利なメソッドを使って、RDFデータを一度に直接ウェブURLから取得して解析します。(loadメソッドはファイル名かURLを受け付けます。)

全てのRDF.rbパーサプラグインは、処理可能なMIMEタイプとファイル拡張子を宣言します。それが、上の例でRDF.rbが、与えられたURLにあるfoaf.ntファイルを読むためのN-Triplesパーサのインスタンスの作り方を知っている理由です。

同じ方法で、RDF.rbは他のいかなるRDFファイル形式を自動検知します。そのためには、以下のどれかを使って形式のサポートを読み込めば良いです。


require 'rdf/ntriples' # Support for N-Triples (.nt)
require 'rdf/raptor'   # Support for RDF/XML (.rdf) and Turtle (.ttl)
require 'rdf/json'     # Support for RDF/JSON (.json)
require 'rdf/trix'     # Support for TriX (.xml)

注: もし複数の名前付きグラフを含むRDFファイル(TriXのように名前付きグラフをサポートする永続化形式)を読む必要があるなら、おそらくRDF::Graphの代わりにRDF::Repositoryを使いたいでしょう。


repository = RDF::Repository.load("http://datagraph.org/jhacker/foaf.nt")

この2つの違いは、RDF::Repositoryインスタンス内のRDF文が、オプションとしてcontextを含められることです(すなわち4つ組(quad)になれます)。RDF::GraphインスタンスのRDF文は常に同じcontextとなります(すなわちこれらは3つ組(triple)です)。言い換えると、レポジトリは一つ以上のグラフを含み、以下のようにアクセスできます。

repository.each_graph do |graph|
  puts graph.inspect
end

RDF形式の内部処理

RDF.rbの解析や永続化APIは以下の3つの基底クラスを基にしています。

  • RDF::Formatは特定のRDF永続化形式を記述するために使われます。
  • RDF::ReaderRDFパーサ実装用の基底クラスです。
  • RDF::WriterRDF永続化実装用の基底クラスです。

もしあなたが解析や永続化をしたいファイル形式について何か知っているなら、形式指定用のクラスを以下の何れかの方法で取得できます。

require 'rdf/raptor'

RDF::Format.for(:rdfxml)       #=> RDF::Raptor::RDFXML::Format
RDF::Format.for("input.rdf")
RDF::Format.for(:file_name      => "input.rdf")
RDF::Format.for(:file_extension => "rdf")
RDF::Format.for(:content_type   => "application/rdf+xml")

一度そのような形式指定用のクラスを持てば、そこから解析/永続化実装を取得可能です。

format = RDF::Format.for("input.nt")   #=> RDF::NTriples::Format
reader = format.reader                 #=> RDF::NTriples::Reader
writer = format.writer                 #=> RDF::NTriples::Writer

また、RDF::ReaderとRDF::Writerにも、直接対応するファクトリメソッドがあります。

reader = RDF::Reader.for("input.nt")   #=> RDF::NTriples::Reader
writer = RDF::Writer.for("output.nt")  #=> RDF::NTriples::Writer

以上が、URLやファイル名をRDF::Graph.loadに渡したときに、RDF.rbが正しい解析実装を得るために内部で依存するものです。もちろん、永続化形式を自動検出して、解析や永続化用の適切な実装クラスに委譲する必要がある、他のいかなるメソッドも同様です。

RDFデータの解析

もし、より明示的にRDFデータの解析、例えばデータセットをメモリに読み込めないので文毎に処理したい、ということをする必要があるのなら、RDF::Readerを直接使う必要があります。

ファイルからRDF文を解析

RDFパーサ実装は一般的にRDF::Enumerableインタフェースのストリーミング互換なサブセットをサポートします。これは#each_statementメソッドを基にしています。以下はRDFファイルを文毎に列挙しながら読み込む方法です。

require 'rdf/raptor'

RDF::Reader.open("foaf.rdf") do |reader|
  reader.each_statement do |statement|
    puts statement.inspect
  end
end

RDF::Reader.openをRubyブロックと一緒に使うことで、入力ファイルが処理後に自動的に閉じられることが保障されます。

URLからRDF文を解析

前の通り、ファイル名を使えていた場所全てでhttp://https://のURLを使えます。

require 'rdf/json'

RDF::Reader.open("http://datagraph.org/jhacker/foaf.json") do |reader|
  reader.each_statement do |statement|
    puts statement.inspect
  end
end
文字列からRDF文を解析

時々、すでにメモリバッファ上のどこかに永続化されたRDFコンテンツを持っているときがあります。例えばデータベースから取得した場合です。そのような場合、前に示したパーサ実装を取得して、その後RDF::Reader.newを直接使います。

require 'rdf/ntriples'

input = open('http://datagraph.org/jhacker/foaf.nt').read

RDF::Reader.for(:ntriples).new(input) do |reader|
  reader.each_statement do |statement|
    puts statement.inspect
  end
end

RDF::Readerコンストラクタはダックタイピングを使用しているので、#readlineメソッドに応答するいかなる入力(例えばIOStringIOオブジェクト)を受け付けます。もし入力の引数が何も与えられないときは、入力データはデフォルトで標準入力から読み込まれます。

RDFデータの永続化

RDFデータの永続化は解析とほとんど同様です。名前付きの出力ファイルに永続化されるとき、与えられたファイル拡張子によって正しい永続化実装がファイル拡張子によって自動検出されます。

出力ファイルにRDF文を永続化する

RDF永続化実装は一般的にRDF::Mutableインタフェースのサブセットであり、追加だけ可能です。主に#insertメソッドとそのエイリアス#<<が対応します。以下がRDFファイルに文毎に出力する方法です。

require 'rdf/ntriples'
require 'rdf/raptor'

data = RDF::Graph.load("http://datagraph.org/jhacker/foaf.nt")

RDF::Writer.open("output.rdf") do |writer|
  data.each_statement do |statement|
    writer << statement
  end
end

またですが、RDF::Writer.openをRubyブロックと一緒に使うことで、処理後に出力ファイルが自動的にフラッシュされ閉じられることが保障されています。

RDF文を文字列結果に永続化

ある共通のユースケースは、文字列バッファにRDFグラフを永続化することです。例えばRailsアプリケーションからRDFデータを供給するときです。RDF::Writerには便利なbufferクラスメソッドがあり、StringIOに出力を溜め込んで最後に文字列として返してくれます。

require 'rdf/ntriples'

output = RDF::Writer.for(:ntriples).buffer do |writer|
  subject = RDF::Node.new
  writer << [subject, RDF.type, RDF::FOAF.Person]
  writer << [subject, RDF::FOAF.name, "J. Random Hacker"]
  writer << [subject, RDF::FOAF.mbox, RDF::URI("mailto:jhacker@example.org")]
  writer << [subject, RDF::FOAF.nick, "jhacker"]
end
永続化出力をカスタマイズ

もし特定の永続化実装が名前空間接頭辞宣言や基底URIのようなオプションをサポートしているなら、これらのオプションをRDF::Writer.openRDF::Writer.newにキーワード引数として与えることで指定できます。

RDF::Writer.open("output.ttl", :base_uri => "http://rdf.rubyforge.org/")
RDF::Writer.for(:rdfxml).new($stdout, :base_uri => "http://rdf.rubyforge.org/")

サポートチャンネル

皆さん、今はこれで終わりです。このチュートリル以上のAPIについての情報は、RDF.rb API文書を参照してください。何か質問があれば、#swigpublic-rdf-ruby@w3.orgメーリングリストで遠慮なく聞いて下さい。

以前PlaceEngineをActionScriptからうまく使えないと書いたのですが,その後クウジット社の人とやりとりして,最終的に動くのを確認しました.問題は2点あったようです.1点はサーバ側の問題だったようで,修正したという連絡がありました.もう1つはcrossdomain.xmlの場所が異なっていたようです.以下のようにPlaceEngineAPI.asを直せば良いです.


       //サーバアクセスに先立って、crossdomain.xmlの場所を指定
-     Security.loadPolicyFile("http://www.placeengine.com/api/crossdomain.xml");
+    Security.loadPolicyFile("http://www.placeengine.com/crossdomain.xml");

この修正後,ActionScriptからも住所を取得できるのを確認できました.クウジット社の方々にはこの場を借りてお礼申し上げます.

Greggが早急に動くようにしてくれました.すでに入れている人はgem update で0.5.0にできます.とりあえずRuby1.8.6-1.9.1なら動くようになったようです.1.8と1.9では文字の扱いが大分違うので色々な問題がありそうですね.また,TurtleなどのTestSuiteもN3 Parserが通るようになってみたいです.

次はRubyRDFです.特徴は以下の通りです.

  • Store: Memory, Sesami
  • Query: 独自の構文

特定のフォーマットの入出力には対応しておらず,メモリ上(またはSesami)でグラフを作り,それに対して独自のクエリを投げられるだけのようです.また,残念ながら開発が止まっており,かつRuby1.8.xでしか動きません.Ruby1.9.1では駄目でした.メリットが何もないので少し試しただけで止めました.

使い方

gemから入れます.


$ gem install rubyrdf

とりあえず試すには以下のコード(ほぼサンプルのまま)を入れれば良いです.


#!/usr/bin/ruby

require 'rubygems'
require 'rubyrdf'

RDF::Namespace.register(:dc, "http://purl.org/dc/elements/1.1/")
g = RDF::Graph::Memory.new
g.add(RDF::UriNode.new("http://paul.stadig.name/"), DC::author,  
         g.new_blank_node("test"))

q = RDF::Query.new
q.select(:x, :y).where(:x, DC::author, :y)
result = g.execute(q)
result.bindings.each do |b|
  puts "x = #{b[:x]}"
  puts "y = #{b[:y]}"
end

自分用メモとして,言語毎にRDFを扱えるライブラリのまとめをしていきたいと思っています.とりあえずまずはRubyから.RubyはRDFライブラリの対応具合がばらばらで,これといったものがありませんでした.一番人気がある方法がJRuby経由でJenaを使うことです.私はCライブラリであるRedlandのRubyバインディングをたまに使っていました.しかしここ最近,Pure Rubyなライブラリが出てきているので,調査しています.

まず今回はRdfContextです.Reddyがベースとなっています.主な機能は以下の通り.

  • Parser: RDF/XML, RDFa, N3
  • Store: List(Array), Memory, SQLite3
  • Serialization: RDF/XML, N-Triples

まだRDFの入出力しか対応しておらず,SPARQLなどの機能はTodoとなっています.また,非ASCII文字は全部unicode escapeされます.Ruby1.9.1で動かなかったので,とりあえず動くようにするPatchを送ったのですが,作者のGreggが今色々と対応中で,近い内にversion0.5を出したいとのことなので,しばらく待とうと思います.

使い方

インストールはgemでできます.Ruby 1.8.7なら動くはずです.Ruby1.9以上で使う場合は上記のPatchをインストール後に当てればとりあえず使えます.


$ gem install rdf_context

RDFファイルを読み込んでN-Triplesで出力するコードは以下のようになります.p.parseの2つ目の引数で基点となるURIを与える必要があります.与えなかった場合は適当なbnodeになるようです.


#!/usr/bin/ruby
require 'rubygems'
require 'rdf_context'
require 'open-uri'

include RdfContext
p = Parser.new
str = open("http://fumi.me/foaf.rdf").read
g = p.parse(str, "http://fumi.me/foaf.rdf", :type => :rdfxml)

#puts g.to_rdfxml
puts g.to_ntriples

また,GraphにTripleを追加いきたいときは,ストレージ先を指定したGraphを先に作れば良いです.引数storeについては,今のところListは動くのですが,まだSQLite3で動かせていません.引数identifierは,NamedGraph用のようです.下記のコードで,二つのRDF/XMLの内容をまとめた一つのRDF/XMLを出力することができます.


include RdfContext

## 動かない
#g = Graph.new(:store => SQLite3Store.new(:path => "store.db"),
            :identifier => URIRef.new("http://fumi.me")) 

g = Graph.new(:store => :list_store,
            :identifier => URIRef.new("http://fumi.me"))
g.parse(open("http://fumi.me/foaf.rdf").read, 
            "http://fumi.me/foaf.rdf", :type => :rdfxml)
g.parse(open("http://semantictweet.com/fumi1").read,
            "http://semantictweet.com/fumi1", :type => :rdfxml)
puts g.to_rdfxml

全体的にまだまだこれからという印象です.

新しい扉 PlaceEngine ActionScript API公開“という記事で,ActionScript用のAPIソースが公開されていたので,それをベースにPlaceEngineをActionScriptから使ってみました.とりあえず,PlaceEngineのローカルDBを用いて緯度経度を取得することはできるようです.

まず,PlaceEngineをサイトからダウンロードしてインストールします.起動後に,環境設定→ローカルDB→アップデートをします.WifiをOnにした状態で”現在地を取得”を押すと,登録されている位置が取得できるはずです.取得できない場合はPlaceEngine.com Mapから追加してください.

ActionScriptからローカルDBを使うには以下のようにします.

  1. PlaceEngine連携サイト用アプリケーションキー取得ページで以下の情報を入力してアプリケーションキーを生成
    • 認証コード: 表示されているcaptureを入力
    • URL: app:/アプリケーション名.swf (helloというアプリならapp:/hello.swf)
    • サービス名: アプリケーション名
  2. PlaceEngineAPI.asをプロジェクトの適切な場所に置く.デフォルトパッケージ名はPlaceEngineAPIになっているので適宜変える.
  3. PlaceEngineAPIに以下を追加
    		public function getLocationFromLocal():void{
    			printMsg("WiFi情報取得中...");
    			//タイムスタンプとして現在時刻を取得
    			timeStamp = new Date();
    	
    			//URL文字列を作成
    			var URL:String = "http://localhost:5448/locdb?t=";
    				URL += timeStamp.milliseconds + "&appk=";
    				URL += appk;
    			trace("URL: " + URL);
    			var request:URLRequest = new URLRequest(URL);
    			var loader:URLLoader = new URLLoader();
    			
    			//イベントハンドラをセット
    			setListeners(loader, "Server");
    			
    			//実際にリクエストを発行
    			sendRequest(loader, request);
    		}
    
  4. プログラム側からはgetLocationの代わりにgetLocationFromLocalを使う

以上の手順で動くことは確認しました.苦労したのは,正しいアプリケーションキーの取得方法がなかなかわからなかったことです.

getLocation がうまく動かないためWebAPIから直接取得できないのですが,原因はcrossdomain.xmlにあるようです.どうやらcrossdomain.xmlの内容が古いらしく,以下のエラーを吐きます.サーバ側で対応してもらえるように,後で連絡する予定です.

Warning: Domain www.placeengine.com does not specify a meta-policy. Applying default meta-policy ‘master-only’. This configuration is deprecated. See http://www.adobe.com/go/strict_policy_files to fix this problem.

Error: Ignoring policy file at http://www.placeengine.com/api/crossdomain.xml due to meta-policy ‘master-only’.

Mercurial設定最近Flex Builderを使っているのですが,最初から対応しているバージョン管理システムがCVSしかないなくて困っていました.Flex BuilderはEclipseがベースなのでEclipse用のプラグインが動くはずだと思い,いじっていたら動いたようなので書いておきます.

まずMercurial Eclipseのサイトを見るとSoftware updateを使えと書かれていますが,Flex BuilderはSoftware updateのメニューが消してありますので使えません.そこで直接jarファイルをPluginsのページからダウンロードします.ダウンロードしたjarをFlex Builderのpluginsディレクトリ(Macなら”アプリケーション”→”Adobe Flex Builder 3″→plugins)に置いた後,Flex Builderを起動します.

ショートカット - 新規
起動後にMercurialの設定について聞かれますので,hgやgpgの場所などの設定をします.私の場合はfinkでMercurialを入れてあるので,それぞれ/sw/bin/hg,/sw/bin/gpgとしました.後は”パースペクティブの設定”→”新規”,”ビューの表示”でMecurialにチェックを入れれば設定完了です.

Mercurialで管理するためには,管理下に置きたいプロジェクトを右クリック→”チーム”→”プロジェクトの共用”→”Mercurial”で設定した後に,”チーム”→”Commit”で管理したいファイルをコミットすれば良いです.

ビジュアライジング・データ

1月に読んだままの本.情報視覚化(情報可視化とも言う)について教えてくれる本だと期待して買ったのですが,実際にはProcessing入門のような本でした.Web上で取得できるデータを加工して視覚化する方法が実例で書かれています.以前取り上げた集合知プログラミングを補完する本だと思いました.

1章で,情報視覚化のプロセスについて述べられています.この7つのステップが本書の内容の全てです.後は,実際にこれらのステップをどのように取捨選択して適用していくのか,また,ステップ間でどのような相互作用があるのかという話になります.

  1. データ収集 (acquire)
  2. 解析 (parse)
  3. フィルタリング (filter)
  4. マイニング (mine)
  5. 表現 (represent)
  6. 精微化 (refine)
  7. インタラクション (interact)

Processingについては去年知ったのですが,なかなか面白いです.Javaで手軽に2D graphicsを書くための簡易言語なのですが,HTML5 CanvasとProcessing.jsを使うと,コードをそのままブラウザ上で動かすこともできるそうです .Raphaëlといい,手軽にブラウザ上で動かせるgraphicsの選択肢が増えるのは良いことだと思います.

アマゾンのサーバでエラーが起こっているかもしれません。
一度ページを再読み込みしてみてください。