RubyからRDFを使うライブラリをいくつか紹介してきましたが,最近急ピッチで開発されているRDF.rbが本命になりそうです.まだSPARQLは使えず,基本的なことしかできませんが,やっとどれを使ったらいいのかよくわからないという状況が変わりそうです.
ちゃんとした紹介を日本語で書こうと思っていたら,作者達が良くできたチュートリアルを書いてくれたので,それを翻訳することにしました.とりあえずここに置いておくことにします.
RubyによるRDFデータの解析と永続化 (Parsing and Serializing RDF Data with Ruby)
original text 2010/04/21 by Arto
このチュートリアルでは、Ruby用のライブラリRDF.rbを使ったRDFデータの解析と永続化の方法を学びます。RDFを基礎としたLinked Dataの永続化形式には色々ありますが、RDF.rbでは多くの形式が使えます。
このチュートリアルに沿ってコード例を試すには、RubyとRubygemsだけが必要です。最近のRuby 1.8.xや1.9.x、またはJRuby1.4.0以上なら動きます。
サポートしているRDF形式
現在RDF.rbで解析や永続化できるRDF形式は以下の通りです。
形式 | 実装 | RubyGems gem
------------|-----------------------|-------------
N-Triples | RDF::NTriples | rdf
Turtle | RDF::Raptor::Turtle | rdf-raptor
RDF/XML | RDF::Raptor::RDFXML | rdf-raptor
RDF/JSON | RDF::JSON | rdf-json
TriX | RDF::TriX | rdf-trix
RDF.rb自体は比較的軽量なgemで、N-Triples形式のみビルトインでサポートしています。その他の形式についてはRDF::Raptor
, RDF::JSON
, RDF::TriX
のようなプラグインとして、個別のgemにパッケージ化されています。このアプローチによって、コアライブラリを他から切り離して、RDF.rb自体がいかなるXMLやJSONパーサへの依存しないようにしています。
これら全ての形式サポートを一度に簡単にインストールできます。
$ sudo gem install rdf rdf-raptor rdf-json rdf-trix
Successfully installed rdf-0.1.9
Successfully installed rdf-raptor-0.2.1
Successfully installed rdf-json-0.1.0
Successfully installed rdf-trix-0.0.3
4 gems installed
注: RDF::Raptor
gemはRaptor RDF Parser ライブラリとそのコマンドラインツールがシステムにインストールされている必要があります。MacやLinux, BSDディストリビューションのための簡単なRaptorのインストール方法は以下の通りです。
$ sudo port install raptor # Mac OS X with MacPorts
$ sudo fink install raptor-bin # Mac OS X with Fink
$ sudo aptitude install raptor-utils # Ubuntu / Debian
$ sudo yum install raptor # Fedora / CentOS / RHEL
$ sudo zypper install raptor # openSUSE
$ sudo emerge raptor # Gentoo Linux
$ sudo pkg_add -r raptor # FreeBSD
$ sudo pkg_add raptor # OpenBSD / NetBSD
Raptorのインストールや使用方法についての更なる情報は、我々の以前のチュートリアル RDF for Intrepid Unix Hackers: Trasmuting N-Triplesを見てください。
RDFデータの読み込み
もしあなたが急いでいて、すぐにRDFデータの正しい読み込み方を知りたいのなら、あなたが知る必要があることは本当に以下だけです。
require 'rdf'
require 'rdf/ntriples'
graph = RDF::Graph.load("http://datagraph.org/jhacker/foaf.nt")
この例では、まずはじめにRDF.rbとN-Triples形式のサポートを読み込んでいます。その後、RDF::Graph
クラスの便利なメソッドを使って、RDFデータを一度に直接ウェブURLから取得して解析します。(loadメソッドはファイル名かURLを受け付けます。)
全てのRDF.rbパーサプラグインは、処理可能なMIMEタイプとファイル拡張子を宣言します。それが、上の例でRDF.rbが、与えられたURLにあるfoaf.ntファイルを読むためのN-Triplesパーサのインスタンスの作り方を知っている理由です。
同じ方法で、RDF.rbは他のいかなるRDFファイル形式を自動検知します。そのためには、以下のどれかを使って形式のサポートを読み込めば良いです。
require 'rdf/ntriples' # Support for N-Triples (.nt)
require 'rdf/raptor' # Support for RDF/XML (.rdf) and Turtle (.ttl)
require 'rdf/json' # Support for RDF/JSON (.json)
require 'rdf/trix' # Support for TriX (.xml)
注: もし複数の名前付きグラフを含むRDFファイル(TriXのように名前付きグラフをサポートする永続化形式)を読む必要があるなら、おそらくRDF::Graphの代わりにRDF::Repositoryを使いたいでしょう。
repository = RDF::Repository.load("http://datagraph.org/jhacker/foaf.nt")
この2つの違いは、RDF::Repository
インスタンス内のRDF文が、オプションとしてcontextを含められることです(すなわち4つ組(quad)になれます)。RDF::Graph
インスタンスのRDF文は常に同じcontextとなります(すなわちこれらは3つ組(triple)です)。言い換えると、レポジトリは一つ以上のグラフを含み、以下のようにアクセスできます。
repository.each_graph do |graph|
puts graph.inspect
end
RDF形式の内部処理
RDF.rbの解析や永続化APIは以下の3つの基底クラスを基にしています。
- RDF::Formatは特定のRDF永続化形式を記述するために使われます。
- RDF::ReaderRDFパーサ実装用の基底クラスです。
- RDF::WriterRDF永続化実装用の基底クラスです。
もしあなたが解析や永続化をしたいファイル形式について何か知っているなら、形式指定用のクラスを以下の何れかの方法で取得できます。
require 'rdf/raptor'
RDF::Format.for(:rdfxml) #=> RDF::Raptor::RDFXML::Format
RDF::Format.for("input.rdf")
RDF::Format.for(:file_name => "input.rdf")
RDF::Format.for(:file_extension => "rdf")
RDF::Format.for(:content_type => "application/rdf+xml")
一度そのような形式指定用のクラスを持てば、そこから解析/永続化実装を取得可能です。
format = RDF::Format.for("input.nt") #=> RDF::NTriples::Format
reader = format.reader #=> RDF::NTriples::Reader
writer = format.writer #=> RDF::NTriples::Writer
また、RDF::ReaderとRDF::Writerにも、直接対応するファクトリメソッドがあります。
reader = RDF::Reader.for("input.nt") #=> RDF::NTriples::Reader
writer = RDF::Writer.for("output.nt") #=> RDF::NTriples::Writer
以上が、URLやファイル名をRDF::Graph.loadに渡したときに、RDF.rbが正しい解析実装を得るために内部で依存するものです。もちろん、永続化形式を自動検出して、解析や永続化用の適切な実装クラスに委譲する必要がある、他のいかなるメソッドも同様です。
RDFデータの解析
もし、より明示的にRDFデータの解析、例えばデータセットをメモリに読み込めないので文毎に処理したい、ということをする必要があるのなら、RDF::Reader
を直接使う必要があります。
ファイルからRDF文を解析
RDFパーサ実装は一般的にRDF::Enumerable
インタフェースのストリーミング互換なサブセットをサポートします。これは#each_statement
メソッドを基にしています。以下はRDFファイルを文毎に列挙しながら読み込む方法です。
require 'rdf/raptor'
RDF::Reader.open("foaf.rdf") do |reader|
reader.each_statement do |statement|
puts statement.inspect
end
end
RDF::Reader.open
をRubyブロックと一緒に使うことで、入力ファイルが処理後に自動的に閉じられることが保障されます。
URLからRDF文を解析
前の通り、ファイル名を使えていた場所全てでhttp://
やhttps://
のURLを使えます。
require 'rdf/json'
RDF::Reader.open("http://datagraph.org/jhacker/foaf.json") do |reader|
reader.each_statement do |statement|
puts statement.inspect
end
end
文字列からRDF文を解析
時々、すでにメモリバッファ上のどこかに永続化されたRDFコンテンツを持っているときがあります。例えばデータベースから取得した場合です。そのような場合、前に示したパーサ実装を取得して、その後RDF::Reader.new
を直接使います。
require 'rdf/ntriples'
input = open('http://datagraph.org/jhacker/foaf.nt').read
RDF::Reader.for(:ntriples).new(input) do |reader|
reader.each_statement do |statement|
puts statement.inspect
end
end
RDF::Reader
コンストラクタはダックタイピングを使用しているので、#readline
メソッドに応答するいかなる入力(例えばIO
やStringIO
オブジェクト)を受け付けます。もし入力の引数が何も与えられないときは、入力データはデフォルトで標準入力から読み込まれます。
RDFデータの永続化
RDFデータの永続化は解析とほとんど同様です。名前付きの出力ファイルに永続化されるとき、与えられたファイル拡張子によって正しい永続化実装がファイル拡張子によって自動検出されます。
出力ファイルにRDF文を永続化する
RDF永続化実装は一般的にRDF::Mutable
インタフェースのサブセットであり、追加だけ可能です。主に#insert
メソッドとそのエイリアス#<<
が対応します。以下がRDFファイルに文毎に出力する方法です。
require 'rdf/ntriples'
require 'rdf/raptor'
data = RDF::Graph.load("http://datagraph.org/jhacker/foaf.nt")
RDF::Writer.open("output.rdf") do |writer|
data.each_statement do |statement|
writer << statement
end
end
またですが、RDF::Writer.open
をRubyブロックと一緒に使うことで、処理後に出力ファイルが自動的にフラッシュされ閉じられることが保障されています。
RDF文を文字列結果に永続化
ある共通のユースケースは、文字列バッファにRDFグラフを永続化することです。例えばRailsアプリケーションからRDFデータを供給するときです。RDF::Writer
には便利なbuffer
クラスメソッドがあり、StringIO
に出力を溜め込んで最後に文字列として返してくれます。
require 'rdf/ntriples'
output = RDF::Writer.for(:ntriples).buffer do |writer|
subject = RDF::Node.new
writer << [subject, RDF.type, RDF::FOAF.Person]
writer << [subject, RDF::FOAF.name, "J. Random Hacker"]
writer << [subject, RDF::FOAF.mbox, RDF::URI("mailto:jhacker@example.org")]
writer << [subject, RDF::FOAF.nick, "jhacker"]
end
永続化出力をカスタマイズ
もし特定の永続化実装が名前空間接頭辞宣言や基底URIのようなオプションをサポートしているなら、これらのオプションをRDF::Writer.open
やRDF::Writer.new
にキーワード引数として与えることで指定できます。
RDF::Writer.open("output.ttl", :base_uri => "http://rdf.rubyforge.org/")
RDF::Writer.for(:rdfxml).new($stdout, :base_uri => "http://rdf.rubyforge.org/")
サポートチャンネル
皆さん、今はこれで終わりです。このチュートリル以上のAPIについての情報は、RDF.rb API文書を参照してください。何か質問があれば、#swigか public-rdf-ruby@w3.orgメーリングリストで遠慮なく聞いて下さい。