画像データベースの維持管理システム

鵜川義弘(宮城教育大学)



データベースの今と昔
 一昔前のデータベースと言えば、何かを入力する前に、難解なソフトウエアのマニュアルと格闘した り、データベースの構造を決めるたりする必要があり、それが作成を試みる人々の最初の障害になって いたのではないかと考える。しかし、現在ではソフトウエアが進歩し初期だけでなくほとんどの作業が とても楽にできるようになってきている。また、データベースソフトウエアだけでなく、表計算のソフ トウエアにデータベースの機能が備わり、ワープロソフトウエアにインターネットで公開するためのメ ニューが備わったりするなどソフトウエアの進歩は速い。

 データベースの専門家でなくとも、ノート、メモ、電子メール、写真など様々な情報を整理して人が使 える「データベース」としてまとめ、インターネットで簡単に公開できる状況になりつつあると言え る。実際、構築に関する技術的な手法や具体的な提供方法より、何をデータベース化し、何をインター ネットで公開したかを社会から問われるているのが現在の状況だと思われる。

 博物館等で扱われる資料を画像とともにデータベース化し、それをインターネットを通じて、公開する ことの意義は、他の発表で十分述べられている。ここでは、Webで閲覧される画像データベースがど のようになりたち、維持管理されているかについて述べる。

Webの利点
 「インターネットのホームページ」という言葉(これはインターネットに接続して見えるWeb(WWW)ページ を指す)は完全に一般大衆化した。Webの利用がここまで進んだ理由として以下のことが考えられる。

●どのパソコンでも動くこと
 Webの利点は、様々なプラットフォーム(機種、OS)で動くブラウザがあらかじめ用意されている ことである。従来は、特定のプラットフォームでないと見ることができないのが普通であった。

 Webの閲覧は、Webブラウザーを使う。これは、ワープロソフトでかかれた文章(ファイルの中身は 人間が見てもわからない機械語コードとなっている)を、一太郎や、マイクロソフトワードで開いてみるの と同様の作業である。違いは、その「開く」行為がインターネット経由で文書を取り寄せて開いていること にある。すなわち、どのパソコンでも動くソフトウエアが公開されていることを意味する。

●マニュアルが必要ないこと
 検索用キーワードを入力する部分、検索結果、使い方、両方を同じ画面に提示することができるので、 ソフトのマニュアルを別途用意する必要がなくなったこと。

●ネットワークでつながっていること
 Web以前では当たり前であった、データベースそのものを配る作業や、データベースを検索するため のソフトウエアを配る必要がなくなった。学術系データベースに限らず、従来、個別ソフトで提供されてきた データベースもほとんどがWebでの提供になってきている。検索に用いるエンジンであるソフトウエア部分 もネットワーク上に存在する。

サーバの種類と選択
 Webで情報を公開するには、24時間稼働している「サーバ」と言われる計算機にハイパーテキストの 文書を置き公開すること必要であるが、サーバは、所属する組織が提供する例、有料・無料を含め民間のイ ンターネットサービスプロバイダが提供するものを利用する例、さらに研究室にあるパソコンをWebサーバ に仕立て上げ、それを利用例など、様々な方法でできるようになった。

 Webサーバの種類は非常に多いが、目的と環境に合わせて選択する。(現行のWebサーバの種類の調査  http://www.netcraft.com/Survey/)

 データベースをWeb経由で提供する場合は、データベース化した資料をハイパーテキストに直して送る ことになる。Webによるデータベースの提供方法には2種類ある。

1)一旦ファイルに書きだしてからWebサーバで公開するタイプ(CD-ROM化し、ネットワークがないところ でも利用できる利点があるが、作成者が用意した以外の索引では閲覧ができないし、利用者がキーワードを 入力して行うタイプの検索はできないことが多い。)
1. http://ant.edb.miyakyo-u.ac.jp/Index/index.html
2. http://ameba.i.hosei.ac.jp/BIDP/makinoCD/makino2000/html_j/index.html

2)データベースにWebのインターフェイスをつけそこからWebページを書き出して提供するタイプ(要求が あるたびにページを作るので、作成とメンテナンスが楽だが、ページの作成に計算機パワーが必要だったり複数 の接続要求に応えられなかったりする。また検索画面だけを表示させると、中に何が入っているかを知る人以外 は検索語を入力しても結果を得ることができなくなる)
1. http://wwwmakino.shizen.metro-u.ac.jp/database.htm
2. http://wwwmakino.shizen.metro-u.ac.jp/search.htm
3. http://mouse.miyazaki-med.ac.jp:591/mouse1/ FMPro?-db=mouse_data.fmj&-lay=deta&-format=search.htm&-view

構築、維持管理の実際

●サーバとしての運用開始と安定稼働
 アリデータベースを例に実際のサーバを見てみるUNIX(Apache)とMac(WebStar)目的別に10台程の インターネットサーバが運用されており、これらを24時間正常に稼働させることが管理者の務めである。 停電対応は手間がかかる。

●鵜川の研究室に設置、管理しているサーバの例


1. UNIX WebServer http://ant.edb.miyakyo-u.ac.jp/
  (日本産アリDBサーバ)
2. UNIX MailServer news://news.edb.miyakyo-u.ac.jp/
  (メールリスト、ニュースサーバ)
3. Mac WebServer http://ugw09.ipc.miyakyo-u.ac.jp/
  (オーストラリアのアリ作業用)Console
4. WinNT WebServer http://life.edb.miyakyo-u.ac.jp/kaeru/
  (カエル調査)
5. UNIX WebServer http://map.edb.miyakyo-u.ac.jp/kaeru/
  (全国調査地図サーバ)
6. Mac WebCamServer http://ugw01.ipc.miyakyo-u.ac.jp/
  (カメラ)Console
7. Mac MailServer http://edb-lab.miyakyo-u.ac.jp:8010/
  (メールサーバ)Console

UNIX,Mac,WinNTのどのOSサーバソフトウエアを用いる場合でも必要のないプログラム停止し、サーバとして安定 運営ができるようにする。これは不必要なプログラム経由が動いていることによって悪意のある者がそのプログラムの 弱点をついて侵入する可能性を封じるので安全対策にも通じている。もちろんマックやWindowsだからといってワープ ロ作業などに使うと、いつハングアップするかもわからないので、このような行為は行ってはならない。サーバとして起 動している計算機を使用する人間を少なくし、サーバは、24時間営業で稼働させる必要がある。

サーバの設置時のセキュリティに関する注意

 インターネットは現在では重要な情報があふれており、それを狙う犯罪行為も多く行われている。セキュリティ (安全対策)を考え、Firewallやパケットフィルタの導入をする組織が増えてきている。

 データベースのサーバは、人に見てもらうために、外部の脅威に直接さらされている。そのため、特に注意が必要。 自らを守ることとはもちろんであるが、Unixなど、乗っ取りが可能な環境を使用する場合は、そのことにより、 サーバを使った犯罪がおこることにより、二次的に加害者にならないように注意する。利用者が多く、攻撃されやすい システムを使っている場合もより一層の注意が必要。セキュリティホールに関する情報をいち早く入手し、問題点に対 してのパッチ(不具合を修正するプログラム)を当てること。

(安全管理についての情報については次のURLを参照:
 http://www.jpcert.or.jp/)

ログの管理

 生ログを見る。サーバが正常に動作しているかどうかは、まず、ログを調べる。リンクが切れていたり、ディスク が壊れていたりなどは、エラーを調べるとすぐわかる。統計処理を行うと、ユーザの動向もわかる。

(蓄積整形後のデータは次のURLを参照:
 http://www.edb.miyakyo-u.ac.jp/stats/Ant.html)

 どのサイトからリンクが作成されているかは、Refererを調べるとわかる。以下は、日本産アリ類のデータベースへ のリンクを調べたもので、Xrefという自作プログラムを作成して自動更新している。この例では、多くの教育系リンク 集からのリンク、データベースサイトリンク集からのリンクが多いことがわかり、いわゆる「お仲間ページ」をいながら にして観察することができる。情報を発信しているところに情報は集まるのである。ログは、情報の宝庫、決して捨てて はならない。

(日本産アリ類のデータベースへのリンクを逆探知した例は次のURLを参照:
 http://www.edb.miyakyo-u.ac.jp/ugawa/Xref/Ant-Xref.html
 http://bank.dna.affrc.go.jp/~qxugawa/disc-home/public_html/Ant-Xref.html
 リンク逆探知ソフトはXrefとして公開している
 http://www.dna.affrc.go.jp/htdocs/Xref/)

データベースならではのメンテナンス

 インターネットで公開したデータベースは、書籍、雑誌と違い、定点(同じ場所)でアクセスが可能。それゆえ、 バージョンアップを期待してユーザは集まる。初版が完成すれば第2版を要求されるであろう。データベースに終 わりはない。

 データベースが創設された後、どのように維持、管理するかは、創設と同様に重要なこと。これは、データを入力 する部分についても同様に言える。私が関与したデータの場合、すべてのデータは、私以外の人が提供してくれたもの なので、データ提供者自身が構築しやすい環境を整えなければ、いずれは荒廃する。

 データベースの更新は、作成と同様の方法で行う。データ提供者にとって簡単に更新できるシステム設計が必要。 更新ができてはじめて一人前。

オーストラリア産アリ類データベースの更新

 データ入力は、MS Wordと、ファイルメーカを使い、入力担当者が直接更新できるものとした。また、中間ファイル はタブ区切りのデータを用い、万が一、システム作成担当者が交代し、作成方法が変更された場合でも、容易に他の方法 でデータを利用できるようにした。

 分類情報、画像情報、撮影情報をそれぞれ入力し、市販ソフトで省力化できる部分はそれを使い、その他の部分につい ては、Perlを使った自作プログラムで対応している


更新の流れの詳細は、ここをクリック

 データ更新は、まず、作業用サーバで行い、正しく更新できたときにのみ、一般公開しているサーバに転送する。

 一旦ファイルに書きだしてからWebサーバで公開するタイプのデータベースでは、データベースを構成するファイルが多い。 また、画像ファイルは容量も大きいので、作業サーバ同士のデータのコピーには、ミラー(同期)ソフトウエアを使って自動 コピーを行っている。ミラーでは、変更があったファイルのみをコピーすることができる。


自動コピーの詳細は、ここをクリック

 データ更新、複数の担当者がいる場合にデータを同期するには、自動コピー(ミラー)が便利。
・変化があったところのみをコピーしてくれ、データベースのバックアップにもなる。
・実行にはQdea社のSynchronize!を使用している。http://www.qdea.com/
・その他(ミラーを用いることの利点、欠点など)
  ○他の用途(本来の用途ではあるが)システムファイルもコピー可能。また、コピーのスケジュールを設定 できるので、定期的に稼働させ、システム全体のバックアップも行える。
  ○マック以外にもWebサーバの内容をコピーをするツールが多く存在する。ただし、この場合、CGIなど、 動的ページのミラーはこの方法ではできない(Synchronize!なら可能)。逆に、Webの内容をコピーすること という意味では、違ったOSへのコピーもこれでできるようになる。
  ○ファイル数が大きいディレクトリをミラーする場合は、Synchronize!に割り当てるアプリケーションの メモリーを増やす必要がある。
  ○過去に負荷分散のためにミラーを設置したが、サーチエンジンの普及により、ユーザにはどこが主サーバ なのかわからないと問題が出てくる。例えば、手動でコピーを行っており、ミラーが不完全な場合などがこれが 問題となる。データベースのミラーに関しては、用途を限って設置するとともに、サーチエンジンのデータ収集 ロボットに対してはrobots.txtを作成するなどして排除することを検討する必要がある。

その他

●アーカイブの重要性

 学術系を中心に発展してきたインターネット。民間の利用が主になったとはいえ、研究情報は、依然として大きな割合を 占めている。研究に必要なデータベースがインターネットに公開された何年かの後、管理者不在でアクセスできなくなるこ とは日常的に起きている。特に、データベースは容量が大きく研究論文と違って図書館にも収録されない。公的機関で、 永続的にデータベースを提供できる書庫にあたる場所「アーカイブ」を確保すべきと考える。

 Webを検索するためのサーチエンジンは、商用を含め多くが開発されてきている。サーチエンジンを運営する場合、 リンクを辿りほとんどのWebページを収集する作業が行われている。アーカイブを作成するには、収集したページを捨てる のではなく蓄積するだけで可能である。技術的にはすでに完成されたものであるので、是非、公的機関での運用をお願い したい。

1. B.カール 「文化資産としてのネット情報」
   http://www.sfc.wide.ad.jp/~keiko/sciam/kahle.html
2. 鵜川義弘「学術情報のインターネット・アーカイブの必要性」
   http://www.affrc.go.jp/Cinfo/news/ric/55/55-3.html

●著作権

 筆者が関係している日本産アリ類画像データベースは、2000年に入り、データベースの利用と著作権を巡り意見が対立 しデータ更新が停滞した事件があった。データベースは使ってもらってはじめてその価値が出てくる。積極的に使ってもらう ためには、目をつむる部分も必要があるのではないかと思う。著作物の利用の促進に関して重要な示唆を与えてくれる文書と して白田秀彰著「 もう一つの著作権の話」http://www.aozora.gr.jp/cards/another.htmlを推薦する。

●この資料について

宮城教育大学 鵜川義弘(ugawa@ipc.miyakyo-u.ac.jp)
自然史学会連合(http://wwwsoc.nacsis.ac.jp/ujsnh/)
第6回シンポジウム「博物学とインターネット」
 (http://wwwsoc.nacsis.ac.jp/ujsnh/symposium.htm)
デスクトップでナチュラルヒストリー
21世紀の自然史科学における画像データベース
国立科学博物館、平成12年10月14日(日)資料
更新:Fri Sep 22 02:48:11 2000