生物分類学における
広域分散型画像データベースの
重要性と問題点

今井 弘民(国立遺伝学研究所)


1.まえがき
 最近実に様々なデータベースがインターネット上を駆け巡っている。1995年に初めてアリ類画像データベ ースを公開したときは,これほど急速な普及は想像できなかった。これは,21世紀の情報通信メディアとし ての,インターネットの普及と性能向上に負うところが大である。しかし,公開された分類データベースの 多くが,データベースとしてはまだ初歩的な段階にあって,インターネットの特性を十分に活かしていない ように思われる。筆者はデータベースの専門家ではないが,比較的早くからこの分野に参入し,アリを始め アサガオ・牧野植物標本・哺乳類頭蓋等のデータベース作成にかかわってきた。すべてが手探り手作り状態 で,多くの失敗を重ねたが,また多くのアイデアも生み出してきた。その過程はエピソードも含めて,アリ 類カラー画像データベース(http://nighimai.lab.nig.ac.jp/ujsnh/sympo/imai/imai_ant200010.html) で別途紹介した。ここでは分類学における画像データベースの意義,分散型データベース構築システムの特色と データベースの抱える諸問題について私見を述べたい。


2.生物分類学と電子画像データベース
 リンネ以来,種は属名+種名の二名法で表記されている。しかし,種の特徴はこれだけでは明確でない。そ こで多くの場合,新種登録に際して詳細な形態的特徴が記載されるが,文字や計測値には越えがたい限界が 存在する。事実この難点を補うため,アリ類では,20世紀初頭から線画がまた中葉からは白黒写真が添えら れ,80年代からは走査電子顕微鏡写真が究極の画像として登場した。一方カラー写真は,リアリティの点で 走査電顕の灰色画面に勝るが,印刷コスト高のため学術用には実用化していない。いずれにしても画像が非 常に有用な分類情報を保有することは確かである。

 このような状況の下で,分類情報のデータベース化に関しては,従来学名カタログや二分岐検索表など印 刷文字情報が主流であった。これに対して画像情報は,専らタイプ標本の観察を通して分類研究者の脳裏に 蓄えられてきたようだ。これは単に印刷コストの問題だけではなく,分類研究者の体質によると思われる。 一つには標本の不完全性を補うため,種の特徴を抽象化(理想化)して記述するためかもしれない。あるいは, 画像による二次元情報では実物の三次元情報を表しきれないためかもしれない。しかし, 「脳裏画像 」が分類 研究者と共に消滅することを考えると,印刷画像や電子画像は,タイプ標本を見る機会のないユーザーにと って,(たとえ不完全ではあっても)種を具体的にイメージする唯一の手がかりである。ラテン語で形態を読み 込んであるとはいえ,無味乾燥な学名リストからは種のイメージは想像できないからである。

 インターネットの普及した21世紀を生きる我々は,電子化された画像情報を実用上無制限に利用できる立 場にある。すでに静止画像だけでなく動画も実用化しつつある。つまり,今ようやく「画像を中心とした分 類データベース」の実現が技術的に可能になったのである。


3.電子画像データベースの特徴
 データベースは,テキストや画像などの 「素データ 」と情報を引きだす 「検索インデックス 」から構成され る。印刷された学名カタログ,検索表および図鑑も一種のデータベースであるが,これらは文字や画像が一 次元的に固定配列されており,データの抽出と整列はユーザーの手作業である。さらに専門性の高い印刷出 版物は,高価な上に入手が難しく,内容改訂も頻繁にはできない。

 一方電子化されたデータベースでは,検索インデックスを工夫することにより,色々な切り口から瞬時に データの自動抽出整列が可能になる。また,素データの改編が随意にでき,抽出データの編集加工も容易で ある。唯一の難点は,ハード・ソフト共に発展途上にあって,製品間の互換性が低くかつ頻繁にバージョン アップするため,ユーザーが技術革新に追いつけない点にある。しかし,IT革命が国家プロジェクトとして 推進される昨今,データベースの電子化は21世紀に避けて通れそうにない。むしろそれは,分類学とその受 け皿としての博物館が21世紀によみがえる起爆剤として,積極的に取り組むべき課題ではなかろうか。

 文字情報だけでも印刷出版物より優れた検索機能を備えたデータベースができるが,ここではカラー画像 を主体にしたデータベースを考えている。カラー画像の利点は,子供から大人まで誰でも理屈抜きで見るこ とができる点にある。無味乾燥な学名カタログもカラー画像を添えることにより,小学生も親しむことがで きる。難しい専門用語のはんらんする検索表も,画像と矢印を添えるだけで,専門外のユーザーも利用可能 になる。またカラー画像があれば,検索結果の正否を確認することができる。

 このような画像の利点に対して, 「画像よりタイプ標本が,学問的に重要である 」と主張する分類専門家もい る。確かにその通りである。しかし,タイプ標本は誰もが見られる訳ではない,アリのように日本の博物館 にはタイプ標本はおろか参照標本もない場合は深刻である。分類学的記載を伴ったタイプ標本画像あるいは 専門家によってタイプ標本と比較された参照標本画像のデータベースを作成して,誰でも利用できるよう整 備することは,タイプ標本の少ない我が国にとって最重要課題である。博物館は従来標本保管の場であった が,21世紀には画像データベースの維持管理の場としても機能するであろう。

 画像のディジタル化は,カラースライドからKodakのPhotoCDに変換する方法,直接CCDカメラでディジタ ル入力する方法および原図をディジタルコピーする方法がある。これらのうちPhotoCDは,高画質で画像サイ ズが見出し用小画面・中拡大図・大拡大図と各種あるため,データベース用には優れている。一方CCDカメ ラ画像は,近い将来この方式が主流になることは確かであるが,現時点では画質が少し落ちる難点がある。 当面は,すでに蓄積されたカラースライド画像をPhotoCDに取り込む方式をお進めしたい。


4.画像データベースの種類
画像データベースは,画像を媒介して専門家も一般ユーザーも共に利用できることをモットーにしてい る。 しかし 一口に画像データベースといっても,使われているシステムは様々で,筆者がかかわっただけで も5種類 ある(図1)。 それぞれ特色があるので,データベースの目的に応じて使い分けるか併用するのがよい。

 ただ使い勝手から言うと,単純なキイワード検索方式(図1-1)は分類データベースとして好ましくない。こ の方式は, 入力用の窓枠が表示されていて,キイワードを入力するとキイワードの文字列を含む項目が検索 され表示される 仕組みになっている。この方式の最大の欠点は,検索インデックスが表示されていないた め,制作した本人と その分野の分類のプロには利用できても,内容がわからない一般ユーザーには有効なキ イワードを入力できない点 にある。このことは,牧野標本館所蔵タイプ標本画像データベース(1999年版)の, キイワード検索のみのデータ ベース検索(http://wwwmakino.shizen.metro-u.ac.jp/search.htm)と検索 インデックスを表示したCD-ROM版 (2000年) (http://taxa.soken.ac.jp/MakinoDB/makino/html_j/index.html) を比較すれば一目瞭然である。 データベースは分類のプロだけが使うものではない。一般ユーザーも使えるよう 配慮することが望ましい。

 マトリックス方式(図1-2)は,少数の曖昧なキイワードを入力してファジー検索によりターゲットを絞り込 む非常に優れた方式である。しかしこの方式は,n個の種を識別するため最低nxn個の識別形質の一覧を用意 する必要がある。このため,種数が多くなるとマトリックス作成が難しくなる欠点がある。

 クリック方式(図1-3)は,説明を必要とする単語に別の単語や画像をリンクしておき,クリックして呼び出 す方式である。インターネットのホームページ用に今もっとも普及している方式で,従来の印刷本を作る感 覚で比較的簡単にデータベースができる。ただしリンク張りが手作業のため,素データが1000以上でリンク 数が数万になる大型データベースでは,素データ改編に伴うリンクの張り替え作業が著しく困難になる。ま た単純で一方向的な検索方法のため,分類階層を自在に移動しながら検索することが難しい。

 リレーショナル方式(図1-4)は,あらかじめ素データに通し番号(アリの場合Fコード)を付けて整理し,リン クの自動生成ができるようになっている。この方式は素データに分類学的階層情報が組み込まれているた め,分類階層を自在に移動しながら検索することができ,分類検索の操作性に優れている。ただし大幅な学 名変更がある場合は,通し番号の改編に難が生じる可能性がある。

 この点を改良したのが素データ優先方式(図1-5)で,分類研究者の使い慣れた学名カタログをそのまま素デ ータとし,コード化したキイワードで全文検索をするシステムを採用している。この方式のメリットは,分 類研究者自身が学名カタログを改訂すると,改訂されたカタログから自動的に検索システムが立ち上がる点 にある。このため,いったんシステムが構築された後は,分類研究者自身の手でデータベースの維持管理が 可能になる。

 クリック方式,リレーショナル方式および素データ優先方式は,いずれも高度なデータベースを構築でき る方式である。ユーザーの目からはそれぞれの違いはわからないが,背後に働く検索システムおよび維持管 理システムに差がある。重要なことは,明確なデータベースのビジョンを持ち,これらの方式を必要に応じ て共存的に使い分けることである。


5.画像データベースの作成手順(図2)

ビジョンを持つ:データベース作成にあたって重要なことは,まずどんなデータベースにしたいかビジョ ンを 持つことである。願わくば専門家の使用に堪える高度な学術内容を保ちつつ,小学生も使える汎用性の あるデータ ベースをイメージしてほしい。また日本語と同時に英語版も作成して,世界の人々が利用できる データベースに してほしい。画像は前に述べたように素人にも専門家にも無条件で理解できる特徴がある。 画像を媒介して検索 インデックスを各種用意することにより,学術的な質を落とすことなく小学生から専門 家まで利用できるデータ ベースを作ることが可能になるのである。

 素データの準備:ビジョンが決まったら,素データを用意する。素データには,分類学的テキスト情報と 標本 画像情報が必要である(アリの場合を図3に 示した)。素データはすべてディジタル化する必要がある。文 字情報は ファイルメーカーなどのソフトで入力し, 画像はPhotoCDやCCDカメラとして取り込む。素データの 用意とディジ タル化は手作業なので,データベース 作成の最大の山場である。入力書式をシステム担当者に 作成してもらい, 入力は分類や画像担当者自身 が行うのが望ましい。アリ類データベースの場合,1995年初 版のシステムはわずか 一ヶ月で主要骨格が 構築されたが,その背景には約10年におよぶ素データの蓄積とデ ィジタル化の準備があった。 また1998年の英訳改訂版は,英訳作業に丸二年を要した。

 システム構築:素データが揃ったら,システム構築作業に入る。非常に高度なパソコン操作を要求される ので,それを得意とするグループとの共同作業になる。業者に委託するケースも多く見られる。いずれにし ても,システム構築の鍵はどのような検索インデックスを用意するかにかかっている。システム担当者は分 類を全く知らないことが多いので,分類担当者に明確なビジョンがないと,単純なキイワード検索方式のよ うな使い勝手の悪いデータベースができてしまう。

 検索インデックス作成:アリ類検索インデックスの例を図4 に示した。例えば種名一覧の場合は,和名順と 学名順を用意して,クリックすると和名ならば50音順また 学名はabc順に種のリストが検索インデックス画面 の右側に表示されるようになっている。この方式は, アリの知識のないユーザーにもインデックス中身を閲 覧できる利点がある。該当する和名や学名をクリック すると,データベースの本体である 「電子アリ図鑑 」に 飛ぶよう設定してある。電子アリ図鑑は,科 ・亜科 ・属の 分類階層表示付きの種名(和名・学名),見出しカラー 画像,シノニム,種の解説,分布,文献が種ごとに セットになっている。画像 ・分布 ・文献はクリックすると さらに拡大画像や詳細記述が現れるようにしてある。 この他見出し画像だけを集めたイメージ検索や地域別 のアリ類を優勢種順に画像で表示する地域別 検索,あるいは画像付きの二分岐検索など,画像を中心にした 各種検索インデックスも用意してある。 このように画像検索を用いると,小学生でもデータベースの中身を 見ることができる。

 Webページ作成:システム担当の腕の見せ所であるが,二つの点に留意する必要がある。一つは,操作性 を重視してシンプルな画面構成にすること。背景に色をつけたり飾り立てたりしたカラフルな画面は,見た目 には美しくても動作時間を遅くし操作性能が悪くなる。もう一点は,素データ改編を分類や画像担当者自身 で行えるよう,システムを組むこと。そのための操作マニュアルを作成することが望ましい。こうすれば, システム構築者の負担が軽減され,分類や画像担当者が自分達の手でデータベースを改訂してゆくことがで きるようになる。

 CD-ROM版作成:CD-ROMは,インターネットが利用できない野外での利用,教育実習で大勢のユーザーが 同時に利用する場合,あるいは頻繁に長時間利用する時などに,素早いアクセスを可能にしインターネット 利用経費の軽減にもなる。つまりデータベースを効率良く利用するためには,インターネットとCD-ROMは不 可分である。

 もしお金の工面ができるならば,データベースを印刷本として残すことを進めたい。と言うのは,筆者も 含めて長年印刷本に慣れ親しんだアナログ人間には,CD-ROMの薄っぺらな円盤よりも手に取ってページをめ くるずっしりとした感触が忘れ難いからである。しかし一方では,CD-ROMを入れたラップトップを傍らに, 顕微鏡を見ながら野外研究する進歩的なディジタル人間も現れている。これこそ21世紀の分類研究のあるべ き姿ではなかろうか。しかしアナログ人間とディジタル人間が混在する現在において,今しばらく印刷本・ インターネット・CD-ROMを共存させることがおそらく最善の策であろう。


6.広域分散型画像データベースの展望
 現在見られる分類データベースは,大学や研究所あるいは博物館が独自に作っている例が多い。その多く は,業者お任せ方式のようである。この方式は,一見見栄えのするデータベースができるが,費用がかかる わりには極く一般的なスタイルで,使い勝手は必ずしもよくない。

 これに対して広域分散型画像データベースは,好き者同士が集まって自分たちの手で作成する方式であ る。アリ類データベースでは,国内メンバーは九州から北海道まで全国に散らばっており,海外はオースト ラリアも含む。これら広域に分散するメンバーのパソコンをE-mailで結び,それぞれ作業を分担し,なおかつ すべての情報を仲間全員が見えるようにネットワーク配信しながら,データベースを構築してゆくのであ る。この方式は,なにより経費が安く,研究者の目から見て細部まで神経の行き届いたデータベースができ る。

 作業分担の一般化した図式を図5に示した。基本的 には分類情報班,画像情報班およびシステム構築維持管 理班の三班が共同作業することになる。いずれの 班も,メンバーが複数の国の複数の研究所にまたがっても かまわないが,いずれが欠けてもだめである。分類 情報や画像情報の収集には,一般協力者をインターネッ トでつなげて組み込むことも可能である。アリ類では この方法で,アリ類分布情報を一般ユーザーから収集 したり,プロの写真家からアリ類生態写真の提供を 受けている。

 21世紀の分類画像データベースで日本がイニシアチブをとるためには,日英二カ国語のデータベースにす る必要がある。そのためには英語と日本語のファイルの同時管理システムを開発して,いずれかを変更すれ ば即他方も変更できるようにする必要がある。このシステムで,英語をメインとし,日本語ファイルを他の 言語に置き換えることにより,世界各国でバイリンガルに利用することが可能になる。学術目的には英語だ けあればよいと研究者は考えがちであるが,21世紀には研究成果を社会に開示し,広く世界の人々が利用で きるようになることが要請されている。すでに述べたように,アリ類画像データベースではその可能性を実 証しつつある。

 構築したデータベースは,本体を維持管理者のホームサーバに置き,各メンバーはミラーサーバを持っ て,全員が一つのデータベースを維持管理するようにする。データ改変は,まずホームサーバのメインデー タベースを変更して,それが各人にミラーされるようにし,各人が勝手に内容の変更をしないようにするこ とが大切である。データベースでは,個人の競争よりも協調が求められる。

 広域分散型データベースでは,国や研究機関(大学,研究所,博物館等)の垣根を取り払い,世界的な規模での データベース構築が可能になる。例えばアリ類の場合は,日本産アリ類,オーストラリア産アリ類,米国 産....と,それぞれの国でデータベースを作成し,それらを統合して一つの世界のアリ類データベースにし, 全員で共有する構想を考えている。それは夢ではない,すでにオーストラリアのアリ分類研究者と協力して オーストラリア産アリ類検索データベース(画像付)が完成しつつある。

 広域分散型データベースの発展した形として,一般ユーザーとのコミュニケーションによる双方向性デー タベースがある。例えば国立科学博物館では,ダイバーの撮影した魚の写真を元にした 「魚類画像データベー ス 」(http://db1.kahaku.go.jp/fishimage/)や海岸に漂着したクジラ類を速やかに通報する 「海棲哺乳類 ストランディング情報データベース 」(http://svrsh1.kahaku.go.jp/index.htm)が公開されている。また 仙台市科学館の 「インターネットによる生きもの調査 」(http://life.edb.miyakyo-u.ac.jp/kaeru/)では, カエルの分布を小学生から一般ユーザーも含めてインターネットを使って情報収集し地図上に自動表示する プロジェクトを試み成功している。これらは今は試みの段階であるが,21世紀のデータベースの主流になる と思われる。

 双方向性の分類データベースが世界規模で実現すると,新種記載競争も新局面を迎えるであろう。なぜな ら,新種は丁度DNAデータバンクがやっているように,世界共通データベースに分類学的記載情報と共に画 像を登録することが可能になるからである。このようなシステムのもとでの大学 ・研究所 ・博物館の役割は, 所蔵するタイプ標本の管理とともに,データベースのアーカイブとしての維持管理が重要になるであろう。


7.軽視できない著作権問題
 最近著作権侵害事件が世上を賑わせているが,アリ類データベースでも著作権で深刻な内輪もめが生じ た。発端は,ある博物館がアリの展示を行ったが,展示内容がアリ類データベースの丸ごとコピーに近いも のであったことによる。事前の連絡もなしに非常識だと,データベース作成グループの一部のメンバーが著 作権侵害と騒ぎだしたのである。博物館から連絡を受けた仲間の一人が,他の仲間に知らせるのを忘れたた めとわかって一件落着したが,一時は裁判も辞さない険悪な雰囲気で半年ほどグループ活動が停止してしま った。

 この博物館は,これ以外にも分布調査用に用いた白地図の無料使用をソフト会社に拒絶されたため,調査 結果を掲載したホームページの閉鎖に追い込まれている。これに似たケースとして,ある植物の学名一覧を データベース化して公開したところ,出版社から提訴されてホームページを閉鎖した例がある。

 アリ類データベースの著作権問題に話を戻すと,善意の意味で, 「学術研究または教育普及を目的とした利 用の場合は無償 」と書いてある。博物館側も教育普及の展示だしメンバーの一人に口頭で伝えたから問題ない と著作権を軽く考えていたようである。双方言い分は色々あると思うが,現代社会がまだインターネット情 報の著作権に対してはっきりした意識を持っていないことが最大の原因だと思われる。

 そこで今回の事件を教訓にして,インターネットやCD-ROMの画像やテキストの複製に関する著作権表示を 改訂することにした。基本方針として次のことを考えている。

1)学術研究または教育普及を目的とした営利を伴わない場合は無料とする。ただし,事前に著作権者の許可を 得ること。

2)商業目的および学術研究や教育普及であっても営利を伴うの場合は有料とする。利用に際しては,事前に著 作権者の許可を受け,使用料は著作権者と相談すること。ただし,アリ類データベース作成グループが著作 権者の場合は,使用料は財団法人遺伝学普及会に支払うこと。

3)1 ・2いずれの場合も,使用する画像やテキストには例にならって該当する著作権者名を明示すること。(例 Copyright:アリ類データベース作成グループ)。

 使用料を遺伝学普及会に支払う件は,普及会がCD-ROM頒布の母体になっており,将来的に使用料をデータ ベースの維持管理や後続データベース支援の資金にする意図がある。また,著作権者を個人名でなくグルー プ名にしたのは,実質の代表である私の名前が最初にくると,引用に際して今井等あるいはImai et al.とな り,あたかも私のデータベースのような印象を与えるのを避ける配慮からである。善意と情熱で始めたデー タベースが,いや応なしに社会の荒波に巻き込まれてゆく。藻くずと消えないためには,たくましく生き残 る術と仲間の結束しかないのである。


8.おわりに
 あと三年で筆者は定年になる。その間にここに述べた理想にどれだけ近づけるかわからない。しかし広域 分散型画像データベースには,21世紀の生物分類学に新たな展開をもたらす潜在的な可能性が秘められてい ると考えている。この試みが少しでも多くの人達に理解されるようにと,総合研究大学院大学の共同研究と して 「生物形態資料画像データベース 」プロジェクトを走らせてきた(1997-1999)。紆余曲折はあったが,この プロジェクトの中から 「アサガオ類画像データベース 」(リンク方式, http://www.genetics.or.jp/Asagao/menu.html) , 「日本産アリ類カラー画像データベース 」(リレーショナル方式, http://taxa.soken.ac.jp/Ant.WWW/INDEX.HTM) , 「牧野標本館タイプ標本画像データベース 」(リレーショナル方式, http://taxa.soken.ac.jp/MakinoDB/index.html) , 「哺乳類頭蓋画像データベース 」(クリック方式, http://1kai.dokkyomed.ac.jp/mammal/en/mammal.html) 等の後続データベースが立ち上がってきた。今この流れを第二次総研大共同研究(2000-2002)でさらに確かな ものにしたいと奮闘している。

 今回の自然史学会連合のシンポジュウムをきっかけにして,このささやかな波が21世紀の大きな時代のう ねりになってくれればとひそかに期待しつつ,本講演の結びとしたい。