第10回: 知識ベースの管理と問合せ

概要と目標

■ 概要

IT教育のための知識ベースとしてのデータベースの管理のために、具体的なデータベースの1つとして現在広く一般に利用されているリレーショナルデータベースを例にとり、データベース管理システムの概要、およびリレーショナルデータベースの基盤となるリレーショナルデータモデル、リレーショナル代数の基礎を学習する。

■ 目標

リレーショナルデータベースとその管理システムの概要の習得
リレーショナルデータモデルの概要の理解
リレーショナル代数の基礎の習得

講義内容

■ リレーショナルデータベースとは

リレーショナルデータベース(RDB: Relational Database)とは、リレーショナルデータモデルに基づくデータベースであり、現在、もっとも広く利用されているデータベースの1つである。

リレーショナルデータベースでは、各種データをその関係に基づき、表(テーブル)として構造化する。このテーブルに対し、リレーション代数により定義される演算に基づき、データの登録、変更、削除、参照やデータ間の関係の抽出などの操作を行うことができる。

一般に、このリレーショナルデータベースは、リレーショナルデータベース管理システム (RDBMS: Relational Database Management System)により管理され、データベースの利用者は、このデータベース管理システムを介し、問い合わせ言語としてSQL(Structured Query Language)を利用し、データベースにアクセスする。

■ リレーショナルデータモデル

リレーショナルデータベースの基礎とするリレーショナルデータモデルの概要を示す。

□ リレーション

リレーションとは、データとデータの関係であるが、リレーショナルデータモデルでは、これをドメインの直積の部分集合として定義する。

ドメイン(定義域)とは、なんらかのある基準に基づき定義されたデータの集合である。例えば、「自然数」というドメインは、1,2,3,...をその要素としてもつ集合であり、またロックやクラシック、R&B等を要素とする「音楽の種類」というドメインを考えることができる。なお、このドメインは、有限集合でも無限集合でもかまわない。

ドメインの直積とは、ドメインの各要素のドメイン間での全組み合わせからなる集合である。すなわち、ドメインとしてD₁={1, 2}, D₂={a, b, c}があった場合、その直積D₁×D₂は、以下のように6個の要素からなる集合となる。

D₁×D₂= {(1, a), (1, b), (1, c), (2, a), (2, b), (2, c)}

また、D₁={リンゴ, ミカン, キウィ}, D₂={30, 80, 100}, D₃={1, 3, 5}の直積 D₁×D₂×D₃は、以下のように27個の要素を持つ集合となる。

D₁×D₂×D₃ = {	(リンゴ, 30, 1), (リンゴ, 30, 3), (リンゴ, 30, 5),
	(リンゴ, 80, 1), (リンゴ, 80, 3), (リンゴ, 80, 5),
	(リンゴ, 100, 1), (リンゴ, 100, 3), (リンゴ, 100, 5),
	(ミカン, 30, 1), (ミカン, 30, 3), (ミカン, 30, 5),
	(ミカン, 80, 1), (ミカン, 80, 3), (ミカン, 80, 5),
	(ミカン, 100, 1), (ミカン, 100, 3), (ミカン, 100, 5),
	(キウイ, 30, 1), (キウイ, 30, 3), (キウイ, 30, 5),
	(キウイ, 80, 1), (キウイ, 80, 3), (キウイ, 80, 5),
	(キウイ, 100, 1), (キウイ, 100, 3), (キウイ, 100, 5)	}

リレーションは、以上の定義に基づくドメインの直積の任意の有限部分集合により定義される。例えばD₁={1, 2}, D₂={a, b, c}において、 R = {(1, a), (1, c), (2, b), (2, c)}は、 D₁×D₂における 1つのリレーションである。

同様に、D₁={リンゴ, ミカン, キウィ}, D₂={30, 80, 100}, D₃={1, 3, 5}において、 R = { (リンゴ, 80, 1), (ミカン, 30, 5), (キウイ, 100, 3) }は、 D₁×D₂×D₃における 1つのリレーションである。

このリレーションは、表(テーブル)の形式により表現することもできる。例えば、 R = { (リンゴ, 80, 1), (ミカン, 30, 5), (キウイ, 100, 3) }は、表1のように表現することができる。

表1: リレーションのテーブル表現

リンゴ    80       1

ミカン    30       5

キウイ    100       3

先に、D₁={リンゴ, ミカン, キウィ}, D₂={30, 80, 100}, D₃={1, 3, 5}において、リレーションR = { (リンゴ, 80, 1), (ミカン, 30, 5), (キウイ, 100, 3) } ⊆ D₁×D₂×D₃を表1に示すようにテーブルにより表現した。実は、このリレーションは、ある店で売られている果物の単価とその販売単位を示しているが、このリレーションを見ただけでは、リレーションを定義した者以外はその意味がわからない。そこで、表2のように、リレーションの名前と、各列の名前をつけるとわかりやすくなる。

表2: 果物の単価と販売単位
果物単価販売単位

リンゴ    80       1

ミカン    30       5

キウイ    100       3

このリレーションの名前をリレーション名もしくはテーブル名と呼び、また、各列を属性、属性の名前を属性名もしくはカラム名と呼ぶ。

このとき、あるリレーションの構造は、どのような属性からなるかにより定義することができる。これをリレーションスキーマと呼ぶ。例えば、あるリレーションR は、属性A₁, A₁, ... A_n のからなると定義でき、これをR ( A₁, A₁, ... A_n )と表現する。また、このリレーションスキーマに基づき、具体的な要素からなるテーブルをインスタンスと呼ぶ。

リレーションR が、 D₁, D₂, ..., D_n の直積D₁×D₂×...×D_n の部分集合であり、そのリレーションスキーマが R ( A₁, A₁, ... A_n )であるとすると、 i 番目の属性A_i のとる値は、 D_i の要素である。すなわち、属性A_i のとるべき値のドメインが D_i であるといえ、これをD_i = dom(A_i )と書く。

また、リレーションR の1つの要素をタプルt と呼び、あるタプルt ={ a₁, a₂, ..., a_n}における属性A_i の値 a_i をt のA_i 値と呼び、 a_i = t [A_i ] と書く。

■ リレーショナル代数

リレーショナル代数とは、リレーショナルデータモデルにより定義されるリレーションに対する演算方法を定めた集合演算である。これにより特定の値を参照したり、また複数のリレーション間の関係から新たなリレーションを求めたりすることができる。

リレーショナル代数は、一般的な集合演算により定義される和集合演算、差集合演算、共通集合演算、直積演算の4種類の演算と、リレーショナル代数に特有な射影演算、選択演算、結合演算、商演算の4種類の演算、計8種類の演算により定義される。

□ 和集合演算(R ∪S )

和両立なリレーションR , S の和集合R ∪S は、以下のように定義される。

R ∪S = { t | t ∈R ∨ t ∈S }

ここでいう和両立とは、リレーションR (A₁, A₂, ..., A_m)およびリレーションS (B₁, B₂, ..., B_n)が存在し、以下が成り立つ場合に、 R とS は和両立であるという。

m = n

∀i (1≦i ≦n) について、 dom(A_i ) = dom(B_i )

例えば、表3および表4に示すリレーション「商店Aの商品」と「商店Bの商品」は和両立である。

表3: 商店Aの商品
果物単価販売単位

リンゴ    80       1

ミカン    30       5

キウイ    100       3

表4: 商店Bの商品
果物単価販売単位

リンゴ    80       1

ミカン    40       3

バナナ    20       10

このとき、「商店Aの商品」と「商店Bの商品」の和集合は、表5に示すようになる。

表5: 商店Aの商品 ∪ 商店Bの商品

果物	単価	販売単位
リンゴ	80	1
ミカン	30	5
ミカン	40	3
キウイ	100	3
バナナ	20	10

□ 差集合演算(R -S )

和両立なリレーションR , S の差集合R -S は、以下のように定義される。

R -S = { t | t ∈R ∧ ￢(t ∈S )}

例えば、「商店Aの商品」と「商店Bの商品」の差集合は、表6に示すようになる。

表6: 商店Aの商品 - 商店Bの商品

果物単価販売単位

ミカン 30 5

キウイ 100 3

□ 共通集合演算(R ∩S )

和両立なリレーションR , S の共通集合R ∩S は、以下のように定義される。

R ∩S = { t | t ∈R ∧ t ∈S }

例えば、「商店Aの商品」と「商店Bの商品」の共通集合は、表7に示すようになる。

表7: 商店Aの商品 ∩ 商店Bの商品

果物	単価	販売単位
リンゴ	80	1

□ 直積演算(R ×S )

リレーションR , S の直積R ×S は、以下のように定義される。

R ×S = { (s , t ) | s ∈R ∧ t ∈S }

ただし、s = (a ₁, a ₂, ..., a_m ), t = (b ₁, b ₂, ..., b_n )とするときに、 (s , t )を以下のように定義する。

(s , t ) = (a ₁, a ₂, ..., a_m , b ₁, b ₂, ...,b_n )

例えば、表8および表9に示すリレーション「地域」と「特産」の直積は、表10に示すようになる。

表8: 地域
地方県

東北青森

関東栃木

四国愛媛

表9: 特産
県果物

青森リンゴ

愛媛ミカン

表10: 地域 × 特産
地域 . 地方地域 . 県特産 . 県特産 . 果物

東北青森青森リンゴ

東北青森愛媛ミカン

関東栃木青森リンゴ

関東栃木愛媛ミカン

四国愛媛青森リンゴ

四国愛媛愛媛ミカン

表10: 地域 × 特産
地域 . 地方	地域 . 県	特産 . 県	特産 . 果物
東北	青森	青森	リンゴ
東北	青森	愛媛	ミカン
関東	栃木	青森	リンゴ
関東	栃木	愛媛	ミカン
四国	愛媛	青森	リンゴ
四国	愛媛	愛媛	ミカン

□ 射影演算(R [X ] )

リレーションR における全属性の集合を {A₁, A₂, ..., A_n }とし、その部分集合X を {A_{i 1}, A_{i 2}, ..., A_{i k} }とするとき (ただし、1≦i 1≦i 2≦ ... ≦i k ≦n )、 R のX 上の射影をR [X ]もしくは R [A_{i 1}, A_{i 2}, ..., A_{i k} ]と書き、以下のように定義される。

R [A_{i 1}, A_{i 2}, ...,A_{i k} ] = { u | u ∈ dom(A_{i 1})× dom(A_{i 2})×...× dom(A_{i k})∧

(∃t ∈R , t [A_{i 1}] = u [A_{i 1}] ∧ t [A_{i 2}] = u [A_{i 2}] ∧...∧ t [A_{i k}] = u [A_{i k}] ) }

これは、あるリレーションの一部の列のみを取り出す演算であり、例えば、表3に示した「商店Aの商品」の{果物, 単価}の射影は、表11のようになる。

表3: 商店Aの商品
果物単価販売単位

リンゴ    80       1

ミカン    30       5

キウイ    100       3

表11: 商店Aの商品[果物, 単価]

果物単価

リンゴ    80

ミカン    40

バナナ    20

□ 選択演算(R [A_i θ A_j ], R [A_i θ c ] )

θを=, >, <など、真偽を定める比較演算子とする。このとき、R の属性A_i とA_j 上の選択R [A_i θA_j ]は、以下のように定義される。

R [A_i θA_j ] = {t | t ∈R ∧ t [A_i ] θ t [A_j ] }

また同様に、c を定値とし、 R の属性A_i 上のc に関する選択R [A_i θc ]は、以下のように定義される。

R [A_i θc ] = {t | t ∈R ∧ t [A_i ] θ c ] }

この選択演算は、あるリレーションから、与えられた条件に適合する行を取り出す演算である。例えば、表12に示すリレーション「商店Aの販売」があるとする。

表12: 商店Aの販売
果物原価売価

リンゴ    50       80

ミカン    10       30

キウイ    70       50

バナナ    10       20

メロン    800       500

表12: 商店Aの販売
果物	原価	売価
リンゴ	50	80
ミカン	10	30
キウイ	70	50
バナナ	10	20
メロン	800	500

このとき、属性「売価」の値よりも属性「原価」の値が大きい行を選択する演算は 商品Aの販売[ 原価 > 売価 ]と記述することができ、その演算結果は表13のようになる。

表13: 商店Aの販売[ 原価 > 売価 ]

果物原価売価

キウイ 70 50

メロン 800 500

□ 結合演算

θ結合(R [A_i θ B_j ]S )

リレーションR (A₁, A₂, ..., A_m )およびリレーションS (B₁, B₂, ..., B_n )の θ結合 R [A_i θB_j ]S は以下のように定義される。

R [A_i θB_j ]S = { (t , u ) | t ∈R ∧ t ∈R ∧ t [A_i ] θ u [B_j ] }

= (R ×S ) [R . A_i θ S . B_j ]

すなわち、θ結合は、リレーションR とS の直積として得られるリレーションに選択を行う演算である。

例えば、表8および表9に示すリレーションに対し、県が一致するものに関するθ結合を行った結果は表14のようになる。

表8: 地域
地方県

東北青森

関東栃木

四国愛媛

表9: 特産
県果物

青森リンゴ

愛媛ミカン

表14: 地域 [地域 . 県 = 特産 . 県] 特産
地域 . 地方地域 . 県特産 . 県特産 . 果物

東北青森青森リンゴ

四国愛媛愛媛ミカン

表14: 地域 [地域 . 県 = 特産 . 県] 特産
地域 . 地方	地域 . 県	特産 . 県	特産 . 果物
東北	青森	青森	リンゴ
四国	愛媛	愛媛	ミカン

また、複数の条件θ₁, θ₂, ..., θ_kに基づき結合する場合、以下のように記述する。

R [A_{i 1} θ₁ B_{j 1} , A_{i 2} θ₂ B_{j 2} , ..., A_{i k} θ_k B_{j k}]S

自然結合(R *S )

次に、リレーションR (A₁, A₂, ..., A_m )およびリレーションS (B₁, B₂, ..., B_n )の共通の属性を{C₁, C₂, ..., C_k } = {A₁, A₂, ..., A_m }∧ {B₁, B₂, ..., B_n }とし、また、 {D₁, D₂, ..., D_{n - k} } = {B₁, B₂, ..., B_n } - {C₁, C₂, ..., C_k } するとき、R とS の自然結合R *S は以下のように定義される。

R *S = ( (R ×S ) [A.C₁ = B.C₁, ..., A.C_k = B.C_k] ) [A₁, ..., A_m, D₁, ..., D_n-k]

例えば、表8と表9に示されるリレーションの自然結合地域 * 特産は、表15のようになる。

表15: 地域 * 特産
地方県果物

東北青森リンゴ

四国愛媛ミカン

表15: 地域 * 特産
地方	県	果物
東北	青森	リンゴ
四国	愛媛	ミカン

□ 商演算(R ÷S )

n 次のリレーションR および m 次のリレーションS が、それぞれ以下のようになっているとする。ただし、m < n とする。

R (A ₁, A ₂, ..., A _n-m, B ₁, B ₂, ..., B _m)

S (B ₁, B ₂, ..., B _m)

このとき、R をS で割った商R ÷S は、以下のように定義される。

R ÷S = { t | t ∈ R [A ₁, A ₂, ..., A _n-m ] ∧ (∀u ∈ S ) ( (t, u) ∈ R ) }

すなわち商演算は、リレーションS の全ての属性の値を同時に満たすリレーションR の行を選び出し、 S の属性を取り除いた列を取り出す演算である。たとえば、表16に示す果物の「産地」を示すリレーションと、表17に示す「需要」を示すリレーションがあった場合に、需要を同時に満たす産地(の地方と県)は産地 ÷ 需要により求めることができ、その結果は表18のようになる。

表16: 産地
地方県果物

東北青森リンゴ

東北山形スイカ

東北山形サクランボ

東北福島リンゴ

東北福島モモ

関東栃木イチゴ

中部長野リンゴ

中部長野ブドウ

中部長野モモ

四国愛媛ミカン

表17: 需要
果物

リンゴ

モモ

表18: 産地 ÷ 需要
地方県

東北福島

中部長野

表18: 産地 ÷ 需要
地方	県
東北	福島
中部	長野

レポート課題

■ レポート課題1

表19および表20に示すリレーションがある。これについて、以下の設問に答えよ。

表19: 研究部
講座	氏名
システム	村本英治
システム	四石大
認知科学	渡部信二
認知科学	虎井正之
認知科学	為山雄二
アーキテクチャ	川崎信
アーキテクチャ	小河雄一
アーキテクチャ	中島斜
開放論	荻原敏朗
開放論	北町勝朗
開放論	泉川靖人

表20: 教官
氏名	出身	趣味	車
荻原敏朗	宮城	プログラム	シビック
村本英治	新潟	カラオケ	イスト
渡部信二	宮城	旅行	ルポ
川崎信	岩手	犬	フィット
北町勝朗	長野	スキー	エスティマ
虎井正之	群馬	釣り	レガシー
四石大	長野	スキー	インテグラ
中島斜	宮城	ピアノ	カローラ
為山雄二	栃木	ドライブ	ミラ
泉川靖人	宮城	バイク	レガシー
小河雄一	大阪	ラジオ	レビュー

(1)

「教官」から出身が宮城で、車がルポである行を選択する 教官[出身="宮城", 車="ルポ"] の演算結果を求めよ。

(2)

「教官」から氏名と趣味の列を取り出す射影 教官[氏名, 趣味] の演算結果を求めよ。

(3)

「教官」から車がレガシーである教官の氏名と出身を求める (教官[車="レガシー"])[氏名, 出身] の演算結果を求めよ。

(4)

出身が長野である教官の氏名、出身、趣味を求めるにはどのような演算を行えばよいか、その演算式を求めよ。また、その演算結果を示せ。

(5)

講座がシステムである講座と氏名、および講座が開放論である講座と氏名の和 研究部[講座="システム"] + 研究部[講座="開放論"] の演算結果を求めよ。

(6)

「研究部」と「教官」の自然結合 研究部 * 教官 の演算結果を求めよ。

(7)

「研究部」と「教官」の自然結合から、講座が認知科学である行の氏名と趣味をもとめる演算 ( (研究部 * 教官)[講座="認知科学"] )[氏名, 趣味] の演算結果を求めよ。

(8)

「研究部」と「教官」の自然結合から、講座が認知科学または開放論であり、車がレガシーである行の氏名と趣味をもとめる演算 ( ( (研究部 * 教官)[講座="認知科学"] +　(研究部 * 教官)[講座="開放論"] ) [車="レガシー"] )[氏名, 趣味] の演算結果を求めよ。

(9)

出身が宮城である教官の講座、氏名、車を求めるにはどのような演算を行えばよいか、その演算式を求めよ。また、その演算結果を示せ。

(10)

講座が認知科学またはアーキテクチャである教官の氏名と車を求めるにはどのような演算を行えばよいか、その演算式を求めよ。また、その演算結果を示せ。

■ レポート課題2

以下を証明せよ。ただし、自由課題とし、1問につき20点を加算する。

(1)

R ÷S が商演算と呼ばれる理由は、 (R ×S ) ÷S = R が成り立つためである。 (R ×S ) ÷S = R が成り立つことを定義に基づき証明せよ。

(2)

リレーションR および S を R (A ₁, A ₂, ..., A_n-m , B ₁, B ₂, ..., B_m ) , S (B ₁, B ₂, ..., B_m ) とするとき、商演算R ÷S は、直積演算、射影演算、差演算により、以下のように表すことができる。

R ÷S = R [A ₁, A ₂, ..., A_n-m ] - ( ( R [A ₁, A ₂, ..., A_n-m ] ×S ) -R ) [A ₁, A ₂, ..., A_n-m ]

これを定義に基づき証明せよ。

■ 参考書籍、Web

増永良文著: 「リレーショナルデータベース入門」サイエンス社, ISBN4-7819-0594-3, 2,400円

Last modified: Tue Jun 21 10:59:59 JST 2005