什么是大型文件的索引组织,是B-还是B+
如果能尽快给出正确答案并说明原因,还可以加分!
参考答案:在大型文件系统中,采用索引可以有效的提高查找的效率,建立文件时,在输入数据记录的同时,建立一张索引表,每个索引表项记录相应数据块的地址。检索文件记录时,先将外存上的索引表读入内存,从索引表中查到数据记录的地址后,再将相应的记录读入内存。
如果文件中的数据在使用过程中记录变化较多,则要频繁地对索引表进行插入和删除操作,这时对索引表采用树型结构较好。但是如果文件系统很大,则索引表也往往很大,需分块读入内存,若采用二叉查找树的结构,仍需多次访问外存,而访问外存的代价很大,为了减少访问外存的次数,就应尽量减少索引表的深度。简要介绍一下广泛应用于大型文件系统中的B-树。
B-树是一种平衡的多路查找树。
一棵m阶的B-树,如果它非空,则它必须同时满足下列几个条件:
(1)若B-树的根结点不是叶子结点,则它至少有两棵子树;
(2)树中每个结点的关键字数不得超过m;
(3)除根结点之外的非叶子结点至少含有「m/2 棵子树;
(4)B-树中每个非叶子结点的结构为 ( n,P1,K1,P1,K2,……Pn-1,Kn,Pn)。其中 0≤n≤m ,n为该结点中含有关键字的个数;Ki(i=1,2,……,n)为数据记录的关键字,并且Ki < Ki+1,Pi( 0≤i≤n)为指向该结点子树根结点的指针,且指针Pi-1所指向的子树中的所有结点的关键字均小于Ki;指针Pi所指向的子树中的所有结点的关键字均大于Ki。
(5)B-树所有的叶子结点都在同一层上。他们不带有效信息,故又称失败结点。
下图是一棵4阶B-树,深度为3。
下面简单介绍一下B-树的查找过程,对B-树的插入和删除算法则不作深入介绍。
由B-树的定义可知,对B-树的查找与二叉查找树的算法类似,它是一个顺指针查找和关键字比较的交叉的过程。例如要查找上图中关键字为36的结点,从根结点①开始,找到结点③,其子树中的结点关键字范围在16到40之间,而③只有一个关键字23,由于23〈36,故应沿着第二个指针找到结点⑧,同样,结点⑧中35〈36,故应沿着⑧中第二个指针查找,但这个指针指向一个叶子结点,查找失败。这也是为什么B-树中的叶子结点称为失败结点的原因。