]> git.llucax.com Git - z.facultad/75.06/emufs.git/blob - doc/informe_2da_entrega.lyx
agrego b y B*
[z.facultad/75.06/emufs.git] / doc / informe_2da_entrega.lyx
1 #LyX 1.3 created this file. For more info see http://www.lyx.org/
2 \lyxformat 221
3 \textclass book
4 \language spanish
5 \inputencoding auto
6 \fontscheme palatino
7 \graphics default
8 \paperfontsize default
9 \spacing single 
10 \papersize a4paper
11 \paperpackage widemarginsa4
12 \use_geometry 0
13 \use_amsmath 0
14 \use_natbib 0
15 \use_numerical_citations 0
16 \paperorientation portrait
17 \secnumdepth 3
18 \tocdepth 3
19 \paragraph_separation indent
20 \defskip medskip
21 \quotes_language english
22 \quotes_times 2
23 \papercolumns 1
24 \papersides 1
25 \paperpagestyle default
26
27 \layout Title
28
29 Organización de Datos (75.06)
30 \newline 
31 Trabajo Práctico
32 \newline 
33 E
34 \begin_inset Formula $\mu$
35 \end_inset 
36
37 FS
38 \layout Author
39
40
41 \series bold 
42 Grupo 11
43 \series default 
44
45 \newline 
46 Nicolás Dimov (77624)
47 \newline 
48 Alan Kennedy (78907)
49 \newline 
50 Leandro Lucarella (77891)
51 \newline 
52 Ricardo Markiewicz (78226)
53 \layout Date
54
55 Segunda Entrega, 31 de Mayo de 2004
56 \layout Standard
57
58
59 \begin_inset LatexCommand \tableofcontents{}
60
61 \end_inset 
62
63
64 \layout Chapter
65
66 Introducción
67 \layout Standard
68
69 En esta entrega el trabajo estuvo concentrado en el manejo de índices para
70  los tipos de archivos implementados en la primer entrega.
71  Los índices se implementaron con:
72 \layout Enumerate
73
74 Árbol B
75 \layout Enumerate
76
77 Árbol B*
78 \layout Enumerate
79
80 Árbol B+
81 \layout Standard
82
83 Además de esto, se pide 3 funciones distintas para estos índices:
84 \layout Enumerate
85
86 Principal
87 \layout Enumerate
88
89 Selectivo
90 \layout Enumerate
91
92 Exhaustivo
93 \layout Standard
94
95 Con la autorización de los ayudantes de la cátedra decidimos que el árbol
96  B+ sólo pueda ser utilizado para índices principal ya que de otra manera
97  no tiene sentido el set secuencial (ver página 
98 \begin_inset LatexCommand \pageref{sub:justificacion}
99
100 \end_inset 
101
102  para una justificación más detallada).
103 \layout Standard
104
105 Finalmente, para obtener listados basados en campos de los cuales no se
106  tiene un índice, se implementó un ordenamiento externo.
107 \layout Standard
108
109 A continuación se presenta una descripción un poco más detallada sobre todas
110  herramientas utilizadas para resolver el trabajo práctico.
111 \layout Section
112
113 Documentación de la API
114 \layout Standard
115
116 Para obtener una documentación de la API más completa, se incluye en formato
117  HTML en el CD-ROM la documentación generado con Doxygen.
118  Esta documentación se encuentra en el directorio 
119 \family typewriter 
120 doc/api/html/index.html
121 \family default 
122 .
123 \layout Chapter
124
125 Estructura común
126 \layout Section
127
128 Tipos
129 \layout Standard
130
131 Se detallan a continuación los tipos de datos definidos y utilizados en
132  las distintas implementaciones que conforman nuestro sistema, siendo el
133  más importante de ellos en esta entrega, la estructura 
134 \family typewriter 
135 INDICE
136 \family default 
137  que actúa como interfaz común para el manejo de cualquier tipo de índice
138  (no importa que tipo de organización física ni de que forma esté implementado,
139  esta estructura proveerá una interfaz abstracta para su manejo).
140 \layout Subsection
141
142 Tipos Comunes
143 \layout Standard
144
145 Se agregaron varios tipos comunes nuevos en esta entrega, en su mayoría
146  relacionados a los índices.
147  Estos tipos son brevemente descriptos a continuación y pueden ser hallados
148  en el archivo 
149 \family typewriter 
150 indices.h
151 \family default 
152 :
153 \layout Itemize
154
155
156 \family typewriter 
157 INDICE_DATO
158 \family default 
159 : usado para representar el conjunto de un ID más su dato.
160 \layout Itemize
161
162
163 \family typewriter 
164 INDICE_TIPO
165 \family default 
166 : indica el tipo de índice (B, B* o B+).
167 \layout Itemize
168
169
170 \family typewriter 
171 INDICE_FUNCION
172 \family default 
173 : indica la función que cumple el índice (principal, selectivo o exhaustivo).
174 \layout Itemize
175
176
177 \family typewriter 
178 INDICE_TIPO_DATO
179 \family default 
180 : indica el tipo de dato que se usa como clave.
181 \layout Itemize
182
183
184 \family typewriter 
185 CLAVE
186 \family default 
187 : representa una clave de un índice.
188 \layout Subsection
189
190 INDICE
191 \layout Standard
192
193
194 \family typewriter 
195 INDICE
196 \family default 
197 \emph on 
198  
199 \emph default 
200 es la estructura principal que encapsula todas las funciones para el manejo
201  de un índice.
202  Posee punteros a funciones que permite utilizar la misma interfaz para
203  distintas implementaciones de árboles.
204  
205 \layout Standard
206
207 Su declaración puede ser observada en el archivo 
208 \family typewriter 
209 indices.h
210 \family default 
211 \series bold 
212  
213 \series default 
214 y cuenta con la siguiente información:
215 \layout Itemize
216
217 Tipo de índice.
218 \layout Itemize
219
220 Tipo de dato que maneja.
221 \layout Itemize
222
223 Función del índice.
224 \layout Itemize
225
226 Información sobre el desplazamiento para ubicar el dato dentro de la estructura
227  a indexar (para poder tener una implementación genérica que sirva para
228  cualquier estructura).
229 \layout Itemize
230
231 Información sobre archivos auxiliares para almacenar cadenas de texto y
232  otras estructuras que eventualmente requiera un índice.
233 \layout Itemize
234
235 Punteros a funciones para:
236 \begin_deeper 
237 \layout Itemize
238
239 Agregar entrada.
240 \layout Itemize
241
242 Borrar entrada.
243 \layout Itemize
244
245 Verificar la existencia de una entrada.
246 \layout Itemize
247
248 Buscar entradas.
249 \layout Itemize
250
251 Obtener clave menor o mayor del índice.
252 \layout Itemize
253
254 Obtener siguiente clave (para recorrido secuencial).
255 \end_deeper 
256 \layout Standard
257
258 Esta estructura define los valores de sus punteros según el tipo de implementaci
259 ón que se desee manejar y esto se realiza a través de la API 
260 \family typewriter 
261 emufs_indice
262 \family default 
263 , implementada en 
264 \family typewriter 
265 indices.h
266 \family default 
267 .
268  Esta API posee funciones para crear y destruir índices, agregarlos y quitarlos
269  de una estructura 
270 \family typewriter 
271 EMUFS
272 \family default 
273 , comparar claves y otras, necesarias para la correcta y completa utilización
274  de los índices a través de la interfaz de 
275 \family typewriter 
276 EMUFS
277 \family default 
278  descripta en la entrega anterior.
279 \layout Subsubsection
280
281 Integración con 
282 \family typewriter 
283 EMUFS
284 \family default 
285 .
286 \layout Standard
287
288 Para integrar la utilización de índices a 
289 \family typewriter 
290 EMUFS
291 \family default 
292  fueron necesarios los siguientes cambios:
293 \layout Paragraph
294
295 Nuevos tipos de archivo.
296 \layout Standard
297
298 Se incluyen dos tipos de archivo nuevos T4 y T5, que representan, respectivament
299 e, un archivo T1 (registros variables, bloques fijos) y un archivo T3 (registros
300  y bloques fijos), ambos organizados como un set secuencial indexado.
301  De esta manera se conserva la interfaz de 
302 \family typewriter 
303 EMUFS
304 \family default 
305  (los punteros a funciones) incluso cuando se debe insertar de forma ordenada,
306  ya que al saber que es T4 o T5 siempre se inserta de forma ordenada.
307 \layout Paragraph
308
309 Puntero a un arreglo de índices.
310 \layout Standard
311
312 Se agrega a la estructura 
313 \family typewriter 
314 EMUFS
315 \family default 
316  un puntero a un arreglo de 
317 \family typewriter 
318 INDICE
319 \family default 
320 , donde el primero es siempre el índice principal.
321 \layout Chapter
322
323 Especificaciones de índices
324 \layout Section
325
326 Indice B
327 \layout Standard
328
329 En esta sección no se explicará como funciona la implementación del árbol
330  B, sino que se darán algunos detalles de la implementación para algunos
331  casos particulares.
332 \layout Standard
333
334 Cada nodo del árbol cuenta con un header y un array de datos, donde cada
335  dato contiene, entre otras cosas la clave, el dato al que apunta (id/bloque
336  del archivo de datos) y el hijo derecho (aquel nodo que contiene las claves
337  superiores).
338  En el header se guarda el puntero (numero de nodo) al hijo izquierdo, que
339  viene a ser el nodo que contiene claves menores a la primer clave de nodo
340  actual.
341 \layout Standard
342
343 Existen 2 casos particulares para lo que contiene la clave y el dato.
344  El primer caso se da cuando la clave es de tipo string.
345 \layout Standard
346
347 Cuando un indice debe almacenar string, estos no son guardados en el arbol,
348  sino que se reutiliza la estructura EMUFS de la primer entrega para guardar
349  las cadenas de texto, utilizano para ello una organización de registros
350  de longitud variable sin bloques, elegida de forma arbitraria.
351  En la clave del arbol se guardará entonces el ID del registro que contiene
352  el texto en la estructura mensionada anteriormente.
353  Cuando se quiere recuperar una clave, se lee el archivo que contiene las
354  claves de texto (que permanecen abreviadas).
355 \layout Standard
356
357 El otro caso particular es para los indices con clave repetida (como ser
358  el selectivo y el exahustivo).
359  Para este caso lo que cambia es lo que se almacena en el campo DATO que
360  acompaña a la clave.
361  Este DATO contendra el ID de un registro que se guarda nuevamente en un
362  EMUFS en formato de registro de longitud variable sin bloques, donde estarán
363  los ID/Bloque reales del archivo de dato de todas las ocurrencias de la
364  clave correspondiente.
365 \layout Standard
366
367 Cada vez que se inserta una clave y ya existia una previa, se agrega a dicho
368  arreglo la nueva posicion y luego se guarda.
369  Si al eliminar todos los datos de una clave este array quedara vacio, la
370  clave es eliminada del arbol.
371 \layout Standard
372
373 Puede darse el caso (es mas, casi todos los indices utilizados en el TP
374  son de esta manera) que ocurran ambas situaciones descriptas anteriormente,
375  por lo que para un indice, por ejemplo de presentacion de los articulos,
376  se tenga que acceder a 9 archivos (el arbol B, 4 para los string, 4 para
377  las claves repetidas) para obtener todos los ID del archivo de datos para
378  mostrar en pantalla.
379  Con esta falla de diseño y todo el acceso a registros por campos de identifacac
380 ion no unico es muy superior a realizar una busqueda secuencial sobre todo
381  el archivo para realizar una consultas.
382 \layout Section
383
384 Indice B*
385 \layout Standard
386
387 Para la implantación de los árboles B* se tomo la desición de tratar a la
388  raiz como si fuera un árbol B en lugar de tomar una raiz de 2*tam_bloque
389  para reutilizar el código ya hecho para el árbol B y todas las funciones
390  anexas.
391 \layout Standard
392
393 Lo único que se reescribió fue la función insertar, que aunque es muy similar
394  al del otro árbol, meter más codigo en la misma función hacía aún más dificil
395  de mantener y debuggear el árbol.
396 \layout Standard
397
398 Otro cambio a la API de árbol B fue en el borrar, que mediante una macro
399  se verifica que tipo de árbol se está tratando y en base a eso se calcula
400  la cantidad de hijos mínimos antes de fundir 2 nodos (o pedir una clave
401  a algún hermano).
402 \layout Subsection
403
404 Decisiones de diseño
405 \layout Standard
406
407 Una de las pocas decisiones que tuvimos que tomar fue la forma de manejar
408  el nodo raíz.
409  Hay dos formas comunes de hacerlo:
410 \layout Enumerate
411
412 Permitir que el nodo raíz pueda almacenar 2N+1 claves (siendo N el número
413  máximo de claves permitido por nodo).
414 \layout Enumerate
415
416 Hacer que se comporte como un árbol B.
417 \layout Standard
418
419 La primera forma garantiza un mejor aprovechamiento del espacio, ya que
420  se sigue haciendo una partición en 3 nodos hijo con 2/3 de los espacios
421  llenos.
422  El problema que encontramos para hacerlo de esa forma fue que usamos un
423  tamaño de nodo fijo de 512 para poder leer un sector completo del disco
424  y ganar algo de velocidad, por lo que para poder mantener este esquema
425  hubiéramos necesitado de 3 bloques de 512 para poder guardar los 2N+1 claves,
426  desperdiciando 512-tamaño_de_clave espacio en el bloque final y haciendo
427  que cualquier ahorro de espacio en los hijos del nodo raíz difícilmente
428  lo compense.
429 \layout Standard
430
431 Además de esto, el utilizar la segunda forma trae como ventaja la reutilización
432  de código del árbol B, lo que facilita la implementación y el mantenimiento
433  del código.
434 \layout Standard
435
436 Estas son las dos razones principales por las cuales elegimos tratar el
437  nodo raíz como lo hace el árbol B.
438 \layout Section
439
440 Indice B+ Organizacion Secuencial Indexada
441 \layout Subsection
442
443 Decisiones de diseño
444 \layout Standard
445
446 Para la implementación de la organización secuencial indexada de archivos,
447  se ha utilizado un árbol B+, conocido por ser utilizado en términos generales
448  para implementaciones de esta índole.
449 \layout Standard
450
451 Como particularidad el arbol B+, poseerá en sus hojas todas las claves que
452  se hayan insertado en el árbol.
453  No obstante, las mismas no serán todas las claves que se encuentren en
454  el archivo de datos, sino la primer clave de cada bloque de datos, también
455  denominadas 'anclas de bloque'.
456 \layout Standard
457
458 En torno a esta distinción respecto de los demás arboles, el árbol B+ nos
459  indicará a la hora de grabar registros en nuestro archivo de datos con
460  bloques (Organización del TP1, Tipo1 o 3), en que bloque de datos debemos
461  realizar la mencionada inserción.
462  La operativa se detalla más adelante, pero básicamente realizaremos una
463  búsqueda del ancla menor inmediata a la clave del registro que se desea
464  insertar, y esto nos indicará el bloque apropiado (el bloque donde esta
465  el ancla).
466 \layout Standard
467
468 Como resultado concreto de este comportamiento (teniendo en cuenta también
469  el borrado y partición de bloques del .dat), obtendremos un archivo secuencial
470  indexado, en donde los registros se encuentran ordenados a nivel de bloques,
471  esto es, dentro de un bloque dado del archivo de datos, los registros estan
472  ordenados por clave primaria.
473  No obstante, los bloques no estarán necesariamente ordenados, pero igualmente
474  la cantidad de accesos para recorrer el archivo en forma secuencial, se
475  ve minimizada respecto de otras organizaciones, gracias al encadenamiento
476  de las hojas y la posesión de las anclas de bloque, cuya lista resultante
477  del encadenamiento es denominada 
478 \series bold 
479 Sequence Set.
480 \layout Subsubsection
481
482
483 \begin_inset LatexCommand \label{sub:justificacion}
484
485 \end_inset 
486
487 Razones por las cuales el B+ es útil sólo para clave principal.
488 \layout Standard
489
490 El mejor aprovechamiento del Arbol B+ se da en su utilizacion en implementacion
491  ISAM (Indexed Sequential Access Method), en donde se realiza una indexacion
492  parcial de claves, sólo ingresando en el árbol las claves anclas de cada
493  bloque en el archivo de datos.
494  
495 \layout Standard
496
497 Esta aplicación del árbol B+ a ISAM, además de indicarnos donde grabar y
498  donde buscar los registros por identificación primaria, nos asegura el
499  ordenamiento de los registros parcialmente a nivel de bloque (esto es,
500  los registros en un bloque dado, estarán ordenados, pero los bloques no
501  necesariamente).
502  Así pués, recorriendo el Sequence Set del Arbol B+, minimizaremos los saltos
503  de lectura en disco, pues dentro de un bloque indicado por un ancla dada
504  en el Sequence Set, podremos recorrer los registros secuencialmente.
505 \layout Standard
506
507 Visto y considerando que la aplicación más importante a nuestro criterio
508  del Arbol B+, era para la indexacion parcial de claves primarias, y que
509  en caso de utilizarlo para otros índices, el B+ se convertiría simplemente
510  en un B con encadenamiento a nivel de hojas, luego de consultar con los
511  ayudantes, decidimos utilizarlo unicamente para el índice primario, y utilizar
512  el B y B* para los restantes índices y/o el primario.
513  
514 \layout Subsection
515
516 Estructura
517 \layout Standard
518
519 Para comprender mejor la implementación particular que hemos dado al árbol
520  B+, damos una breve reseña de la estructura de un nodo del arbol, la cual
521  es la siguiente:
522 \layout Itemize
523
524 Nivel
525 \layout Itemize
526
527 Cantidad de claves
528 \layout Itemize
529
530 Arreglo de claves
531 \layout Itemize
532
533 Arreglo de hijos
534 \layout Standard
535
536 Esta estructura se encuentra en el archivo 
537 \family typewriter 
538 indice_bplus.h
539 \layout Standard
540
541 Esta organización permite, con la ayuda del árbol, mantener el archivo de
542  datos ordenado por la clave principal.
543 \layout Standard
544
545 Para lograr esto, como fue expuesto anteriormente, el árbol nos indicará
546  donde (en qué bloque) debe insertarse un registro.
547  (ver 3.3.1 Inserción)
548 \layout Standard
549
550 En el caso de una hoja, dado que cada nodo posee un hijo mas que la cantidad
551  de claves, el hijo que sobra será utilizado como referencia al nodo 
552 \begin_inset Quotes eld
553 \end_inset 
554
555 hermano
556 \begin_inset Quotes erd
557 \end_inset 
558
559 , lo cual constituye el 
560 \begin_inset Quotes eld
561 \end_inset 
562
563 set secuencial
564 \begin_inset Quotes erd
565 \end_inset 
566
567  del índice.
568  Para un nodo que no sea hoja el hijo será el número de nodo correspondiente
569  según la clave, es decir, para la clave 
570 \series bold 
571 \emph on 
572
573 \series default 
574 \emph default 
575 el hijo 
576 \series bold 
577 \emph on 
578 n
579 \series default 
580 \emph default 
581  contiene claves menores y el hijo 
582 \series bold 
583 \emph on 
584 n+1
585 \series default 
586 \emph default 
587  contiene las claves mayores.
588  En el caso particular del nivel 1 (index set) el hijo 
589 \series bold 
590 \emph on 
591 n+1
592 \series default 
593 \emph default 
594  (sequence set) contiene las claves mayores o iguales ya que el 
595 \begin_inset Quotes eld
596 \end_inset 
597
598 secuence set
599 \begin_inset Quotes erd
600 \end_inset 
601
602  debe contener todas las claves insertadas, esto produce que exista una
603  repetición de las claves entre el nivel 1 y el 0.
604 \layout Standard
605
606 En nuestro caso hemos implementado un Secuencial Indexado tipo ISAM (Indexed
607  Sequential Access Method) el cual posee en sus hojas las anclas de cada
608  bloque en el archivo de datos, es decir, solo se guardan en los nodos del
609  árbol la menor de las claves de un bloque del archivo de datos, acompañada
610  cada clave por el numero de bloque al cual pertenece.
611 \layout Standard
612
613 Hemos adoptado que la cantidad de claves máxima en un nodo del árbol sea
614  una cantidad impar, ya que esto facilita la elección de la clave que será
615  promovida hacia su nodo padre en caso de que se produzca un overflow en
616  el nodo.
617 \layout Subsection
618
619 Inserción
620 \layout Standard
621
622 Para realizar una inserción en el archivo de datos se debe realizar una
623  consulta en el árbol, la cual nos indicará el número de bloque donde debemos
624  insertar el nuevo registro.
625 \layout Standard
626
627 Las consultas se realizan a través de una estructura INDEX_DAT que posee:
628 \layout Itemize
629
630 Clave
631 \layout Itemize
632
633 Número de Bloque 
634 \layout Standard
635
636 Esta estructura se encuentra en el archivo 
637 \family typewriter 
638 indice_bplus.h
639 \layout Standard
640
641 El modo de uso es el siguiente:
642 \layout Standard
643
644 En primer lugar se carga la clave a insertar en el campo Clave, y en el
645  campo Número de Bloque se almacena un número de bloque válido, mas adelante
646  se explica el por qué.
647 \layout Standard
648
649 Luego se invoca a la función 
650 \family typewriter 
651 int emufs_b_plus_get_bloque(INDICE, INDEX_DAT) 
652 \family default 
653 la cual recibe como parámetro una estructura de índice y un INDEX_DAT para
654  realizar la consulta.
655 \layout Standard
656
657 Esta función recorre recursivamente el árbol y busca una clave mayor inmediata
658  a la enviada, siempre culminando la búsqueda en una hoja.
659  Al encontrar la clave mayor inmediata, el resultado de la búsqueda será
660  la clave anterior en el nodo, pues cada clave en el nodo es un ancla de
661  bloque de datos, de esta manera la clave anterior será menor a la clave
662  enviada, pues las claves en las hojas están ordenadas.
663  
664 \layout Standard
665
666 En este paso pueden suceder dos cosas:
667 \layout Enumerate
668
669 Que exista una clave menor a la enviada.
670 \layout Enumerate
671
672 Que la clave enviada sea menor a todas las claves del árbol.
673 \layout Standard
674
675 En el primer caso, se ha encontrado la clave y se carga la estructura con
676  el hijo de esa clave, que será el número de bloque donde debe insertarse
677  el nuevo registro (por el cual se realizó la consulta), sobreescribiendo
678  el valor que almacenaba al ingresar, y la función retornará código 0 que
679  indica que se ha encontrado un bloque donde insertar.
680 \layout Standard
681
682 En el segundo caso, puede darse que la clave enviada sea menor a todas las
683  claves del árbol, por lo cual no es posible encontrar un ancla de bloque
684  para esa clave.
685  Aquí la función retornará código -1 lo cual indica que no se ha encontrado
686  un bloque donde insertar el registro nuevo, y es por esto que la estructura
687  debe inicializarse con un número de bloque válido antes de realizarse la
688  consulta.De esta manera el árbol indica donde debe insertarse un nuevo registro
689  en el archivo de datos.
690 \layout Standard
691
692 Otro detalle de la inserción es que cuando el árbol indica donde debe insertarse
693  un registro pueden pasar dos cosas nuevamente:
694 \layout Enumerate
695
696 Que el registro quepa en el bloque.
697 \layout Enumerate
698
699 Que el registro no quepa en el bloque.
700 \layout Standard
701
702 El primer caso es trivial y el registro se insertará sin problemas en el
703  bloque indicado.
704 \layout Standard
705
706 En el caso que el registro no quepa en el bloque, se deberán separar los
707  registros del bloque en 2 bloques, en original y uno nuevo, cada uno con
708  la mitad (aproximadamente) de los registros.
709  
710 \layout Standard
711
712 Al partir el bloque el ancla del bloque original no se modificará, pero
713  en el bloque nuevo se crea una nueva anlca de bloque, pues una de las claves
714  pertenecientes a los registros que contiene, será la menor.
715 \layout Standard
716
717 Antes de actualizar el árbol con el ancla nueva, habrá que discriminar en
718  qué bloque se debe insertar el registro nuevo.
719  Para ello se compara la menor de las claves del nuevo bloque con la clave
720  del registro, si la clave del registro es menor que el ancla del nuevo
721  bloque, este debe ir en el bloque original, y se inserta ordenado en él
722  y se le informa al árbol que actualice (inserte) una nueva clave correspondient
723 e al bloque nuevo, sino se inserta en el bloque nuevo de forma ordenada
724  y en este caso cabe la posibilidad de que el nuevo registro posea la clave
725  mas pequeña de todas en el bloque, por ello se lo inserta ordenadamente
726  con ayuda de la función
727 \family typewriter 
728  CLAVE grabar_ordenado_en_bloque(EMUFS *emu, void *ptr, EMUFS_REG_SIZE size,
729  void *bloque, int num_bloque, EMUFS_FREE fs, int *err) 
730 \family default 
731 la cual inserta el registro ordenado por CLAVE y devuelve la menor de las
732  claves del bloque, que se usará para informarle al árbol que inserte una
733  clave nueva junto con el número de bloque, para indexar este bloque.
734 \layout Subsection
735
736 Eliminación
737 \layout Standard
738
739 El proceso de eliminación es bastante similar al de inserción en el sentido
740  que también hay que realizar una consulta en el árbol para obtener el número
741  de bloque al que pertenece una clave.
742  Una vez conocido este número se levanta el bloque correspondiente y se
743  busca secuencialmente el registro que se debe eliminar.
744 \layout Standard
745
746 Si el registro a eliminar fuera el primero del bloque, habrá que modificar
747  el ancla de bloque en el árbol con el ancla que corresponda a la clave
748  del nuevo menor registro, y si el que se elimina fuera el único registro
749  en el bloque habrá que eliminar la clave del árbol.
750 \layout Standard
751
752 En cualquier otro caso, solo se eliminará el registro correspondiente y
753  se justificarán los registros a izquierda.
754 \layout Subsection
755
756 Búsqueda
757 \layout Standard
758
759 El proceso de búsqueda de un registro por su clave de identificación primaria
760  en la Organización Secuencial Indexada, es bastante directa en su entendimiento.
761  Para buscar un registro, acudiremos al árbol B+ con la clave anteriormente
762  mencionada, y obtendremos del mismo, el número de bloque donde se debe
763  encontrar el registro.
764 \layout Standard
765
766 Para obtener dicho número de bloque, el árbol internamente busca el ancla
767  menor inmediata a la clave buscada y luego devuelve el número de bloque
768  de datos donde está dicha ancla (el nro bloque será el dato asociado a
769  la clave ancla, en el árbol), el cual será el bloque potencial donde se
770  encuentre el registro buscado.
771 \layout Standard
772
773 Una desventaja de esta implementación con indexación parcial, es que no
774  sabremos si el registro se encuentra efectivamente en el bloque indicado,
775  hasta no buscarlo dentro del mismo en formal secuencial.
776  Si lo hallamos, daremos por finalizada la búsqueda del registro.
777 \layout Subsection
778
779 Recorrida secuencial de registros
780 \layout Standard
781
782 Una consecuencia importante de la organización secuencial indexada, en este
783  caso implementada a través de un árbol B+ con indexación parcial, es que
784  como mencionamos anteriormente, los registros dentro de un bloque se encuetran
785  ordenados, y si bien los bloques en si pueden no estar ordenados en el
786  archivo de datos, algunos lo estarán, y minimizarán en base a estas característ
787 icas, los tiempos de acceso para una recorrida secuencial de registros.
788 \layout Standard
789
790 Suponiendo que nos encontramos con varios registros cargados en esta organizació
791 n de archivo, y con el correspondiente árbol de indexación primaria B+ en
792  el disco, si se nos pidiera por ejemplo, recorrer los registros de articulos
793  desde el ID_Articulo 40, hasta el ID_Articulo 1406, la operativa será la
794  siguiente:
795 \layout Itemize
796
797 Acudimos al árbol y obtenemos el numero de bloque para el ID_Articulo 40,
798  buscando el ancla menor inmediata y obteniendo el nro de bloque de datos
799  donde se encuentra, siendo este el nro de bloque donde debería estar el
800  artículo de clave ID_Articulo 40.
801 \layout Itemize
802
803 Levantamos el bloque de datos y lo recorremos secuencialmente, pues como
804  dijimos anteriormente, sus registros se encuentran ordenados por la clave
805  de identificación primaria, en este caso ID_Articulo.
806 \layout Itemize
807
808 Cuando ya hayamos procesado todo el bloque, debemos obtener la siguiente
809  ancla a través del árbol y repetir el proceso.
810 \layout Itemize
811
812 NOTA: Cabe desatacar, que todas las anclas estan en las hojas del B+, y
813  por ello las recorremos a nivel hojas a traves del Sequence Set, que gracias
814  a su encadenamiento, nos permite obtener en forma muy directa y efectiva,
815  las anclas de bloque ordenadas en secuencia, y por consiguiente, recorrer
816  el archivo en forma secuencial minimizando accesos.
817 \layout Chapter
818
819 Ordenamiento Externo
820 \layout Section
821
822 Descripción del algoritmo
823 \layout Standard
824
825 Luego de buscar varias alternativas sobre algoritmos de ordenamiento externo,
826  se optó por el siguiente (que resultó una mezcla de las alternativas analizadas
827 ):
828 \layout Enumerate
829
830 Tomar uno a uno los registros del archivo a ordenar e 
831 \emph on 
832 inyectarlos
833 \emph default 
834  en un buffer ordenado hasta llenar el buffer.
835 \layout Enumerate
836
837 Quitar el menor de los valores (
838 \emph on 
839 inyectando
840 \emph default 
841  uno nuevo desde el archivo a ordenar) e insertarlo en un archivo temporal.
842 \layout Enumerate
843
844 Quitar del buffer el mínimo valor mayor al último insertado en el archivo
845  temporal (
846 \emph on 
847 inyectando
848 \emph default 
849  nuevamente un registro obtenido del archivo a ordenar) y se lo inserta
850  en el archivo temporal.
851  De esta forma quedan ordenados los registros en el archivo temporal.
852 \layout Enumerate
853
854 Repetir el paso 3 hasta que se vacíe el buffer o hasta que no haya ningún
855  valor mayor al último insertado en el archivo temporal.
856  Cuando esto suceda se crea un nuevo archivo temporal volviendo al paso
857  2.
858 \layout Standard
859
860 En este punto ya tenemos el buffer vacío y todos los valores del archivo
861  a ordenar repartidos en 1 o más archivos temporales ordenados, sólo queda
862  unir los archivos para volver a un sólo archivo completo y ordenado.
863  El procedimiento es simple:
864 \layout Enumerate
865
866 Obtener el mínimo valor de los archivos temporales e insertarlo en el archivo
867  ordenado de salida.
868 \layout Enumerate
869
870 Repetir 1 hasta agotar los registros de todos los archivos temporales.
871 \layout Standard
872
873 Debe quedar claro que los archivos temporales se comportan como una cola.
874  Es decir que al obtener un registro de un archivo temporal se obtiene el
875  primer registro que se haya insertado (el mínimo por la forma en la que
876  fueron insertados).
877 \layout Subsection
878
879 Ejemplo
880 \layout Standard
881
882 A continuación se presenta un ejemplo para una más fácil comprensión del
883  algoritmo.
884 \layout Standard
885
886 Supongamos que queremos ordenar un archivo con registros de números enteros
887  (el archivo se lee de izquierda a derecha): 9 6 34 2 8 3 12 43 23 4 19
888  21 87 1 16 36 42 65
889 \layout Standard
890
891 Supongamos que disponemos de un buffer capaz de almacenar 3 registros.
892 \layout Paragraph
893
894 Se llena el buffer ordenado
895 \layout Standard
896
897 Se lee 9 del archivo original y se lo inserta en el buffer ordenado.
898  Buffer: 9
899 \layout Standard
900
901 Se lee 6 del archivo original y se lo inserta en el buffer ordenado.
902  Buffer: 6 9
903 \layout Standard
904
905 Se lee 34 del archivo original y se lo inserta en el buffer ordenado.
906  Buffer: 6 9 34
907 \layout Paragraph
908
909 Se crea el archivo temporal ordenado 1
910 \layout Standard
911
912 Se lee el mínimo valor del buffer (6), se lo inserta en el archivo temporal
913  y se carga un nuevo valor del archivo original al buffer (2).
914  Buffer: 2 9 34.
915  Archivo1: 6
916 \layout Standard
917
918 Se lee el mínimo valor del buffer mayor al insertado anteriormente (9),
919  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
920  original al buffer (8).
921  Buffer: 2 8 34.
922  Archivo1: 6 9
923 \layout Standard
924
925 Se lee el mínimo valor del buffer mayor al insertado anteriormente (34),
926  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
927  original al buffer (3).
928  Buffer: 2 3 8.
929  Archivo1: 6 9 34
930 \layout Standard
931
932 No hay más valores en el buffer mayores al último insertado (34), fin del
933  Archivo1.
934 \layout Paragraph
935
936 Se crea el archivo temporal ordenado 2
937 \layout Standard
938
939 Se lee el mínimo valor del buffer (2), se lo inserta en el archivo temporal
940  y se carga un nuevo valor del archivo original al buffer (12).
941  Buffer: 3 8 12.
942  Archivo2: 2
943 \layout Standard
944
945 Se lee el mínimo valor del buffer mayor al insertado anteriormente (3),
946  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
947  original al buffer (43).
948  Buffer: 8 12 43.
949  Archivo2: 2 3
950 \layout Standard
951
952 Se lee el mínimo valor del buffer mayor al insertado anteriormente (8),
953  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
954  original al buffer (23).
955  Buffer: 12 23 43.
956  Archivo2: 2 3 8
957 \layout Standard
958
959 Se lee el mínimo valor del buffer mayor al insertado anteriormente (12),
960  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
961  original al buffer (4).
962  Buffer: 4 23 43.
963  Archivo2: 2 3 8 12
964 \layout Standard
965
966 Se lee el mínimo valor del buffer mayor al insertado anteriormente (23),
967  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
968  original al buffer (19).
969  Buffer: 4 19 43.
970  Archivo2: 2 3 8 12 23
971 \layout Standard
972
973 Se lee el mínimo valor del buffer mayor al insertado anteriormente (43),
974  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
975  original al buffer (21).
976  Buffer: 4 19 21.
977  Archivo2: 2 3 8 12 23 43
978 \layout Standard
979
980 No hay más valores en el buffer mayores al último insertado (43), fin del
981  Archivo2.
982 \layout Paragraph
983
984 Se crea el archivo temporal ordenado 3
985 \layout Standard
986
987 Se repite el proceso anterior.
988  Buffer: 1 16 36.
989  Archivo3: 4 19 21 87
990 \layout Paragraph
991
992 Se crea el archivo temporal ordenado 4
993 \layout Standard
994
995 Se repite el proceso anterior.
996  Buffer: .
997  Archivo4: 1 16 36 42 65
998 \layout Paragraph
999
1000 Se mezclan los archivos temporales ordenados obteniendo un archivo completo
1001  ordenado
1002 \layout Standard
1003
1004 Se obtiene el menor valor de los archivos temporales ordenados (sólo tenemos
1005  que elegir entre el primer valor de cada uno).
1006 \layout Standard
1007
1008 Archivo1: 6 9 34.
1009  Archivo2: 2 3 8 12 23 43.
1010  Archivo3: 4 19 21 87.
1011  Archivo4: 1 16 36 42 65
1012 \layout Standard
1013
1014 Sólo debo comparar y obtener el menor entre 6, 2, 4, y 1.
1015  Obtengo el 1, lo saco del archivo temporal y lo agrego al de salida:
1016 \layout Standard
1017
1018 Archivo1: 6 9 34.
1019  Archivo2: 2 3 8 12 23 43.
1020  Archivo3: 4 19 21 87.
1021  Archivo4: 16 36 42 65 Salida: 1
1022 \layout Standard
1023
1024 Repito hasta que no hayan más valores en los archivos temporales:
1025 \layout Standard
1026
1027 Archivo1: 6 9 34.
1028  Archivo2: 3 8 12 23 43.
1029  Archivo3: 4 19 21 87.
1030  Archivo4: 16 36 42 65.
1031  Salida: 1 2
1032 \layout Standard
1033
1034 Archivo1: 6 9 34.
1035  Archivo2: 8 12 23 43.
1036  Archivo3: 4 19 21 87.
1037  Archivo4: 16 36 42 65.
1038  Salida: 1 2 3
1039 \layout Standard
1040
1041 Archivo1: 6 9 34.
1042  Archivo2: 8 12 23 43.
1043  Archivo3: 19 21 87.
1044  Archivo4: 16 36 42 65.
1045  Salida: 1 2 3 4
1046 \layout Standard
1047
1048 Archivo1: 6 9 34.
1049  Archivo2: 8 12 23 43.
1050  Archivo3: 19 21 87.
1051  Archivo4: 16 36 42 65.
1052  Salida: 1 2 3 4
1053 \layout Standard
1054
1055 Archivo1: 9 34.
1056  Archivo2: 8 12 23 43.
1057  Archivo3: 19 21 87.
1058  Archivo4: 16 36 42 65.
1059  Salida: 1 2 3 4 6
1060 \layout Standard
1061
1062 Archivo1: 9 34.
1063  Archivo2: 12 23 43.
1064  Archivo3: 19 21 87.
1065  Archivo4: 16 36 42 65.
1066  Salida: 1 2 3 4 6 8
1067 \layout Standard
1068
1069 Archivo1: 34.
1070  Archivo2: 12 23 43.
1071  Archivo3: 19 21 87.
1072  Archivo4: 16 36 42 65.
1073  Salida: 1 2 3 4 6 8 9
1074 \layout Standard
1075
1076 Archivo1: 34.
1077  Archivo2: 23 43.
1078  Archivo3: 19 21 87.
1079  Archivo4: 16 36 42 65.
1080  Salida: 1 2 3 4 6 8 9 12
1081 \layout Standard
1082
1083 Archivo1: 34.
1084  Archivo2: 23 43.
1085  Archivo3: 19 21 87.
1086  Archivo4: 36 42 65.
1087  Salida: 1 2 3 4 6 8 9 12 16
1088 \layout Standard
1089
1090 Archivo1: 34.
1091  Archivo2: 23 43.
1092  Archivo3: 21 87.
1093  Archivo4: 36 42 65.
1094  Salida: 1 2 3 4 6 8 9 12 16 19
1095 \layout Standard
1096
1097 Archivo1: 34.
1098  Archivo2: 23 43.
1099  Archivo3: 87.
1100  Archivo4: 36 42 65.
1101  Salida: 1 2 3 4 6 8 9 12 16 19 21
1102 \layout Standard
1103
1104 Archivo1: 34.
1105  Archivo2: 43.
1106  Archivo3: 87.
1107  Archivo4: 36 42 65.
1108  Salida: 1 2 3 4 6 8 9 12 16 19 21 23
1109 \layout Standard
1110
1111 Archivo1:.
1112  Archivo2: 43.
1113  Archivo3: 87.
1114  Archivo4: 36 42 65.
1115  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34
1116 \layout Standard
1117
1118 Archivo1:.
1119  Archivo2: 43.
1120  Archivo3: 87.
1121  Archivo4: 42 65.
1122  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36
1123 \layout Standard
1124
1125 Archivo1:.
1126  Archivo2: 43.
1127  Archivo3: 87.
1128  Archivo4: 65.
1129  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42
1130 \layout Standard
1131
1132 Archivo1:.
1133  Archivo2:.
1134  Archivo3: 87.
1135  Archivo4: 65.
1136  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43
1137 \layout Standard
1138
1139 Archivo1:.
1140  Archivo2:.
1141  Archivo3: 87.
1142  Archivo4:.
1143  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43 65
1144 \layout Standard
1145
1146 Archivo1:.
1147  Archivo2:.
1148  Archivo3:.
1149  Archivo4:.
1150  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43 65 87
1151 \layout Paragraph
1152
1153 Fin
1154 \layout Standard
1155
1156 Finalmente, tengo en el archivo de salida el archivo original ordenado.
1157 \layout Section
1158
1159 Alcance
1160 \layout Standard
1161
1162 El algoritmo de ordenamiento es completamente genérico, ya que recibe un
1163  puntero void como registro, su tamaño (para poder manipularlo sin conocer
1164  su tipo) y una función de comparación, para poder comparar dos registros
1165  (sin saber su tipo) a través de una relación de orden (descripta por dicha
1166  función).
1167 \layout Section
1168
1169 Decisiones de diseño.
1170 \layout Standard
1171
1172 El algoritmo se eligió en base a una serie de razones y cuenta con una serie
1173  de ventajas y desventajas.
1174 \layout Itemize
1175
1176 El algoritmo es simple, tanto teóricamente como para implementar.
1177 \layout Itemize
1178
1179 Tiene la desventaja de que puede llegar a usar muchos archivos temporales
1180  y todos abiertos al mismo tiempo, pero considerando que el sistema operativo
1181  en el que se utiliza suele manejar bien grandes cantidades de archivos
1182  no es una desventaja importante.
1183 \layout Itemize
1184
1185 Al usar un buffer intermedio, se puede controlar muy bien la cantidad de
1186  memoria que utiliza y experimentar con distintos valores para analizar
1187  los resultados.
1188 \layout Itemize
1189
1190 El buffer ordenado se implementó con un árbol binario debido a que tiene
1191  una buena relación entre velocidad de búsqueda y facilidad de implementación.
1192  Al ser el principal determinante de la velocidad los accesos a disco no
1193  se creyó necesario buscar una alternativa más rápida para mantener el buffer
1194  ordenado en memoria, ya que no cambiaría de forma notable el tiempo total
1195  del algoritmo.
1196  Otras posibilidades hubieran sido cargar todo el buffer en memoria y ordenarlo
1197  posteriormente (dependiendo del algoritmo de ordenamiento a utilizar puede
1198  ser más o menos rápido que el árbol y más o menos complicado de implementar)
1199  o hacer una búsqueda secuencial sobre un buffer desordenado (es más fácil
1200  de implementar pero claramente más lento).
1201  Una posible ventaja notable de leer el buffer primero y luego ordenarlo
1202  en memoria es que se necesita un sólo acceso al disco para llenar el buffer,
1203  mientras que al obtener uno a uno los valores puede generar muchos accesos
1204  a disco.
1205  Esto no debería ser muy notable ya que las funciones de acceso a archivos
1206  de la biblioteca estándar de C poseen un buffer interno, por lo que los
1207  accesos a disco probablemente sea muy poco aún cuando se obtienen uno a
1208  uno.
1209 \the_end