]> git.llucax.com Git - z.facultad/75.06/emufs.git/blob - doc/informe_2da_entrega.lyx
Se agrega justificación de bugo para usar B+ solo de primario.
[z.facultad/75.06/emufs.git] / doc / informe_2da_entrega.lyx
1 #LyX 1.3 created this file. For more info see http://www.lyx.org/
2 \lyxformat 221
3 \textclass book
4 \language spanish
5 \inputencoding auto
6 \fontscheme palatino
7 \graphics default
8 \paperfontsize default
9 \spacing single 
10 \papersize a4paper
11 \paperpackage widemarginsa4
12 \use_geometry 0
13 \use_amsmath 0
14 \use_natbib 0
15 \use_numerical_citations 0
16 \paperorientation portrait
17 \secnumdepth 3
18 \tocdepth 3
19 \paragraph_separation indent
20 \defskip medskip
21 \quotes_language english
22 \quotes_times 2
23 \papercolumns 1
24 \papersides 1
25 \paperpagestyle default
26
27 \layout Title
28
29 Organización de Datos (75.06)
30 \newline 
31 Trabajo Práctico
32 \newline 
33 E
34 \begin_inset Formula $\mu$
35 \end_inset 
36
37 FS
38 \layout Author
39
40
41 \series bold 
42 Grupo 11
43 \series default 
44
45 \newline 
46 Nicolás Dimov (77624)
47 \newline 
48 Alan Kennedy (78907)
49 \newline 
50 Leandro Lucarella (77891)
51 \newline 
52 Ricardo Markiewicz (78226)
53 \layout Date
54
55 Segunda Entrega, 31 de Mayo de 2004
56 \layout Standard
57
58
59 \begin_inset LatexCommand \tableofcontents{}
60
61 \end_inset 
62
63
64 \layout Chapter
65
66 Introducción
67 \layout Standard
68
69 En esta entrega el trabajo estuvo concentrado en el manejo de índices para
70  los tipos de archivos implementados en la primer entrega.
71  Los índices se implementaron con:
72 \layout Enumerate
73
74 Árbol B
75 \layout Enumerate
76
77 Árbol B*
78 \layout Enumerate
79
80 Árbol B+
81 \layout Standard
82
83 Además de esto, se pide 3 funciones distintas para estos índices:
84 \layout Enumerate
85
86 Principal
87 \layout Enumerate
88
89 Selectivo
90 \layout Enumerate
91
92 Exhaustivo
93 \layout Standard
94
95 Con la autorización de los ayudantes de la cátedra decidimos que el árbol
96  B+ sólo pueda ser utilizado para índices principal ya que de otra manera
97  no tiene sentido el set secuencial (ver página 
98 \begin_inset LatexCommand \pageref{sub:justificacion}
99
100 \end_inset 
101
102  para una justificación más detallada).
103 \layout Standard
104
105 Finalmente, para obtener listados basados en campos de los cuales no se
106  tiene un índice, se implementó un ordenamiento externo.
107 \layout Standard
108
109 A continuación se presenta una descripción un poco más detallada sobre todas
110  herramientas utilizadas para resolver el trabajo práctico.
111 \layout Section
112
113 Documentación de la API
114 \layout Standard
115
116 Para obtener una documentación de la API más completa, se incluye en formato
117  HTML en el CD-ROM la documentación generado con Doxygen.
118  Esta documentación se encuentra en el directorio 
119 \family typewriter 
120 doc/api/html/index.html
121 \family default 
122 .
123 \layout Chapter
124
125 Estructura común
126 \layout Section
127
128 Tipos
129 \layout Standard
130
131 Se detallan a continuación los tipos de datos definidos y utilizados en
132  las distintas implementaciones que conforman nuestro sistema, siendo el
133  más importante de ellos en esta entrega, la estructura 
134 \family typewriter 
135 INDICE
136 \family default 
137  que actúa como interfaz común para el manejo de cualquier tipo de índice
138  (no importa que tipo de organización física ni de que forma esté implementado,
139  esta estructura proveerá una interfaz abstracta para su manejo).
140 \layout Subsection
141
142 Tipos Comunes
143 \layout Standard
144
145 Se agregaron varios tipos comunes nuevos en esta entrega, en su mayoría
146  relacionados a los índices.
147  Estos tipos son brevemente descriptos a continuación y pueden ser hallados
148  en el archivo 
149 \family typewriter 
150 indices.h
151 \family default 
152 :
153 \layout Itemize
154
155
156 \family typewriter 
157 INDICE_DATO
158 \family default 
159 : usado para representar el conjunto de un ID más su dato.
160 \layout Itemize
161
162
163 \family typewriter 
164 INDICE_TIPO
165 \family default 
166 : indica el tipo de índice (B, B* o B+).
167 \layout Itemize
168
169
170 \family typewriter 
171 INDICE_FUNCION
172 \family default 
173 : indica la función que cumple el índice (principal, selectivo o exhaustivo).
174 \layout Itemize
175
176
177 \family typewriter 
178 INDICE_TIPO_DATO
179 \family default 
180 : indica el tipo de dato que se usa como clave.
181 \layout Itemize
182
183
184 \family typewriter 
185 CLAVE
186 \family default 
187 : representa una clave de un índice.
188 \layout Subsection
189
190 INDICE
191 \layout Standard
192
193
194 \family typewriter 
195 INDICE
196 \family default 
197 \emph on 
198  
199 \emph default 
200 es la estructura principal que encapsula todas las funciones para el manejo
201  de un índice.
202  Posee punteros a funciones que permite utilizar la misma interfaz para
203  distintas implementaciones de árboles.
204  
205 \layout Standard
206
207 Su declaración puede ser observada en el archivo 
208 \family typewriter 
209 indices.h
210 \family default 
211 \series bold 
212  
213 \series default 
214 y cuenta con la siguiente información:
215 \layout Itemize
216
217 Tipo de índice.
218 \layout Itemize
219
220 Tipo de dato que maneja.
221 \layout Itemize
222
223 Función del índice.
224 \layout Itemize
225
226 Información sobre el desplazamiento para ubicar el dato dentro de la estructura
227  a indexar (para poder tener una implementación genérica que sirva para
228  cualquier estructura).
229 \layout Itemize
230
231 Información sobre archivos auxiliares para almacenar cadenas de texto y
232  otras estructuras que eventualmente requiera un índice.
233 \layout Itemize
234
235 Punteros a funciones para:
236 \begin_deeper 
237 \layout Itemize
238
239 Agregar entrada.
240 \layout Itemize
241
242 Borrar entrada.
243 \layout Itemize
244
245 Verificar la existencia de una entrada.
246 \layout Itemize
247
248 Buscar entradas.
249 \layout Itemize
250
251 Obtener clave menor o mayor del índice.
252 \layout Itemize
253
254 Obtener siguiente clave (para recorrido secuencial).
255 \end_deeper 
256 \layout Standard
257
258 Esta estructura define los valores de sus punteros según el tipo de implementaci
259 ón que se desee manejar y esto se realiza a través de la API 
260 \family typewriter 
261 emufs_indice
262 \family default 
263 , implementada en 
264 \family typewriter 
265 indices.h
266 \family default 
267 .
268  Esta API posee funciones para crear y destruir índices, agregarlos y quitarlos
269  de una estructura 
270 \family typewriter 
271 EMUFS
272 \family default 
273 , comparar claves y otras, necesarias para la correcta y completa utilización
274  de los índices a través de la interfaz de 
275 \family typewriter 
276 EMUFS
277 \family default 
278  descripta en la entrega anterior.
279 \layout Subsubsection
280
281 Integración con 
282 \family typewriter 
283 EMUFS
284 \family default 
285 .
286 \layout Standard
287
288 Para integrar la utilización de índices a 
289 \family typewriter 
290 EMUFS
291 \family default 
292  fueron necesarios los siguientes cambios:
293 \layout Paragraph
294
295 Nuevos tipos de archivo.
296 \layout Standard
297
298 Se incluyen dos tipos de archivo nuevos T4 y T5, que representan, respectivament
299 e, un archivo T1 (registros variables, bloques fijos) y un archivo T3 (registros
300  y bloques fijos), ambos organizados como un set secuencial indexado.
301  De esta manera se conserva la interfaz de 
302 \family typewriter 
303 EMUFS
304 \family default 
305  (los punteros a funciones) incluso cuando se debe insertar de forma ordenada,
306  ya que al saber que es T4 o T5 siempre se inserta de forma ordenada.
307 \layout Paragraph
308
309 Puntero a un arreglo de índices.
310 \layout Standard
311
312 Se agrega a la estructura 
313 \family typewriter 
314 EMUFS
315 \family default 
316  un puntero a un arreglo de 
317 \family typewriter 
318 INDICE
319 \family default 
320 , donde el primero es siempre el índice principal.
321 \layout Chapter
322
323 Especificaciones de índices
324 \layout Section
325
326 Indice B
327 \layout Section
328
329 Indice B*
330 \layout Subsection
331
332 Decisiones de diseño
333 \layout Standard
334
335 Una de las pocas decisiones que tuvimos que tomar fue la forma de manejar
336  el nodo raíz.
337  Hay dos formas comunes de hacerlo:
338 \layout Enumerate
339
340 Permitir que el nodo raíz pueda almacenar 2N+1 claves (siendo N el número
341  máximo de claves permitido por nodo).
342 \layout Enumerate
343
344 Hacer que se comporte como un árbol B.
345 \layout Standard
346
347 La primera forma garantiza un mejor aprovechamiento del espacio, ya que
348  se sigue haciendo una partición en 3 nodos hijo con 2/3 de los espacios
349  llenos.
350  El problema que encontramos para hacerlo de esa forma fue que usamos un
351  tamaño de nodo fijo de 512 para poder leer un sector completo del disco
352  y ganar algo de velocidad, por lo que para poder mantener este esquema
353  hubiéramos necesitado de 3 bloques de 512 para poder guardar los 2N+1 claves,
354  desperdiciando 512-tamaño_de_clave espacio en el bloque final y haciendo
355  que cualquier ahorro de espacio en los hijos del nodo raíz difícilmente
356  lo compense.
357 \layout Standard
358
359 Además de esto, el utilizar la segunda forma trae como ventaja la reutilización
360  de código del árbol B, lo que facilita la implementación y el mantenimiento
361  del código.
362 \layout Standard
363
364 Estas son las dos razones principales por las cuales elegimos tratar el
365  nodo raíz como lo hace el árbol B.
366 \layout Section
367
368 Indice B+ Organizacion Secuencial Indexada
369 \layout Subsection
370
371 Decisiones de diseño
372 \layout Standard
373
374 Para la implementación de la organización secuencial indexada de archivos,
375  se ha utilizado un árbol B+, conocido por ser utilizado en términos generales
376  para implementaciones de esta índole.
377 \layout Standard
378
379 Como particularidad el arbol B+, poseerá en sus hojas todas las claves que
380  se hayan insertado en el árbol.
381  No obstante, las mismas no serán todas las claves que se encuentren en
382  el archivo de datos, sino la primer clave de cada bloque de datos, también
383  denominadas 'anclas de bloque'.
384 \layout Standard
385
386 En torno a esta distinción respecto de los demás arboles, el árbol B+ nos
387  indicará a la hora de grabar registros en nuestro archivo de datos con
388  bloques (Organización del TP1, Tipo1 o 3), en que bloque de datos debemos
389  realizar la mencionada inserción.
390  La operativa se detalla más adelante, pero básicamente realizaremos una
391  búsqueda del ancla menor inmediata a la clave del registro que se desea
392  insertar, y esto nos indicará el bloque apropiado (el bloque donde esta
393  el ancla).
394 \layout Standard
395
396 Como resultado concreto de este comportamiento (teniendo en cuenta también
397  el borrado y partición de bloques del .dat), obtendremos un archivo secuencial
398  indexado, en donde los registros se encuentran ordenados a nivel de bloques,
399  esto es, dentro de un bloque dado del archivo de datos, los registros estan
400  ordenados por clave primaria.
401  No obstante, los bloques no estarán necesariamente ordenados, pero igualmente
402  la cantidad de accesos para recorrer el archivo en forma secuencial, se
403  ve minimizada respecto de otras organizaciones, gracias al encadenamiento
404  de las hojas y la posesión de las anclas de bloque, cuya lista resultante
405  del encadenamiento es denominada 
406 \series bold 
407 Sequence Set.
408 \layout Subsubsection
409
410
411 \begin_inset LatexCommand \label{sub:justificacion}
412
413 \end_inset 
414
415 Razones por las cuales el B+ es útil sólo para clave principal.
416 \layout Standard
417
418 El mejor aprovechamiento del Arbol B+ se da en su utilizacion en implementacion
419  ISAM (Indexed Sequential Access Method), en donde se realiza una indexacion
420  parcial de claves, sólo ingresando en el árbol las claves anclas de cada
421  bloque en el archivo de datos.
422  
423 \layout Standard
424
425 Esta aplicación del árbol B+ a ISAM, además de indicarnos donde grabar y
426  donde buscar los registros por identificación primaria, nos asegura el
427  ordenamiento de los registros parcialmente a nivel de bloque (esto es,
428  los registros en un bloque dado, estarán ordenados, pero los bloques no
429  necesariamente).
430  Así pués, recorriendo el Sequence Set del Arbol B+, minimizaremos los saltos
431  de lectura en disco, pues dentro de un bloque indicado por un ancla dada
432  en el Sequence Set, podremos recorrer los registros secuencialmente.
433 \layout Standard
434
435 Visto y considerando que la aplicación más importante a nuestro criterio
436  del Arbol B+, era para la indexacion parcial de claves primarias, y que
437  en caso de utilizarlo para otros índices, el B+ se convertiría simplemente
438  en un B con encadenamiento a nivel de hojas, luego de consultar con los
439  ayudantes, decidimos utilizarlo unicamente para el índice primario, y utilizar
440  el B y B* para los restantes índices y/o el primario.
441  
442 \layout Subsection
443
444 Estructura
445 \layout Standard
446
447 Para comprender mejor la implementación particular que hemos dado al árbol
448  B+, damos una breve reseña de la estructura de un nodo del arbol, la cual
449  es la siguiente:
450 \layout Itemize
451
452 Nivel
453 \layout Itemize
454
455 Cantidad de claves
456 \layout Itemize
457
458 Arreglo de claves
459 \layout Itemize
460
461 Arreglo de hijos
462 \layout Standard
463
464 Esta estructura se encuentra en el archivo 
465 \family typewriter 
466 indice_bplus.h
467 \layout Standard
468
469 Esta organización permite, con la ayuda del árbol, mantener el archivo de
470  datos ordenado por la clave principal.
471 \layout Standard
472
473 Para lograr esto, como fue expuesto anteriormente, el árbol nos indicará
474  donde (en qué bloque) debe insertarse un registro.
475  (ver 3.3.1 Inserción)
476 \layout Standard
477
478 En el caso de una hoja, dado que cada nodo posee un hijo mas que la cantidad
479  de claves, el hijo que sobra será utilizado como referencia al nodo 
480 \begin_inset Quotes eld
481 \end_inset 
482
483 hermano
484 \begin_inset Quotes erd
485 \end_inset 
486
487 , lo cual constituye el 
488 \begin_inset Quotes eld
489 \end_inset 
490
491 set secuencial
492 \begin_inset Quotes erd
493 \end_inset 
494
495  del índice.
496  Para un nodo que no sea hoja el hijo será el número de nodo correspondiente
497  según la clave, es decir, para la clave 
498 \series bold 
499 \emph on 
500
501 \series default 
502 \emph default 
503 el hijo 
504 \series bold 
505 \emph on 
506 n
507 \series default 
508 \emph default 
509  contiene claves menores y el hijo 
510 \series bold 
511 \emph on 
512 n+1
513 \series default 
514 \emph default 
515  contiene las claves mayores.
516  En el caso particular del nivel 1 (index set) el hijo 
517 \series bold 
518 \emph on 
519 n+1
520 \series default 
521 \emph default 
522  (sequence set) contiene las claves mayores o iguales ya que el 
523 \begin_inset Quotes eld
524 \end_inset 
525
526 secuence set
527 \begin_inset Quotes erd
528 \end_inset 
529
530  debe contener todas las claves insertadas, esto produce que exista una
531  repetición de las claves entre el nivel 1 y el 0.
532 \layout Standard
533
534 En nuestro caso hemos implementado un Secuencial Indexado tipo ISAM (Indexed
535  Sequential Access Method) el cual posee en sus hojas las anclas de cada
536  bloque en el archivo de datos, es decir, solo se guardan en los nodos del
537  árbol la menor de las claves de un bloque del archivo de datos, acompañada
538  cada clave por el numero de bloque al cual pertenece.
539 \layout Standard
540
541 Hemos adoptado que la cantidad de claves máxima en un nodo del árbol sea
542  una cantidad impar, ya que esto facilita la elección de la clave que será
543  promovida hacia su nodo padre en caso de que se produzca un overflow en
544  el nodo.
545 \layout Subsection
546
547 Inserción
548 \layout Standard
549
550 Para realizar una inserción en el archivo de datos se debe realizar una
551  consulta en el árbol, la cual nos indicará el número de bloque donde debemos
552  insertar el nuevo registro.
553 \layout Standard
554
555 Las consultas se realizan a través de una estructura INDEX_DAT que posee:
556 \layout Itemize
557
558 Clave
559 \layout Itemize
560
561 Número de Bloque 
562 \layout Standard
563
564 Esta estructura se encuentra en el archivo 
565 \family typewriter 
566 indice_bplus.h
567 \layout Standard
568
569 El modo de uso es el siguiente:
570 \layout Standard
571
572 En primer lugar se carga la clave a insertar en el campo Clave, y en el
573  campo Número de Bloque se almacena un número de bloque válido, mas adelante
574  se explica el por qué.
575 \layout Standard
576
577 Luego se invoca a la función 
578 \family typewriter 
579 int emufs_b_plus_get_bloque(INDICE, INDEX_DAT) 
580 \family default 
581 la cual recibe como parámetro una estructura de índice y un INDEX_DAT para
582  realizar la consulta.
583 \layout Standard
584
585 Esta función recorre recursivamente el árbol y busca una clave mayor inmediata
586  a la enviada, siempre culminando la búsqueda en una hoja.
587  Al encontrar la clave mayor inmediata, el resultado de la búsqueda será
588  la clave anterior en el nodo, pues cada clave en el nodo es un ancla de
589  bloque de datos, de esta manera la clave anterior será menor a la clave
590  enviada, pues las claves en las hojas están ordenadas.
591  
592 \layout Standard
593
594 En este paso pueden suceder dos cosas:
595 \layout Enumerate
596
597 Que exista una clave menor a la enviada.
598 \layout Enumerate
599
600 Que la clave enviada sea menor a todas las claves del árbol.
601 \layout Standard
602
603 En el primer caso, se ha encontrado la clave y se carga la estructura con
604  el hijo de esa clave, que será el número de bloque donde debe insertarse
605  el nuevo registro (por el cual se realizó la consulta), sobreescribiendo
606  el valor que almacenaba al ingresar, y la función retornará código 0 que
607  indica que se ha encontrado un bloque donde insertar.
608 \layout Standard
609
610 En el segundo caso, puede darse que la clave enviada sea menor a todas las
611  claves del árbol, por lo cual no es posible encontrar un ancla de bloque
612  para esa clave.
613  Aquí la función retornará código -1 lo cual indica que no se ha encontrado
614  un bloque donde insertar el registro nuevo, y es por esto que la estructura
615  debe inicializarse con un número de bloque válido antes de realizarse la
616  consulta.De esta manera el árbol indica donde debe insertarse un nuevo registro
617  en el archivo de datos.
618 \layout Standard
619
620 Otro detalle de la inserción es que cuando el árbol indica donde debe insertarse
621  un registro pueden pasar dos cosas nuevamente:
622 \layout Enumerate
623
624 Que el registro quepa en el bloque.
625 \layout Enumerate
626
627 Que el registro no quepa en el bloque.
628 \layout Standard
629
630 El primer caso es trivial y el registro se insertará sin problemas en el
631  bloque indicado.
632 \layout Standard
633
634 En el caso que el registro no quepa en el bloque, se deberán separar los
635  registros del bloque en 2 bloques, en original y uno nuevo, cada uno con
636  la mitad (aproximadamente) de los registros.
637  
638 \layout Standard
639
640 Al partir el bloque el ancla del bloque original no se modificará, pero
641  en el bloque nuevo se crea una nueva anlca de bloque, pues una de las claves
642  pertenecientes a los registros que contiene, será la menor.
643 \layout Standard
644
645 Antes de actualizar el árbol con el ancla nueva, habrá que discriminar en
646  qué bloque se debe insertar el registro nuevo.
647  Para ello se compara la menor de las claves del nuevo bloque con la clave
648  del registro, si la clave del registro es menor que el ancla del nuevo
649  bloque, este debe ir en el bloque original, y se inserta ordenado en él
650  y se le informa al árbol que actualice (inserte) una nueva clave correspondient
651 e al bloque nuevo, sino se inserta en el bloque nuevo de forma ordenada
652  y en este caso cabe la posibilidad de que el nuevo registro posea la clave
653  mas pequeña de todas en el bloque, por ello se lo inserta ordenadamente
654  con ayuda de la función
655 \family typewriter 
656  CLAVE grabar_ordenado_en_bloque(EMUFS *emu, void *ptr, EMUFS_REG_SIZE size,
657  void *bloque, int num_bloque, EMUFS_FREE fs, int *err) 
658 \family default 
659 la cual inserta el registro ordenado por CLAVE y devuelve la menor de las
660  claves del bloque, que se usará para informarle al árbol que inserte una
661  clave nueva junto con el número de bloque, para indexar este bloque.
662 \layout Subsection
663
664 Eliminación
665 \layout Standard
666
667 El proceso de eliminación es bastante similar al de inserción en el sentido
668  que también hay que realizar una consulta en el árbol para obtener el número
669  de bloque al que pertenece una clave.
670  Una vez conocido este número se levanta el bloque correspondiente y se
671  busca secuencialmente el registro que se debe eliminar.
672 \layout Standard
673
674 Si el registro a eliminar fuera el primero del bloque, habrá que modificar
675  el ancla de bloque en el árbol con el ancla que corresponda a la clave
676  del nuevo menor registro, y si el que se elimina fuera el único registro
677  en el bloque habrá que eliminar la clave del árbol.
678 \layout Standard
679
680 En cualquier otro caso, solo se eliminará el registro correspondiente y
681  se justificarán los registros a izquierda.
682 \layout Subsection
683
684 Búsqueda
685 \layout Standard
686
687 El proceso de búsqueda de un registro por su clave de identificación primaria
688  en la Organización Secuencial Indexada, es bastante directa en su entendimiento.
689  Para buscar un registro, acudiremos al árbol B+ con la clave anteriormente
690  mencionada, y obtendremos del mismo, el número de bloque donde se debe
691  encontrar el registro.
692 \layout Standard
693
694 Para obtener dicho número de bloque, el árbol internamente busca el ancla
695  menor inmediata a la clave buscada y luego devuelve el número de bloque
696  de datos donde está dicha ancla (el nro bloque será el dato asociado a
697  la clave ancla, en el árbol), el cual será el bloque potencial donde se
698  encuentre el registro buscado.
699 \layout Standard
700
701 Una desventaja de esta implementación con indexación parcial, es que no
702  sabremos si el registro se encuentra efectivamente en el bloque indicado,
703  hasta no buscarlo dentro del mismo en formal secuencial.
704  Si lo hallamos, daremos por finalizada la búsqueda del registro.
705 \layout Subsection
706
707 Recorrida secuencial de registros
708 \layout Standard
709
710 Una consecuencia importante de la organización secuencial indexada, en este
711  caso implementada a través de un árbol B+ con indexación parcial, es que
712  como mencionamos anteriormente, los registros dentro de un bloque se encuetran
713  ordenados, y si bien los bloques en si pueden no estar ordenados en el
714  archivo de datos, algunos lo estarán, y minimizarán en base a estas característ
715 icas, los tiempos de acceso para una recorrida secuencial de registros.
716 \layout Standard
717
718 Suponiendo que nos encontramos con varios registros cargados en esta organizació
719 n de archivo, y con el correspondiente árbol de indexación primaria B+ en
720  el disco, si se nos pidiera por ejemplo, recorrer los registros de articulos
721  desde el ID_Articulo 40, hasta el ID_Articulo 1406, la operativa será la
722  siguiente:
723 \layout Itemize
724
725 Acudimos al árbol y obtenemos el numero de bloque para el ID_Articulo 40,
726  buscando el ancla menor inmediata y obteniendo el nro de bloque de datos
727  donde se encuentra, siendo este el nro de bloque donde debería estar el
728  artículo de clave ID_Articulo 40.
729 \layout Itemize
730
731 Levantamos el bloque de datos y lo recorremos secuencialmente, pues como
732  dijimos anteriormente, sus registros se encuentran ordenados por la clave
733  de identificación primaria, en este caso ID_Articulo.
734 \layout Itemize
735
736 Cuando ya hayamos procesado todo el bloque, debemos obtener la siguiente
737  ancla a través del árbol y repetir el proceso.
738 \layout Itemize
739
740 NOTA: Cabe desatacar, que todas las anclas estan en las hojas del B+, y
741  por ello las recorremos a nivel hojas a traves del Sequence Set, que gracias
742  a su encadenamiento, nos permite obtener en forma muy directa y efectiva,
743  las anclas de bloque ordenadas en secuencia, y por consiguiente, recorrer
744  el archivo en forma secuencial minimizando accesos.
745 \layout Chapter
746
747 Ordenamiento Externo
748 \layout Section
749
750 Descripción del algoritmo
751 \layout Standard
752
753 Luego de buscar varias alternativas sobre algoritmos de ordenamiento externo,
754  se optó por el siguiente (que resultó una mezcla de las alternativas analizadas
755 ):
756 \layout Enumerate
757
758 Tomar uno a uno los registros del archivo a ordenar e 
759 \emph on 
760 inyectarlos
761 \emph default 
762  en un buffer ordenado hasta llenar el buffer.
763 \layout Enumerate
764
765 Quitar el menor de los valores (
766 \emph on 
767 inyectando
768 \emph default 
769  uno nuevo desde el archivo a ordenar) e insertarlo en un archivo temporal.
770 \layout Enumerate
771
772 Quitar del buffer el mínimo valor mayor al último insertado en el archivo
773  temporal (
774 \emph on 
775 inyectando
776 \emph default 
777  nuevamente un registro obtenido del archivo a ordenar) y se lo inserta
778  en el archivo temporal.
779  De esta forma quedan ordenados los registros en el archivo temporal.
780 \layout Enumerate
781
782 Repetir el paso 3 hasta que se vacíe el buffer o hasta que no haya ningún
783  valor mayor al último insertado en el archivo temporal.
784  Cuando esto suceda se crea un nuevo archivo temporal volviendo al paso
785  2.
786 \layout Standard
787
788 En este punto ya tenemos el buffer vacío y todos los valores del archivo
789  a ordenar repartidos en 1 o más archivos temporales ordenados, sólo queda
790  unir los archivos para volver a un sólo archivo completo y ordenado.
791  El procedimiento es simple:
792 \layout Enumerate
793
794 Obtener el mínimo valor de los archivos temporales e insertarlo en el archivo
795  ordenado de salida.
796 \layout Enumerate
797
798 Repetir 1 hasta agotar los registros de todos los archivos temporales.
799 \layout Standard
800
801 Debe quedar claro que los archivos temporales se comportan como una cola.
802  Es decir que al obtener un registro de un archivo temporal se obtiene el
803  primer registro que se haya insertado (el mínimo por la forma en la que
804  fueron insertados).
805 \layout Subsection
806
807 Ejemplo
808 \layout Standard
809
810 A continuación se presenta un ejemplo para una más fácil comprensión del
811  algoritmo.
812 \layout Standard
813
814 Supongamos que queremos ordenar un archivo con registros de números enteros
815  (el archivo se lee de izquierda a derecha): 9 6 34 2 8 3 12 43 23 4 19
816  21 87 1 16 36 42 65
817 \layout Standard
818
819 Supongamos que disponemos de un buffer capaz de almacenar 3 registros.
820 \layout Paragraph
821
822 Se llena el buffer ordenado
823 \layout Standard
824
825 Se lee 9 del archivo original y se lo inserta en el buffer ordenado.
826  Buffer: 9
827 \layout Standard
828
829 Se lee 6 del archivo original y se lo inserta en el buffer ordenado.
830  Buffer: 6 9
831 \layout Standard
832
833 Se lee 34 del archivo original y se lo inserta en el buffer ordenado.
834  Buffer: 6 9 34
835 \layout Paragraph
836
837 Se crea el archivo temporal ordenado 1
838 \layout Standard
839
840 Se lee el mínimo valor del buffer (6), se lo inserta en el archivo temporal
841  y se carga un nuevo valor del archivo original al buffer (2).
842  Buffer: 2 9 34.
843  Archivo1: 6
844 \layout Standard
845
846 Se lee el mínimo valor del buffer mayor al insertado anteriormente (9),
847  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
848  original al buffer (8).
849  Buffer: 2 8 34.
850  Archivo1: 6 9
851 \layout Standard
852
853 Se lee el mínimo valor del buffer mayor al insertado anteriormente (34),
854  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
855  original al buffer (3).
856  Buffer: 2 3 8.
857  Archivo1: 6 9 34
858 \layout Standard
859
860 No hay más valores en el buffer mayores al último insertado (34), fin del
861  Archivo1.
862 \layout Paragraph
863
864 Se crea el archivo temporal ordenado 2
865 \layout Standard
866
867 Se lee el mínimo valor del buffer (2), se lo inserta en el archivo temporal
868  y se carga un nuevo valor del archivo original al buffer (12).
869  Buffer: 3 8 12.
870  Archivo2: 2
871 \layout Standard
872
873 Se lee el mínimo valor del buffer mayor al insertado anteriormente (3),
874  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
875  original al buffer (43).
876  Buffer: 8 12 43.
877  Archivo2: 2 3
878 \layout Standard
879
880 Se lee el mínimo valor del buffer mayor al insertado anteriormente (8),
881  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
882  original al buffer (23).
883  Buffer: 12 23 43.
884  Archivo2: 2 3 8
885 \layout Standard
886
887 Se lee el mínimo valor del buffer mayor al insertado anteriormente (12),
888  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
889  original al buffer (4).
890  Buffer: 4 23 43.
891  Archivo2: 2 3 8 12
892 \layout Standard
893
894 Se lee el mínimo valor del buffer mayor al insertado anteriormente (23),
895  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
896  original al buffer (19).
897  Buffer: 4 19 43.
898  Archivo2: 2 3 8 12 23
899 \layout Standard
900
901 Se lee el mínimo valor del buffer mayor al insertado anteriormente (43),
902  se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
903  original al buffer (21).
904  Buffer: 4 19 21.
905  Archivo2: 2 3 8 12 23 43
906 \layout Standard
907
908 No hay más valores en el buffer mayores al último insertado (43), fin del
909  Archivo2.
910 \layout Paragraph
911
912 Se crea el archivo temporal ordenado 3
913 \layout Standard
914
915 Se repite el proceso anterior.
916  Buffer: 1 16 36.
917  Archivo3: 4 19 21 87
918 \layout Paragraph
919
920 Se crea el archivo temporal ordenado 4
921 \layout Standard
922
923 Se repite el proceso anterior.
924  Buffer: .
925  Archivo4: 1 16 36 42 65
926 \layout Paragraph
927
928 Se mezclan los archivos temporales ordenados obteniendo un archivo completo
929  ordenado
930 \layout Standard
931
932 Se obtiene el menor valor de los archivos temporales ordenados (sólo tenemos
933  que elegir entre el primer valor de cada uno).
934 \layout Standard
935
936 Archivo1: 6 9 34.
937  Archivo2: 2 3 8 12 23 43.
938  Archivo3: 4 19 21 87.
939  Archivo4: 1 16 36 42 65
940 \layout Standard
941
942 Sólo debo comparar y obtener el menor entre 6, 2, 4, y 1.
943  Obtengo el 1, lo saco del archivo temporal y lo agrego al de salida:
944 \layout Standard
945
946 Archivo1: 6 9 34.
947  Archivo2: 2 3 8 12 23 43.
948  Archivo3: 4 19 21 87.
949  Archivo4: 16 36 42 65 Salida: 1
950 \layout Standard
951
952 Repito hasta que no hayan más valores en los archivos temporales:
953 \layout Standard
954
955 Archivo1: 6 9 34.
956  Archivo2: 3 8 12 23 43.
957  Archivo3: 4 19 21 87.
958  Archivo4: 16 36 42 65.
959  Salida: 1 2
960 \layout Standard
961
962 Archivo1: 6 9 34.
963  Archivo2: 8 12 23 43.
964  Archivo3: 4 19 21 87.
965  Archivo4: 16 36 42 65.
966  Salida: 1 2 3
967 \layout Standard
968
969 Archivo1: 6 9 34.
970  Archivo2: 8 12 23 43.
971  Archivo3: 19 21 87.
972  Archivo4: 16 36 42 65.
973  Salida: 1 2 3 4
974 \layout Standard
975
976 Archivo1: 6 9 34.
977  Archivo2: 8 12 23 43.
978  Archivo3: 19 21 87.
979  Archivo4: 16 36 42 65.
980  Salida: 1 2 3 4
981 \layout Standard
982
983 Archivo1: 9 34.
984  Archivo2: 8 12 23 43.
985  Archivo3: 19 21 87.
986  Archivo4: 16 36 42 65.
987  Salida: 1 2 3 4 6
988 \layout Standard
989
990 Archivo1: 9 34.
991  Archivo2: 12 23 43.
992  Archivo3: 19 21 87.
993  Archivo4: 16 36 42 65.
994  Salida: 1 2 3 4 6 8
995 \layout Standard
996
997 Archivo1: 34.
998  Archivo2: 12 23 43.
999  Archivo3: 19 21 87.
1000  Archivo4: 16 36 42 65.
1001  Salida: 1 2 3 4 6 8 9
1002 \layout Standard
1003
1004 Archivo1: 34.
1005  Archivo2: 23 43.
1006  Archivo3: 19 21 87.
1007  Archivo4: 16 36 42 65.
1008  Salida: 1 2 3 4 6 8 9 12
1009 \layout Standard
1010
1011 Archivo1: 34.
1012  Archivo2: 23 43.
1013  Archivo3: 19 21 87.
1014  Archivo4: 36 42 65.
1015  Salida: 1 2 3 4 6 8 9 12 16
1016 \layout Standard
1017
1018 Archivo1: 34.
1019  Archivo2: 23 43.
1020  Archivo3: 21 87.
1021  Archivo4: 36 42 65.
1022  Salida: 1 2 3 4 6 8 9 12 16 19
1023 \layout Standard
1024
1025 Archivo1: 34.
1026  Archivo2: 23 43.
1027  Archivo3: 87.
1028  Archivo4: 36 42 65.
1029  Salida: 1 2 3 4 6 8 9 12 16 19 21
1030 \layout Standard
1031
1032 Archivo1: 34.
1033  Archivo2: 43.
1034  Archivo3: 87.
1035  Archivo4: 36 42 65.
1036  Salida: 1 2 3 4 6 8 9 12 16 19 21 23
1037 \layout Standard
1038
1039 Archivo1:.
1040  Archivo2: 43.
1041  Archivo3: 87.
1042  Archivo4: 36 42 65.
1043  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34
1044 \layout Standard
1045
1046 Archivo1:.
1047  Archivo2: 43.
1048  Archivo3: 87.
1049  Archivo4: 42 65.
1050  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36
1051 \layout Standard
1052
1053 Archivo1:.
1054  Archivo2: 43.
1055  Archivo3: 87.
1056  Archivo4: 65.
1057  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42
1058 \layout Standard
1059
1060 Archivo1:.
1061  Archivo2:.
1062  Archivo3: 87.
1063  Archivo4: 65.
1064  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43
1065 \layout Standard
1066
1067 Archivo1:.
1068  Archivo2:.
1069  Archivo3: 87.
1070  Archivo4:.
1071  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43 65
1072 \layout Standard
1073
1074 Archivo1:.
1075  Archivo2:.
1076  Archivo3:.
1077  Archivo4:.
1078  Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43 65 87
1079 \layout Paragraph
1080
1081 Fin
1082 \layout Standard
1083
1084 Finalmente, tengo en el archivo de salida el archivo original ordenado.
1085 \layout Section
1086
1087 Alcance
1088 \layout Standard
1089
1090 El algoritmo de ordenamiento es completamente genérico, ya que recibe un
1091  puntero void como registro, su tamaño (para poder manipularlo sin conocer
1092  su tipo) y una función de comparación, para poder comparar dos registros
1093  (sin saber su tipo) a través de una relación de orden (descripta por dicha
1094  función).
1095 \layout Section
1096
1097 Decisiones de diseño.
1098 \layout Standard
1099
1100 El algoritmo se eligió en base a una serie de razones y cuenta con una serie
1101  de ventajas y desventajas.
1102 \layout Itemize
1103
1104 El algoritmo es simple, tanto teóricamente como para implementar.
1105 \layout Itemize
1106
1107 Tiene la desventaja de que puede llegar a usar muchos archivos temporales
1108  y todos abiertos al mismo tiempo, pero considerando que el sistema operativo
1109  en el que se utiliza suele manejar bien grandes cantidades de archivos
1110  no es una desventaja importante.
1111 \layout Itemize
1112
1113 Al usar un buffer intermedio, se puede controlar muy bien la cantidad de
1114  memoria que utiliza y experimentar con distintos valores para analizar
1115  los resultados.
1116 \layout Itemize
1117
1118 El buffer ordenado se implementó con un árbol binario debido a que tiene
1119  una buena relación entre velocidad de búsqueda y facilidad de implementación.
1120  Al ser el principal determinante de la velocidad los accesos a disco no
1121  se creyó necesario buscar una alternativa más rápida para mantener el buffer
1122  ordenado en memoria, ya que no cambiaría de forma notable el tiempo total
1123  del algoritmo.
1124  Otras posibilidades hubieran sido cargar todo el buffer en memoria y ordenarlo
1125  posteriormente (dependiendo del algoritmo de ordenamiento a utilizar puede
1126  ser más o menos rápido que el árbol y más o menos complicado de implementar)
1127  o hacer una búsqueda secuencial sobre un buffer desordenado (es más fácil
1128  de implementar pero claramente más lento).
1129  Una posible ventaja notable de leer el buffer primero y luego ordenarlo
1130  en memoria es que se necesita un sólo acceso al disco para llenar el buffer,
1131  mientras que al obtener uno a uno los valores puede generar muchos accesos
1132  a disco.
1133  Esto no debería ser muy notable ya que las funciones de acceso a archivos
1134  de la biblioteca estándar de C poseen un buffer interno, por lo que los
1135  accesos a disco probablemente sea muy poco aún cuando se obtienen uno a
1136  uno.
1137 \the_end