1 #LyX 1.3 created this file. For more info see http://www.lyx.org/
11 \paperpackage widemarginsa4
15 \use_numerical_citations 0
16 \paperorientation portrait
19 \paragraph_separation indent
21 \quotes_language english
25 \paperpagestyle default
29 Organización de Datos (75.06)
34 \begin_inset Formula $\mu$
50 Leandro Lucarella (77891)
52 Ricardo Markiewicz (78226)
55 Segunda Entrega, 31 de Mayo de 2004
59 \begin_inset LatexCommand \tableofcontents{}
69 En esta entrega el trabajo estuvo concentrado en el manejo de índices para
70 los tipos de archivos implementados en la primer entrega.
71 Los índices se implementaron con:
83 Además de esto, se pide 3 funciones distintas para estos índices:
95 Con la autorización de los ayudantes de la cátedra decidimos que el árbol
96 B+ sólo pueda ser utilizado para índices principal ya que de otra manera
97 no tiene sentido el set secuencial (ver página
98 \begin_inset LatexCommand \pageref{sub:justificacion}
102 para una justificación más detallada).
105 Finalmente, para obtener listados basados en campos de los cuales no se
106 tiene un índice, se implementó un ordenamiento externo.
109 A continuación se presenta una descripción un poco más detallada sobre todas
110 herramientas utilizadas para resolver el trabajo práctico.
113 Documentación de la API
116 Para obtener una documentación de la API más completa, se incluye en formato
117 HTML en el CD-ROM la documentación generado con Doxygen.
118 Esta documentación se encuentra en el directorio
120 doc/api/html/index.html
131 Se detallan a continuación los tipos de datos definidos y utilizados en
132 las distintas implementaciones que conforman nuestro sistema, siendo el
133 más importante de ellos en esta entrega, la estructura
137 que actúa como interfaz común para el manejo de cualquier tipo de índice
138 (no importa que tipo de organización física ni de que forma esté implementado,
139 esta estructura proveerá una interfaz abstracta para su manejo).
145 Se agregaron varios tipos comunes nuevos en esta entrega, en su mayoría
146 relacionados a los índices.
147 Estos tipos son brevemente descriptos a continuación y pueden ser hallados
159 : usado para representar el conjunto de un ID más su dato.
166 : indica el tipo de índice (B, B* o B+).
173 : indica la función que cumple el índice (principal, selectivo o exhaustivo).
180 : indica el tipo de dato que se usa como clave.
187 : representa una clave de un índice.
200 es la estructura principal que encapsula todas las funciones para el manejo
202 Posee punteros a funciones que permite utilizar la misma interfaz para
203 distintas implementaciones de árboles.
207 Su declaración puede ser observada en el archivo
214 y cuenta con la siguiente información:
220 Tipo de dato que maneja.
226 Información sobre el desplazamiento para ubicar el dato dentro de la estructura
227 a indexar (para poder tener una implementación genérica que sirva para
228 cualquier estructura).
231 Información sobre archivos auxiliares para almacenar cadenas de texto y
232 otras estructuras que eventualmente requiera un índice.
235 Punteros a funciones para:
245 Verificar la existencia de una entrada.
251 Obtener clave menor o mayor del índice.
254 Obtener siguiente clave (para recorrido secuencial).
258 Esta estructura define los valores de sus punteros según el tipo de implementaci
259 ón que se desee manejar y esto se realiza a través de la API
268 Esta API posee funciones para crear y destruir índices, agregarlos y quitarlos
273 , comparar claves y otras, necesarias para la correcta y completa utilización
274 de los índices a través de la interfaz de
278 descripta en la entrega anterior.
279 \layout Subsubsection
288 Para integrar la utilización de índices a
292 fueron necesarios los siguientes cambios:
295 Nuevos tipos de archivo.
298 Se incluyen dos tipos de archivo nuevos T4 y T5, que representan, respectivament
299 e, un archivo T1 (registros variables, bloques fijos) y un archivo T3 (registros
300 y bloques fijos), ambos organizados como un set secuencial indexado.
301 De esta manera se conserva la interfaz de
305 (los punteros a funciones) incluso cuando se debe insertar de forma ordenada,
306 ya que al saber que es T4 o T5 siempre se inserta de forma ordenada.
309 Puntero a un arreglo de índices.
312 Se agrega a la estructura
316 un puntero a un arreglo de
320 , donde el primero es siempre el índice principal.
323 Especificaciones de índices
329 En esta sección no se explicará como funciona la implementación del árbol
330 B, sino que se darán algunos detalles de la implementación para algunos
334 Cada nodo del árbol cuenta con un header y un array de datos, donde cada
335 dato contiene, entre otras cosas la clave, el dato al que apunta (id/bloque
336 del archivo de datos) y el hijo derecho (aquel nodo que contiene las claves
338 En el header se guarda el puntero (numero de nodo) al hijo izquierdo, que
339 viene a ser el nodo que contiene claves menores a la primer clave de nodo
343 Existen 2 casos particulares para lo que contiene la clave y el dato.
344 El primer caso se da cuando la clave es de tipo string.
347 Cuando un indice debe almacenar string, estos no son guardados en el arbol,
348 sino que se reutiliza la estructura EMUFS de la primer entrega para guardar
349 las cadenas de texto, utilizano para ello una organización de registros
350 de longitud variable sin bloques, elegida de forma arbitraria.
351 En la clave del arbol se guardará entonces el ID del registro que contiene
352 el texto en la estructura mensionada anteriormente.
353 Cuando se quiere recuperar una clave, se lee el archivo que contiene las
354 claves de texto (que permanecen abreviadas).
357 El otro caso particular es para los indices con clave repetida (como ser
358 el selectivo y el exahustivo).
359 Para este caso lo que cambia es lo que se almacena en el campo DATO que
361 Este DATO contendra el ID de un registro que se guarda nuevamente en un
362 EMUFS en formato de registro de longitud variable sin bloques, donde estarán
363 los ID/Bloque reales del archivo de dato de todas las ocurrencias de la
364 clave correspondiente.
367 Cada vez que se inserta una clave y ya existia una previa, se agrega a dicho
368 arreglo la nueva posicion y luego se guarda.
369 Si al eliminar todos los datos de una clave este array quedara vacio, la
370 clave es eliminada del arbol.
373 Puede darse el caso (es mas, casi todos los indices utilizados en el TP
374 son de esta manera) que ocurran ambas situaciones descriptas anteriormente,
375 por lo que para un indice, por ejemplo de presentacion de los articulos,
376 se tenga que acceder a 9 archivos (el arbol B, 4 para los string, 4 para
377 las claves repetidas) para obtener todos los ID del archivo de datos para
379 Con esta falla de diseño y todo el acceso a registros por campos de identifacac
380 ion no unico es muy superior a realizar una busqueda secuencial sobre todo
381 el archivo para realizar una consultas.
387 Para la implantación de los árboles B* se tomo la desición de tratar a la
388 raiz como si fuera un árbol B en lugar de tomar una raiz de 2*tam_bloque
389 para reutilizar el código ya hecho para el árbol B y todas las funciones
393 Lo único que se reescribió fue la función insertar, que aunque es muy similar
394 al del otro árbol, meter más codigo en la misma función hacía aún más dificil
395 de mantener y debuggear el árbol.
398 Otro cambio a la API de árbol B fue en el borrar, que mediante una macro
399 se verifica que tipo de árbol se está tratando y en base a eso se calcula
400 la cantidad de hijos mínimos antes de fundir 2 nodos (o pedir una clave
407 Una de las pocas decisiones que tuvimos que tomar fue la forma de manejar
409 Hay dos formas comunes de hacerlo:
412 Permitir que el nodo raíz pueda almacenar 2N+1 claves (siendo N el número
413 máximo de claves permitido por nodo).
416 Hacer que se comporte como un árbol B.
419 La primera forma garantiza un mejor aprovechamiento del espacio, ya que
420 se sigue haciendo una partición en 3 nodos hijo con 2/3 de los espacios
422 El problema que encontramos para hacerlo de esa forma fue que usamos un
423 tamaño de nodo fijo de 512 para poder leer un sector completo del disco
424 y ganar algo de velocidad, por lo que para poder mantener este esquema
425 hubiéramos necesitado de 3 bloques de 512 para poder guardar los 2N+1 claves,
426 desperdiciando 512-tamaño_de_clave espacio en el bloque final y haciendo
427 que cualquier ahorro de espacio en los hijos del nodo raíz difícilmente
431 Además de esto, el utilizar la segunda forma trae como ventaja la reutilización
432 de código del árbol B, lo que facilita la implementación y el mantenimiento
436 Estas son las dos razones principales por las cuales elegimos tratar el
437 nodo raíz como lo hace el árbol B.
440 Indice B+ Organizacion Secuencial Indexada
446 Para la implementación de la organización secuencial indexada de archivos,
447 se ha utilizado un árbol B+, conocido por ser utilizado en términos generales
448 para implementaciones de esta índole.
451 Como particularidad el arbol B+, poseerá en sus hojas todas las claves que
452 se hayan insertado en el árbol.
453 No obstante, las mismas no serán todas las claves que se encuentren en
454 el archivo de datos, sino la primer clave de cada bloque de datos, también
455 denominadas 'anclas de bloque'.
458 En torno a esta distinción respecto de los demás arboles, el árbol B+ nos
459 indicará a la hora de grabar registros en nuestro archivo de datos con
460 bloques (Organización del TP1, Tipo1 o 3), en que bloque de datos debemos
461 realizar la mencionada inserción.
462 La operativa se detalla más adelante, pero básicamente realizaremos una
463 búsqueda del ancla menor inmediata a la clave del registro que se desea
464 insertar, y esto nos indicará el bloque apropiado (el bloque donde esta
468 Como resultado concreto de este comportamiento (teniendo en cuenta también
469 el borrado y partición de bloques del .dat), obtendremos un archivo secuencial
470 indexado, en donde los registros se encuentran ordenados a nivel de bloques,
471 esto es, dentro de un bloque dado del archivo de datos, los registros estan
472 ordenados por clave primaria.
473 No obstante, los bloques no estarán necesariamente ordenados, pero igualmente
474 la cantidad de accesos para recorrer el archivo en forma secuencial, se
475 ve minimizada respecto de otras organizaciones, gracias al encadenamiento
476 de las hojas y la posesión de las anclas de bloque, cuya lista resultante
477 del encadenamiento es denominada
480 \layout Subsubsection
483 \begin_inset LatexCommand \label{sub:justificacion}
487 Razones por las cuales el B+ es útil sólo para clave principal.
490 El mejor aprovechamiento del Arbol B+ se da en su utilizacion en implementacion
491 ISAM (Indexed Sequential Access Method), en donde se realiza una indexacion
492 parcial de claves, sólo ingresando en el árbol las claves anclas de cada
493 bloque en el archivo de datos.
497 Esta aplicación del árbol B+ a ISAM, además de indicarnos donde grabar y
498 donde buscar los registros por identificación primaria, nos asegura el
499 ordenamiento de los registros parcialmente a nivel de bloque (esto es,
500 los registros en un bloque dado, estarán ordenados, pero los bloques no
502 Así pués, recorriendo el Sequence Set del Arbol B+, minimizaremos los saltos
503 de lectura en disco, pues dentro de un bloque indicado por un ancla dada
504 en el Sequence Set, podremos recorrer los registros secuencialmente.
507 Visto y considerando que la aplicación más importante a nuestro criterio
508 del Arbol B+, era para la indexacion parcial de claves primarias, y que
509 en caso de utilizarlo para otros índices, el B+ se convertiría simplemente
510 en un B con encadenamiento a nivel de hojas, luego de consultar con los
511 ayudantes, decidimos utilizarlo unicamente para el índice primario, y utilizar
512 el B y B* para los restantes índices y/o el primario.
519 Para comprender mejor la implementación particular que hemos dado al árbol
520 B+, damos una breve reseña de la estructura de un nodo del arbol, la cual
536 Esta estructura se encuentra en el archivo
541 Esta organización permite, con la ayuda del árbol, mantener el archivo de
542 datos ordenado por la clave principal.
545 Para lograr esto, como fue expuesto anteriormente, el árbol nos indicará
546 donde (en qué bloque) debe insertarse un registro.
547 (ver 3.3.1 Inserción)
550 En el caso de una hoja, dado que cada nodo posee un hijo mas que la cantidad
551 de claves, el hijo que sobra será utilizado como referencia al nodo
552 \begin_inset Quotes eld
556 \begin_inset Quotes erd
559 , lo cual constituye el
560 \begin_inset Quotes eld
564 \begin_inset Quotes erd
568 Para un nodo que no sea hoja el hijo será el número de nodo correspondiente
569 según la clave, es decir, para la clave
581 contiene claves menores y el hijo
587 contiene las claves mayores.
588 En el caso particular del nivel 1 (index set) el hijo
594 (sequence set) contiene las claves mayores o iguales ya que el
595 \begin_inset Quotes eld
599 \begin_inset Quotes erd
602 debe contener todas las claves insertadas, esto produce que exista una
603 repetición de las claves entre el nivel 1 y el 0.
606 En nuestro caso hemos implementado un Secuencial Indexado tipo ISAM (Indexed
607 Sequential Access Method) el cual posee en sus hojas las anclas de cada
608 bloque en el archivo de datos, es decir, solo se guardan en los nodos del
609 árbol la menor de las claves de un bloque del archivo de datos, acompañada
610 cada clave por el numero de bloque al cual pertenece.
613 Hemos adoptado que la cantidad de claves máxima en un nodo del árbol sea
614 una cantidad impar, ya que esto facilita la elección de la clave que será
615 promovida hacia su nodo padre en caso de que se produzca un overflow en
622 Para realizar una inserción en el archivo de datos se debe realizar una
623 consulta en el árbol, la cual nos indicará el número de bloque donde debemos
624 insertar el nuevo registro.
627 Las consultas se realizan a través de una estructura INDEX_DAT que posee:
636 Esta estructura se encuentra en el archivo
641 El modo de uso es el siguiente:
644 En primer lugar se carga la clave a insertar en el campo Clave, y en el
645 campo Número de Bloque se almacena un número de bloque válido, mas adelante
646 se explica el por qué.
649 Luego se invoca a la función
651 int emufs_b_plus_get_bloque(INDICE, INDEX_DAT)
653 la cual recibe como parámetro una estructura de índice y un INDEX_DAT para
654 realizar la consulta.
657 Esta función recorre recursivamente el árbol y busca una clave mayor inmediata
658 a la enviada, siempre culminando la búsqueda en una hoja.
659 Al encontrar la clave mayor inmediata, el resultado de la búsqueda será
660 la clave anterior en el nodo, pues cada clave en el nodo es un ancla de
661 bloque de datos, de esta manera la clave anterior será menor a la clave
662 enviada, pues las claves en las hojas están ordenadas.
666 En este paso pueden suceder dos cosas:
669 Que exista una clave menor a la enviada.
672 Que la clave enviada sea menor a todas las claves del árbol.
675 En el primer caso, se ha encontrado la clave y se carga la estructura con
676 el hijo de esa clave, que será el número de bloque donde debe insertarse
677 el nuevo registro (por el cual se realizó la consulta), sobreescribiendo
678 el valor que almacenaba al ingresar, y la función retornará código 0 que
679 indica que se ha encontrado un bloque donde insertar.
682 En el segundo caso, puede darse que la clave enviada sea menor a todas las
683 claves del árbol, por lo cual no es posible encontrar un ancla de bloque
685 Aquí la función retornará código -1 lo cual indica que no se ha encontrado
686 un bloque donde insertar el registro nuevo, y es por esto que la estructura
687 debe inicializarse con un número de bloque válido antes de realizarse la
688 consulta.De esta manera el árbol indica donde debe insertarse un nuevo registro
689 en el archivo de datos.
692 Otro detalle de la inserción es que cuando el árbol indica donde debe insertarse
693 un registro pueden pasar dos cosas nuevamente:
696 Que el registro quepa en el bloque.
699 Que el registro no quepa en el bloque.
702 El primer caso es trivial y el registro se insertará sin problemas en el
706 En el caso que el registro no quepa en el bloque, se deberán separar los
707 registros del bloque en 2 bloques, en original y uno nuevo, cada uno con
708 la mitad (aproximadamente) de los registros.
712 Al partir el bloque el ancla del bloque original no se modificará, pero
713 en el bloque nuevo se crea una nueva anlca de bloque, pues una de las claves
714 pertenecientes a los registros que contiene, será la menor.
717 Antes de actualizar el árbol con el ancla nueva, habrá que discriminar en
718 qué bloque se debe insertar el registro nuevo.
719 Para ello se compara la menor de las claves del nuevo bloque con la clave
720 del registro, si la clave del registro es menor que el ancla del nuevo
721 bloque, este debe ir en el bloque original, y se inserta ordenado en él
722 y se le informa al árbol que actualice (inserte) una nueva clave correspondient
723 e al bloque nuevo, sino se inserta en el bloque nuevo de forma ordenada
724 y en este caso cabe la posibilidad de que el nuevo registro posea la clave
725 mas pequeña de todas en el bloque, por ello se lo inserta ordenadamente
726 con ayuda de la función
728 CLAVE grabar_ordenado_en_bloque(EMUFS *emu, void *ptr, EMUFS_REG_SIZE size,
729 void *bloque, int num_bloque, EMUFS_FREE fs, int *err)
731 la cual inserta el registro ordenado por CLAVE y devuelve la menor de las
732 claves del bloque, que se usará para informarle al árbol que inserte una
733 clave nueva junto con el número de bloque, para indexar este bloque.
739 El proceso de eliminación es bastante similar al de inserción en el sentido
740 que también hay que realizar una consulta en el árbol para obtener el número
741 de bloque al que pertenece una clave.
742 Una vez conocido este número se levanta el bloque correspondiente y se
743 busca secuencialmente el registro que se debe eliminar.
746 Si el registro a eliminar fuera el primero del bloque, habrá que modificar
747 el ancla de bloque en el árbol con el ancla que corresponda a la clave
748 del nuevo menor registro, y si el que se elimina fuera el único registro
749 en el bloque habrá que eliminar la clave del árbol.
752 En cualquier otro caso, solo se eliminará el registro correspondiente y
753 se justificarán los registros a izquierda.
759 El proceso de búsqueda de un registro por su clave de identificación primaria
760 en la Organización Secuencial Indexada, es bastante directa en su entendimiento.
761 Para buscar un registro, acudiremos al árbol B+ con la clave anteriormente
762 mencionada, y obtendremos del mismo, el número de bloque donde se debe
763 encontrar el registro.
766 Para obtener dicho número de bloque, el árbol internamente busca el ancla
767 menor inmediata a la clave buscada y luego devuelve el número de bloque
768 de datos donde está dicha ancla (el nro bloque será el dato asociado a
769 la clave ancla, en el árbol), el cual será el bloque potencial donde se
770 encuentre el registro buscado.
773 Una desventaja de esta implementación con indexación parcial, es que no
774 sabremos si el registro se encuentra efectivamente en el bloque indicado,
775 hasta no buscarlo dentro del mismo en formal secuencial.
776 Si lo hallamos, daremos por finalizada la búsqueda del registro.
779 Recorrida secuencial de registros
782 Una consecuencia importante de la organización secuencial indexada, en este
783 caso implementada a través de un árbol B+ con indexación parcial, es que
784 como mencionamos anteriormente, los registros dentro de un bloque se encuetran
785 ordenados, y si bien los bloques en si pueden no estar ordenados en el
786 archivo de datos, algunos lo estarán, y minimizarán en base a estas característ
787 icas, los tiempos de acceso para una recorrida secuencial de registros.
790 Suponiendo que nos encontramos con varios registros cargados en esta organizació
791 n de archivo, y con el correspondiente árbol de indexación primaria B+ en
792 el disco, si se nos pidiera por ejemplo, recorrer los registros de articulos
793 desde el ID_Articulo 40, hasta el ID_Articulo 1406, la operativa será la
797 Acudimos al árbol y obtenemos el numero de bloque para el ID_Articulo 40,
798 buscando el ancla menor inmediata y obteniendo el nro de bloque de datos
799 donde se encuentra, siendo este el nro de bloque donde debería estar el
800 artículo de clave ID_Articulo 40.
803 Levantamos el bloque de datos y lo recorremos secuencialmente, pues como
804 dijimos anteriormente, sus registros se encuentran ordenados por la clave
805 de identificación primaria, en este caso ID_Articulo.
808 Cuando ya hayamos procesado todo el bloque, debemos obtener la siguiente
809 ancla a través del árbol y repetir el proceso.
812 NOTA: Cabe desatacar, que todas las anclas estan en las hojas del B+, y
813 por ello las recorremos a nivel hojas a traves del Sequence Set, que gracias
814 a su encadenamiento, nos permite obtener en forma muy directa y efectiva,
815 las anclas de bloque ordenadas en secuencia, y por consiguiente, recorrer
816 el archivo en forma secuencial minimizando accesos.
822 Descripción del algoritmo
825 Luego de buscar varias alternativas sobre algoritmos de ordenamiento externo,
826 se optó por el siguiente (que resultó una mezcla de las alternativas analizadas
830 Tomar uno a uno los registros del archivo a ordenar e
834 en un buffer ordenado hasta llenar el buffer.
837 Quitar el menor de los valores (
841 uno nuevo desde el archivo a ordenar) e insertarlo en un archivo temporal.
844 Quitar del buffer el mínimo valor mayor al último insertado en el archivo
849 nuevamente un registro obtenido del archivo a ordenar) y se lo inserta
850 en el archivo temporal.
851 De esta forma quedan ordenados los registros en el archivo temporal.
854 Repetir el paso 3 hasta que se vacíe el buffer o hasta que no haya ningún
855 valor mayor al último insertado en el archivo temporal.
856 Cuando esto suceda se crea un nuevo archivo temporal volviendo al paso
860 En este punto ya tenemos el buffer vacío y todos los valores del archivo
861 a ordenar repartidos en 1 o más archivos temporales ordenados, sólo queda
862 unir los archivos para volver a un sólo archivo completo y ordenado.
863 El procedimiento es simple:
866 Obtener el mínimo valor de los archivos temporales e insertarlo en el archivo
870 Repetir 1 hasta agotar los registros de todos los archivos temporales.
873 Debe quedar claro que los archivos temporales se comportan como una cola.
874 Es decir que al obtener un registro de un archivo temporal se obtiene el
875 primer registro que se haya insertado (el mínimo por la forma en la que
882 A continuación se presenta un ejemplo para una más fácil comprensión del
886 Supongamos que queremos ordenar un archivo con registros de números enteros
887 (el archivo se lee de izquierda a derecha): 9 6 34 2 8 3 12 43 23 4 19
891 Supongamos que disponemos de un buffer capaz de almacenar 3 registros.
894 Se llena el buffer ordenado
897 Se lee 9 del archivo original y se lo inserta en el buffer ordenado.
901 Se lee 6 del archivo original y se lo inserta en el buffer ordenado.
905 Se lee 34 del archivo original y se lo inserta en el buffer ordenado.
909 Se crea el archivo temporal ordenado 1
912 Se lee el mínimo valor del buffer (6), se lo inserta en el archivo temporal
913 y se carga un nuevo valor del archivo original al buffer (2).
918 Se lee el mínimo valor del buffer mayor al insertado anteriormente (9),
919 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
920 original al buffer (8).
925 Se lee el mínimo valor del buffer mayor al insertado anteriormente (34),
926 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
927 original al buffer (3).
932 No hay más valores en el buffer mayores al último insertado (34), fin del
936 Se crea el archivo temporal ordenado 2
939 Se lee el mínimo valor del buffer (2), se lo inserta en el archivo temporal
940 y se carga un nuevo valor del archivo original al buffer (12).
945 Se lee el mínimo valor del buffer mayor al insertado anteriormente (3),
946 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
947 original al buffer (43).
952 Se lee el mínimo valor del buffer mayor al insertado anteriormente (8),
953 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
954 original al buffer (23).
959 Se lee el mínimo valor del buffer mayor al insertado anteriormente (12),
960 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
961 original al buffer (4).
966 Se lee el mínimo valor del buffer mayor al insertado anteriormente (23),
967 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
968 original al buffer (19).
970 Archivo2: 2 3 8 12 23
973 Se lee el mínimo valor del buffer mayor al insertado anteriormente (43),
974 se lo inserta en el archivo temporal y se carga un nuevo valor del archivo
975 original al buffer (21).
977 Archivo2: 2 3 8 12 23 43
980 No hay más valores en el buffer mayores al último insertado (43), fin del
984 Se crea el archivo temporal ordenado 3
987 Se repite el proceso anterior.
992 Se crea el archivo temporal ordenado 4
995 Se repite el proceso anterior.
997 Archivo4: 1 16 36 42 65
1000 Se mezclan los archivos temporales ordenados obteniendo un archivo completo
1004 Se obtiene el menor valor de los archivos temporales ordenados (sólo tenemos
1005 que elegir entre el primer valor de cada uno).
1009 Archivo2: 2 3 8 12 23 43.
1010 Archivo3: 4 19 21 87.
1011 Archivo4: 1 16 36 42 65
1014 Sólo debo comparar y obtener el menor entre 6, 2, 4, y 1.
1015 Obtengo el 1, lo saco del archivo temporal y lo agrego al de salida:
1019 Archivo2: 2 3 8 12 23 43.
1020 Archivo3: 4 19 21 87.
1021 Archivo4: 16 36 42 65 Salida: 1
1024 Repito hasta que no hayan más valores en los archivos temporales:
1028 Archivo2: 3 8 12 23 43.
1029 Archivo3: 4 19 21 87.
1030 Archivo4: 16 36 42 65.
1035 Archivo2: 8 12 23 43.
1036 Archivo3: 4 19 21 87.
1037 Archivo4: 16 36 42 65.
1042 Archivo2: 8 12 23 43.
1044 Archivo4: 16 36 42 65.
1049 Archivo2: 8 12 23 43.
1051 Archivo4: 16 36 42 65.
1056 Archivo2: 8 12 23 43.
1058 Archivo4: 16 36 42 65.
1065 Archivo4: 16 36 42 65.
1072 Archivo4: 16 36 42 65.
1073 Salida: 1 2 3 4 6 8 9
1079 Archivo4: 16 36 42 65.
1080 Salida: 1 2 3 4 6 8 9 12
1087 Salida: 1 2 3 4 6 8 9 12 16
1094 Salida: 1 2 3 4 6 8 9 12 16 19
1101 Salida: 1 2 3 4 6 8 9 12 16 19 21
1108 Salida: 1 2 3 4 6 8 9 12 16 19 21 23
1115 Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34
1122 Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36
1129 Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42
1136 Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43
1143 Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43 65
1150 Salida: 1 2 3 4 6 8 9 12 16 19 21 23 34 36 42 43 65 87
1156 Finalmente, tengo en el archivo de salida el archivo original ordenado.
1162 El algoritmo de ordenamiento es completamente genérico, ya que recibe un
1163 puntero void como registro, su tamaño (para poder manipularlo sin conocer
1164 su tipo) y una función de comparación, para poder comparar dos registros
1165 (sin saber su tipo) a través de una relación de orden (descripta por dicha
1169 Decisiones de diseño.
1172 El algoritmo se eligió en base a una serie de razones y cuenta con una serie
1173 de ventajas y desventajas.
1176 El algoritmo es simple, tanto teóricamente como para implementar.
1179 Tiene la desventaja de que puede llegar a usar muchos archivos temporales
1180 y todos abiertos al mismo tiempo, pero considerando que el sistema operativo
1181 en el que se utiliza suele manejar bien grandes cantidades de archivos
1182 no es una desventaja importante.
1185 Al usar un buffer intermedio, se puede controlar muy bien la cantidad de
1186 memoria que utiliza y experimentar con distintos valores para analizar
1190 El buffer ordenado se implementó con un árbol binario debido a que tiene
1191 una buena relación entre velocidad de búsqueda y facilidad de implementación.
1192 Al ser el principal determinante de la velocidad los accesos a disco no
1193 se creyó necesario buscar una alternativa más rápida para mantener el buffer
1194 ordenado en memoria, ya que no cambiaría de forma notable el tiempo total
1196 Otras posibilidades hubieran sido cargar todo el buffer en memoria y ordenarlo
1197 posteriormente (dependiendo del algoritmo de ordenamiento a utilizar puede
1198 ser más o menos rápido que el árbol y más o menos complicado de implementar)
1199 o hacer una búsqueda secuencial sobre un buffer desordenado (es más fácil
1200 de implementar pero claramente más lento).
1201 Una posible ventaja notable de leer el buffer primero y luego ordenarlo
1202 en memoria es que se necesita un sólo acceso al disco para llenar el buffer,
1203 mientras que al obtener uno a uno los valores puede generar muchos accesos
1205 Esto no debería ser muy notable ya que las funciones de acceso a archivos
1206 de la biblioteca estándar de C poseen un buffer interno, por lo que los
1207 accesos a disco probablemente sea muy poco aún cuando se obtienen uno a