X-Git-Url: https://git.llucax.com/z.facultad/75.00/informe.git/blobdiff_plain/c410a685943a1d4df7556ad0e8912a0394d47b5b..6eefbae7d9d9a1e30f7637ecc41f56a21dc93567:/source/solucion.rst

diff --git a/source/solucion.rst b/source/solucion.rst
index b27ffbb..2907da2 100644
--- a/source/solucion.rst
+++ b/source/solucion.rst
@@ -1,6 +1,6 @@
 
 .. AcÃ¡ va lo que decidÃ­ hacer en base al anÃ¡lisis anterior y sus razones.
-   ESTADO: EMPEZADO
+   ESTADO: TERMINADO
 
 
 .. _solucion:
@@ -8,13 +8,13 @@
 SoluciÃ³n adoptada
 ============================================================================
 
-Como hemos visto en :ref:`dgc_bad`, la mejora del recolector de basura puede
-ser abordada desde mÃºltiples flancos. Por lo tanto, para reducir la cantidad
-de posibilidades hay que tener en cuenta uno de los principales objetivos de
-este trabajo: encontrar una soluciÃ³n que tenga una buena probabilidad de ser
-adoptada por el lenguaje, o alguno de sus compiladores al menos. Para asegurar
-esto, la soluciÃ³n debe tener un alto grado de aceptaciÃ³n en la comunidad, lo
-que implica algunos puntos claves:
+Como hemos visto en :ref:`dgc`, la mejora del recolector de basura puede ser
+abordada desde mÃºltiples flancos, con varias alternativas viables. Por lo
+tanto, para reducir la cantidad de posibilidades hay que tener en cuenta uno
+de los principales objetivos de este trabajo: encontrar una soluciÃ³n que tenga
+una buena probabilidad de ser adoptada por el lenguaje, o alguno de sus
+compiladores al menos. Para asegurar esto, la soluciÃ³n debe tener un alto
+grado de aceptaciÃ³n en la comunidad, lo que implica algunos puntos claves:
 
 * La eficiencia general de la soluciÃ³n no debe ser notablemente peor, en
   ningÃºn aspecto, que la implementaciÃ³n actual.
@@ -38,6 +38,10 @@ se intenta abordar los demÃ¡s problemas planteados siempre que sea posible
 hacerlo sin alejarse demasiado del objetivo principal.
 
 
+.. highlight:: d
+
+.. _sol_bench:
+
 Banco de pruebas
 ----------------------------------------------------------------------------
 
@@ -83,6 +87,8 @@ Por lo tanto el banco de pruebas que se conformÃ³ como una mezcla de estas tres
 grandes categorÃ­as.
 
 
+.. _sol_bench_synth:
+
 Pruebas sintetizadas
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
@@ -137,8 +143,8 @@ El cÃ³digo fuente del programa es el siguiente::
             indi[] = testPop1.individuals ~ testPop2.individuals;
          }
          version (everythingOk) {
-            indi[0..N1] = testPop1.individuals;
-            indi[N1..N2] = testPop2.individuals;
+            indi[0 .. N1] = testPop1.individuals;
+            indi[N1 .. N2] = testPop2.individuals;
          }
       }
       return 0;
@@ -158,7 +164,7 @@ servicios del recolector en todos los hilos lanzados.
 
 El objetivo de estos programas es medir el impacto de las pausas del
 recolector. Se espera medir dos tipos de pausa principales, por un lado el
-tiempo mÃ¡ximo de pausa total, que puede involucrar a mÃ¡s de un hilo y por otro
+tiempo mÃ¡ximo de pausa real, que puede involucrar a mÃ¡s de un hilo y por otro
 el tiempo de *stop-the-world*, es decir, el tiempo en que los hilos son
 efectivamente pausados por el recolector para tomar una *foto* de la pila
 y registros para agregarlos al *root set*.
@@ -275,8 +281,8 @@ Este programa trivial lee un archivo de texto y genera un arreglo de cadenas
 de texto resultantes de partir el texto en palabras. Fue escrito por Leonardo
 Maffi y tambiÃ©n hallado__ en el grupo de noticias de D_. Su objetivo era
 mostrar lo ineficiente que puede ser concatenar datos a un mismo arreglo
-repetidas veces y ha desembocado en una pequeÃ±a `optimizaciÃ³n`__ que sirviÃ³
-para apalear el problema de forma razonablemente efectiva.
+repetidas veces y ha desembocado en una pequeÃ±a optimizaciÃ³n que sirviÃ³ para
+paliar el problema de forma razonablemente efectiva [PAN09]_.
 
 El cÃ³digo es el siguiente::
 
@@ -298,7 +304,6 @@ El cÃ³digo es el siguiente::
    }
 
 __ http://www.digitalmars.com/webnews/newsgroups.php?art_group=digitalmars.D&article_id=67673
-__ http://d.puremagic.com/issues/show_bug.cgi?id=1923
 
 
 ``rnddata``
@@ -412,6 +417,8 @@ El cÃ³digo fuente es el siguiente::
    }
 
 
+.. _sol_bench_small:
+
 Programas pequeÃ±os
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
@@ -420,7 +427,7 @@ provienen del `Olden Benchmark`__ [CAR95]_. Estos programas fueron diseÃ±ados
 para probar el lenguaje de programaciÃ³n Olden__; un lenguaje diseÃ±ado para
 paralelizar programas automÃ¡ticamente en arquitecturas con memoria
 distribuida. Son programas relativamente pequeÃ±os (entre 400 y 1000 lÃ­neas de
-cÃ³digo fuente cada uno) que realizan una tarea secuencial que aloca
+cÃ³digo fuente cada uno) que realizan una tarea secuencial que asigna
 estructuras de datos dinÃ¡micamente. Las estructuras estÃ¡n usualmente
 organizadas como listas o Ã¡rboles, y muy raramente como arreglos. Los
 programas pasan la mayor parte del tiempo alocando datos y el resto usando los
@@ -431,16 +438,25 @@ __ http://www.irisa.fr/caps/people/truong/M2COct99/Benchmarks/Olden/Welcome.html
 __ http://www.martincarlisle.com/olden.html
 
 La traducciÃ³n a D_ fue realizada por Leonardo Maffi y estÃ¡n basadas a su vez
-en la traducciÃ³n de este juego de pruebas a Java_, JOlden__ [CMK01]_. En
-general (salvo para el programa ``voronoÃ¯``) estÃ¡ disponible el cÃ³digo fuente
-portado a D_, Java_ y Python_, e incluso varias versiones con distintas
+en la traducciÃ³n de este juego de pruebas a Java_, JOlden__ [CMK01]_. En Java_
+no se recomienda utilizar este conjunto de pruebas para medir la eficiencia
+del recolector de basura, dado que se han creado mejores pruebas para este
+propÃ³sito, como DaCapo__ [BLA06]_, sin embargo, dada la falta de programas
+disponibles en general, y de un conjunto de pruebas especialmente diseÃ±ado
+para evaluar el recolector de basura en D_, se decide utilizarlas en este
+trabajo de todos modos. Sin embargo sus resultados deben ser interpretados con
+una pizca de sal por lo mencionado anteriormente.
+
+__ http://www-ali.cs.umass.edu/DaCapo/benchmarks.html
+__ http://www.dacapobench.org/
+
+En general (salvo para el programa ``voronoÃ¯``) estÃ¡ disponible el cÃ³digo
+fuente portado a D_, Java_ y Python_, e incluso varias versiones con distintas
 optimizaciones para reducir el consumo de tiempo y memoria. AdemÃ¡s provee
 comparaciones de tiempo entre todas ellas. Los programas utilizados en este
 banco de pruebas son la versiÃ³n traducida mÃ¡s literalmente de Java_ a D_, ya
 que hace un uso mÃ¡s intensivo del recolector que las otras versiones.
 
-__ http://www-ali.cs.umass.edu/DaCapo/benchmarks.html
-
 A continuaciÃ³n se da una pequeÃ±a descripciÃ³n de cada uno de los 5 programas
 traducidos y los enlaces en donde encontrar el cÃ³digo fuente (y las
 comparaciones de tiempos estar disponibles).
@@ -500,6 +516,8 @@ plano euclÃ­deo, utilizando el algoritmo descripto por Guibas & Stolfi [GS85]_.
 CÃ³digo fuente disponible en: http://codepad.org/xGDCS3KO
 
 
+.. _sol_bench_real:
+
 Programas *reales*
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
@@ -546,19 +564,2718 @@ ser Ãºtiles para encontrar problemas muy particulares, estÃ¡ es la que da una
 lectura mÃ¡s cercana a la realidad del uso de un recolector.
 
 
+.. highlight:: pcode
+
+.. _sol_mod:
 
 Modificaciones propuestas
 ----------------------------------------------------------------------------
 
-TODO
+Se decide realizar todas las modificaciones al recolector actual de forma
+progresiva e incremental, partiendo como base del recolector de la versiÃ³n
+0.99.9 de Tango_.  Las razones que motivan esta decisiÃ³n son varias; por un
+lado es lo mÃ¡s apropiado dados los requerimientos claves mencionados al
+principio de este capÃ­tulo. Por ejemplo, al hacer cambios incrementales es mÃ¡s
+fÃ¡cil comprobar que la eficiencia no se aleja mucho del actual con cada
+modificaciÃ³n y una modificaciÃ³n gradual impone menos resistencia a la
+aceptaciÃ³n del nuevo recolector.
+
+AdemÃ¡s la construcciÃ³n de un recolector de cero es una tarea difÃ­cil
+considerando que un error en el recolector es extremadamente complejo de
+rastrear, dado que en general el error se detecta en el *mutator* y en una
+instancia muy posterior al origen real del error. Esto ha sido comprobado de
+forma prÃ¡ctica, dado que, a modo de ejercicio para interiorizarse en el
+funcionamiento del *runtime* de D_, primero se ha construido desde cero una
+implementaciÃ³n de un recolector *naÃ¯ve*, resultando muy difÃ­cil su depuraciÃ³n
+por las razones mencionadas. Por el contrario, comenzar con un recolector en
+funcionamiento como base hace mÃ¡s sencillo tanto probar cada pequeÃ±a
+modificaciÃ³n para asegurar que no introduce fallos, como encontrar y reparar
+los fallos cuando estos se producen, ya que el cÃ³digo incorrecto introducido
+estÃ¡ bien aislado e identificado.
+
+A continuaciÃ³n se hace un recorrido sobre cada una de las mejoras propuestas,
+y en los casos en los que la mejora propone un cambio algorÃ­tmico, se analiza
+la correcciÃ³n del algoritmo resultante, partiendo de la base de que el
+algoritmo tomado como punto de partida es un marcado y barrido que utiliza la
+abstracciÃ³n tricolor para hacer la fase de marcado de forma iterativa (ver
+:ref:`gc_mark_sweep` y :ref:`gc_intro_tricolor`), cuya correcciÃ³n ya estÃ¡
+probada en la literatura preexistente.
+
+
+.. _sol_config:
+
+Configurabilidad
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Una de las primeras mejoras propuestas es la posibilidad de configurar el
+recolector de forma mÃ¡s sencilla. El requerimiento mÃ­nimo es la posibilidad de
+configurar el recolector sin necesidad de recompilarlo. La complejidad de esto
+surge de que el recolector debe ser transparente para el programa del usuario.
+
+Configurar el recolector en tiempo de compilaciÃ³n del programa del usuario
+probablemente requerirÃ­a modificar el compilador, y ademÃ¡s, si bien es una
+mejora sustancial a la configuraciÃ³n en tiempo de compilaciÃ³n del recolector,
+no termina de ser completamente conveniente para realizar pruebas reiteradas
+con un mismo programa para encontrar los mejores valores de configuraciÃ³n para
+ese programa en particular.
+
+Por otro lado, permitir configurar el recolector en tiempo de ejecuciÃ³n, una
+vez que su estructura interna ya fue definida y creada, puede ser no solo
+tedioso y complejo, ademÃ¡s ineficiente, por lo tanto esta opciÃ³n tambiÃ©n se
+descarta.
+
+Finalmente, lo que parece ser mÃ¡s apropiado para un recolector, es permitir la
+configuraciÃ³n en tiempo de inicializaciÃ³n. Es decir, configurar el recolectar
+sin necesidad de recompilar ni el programa del usuario ni el recolector, pero
+antes de que el programa del usuario inicie, de manera que una vez iniciado el
+recolector con ciertos parÃ¡metros, Ã©stos no cambien nunca mÃ¡s en durante la
+vida del programa.
+
+Este esquema provee la mejor relaciÃ³n entre configurabilidad, conveniencia,
+eficiencia y simplicidad. Una posibilidad para lograr esto es utilizar
+parÃ¡metros de lÃ­nea de comandos, sin embargo no parece ni sencillo (proveer
+una forma de leer los parÃ¡metros de lÃ­nea de comandos requiere cambios en el
+*runtime*) ni apropiado (el recolector deberÃ­a ser lo mÃ¡s transparente posible
+para el programa del usuario).
+
+Otra posibilidad es utilizar variables de entorno, que parece ser la opciÃ³n
+mÃ¡s sencilla y apropiada. Sencilla porque las variables de entorno pueden ser
+leÃ­das directamente al inicializar el recolector sin necesidad de cooperaciÃ³n
+alguna del *runtime*, a travÃ©s de :manpage:`getenv(3)`. Apropiada porque, si
+bien el problema de invasiÃ³n del programa del usuario tambiÃ©n existe, es una
+prÃ¡ctica mÃ¡s frecuente y aceptada la configuraciÃ³n de mÃ³dulos internos
+o bibliotecas compartidas a travÃ©s de variables de entorno.
+
+Por Ãºltimo, antes de comenzar a usar este esquema de configuraciÃ³n, se
+verifica que tomar ciertas decisiones en tiempo de ejecuciÃ³n no impacten en la
+eficiencia del recolector. Para esto se convierten algunas opciones que antes
+eran solo seleccionables en tiempo de compilaciÃ³n del recolector para que
+puedan ser seleccionables en tiempo de inicializaciÃ³n y se comprueba que no
+hay una penalizaciÃ³n apreciable.
+
+
+.. _sol_config_spec:
+
+EspecificaciÃ³n de opciones
+^^^^^^^^^^^^^^^^^^^^^^^^^^
+Para especificar opciones de configuraciÃ³n, hay que hacerlo a travÃ©s de la
+variable de entorno de nombre :envvar:`D_GC_OPTS`. El valor de esa variable es
+interpretado de la siguiente manera (en formato similar a :term:`BNF`):
+
+.. productionlist::
+   D_GC_OPTS: `option` ( ':' `option` )* <lista de opciones>
+   option: `name` [ '=' `value` ]
+   name: `namec` `namec`*                <nombre de la opciÃ³n>
+   value: `valuec`*                      <valor de la opciÃ³n>
+   namec: `valuec` - '='
+   valuec: [0x01-0xFF] - ':'             <cualquier char salvo '\0' y ':'>
+
+Es decir, se compone de una lista de opciones separadas por **:**. Cada opciÃ³n
+se especifica con un nombre, opcionalmente seguido por un valor (separados por
+**=**).
+
+El valor de una opciÃ³n puede ser un texto arbitrario (exceptuando los
+caracteres ``'\0'`` y ``':'`` y de longitud mÃ¡xima 255), pero cada opciÃ³n lo
+interpreta de forma particular. Como caso general, hay opciones booleanas, que
+toman como valor verdadero un cualquier nÃºmero distinto de 0 (o si el valor es
+vaciÃ³, es decir, solo se indica el nombre de la opciÃ³n), y como valor falso
+cualquier otro texto.
+
+A continuaciÃ³n se listan las opciones reconocidas por el recolector (indicando
+el formato del valor de la opciÃ³n de tener uno especial):
+
+``mem_stomp``
+   Esta es una opciÃ³n (booleana) disponible en el recolector original, pero
+   que se cambia para que sea configurable en tiempo de inicializaciÃ³n
+   (estando desactivada por omisiÃ³n). Activa la opciÃ³n ``MEMSTOMP`` descripta
+   en :ref:`dgc_debug`.
+
+``sentinel``
+   Esta opciÃ³n es tambiÃ©n booleana (desactivada por omisiÃ³n), estÃ¡ disponible
+   en el recolector original, y se la cambia para sea configurable en tiempo
+   de inicializaciÃ³n. Activa la opciÃ³n ``SENTINEL`` descripta en
+   :ref:`dgc_debug`.
+
+``pre_alloc``
+   Esta opciÃ³n permite crear una cierta cantidad de *pools* de un tamaÃ±o
+   determinado previo a que inicie el programa. Si se especifica solo un
+   nÃºmero, se crea un *pool* con ese tamaÃ±o en MiB.  Si, en cambio, se
+   especifica una cadena del tipo ``3x1``, el primer nÃºmero indica la cantidad
+   de *pools* y el segundo el tamaÃ±o en MiB de cada uno (3 *pools* de 1MiB en
+   este caso). Ver :ref:`sol_pre_alloc` para mÃ¡s detalles sobre la utilidad de
+   esta opciÃ³n.
+
+``min_free``
+   El valor de esta opciÃ³n indica el porcentaje mÃ­nimo porcentaje del *heap*
+   que debe quedar libre luego de una recolecciÃ³n. Siendo un porcentaje, solo
+   se aceptan valores entre 0 y 100, siendo su valor por omisiÃ³n 5. Ver
+   :ref:`sol_ocup` para mÃ¡s detalles sobre su propÃ³sito.
+
+``malloc_stats_file``
+   Esta opciÃ³n sirve para especificar un archivo en el cual escribir un
+   reporte de todas la operaciones de pedido de memoria realizadas por el
+   programa (durante su tiempo de vida).  Ver :ref:`sol_stats` para mÃ¡s
+   detalles sobre la informaciÃ³n provista y el formato del reporte.
+
+``collect_stats_file``
+   Esta opciÃ³n sirve para especificar un archivo en el cual escribir un
+   reporte de todas las recolecciones hechas durante el tiempo de vida del
+   programa.  Ver :ref:`sol_stats` para mÃ¡s detalles sobre la informaciÃ³n
+   provista y el formato del reporte.
+
+``conservative``
+   Esta opciÃ³n booleana permite desactivar el escaneo preciso del *heap*,
+   forzando al recolector a ser completamente conservativo (excepto por los
+   bloques con el atributo ``NO_SCAN`` que siguen sin ser escaneados). Ver
+   :ref:`sol_precise` para mÃ¡s detalles sobre la existencia de esta opciÃ³n.
+
+``fork``
+   Esta opciÃ³n booleana (activada por omisiÃ³n) permite seleccionar si el
+   recolector debe correr la fase de marcado en paralelo o no (es decir, si el
+   recolector corre de forma concurrente con el *mutator*).  Para mÃ¡s detalles
+   ver :ref:`sol_fork`.
+
+``eager_alloc``
+   Esta opciÃ³n booleana (activada por omisiÃ³n), sÃ³lo puede estar activa si
+   ``fork`` tambiÃ©n estÃ¡ activa y sirve para indicar al recolector que reserve
+   un nuevo *pool* de memoria cuando una peticiÃ³n no puede ser satisfecha,
+   justo antes de lanzar la recolecciÃ³n concurrente. Ver
+   :ref:`sol_eager_alloc` para mÃ¡s detalles sobre el propÃ³sito de esta opciÃ³n.
+
+``early_collect``
+   Esta opciÃ³n booleana (desactivada por omisiÃ³n), tambiÃ©n sÃ³lo puede estar
+   activa si ``fork`` estÃ¡ activa y sirve para indicar al recolector que lance
+   una recolecciÃ³n (concurrente) antes de que la memoria libre se termine (la
+   recolecciÃ³n temprana serÃ¡ disparada cuando el porcentaje de memoria libre
+   sea menor a ``min_free``). Ver :ref:`sol_early_collect` para mÃ¡s detalles
+   sobre el propÃ³sito de esta opciÃ³n.
+
+Cualquier opciÃ³n o valor no reconocido es ignorado por el recolector. Se
+utilizan los valores por omisiÃ³n de las opciones que no fueron especificadas,
+o cuyos valores no pudieron ser interpretados correctamente.
+
+Para cambiar la configuraciÃ³n del recolector se puede invocar el programa de
+la siguiente manera (usando un intÃ©rprete de comandos del tipo *bourne
+shell*):
+
+.. code-block:: none
+
+   D_GC_OPTS=conservative:eager_alloc=0:early_collect=1:pre_alloc=2x5 ./programa
+
+En este ejemplo, se activan las opciones ``conservative`` y ``early_collect``,
+se desactiva ``eager_alloc`` y se crean 2 *pools* de 5MiB cada uno al
+inicializar el recolector.
+
+
+ReestructuraciÃ³n y cambios menores
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Si bien se decide no comenzar una implementaciÃ³n desde cero, se ha mostrado
+(ver :ref:`dgc_bad_code`) que la implementaciÃ³n actual es lo suficientemente
+desprolija como para complicar su modificaciÃ³n. Es por esto que se hacen
+algunas reestructuraciones bÃ¡sicas del cÃ³digo, reescribiendo o saneando de
+forma incremental todas aquellas partes que complican su evoluciÃ³n.
+
+AdemÃ¡s de las modificaciones puramente estÃ©ticas (aunque no por eso menos
+valuables, ya que la legibilidad y simplicidad del cÃ³digo son un factor
+fundamental a la hora de ser mantenido o extendido), se hacen otras pequeÃ±as
+mejoras, que se detallan a continuaciÃ³n.
+
+RemociÃ³n de memoria *no-encomendada*
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Se elimina la distinciÃ³n entre memoria *encomendada* y *no-encomendada* (ver
+:ref:`dgc_committed`), pasando a estar *encomendada* toda la memoria
+administrada por el recolector.
+
+Si bien a nivel de eficiencia este cambio no tuvo impacto alguno (cuando en un
+principio se especulÃ³ con que podrÃ­a dar alguna ganancia en este sentido), se
+elimina el concepto de memoria *encomendada* para quitar complejidad al
+cÃ³digo.
+
+Esta mejora no afecta a la correcciÃ³n del algoritmo, ya que a nivel lÃ³gico el
+recolector solo ve la memoria *encomendada*.
+
+.. _sol_minor_findsize:
+
+CachÃ© de ``Pool.findSize()``
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Se crea un cachÃ© de tamaÃ±o de bloque para el mÃ©todo ``findSize()`` de un
+*pool*. Esto acelera considerablemente las operaciones que necesitan pedir el
+tamaÃ±o de un bloque reiteradamente, por ejemplo, al aÃ±adir nuevos elementos
+a un arreglo dinÃ¡mico. En esencia es una extensiÃ³n a una de las optimizaciones
+propuestas por Vladimir Panteleev [PAN09]_, que propone un cachÃ© global para
+todo el recolector en vez de uno por *pool*.
+
+Esta mejora tampoco afecta a la correcciÃ³n del algoritmo, ya que nuevamente no
+afecta su comportamiento a nivel lÃ³gico, solo cambia detalles en la
+implementaciÃ³n de forma transparentes para el algoritmo de recolecciÃ³n.
+
+Optimizaciones sobre ``findPool()``
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Al analizar los principales cuellos de botella del recolector, es notoria la
+cantidad de tiempo que pasa ejecutando la funciÃ³n ``findPool()``, que dado un
+puntero devuelve el *pool* de memoria al cual pertenece. Es por esto que se
+minimiza el uso de esta funciÃ³n. AdemÃ¡s, dado que los *pools* de memoria estÃ¡n
+ordenados por el puntero de comienzo del bloque de memoria manejado por el
+*pool*, se cambia la bÃºsqueda (originalmente lineal) por una bÃºsqueda binaria.
+Finalmente, dado que la lista de libre estÃ¡ construida almacenando el puntero
+al siguiente en las mismas celdas que componen la lista, se almacena tambiÃ©n
+el puntero al *pool* al que dicha celda pertenece (dado que la celda mÃ¡s
+pequeÃ±a es de 16 bytes, podemos garantizar que caben dos punteros, incluso
+para arquitecturas de 64 bits). De esta manera no es necesario usar
+``findPool()`` al quitar una celda de la lista de libres.
+
+Una vez mÃ¡s, la mejora no afecta la correcciÃ³n del cÃ³digo.
+
+.. _sol_pre_alloc:
+
+Pre-asignaciÃ³n de memoria
+^^^^^^^^^^^^^^^^^^^^^^^^^
+Esta opciÃ³n permite crear una cierta cantidad de *pools* de un tamaÃ±o
+determinado previo a que inicie el programa. Normalmente el recolector no
+reserva memoria hasta que el programa lo pida. Esto puede llegar a evitar
+que un programa haga muchas recolecciones al comenzar, hasta que haya
+cargado su conjunto de datos de trabajo.
+
+Se han analizado varios valores por omisiÃ³n pero ninguno es consistentemente
+mejor que comenzar sin memoria asignada, por lo tanto no se cambia el
+comportamiento original, pero se agrega una opciÃ³n (ver ``pre_alloc`` en
+:ref:`sol_config_spec`) para que el usuario pueda experimentar con cada
+programa en particular si esta opciÃ³n es beneficiosa.
+
+Esta opciÃ³n tampoco cambia la correcciÃ³n del algoritmo de recolecciÃ³n, solo
+sus condiciones iniciales.
+
+.. _sol_ocup:
+
+Mejora del factor de ocupaciÃ³n del *heap*
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+El factor de ocupaciÃ³n del *heap* debe ser apropiado por dos razones. Por un
+lado, si el *heap* estÃ¡ demasiado ocupado todo el tiempo, serÃ¡n necesarias
+muchas recolecciones que, aunque pequeÃ±as dado que la memoria utilizada es
+poca, puede llegar a ser extremadamente ineficiente en casos patolÃ³gicos (ver
+:ref:`dgc_bad_ocup`). Por otro lado, si el tamaÃ±o del *heap* es extremadamente
+grande (en comparaciÃ³n con el tamaÃ±o real del grupo de trabajo del programa),
+se harÃ¡n pocas recolecciones pero cada una es muy costosa, porque el algoritmo
+de marcado y barrido es :math:`O(\lvert Heap \rvert)` (ver
+:ref:`gc_mark_sweep`). AdemÃ¡s la afinidad del cachÃ© va a ser extremadamente
+pobre.
+
+Para mantener el factor de ocupaciÃ³n dentro de lÃ­mites razonables, se agrega
+la opciÃ³n ``min_free`` (ver :ref:`sol_config_spec`). Esta opciÃ³n indica el
+recolector cual debe ser el porcentaje mÃ­nimo del *heap* que debe quedar libre
+luego de una recolecciÃ³n. En caso de no cumplirse, se pide mÃ¡s memoria al
+sistema operativo para cumplir este requerimiento. AdemÃ¡s, luego de cada
+recolecciÃ³n se verifica que el tamaÃ±o del *heap* no sea mayor a ``min_free``,
+para evitar que el *heap* crezca de forma descontrolada. Si es mayor
+a ``min_free`` se intenta minimizar el uso de memoria liberando *pools* que
+estÃ©n completamente desocupados, mientras que el factor de ocupaciÃ³n siga
+siendo mayor a ``min_free``. Si liberar un *pool* implica pasar ese lÃ­mite, no
+se libera y se pasa a analizar el siguiente y asÃ­ sucesivamente.
+
+Esta modificaciÃ³n no afecta a la correcciÃ³n del algoritmo, ya que no lo afecta
+directamente.
+
+Modificaciones descartadas
+^^^^^^^^^^^^^^^^^^^^^^^^^^
+Se realizan varias otras modificaciones, con la esperanza de mejorar la
+eficiencia del recolector, pero que, al contrario de lo esperado, empeoran la
+eficiencia o la mejoran de forma muy marginal en comparaciÃ³n con la
+complejidad agregada.
+
+Probablemente el caso mÃ¡s significativo, y por tanto el Ãºnico que vale la pena
+mencionar, es la conversiÃ³n de marcado iterativo a marcado recursivo y luego
+a un esquema hÃ­brido. Como se describe en :ref:`dgc_bad`, el marcado iterativo
+tiene sus ventajas, pero tiene desventajas tambiÃ©n. Al convertirlo a puramente
+recursivo, se impracticable por resultar en errores de desbordamiento de pila.
+
+Por lo tanto se prueba con un esquema hÃ­brido, poniendo un lÃ­mite a la
+recursividad, volviendo al algoritmo iterativo cuando se alcanza este lÃ­mite.
+
+La implementaciÃ³n del algoritmo hÃ­brido consiste en los siguientes cambios
+sobre el algoritmo original (ver :ref:`dgc_algo_mark`)::
+
+   function mark_phase() is
+      global more_to_scan = false
+      global depth = 0                                // Agregado
+      stop_the_world()
+      clear_mark_scan_bits()
+      mark_free_lists()
+      mark_static_data()
+      push_registers_into_stack()
+      thread_self.stack.end = get_stack_top()
+      mark_stacks()
+      pop_registers_from_stack()
+      mark_user_roots()
+      mark_heap()
+      start_the_world()
+
+   function mark_range(begin, end) is
+      pointer = begin
+      global depth++                                  // Agregado
+      while pointer < end
+         [pool, page, block] = find_block(pointer)
+         if block is not null and block.mark is false
+            block.mark = true
+            if block.noscan is false
+               block.scan = true
+               if (global depth > MAX_DEPTH)          //
+                  more_to_scan = true                 //
+               else                                   // Agregado
+                  foreach ptr in block.words          //
+                     mark(ptr)                        //
+      global depth--                                  //
+
+Al analizar los resultados de de esta modificaciÃ³n, se observa una mejorÃ­a muy
+level, para valores de ``MAX_DEPTH`` mayores a cero (en algunos casos bastante
+mayores) y en general para ``MAX_DEPTH`` cero (es decir, usando el algoritmo
+de forma completamente iterativa) los resultados son peores, dado que se paga
+el trabajo extra sin ganancia alguna. En la figura :vref:`fig:sol-mark-rec` se
+puede ver, por ejemplo, el tiempo total de ejecuciÃ³n de Dil_ al generar la
+documentaciÃ³n completa del cÃ³digo de Tango_, segÃºn varÃ­a el valor de
+``MAX_DEPTH``.
+
+.. fig:: fig:sol-mark-rec
+
+   AnÃ¡lisis de tiempo total de ejecuciÃ³n en funciÃ³n del valor de
+   ``MAX_DEPTH``.
+
+   Tiempo total de ejecuciÃ³n de Dil_ al generar la documentaciÃ³n completa del
+   cÃ³digo de Tango_ en funciÃ³n del valor de ``MAX_DEPTH``. El rombo no
+   pertenece a ningÃºn nivel de recursividad, representa el tiempo de ejecuciÃ³n
+   del algoritmo original (puramente iterativo).
+
+   .. image:: sol-mark-rec-dil.pdf
+
+
+Dado que aumentar el nivel mÃ¡ximo de recursividad significa un uso mayor del
+*stack*, y que esto puede impactar en el usuario (si el usuario tuviera un
+programa que estÃ© al borde de consumir todo el *stack*, el recolector podrÃ­a
+hacer fallar al programa de una forma inesperada para el usuario, problema que
+serÃ­a muy difÃ­cil de depurar para Ã©ste), y que los resultados obtenidos no son
+rotundamente superiores a los resultados sin esta modificaciÃ³n, se opta por no
+incluir este cambio. Tampoco vale la pena incluirlo como una opciÃ³n con valor
+por omisiÃ³n 0 porque, como se ha dicho, para este caso el resultado es incluso
+peor que sin la modificaciÃ³n.
+
+Esta modificaciÃ³n mantiene la correcciÃ³n del recolector dado que tampoco
+modifica el algoritmo sino su implementaciÃ³n. AdemÃ¡s ambos casos extremos son
+correctos (si ``MAX_DEPTH`` es 0, el algoritmo es puramente iterativo y si
+pudiera ser infinito resultarÃ­a en el algoritmo puramente recursivo).
+
+
+.. _sol_stats:
+
+RecolecciÃ³n de estadÃ­sticas
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Un requerimiento importante, tanto para evaluar los resultados de este trabajo
+como para analizar el comportamiento de los programas estudiados, es la
+recolecciÃ³n de estadÃ­sticas. Hay muchos aspectos que pueden ser analizados
+a la hora de evaluar un recolector, y es por esto que se busca que la
+recolecciÃ³n de datos sea lo mÃ¡s completa posible.
+
+Con este objetivo, se decide recolectar datos sobre lo que, probablemente,
+sean las operaciones mÃ¡s importantes del recolector: asignaciÃ³n de memoria
+y recolecciÃ³n.
+
+Todos los datos recolectados son almacenados en archivos que se especifican
+a travÃ©s de opciones del recolector (ver :ref:`sol_config_spec`). Los archivos
+especificados debe poder ser escritos (y creados de ser necesario) por el
+recolector (de otra forma se ignora la opciÃ³n). El conjunto de datos
+recolectados son almacenados en formato :term:`CSV` en el archivo, comenzando
+con una cabecera que indica el significado de cada columna.
+
+Los datos recolectados tienen en general 4 tipos de valores diferentes:
+
+Tiempo
+   Se guarda en segundos como nÃºmero de punto flotante (por ejemplo ``0.12``).
+
+Puntero
+   Se guarda en forma hexadecimal (por ejemplo ``0xa1b2c3d4``).
+
+TamaÃ±o
+   Se guarda como un nÃºmero decimal, expresado en bytes (por ejemplo ``32``).
+
+Indicador
+   Se guarda como el nÃºmero ``0`` si es falso o ``1`` si es verdadero.
+
+Esta modificaciÃ³n mantiene la correcciÃ³n del recolector dado que no hay cambio
+algorÃ­tmico alguno.
+
+AsignaciÃ³n de memoria
+^^^^^^^^^^^^^^^^^^^^^
+La recolecciÃ³n de datos sobre asignaciÃ³n de memoria se activa asignando un
+nombre de archivo a la opciÃ³n ``malloc_stats_file``. Por cada asignaciÃ³n de
+memoria pedida por el programa (es decir, por cada llamada a la funciÃ³n
+``gc_malloc()``) se guarda una fila con los siguientes datos:
+
+1. Cantidad de segundos que pasaron desde que empezÃ³ el programa (*timestamp*).
+2. Tiempo total que tomÃ³ la asignaciÃ³n de memoria.
+3. Valor del puntero devuelto por la asignaciÃ³n.
+4. TamaÃ±o de la memoria pedida por el programa.
+5. Si esta peticiÃ³n de memoria disparÃ³ una recolecciÃ³n o no.
+6. Si debe ejecutarse un *finalizador* sobre el objeto (almacenado en la
+   memoria pedida) cuando Ã©sta no sea mÃ¡s alcanzable (cuando sea barrido).
+7. Si objeto carece de punteros (es decir, no debe ser escaneada).
+8. Si objeto no debe ser movido por el recolector.
+9. Puntero a la informaciÃ³n sobre la ubicaciÃ³n de los punteros del objeto.
+10. TamaÃ±o del tipo del objeto.
+11. Primera palabra con los bits que indican que palabras del tipo deben ser
+    escaneados punteros y cuales no (en hexadecimal).
+12. Primera palabra con los bits que indican que palabras del tipo son
+    punteros garantizados (en hexadecimal).
+
+Como puede apreciarse, la mayor parte de esta informaciÃ³n sirve mÃ¡s para
+analizar el programa que el recolector. Probablemente solo el punto 2 sea de
+interÃ©s para analizar como se comporta el recolector.
+
+El punto 8 es completamente inÃºtil, ya que el compilador nunca provee esta
+informaciÃ³n, pero se la deja por si en algÃºn momento comienza a hacerlo. Los
+puntos 9 a 12 provee informaciÃ³n sobre el tipo del objeto almacenado, Ãºtil
+para un marcado preciso (ver :ref:`sol_precise`).
+
+El punto 6 indica, indirectamente, cuales de los objetos asignados son
+*pesados*, ya que Ã©stos son los Ãºnicos que pueden tener un *finalizador*.
+AdemÃ¡s, a travÃ©s de los puntos 4 y 10 es posible inferir si lo que va
+almacenarse es un objeto solo o un arreglo de objetos.
+
+RecolecciÃ³n de basura
+^^^^^^^^^^^^^^^^^^^^^
+Los datos sobre las recolecciones realizadas se guardan al asignar un nombre
+de archivo a la opciÃ³n ``collect_stats_file``. Cada vez que se dispara una
+recolecciÃ³n [#solcollect]_ (es decir, cada vez que se llama a la funciÃ³n
+``fullcollect()``) se guarda una fila con los siguientes datos:
+
+1. Cantidad de segundos que pasaron desde que empezÃ³ el programa (*timestamp*).
+2. Tiempo total que tomÃ³ la asignaciÃ³n de memoria que disparÃ³ la recolecciÃ³n.
+3. Tiempo total que tomÃ³ la recolecciÃ³n.
+4. Tiempo total que deben pausarse todos los hilos (tiempo de
+   *stop-the-world*).
+5. Cantidad de memoria usada antes de la recolecciÃ³n.
+6. Cantidad de memoria libre antes de la recolecciÃ³n.
+7. Cantidad de memoria desperdiciada antes de la recolecciÃ³n.
+8. Cantidad de memoria utilizada por el mismo recolector antes de la
+   recolecciÃ³n (para sus estructuras internas).
+9. Cantidad de memoria usada despuÃ©s de la recolecciÃ³n.
+10. Cantidad de memoria libre despuÃ©s de la recolecciÃ³n.
+11. Cantidad de memoria desperdiciada [#solwaste]_ despuÃ©s de la recolecciÃ³n.
+12. Cantidad de memoria utilizada por el mismo recolector despuÃ©s de la
+    recolecciÃ³n.
+
+Si bien el punto 4 parece ser el mÃ¡s importante para un programa que necesita
+baja latencia, dado el *lock* global del recolector, el punto 2 es
+probablemente el valor mÃ¡s significativo en este aspecto, dado que, a menos
+que el programa en cuestiÃ³n utilice muy poco el recolector en distintos hilos,
+los hilos se verÃ¡n pausados de todas formas cuando necesiten utilizar el
+recolector.
+
+.. [#solcollect] Esto es en el sentido mÃ¡s amplio posible. Por ejemplo, cuando
+   se utiliza marcado concurrente (ver :ref:`sol_fork`), se guarda esta
+   informaciÃ³n incluso si ya hay una recolecciÃ³n activa, pero el tiempo de
+   pausa de los hilos serÃ¡ -1 para indicar que en realidad nunca fueron
+   pausados.
+
+.. [#solwaste] Memoria *desperdiciada* se refiere a memoria que directamente
+   no puede utilizarse debido a la fragmentaciÃ³n. Si por ejemplo, se piden 65
+   bytes de memoria, dada la organizaciÃ³n del *heap* en bloques (ver
+   :ref:`dgc_org`), el recolector asignarÃ¡ un bloque de 128 bytes, por lo
+   tanto 63 bytes quedarÃ¡n desperdiciados.
+
+
+.. _sol_precise:
+
+Marcado preciso
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Para agregar el soporte de marcado preciso se aprovecha el trabajo realizado
+por Vincent Lang (ver :ref:`dgc_via_art`) [DBZ3463]_, dado que se basa en `D
+1.0`_ y Tango_, al igual que este trabajo. Dado el objetivo y entorno comÃºn,
+se abre la posibilidad de adaptar sus cambios a este trabajo, utilizando una
+versiÃ³n modificada de DMD_ (dado que los cambios aÃºn no son integrados al
+compilador oficial).
+
+.. TODO: ApÃ©ndice con parches a DMD y Tango?
+
+InformaciÃ³n de tipos provista por el compilador
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Con Ã©stas modificaciones, el compilador en cada asignaciÃ³n le pasa al
+recolector informaciÃ³n sobre los punteros del tipo para el cual se pide la
+memoria. Esta informaciÃ³n se pasa como un puntero a un arreglo de palabras con
+la estructura mostrada en la figura :vref:`fig:sol-ptrmap` y que se describe
+a continuaciÃ³n.
+
+.. fig:: fig:sol-ptrmap
+
+   Estructura de la informaciÃ³n de tipos provista por el compilador.
+
+   .. aafig::
+      :scale: 110
+
+      /----- ptrmap
+      |
+      V
+      +-------------+----------------------------+----------------------------+
+      | "TamaÃ±o en" |    "Bits indicando si la"  |      "Bits indicando si"   |
+      | "cantidad"  |  "palabra en una posiciÃ³n" |      "la palabra en una"   |
+      |    "de"     |    "debe escanearse como"  |          "posiciÃ³n es"     |
+      | "palabras"  |     "si fuera un puntero"  |          "un puntero"      |
+      +-------------+----------------------------+----------------------------+
+
+      |             |                            |                            |
+      +----- 1 -----+------- ceil(N/BPW) --------+------- ceil(N/BPW) --------+
+      |             |                            |                            |
+
+* La primera palabra indica el tamaÃ±o, en **cantidad de palabras**, del tipo
+  para el cual se pide la memoria (:math:`N`).
+* Las siguientes :math:`ceil(\frac{N}{BPW})` palabras indican,
+  como un conjunto de bits, quÃ© palabras deben ser escaneadas por el
+  recolector como si fueran punteros (donde :math:`BPW` indica la cantidad de
+  bits por palabra, por ejemplo 32 para x86).
+* Las siguientes :math:`ceil(\frac{N}{BPW})` palabras son otro conjunto de
+  bits indicando quÃ© palabras son realmente punteros.
+
+Los conjuntos de bits guardan la informaciÃ³n sobre la primera palabra en el
+bit menos significativo. Dada la complejidad de la representaciÃ³n, se ilustra
+con un ejemplo. Dada la estructura:
+
+.. code-block:: d
+
+   union U {
+      ubyte ub;
+      void* ptr;
+   }
+
+   struct S
+   {
+      void* begin1;                        // 1 word
+      byte[size_t.sizeof * 14 + 1] bytes;  // 15 words
+      // el compilador agrega bytes de "padding" para alinear
+      void* middle;                        // 1 word
+      size_t[14] ints;                     // 14 words
+      void* end1;                          // 1 words
+      // hasta acÃ¡ se almacenan los bits en la primera palabra
+      void* begin2;                        // 1 words
+      int i;                               // 1 word
+      U u;                                 // 1 word
+      S* s;                                // 1 word
+   }
+
+El compilador genera la estructura que se muestra en la figura
+:vref:`fig:sol-ptrmap-example` (asumiendo una arquitectura de 32 bits). Como
+puede apreciarse, el miembro ``u``, al ser una uniÃ³n entre un puntero y un
+dato comÃºn, el compilador no puede asegurar que lo que se guarda en esa
+palabra sea realmente un puntero, pero indica que debe ser escaneado. El
+recolector debe debe ser conservativo en este caso, y escanear esa palabra
+como si fuera un puntero.
+
+.. fig:: fig:sol-ptrmap-example
+
+   Ejemplo de estructura de informaciÃ³n de tipos generada para el tipo ``S``.
+
+   .. aafig::
+      :textual:
+      :aspect: 55
+      :scale: 110
+
+        /---- "bit de 'end1'"                                 -\
+        |                                                      | "Significado"
+        |              /---- "bit de 'middle'"                 | "de bits"
+        |              |                                       | "en la"
+        |    "bits de" |    "bits de"  /---- "bit de 'begin1'" | "primera"
+        |     "'ints'" |    "'bytes'"  |                       | "palabra"
+        |/------------\|/-------------\|                      -/
+        V|            |V|             |V
+      +----------------------------------+
+      | 00000000000000000000000000100100 | "TamaÃ±o en cantidad de palabras (36)"
+      +==================================+ --\
+      | 10000000000000010000000000000001 |   | "Bits que indican si hay que"
+      +----------------------------------+   | "escanear una palabra segÃºn"
+      | 00000000000000000000000000001101 |   | "su posiciÃ³n"
+      +==================================+ --+
+      | 10000000000000010000000000000001 |   | "Bits que indican si hay un"
+      +----------------------------------+   | "puntero en la palabra segÃºn"
+      | 00000000000000000000000000001001 |   | "su posiciÃ³n"
+      +----------------------------------+ --/
+        |                          |AAAA
+        \--------------------------/||||                      -\
+              "bits de relleno"     ||||                       |
+                                    ||||                       | "Significado"
+                 "bit de 's'"       ||||                       | "de bits"
+                    |               ||||                       | "en la"
+                    \---------------/||\---- "bit de 'begin2'" | "segunda"
+                                     ||                        | "palabra"
+                     /---------------/\---- "bit de 'i'"       |
+                     |                                         |
+                  "bit de 'u'"                                -/
+
+Si una implementaciÃ³n quisiera mover memoria (ver :ref:`gc_moving`), deberÃ­a
+mantener inmÃ³vil a cualquier objeto que sea apuntado por una palabra de estas
+caracterÃ­sticas, ya que no es seguro actualizar la palabra con la nueva
+posiciÃ³n el objeto movido. Es por esta razÃ³n que se provee desglosada la
+informaciÃ³n sobre lo que hay que escanear, y lo que es realmente un puntero
+(que puede ser actualizado de forma segura por el recolector de ser
+necesario).
+
+ImplementaciÃ³n en el recolector
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+La implementaciÃ³n estÃ¡ basada en la idea original de David Simcha, pero
+partiendo de la implementaciÃ³n de Vincent Lang (que estÃ¡ basada en Tango_)
+y consiste en almacenar el puntero a la estructura con la descripciÃ³n del tipo
+generada por el compilador al final del bloque de datos. Este puntero solo se
+almacena si el bloque solicitado no tiene el atributo ``NO_SCAN``, dado que en
+ese caso no hace falta directamente escanear ninguna palabra del bloque.
+
+En la figura :vref:`fig:sol-ptrmap-blk` se puede ver, como continuaciÃ³n del
+ejemplo anterior, como se almacenarÃ­a en memoria un objeto del tipo ``S``.
+
+.. fig:: fig:sol-ptrmap-blk
+
+   Ejemplo de bloque que almacena un objeto de tipo ``S`` con informaciÃ³n de
+   tipo.
+
+   .. aafig::
+      :scale: 110
+
+      |                                                                |
+      +------------------------ 256 bytes -----------------------------+
+      |                                                                |
+
+      +----------------------------------+-----------------------+-----+
+      |                                  |                       |     |
+      | Objeto                           | Desperdicio           | Ptr |
+      |                                  |                       |     |
+      +----------------------------------+-----------------------+-----+
+
+      |                                  |                       |     |
+      +------------ 144 bytes -----------+------ 108 bytes ------+- 4 -+
+      |                                  |                       |     |
+
+Un problema evidente de este esquema es que si el tamaÃ±o de un objeto se
+aproxima mucho al tamaÃ±o de bloque (difiere en menos de una palabra), el
+objeto ocuparÃ¡ el doble de memoria.
+
+El algoritmo de marcado se cambia de la siguiente forma::
+
+   // Agregado
+   global conservative_scan = [1, 1, 0]
+
+   // Agregado
+   function must_scan_word(pos, bits) is
+      return bits[pos / BITS_PER_WORD] & (1 << (pos % BITS_PER_WORD))
+
+   function mark_range(begin, end, ptrmap) is             // Modificado
+      number_of_words_in_type = ptrmap[0]                 // Agregado
+      size_t* scan_bits = ptrmap + 1                      // Agregado
+      pointer = begin
+      while pointer < end
+         foreach word_pos in 0..number_of_words_in_type   //
+            if not must_scan_word(n, scan_bits)           // Agregado
+               continue                                   //
+            [pool, page, block] = find_block(pointer)
+            if block is not null and block.mark is false
+               block.mark = true
+               if block.noscan is false
+                  block.scan = true
+                  global more_to_scan = true
+         pointer += number_of_words_in_type               // Modificado
+
+   function mark_heap() is
+      while global more_to_scan
+         global more_to_scan = false
+         foreach pool in heap
+            foreach page in pool
+               if page.block_size <= PAGE // saltea FREE y CONTINUATION
+                  foreach block in page
+                     if block.scan is true
+                        block.scan = false
+                        if page.block_size is PAGE // obj grande //
+                           begin = cast(byte*) page              //
+                           end = find_big_object_end(pool, page) //
+                        else // objeto pequeÃ±o                   //
+                           begin = block.begin                   //
+                           end = block.end                       // Modificado
+                        ptrmap = global conservative_scan        //
+                        if NO_SCAN not in block.attrs            //
+                           end -= size_t.sizeof                  //
+                           ptrmap = cast(size_t*) *end           //
+                        mark_range(begin, end, ptrmap)           //
+
+   function mark_static_data() is
+      mark_range(static_data.begin, static_data.end,
+            global conservative_scan)                // Agregado
+
+   function mark_stacks() is
+      foreach thread in threads
+         mark_range(thread.stack.begin, thread.stack.end,
+               global conservative_scan)                  // Agregado
+
+   function mark_user_roots() is
+      foreach root_range in user_roots
+         mark_range(root_range.begin, root_range.end,
+               global conservative_scan)              // Agregado
+
+Las funciones de asignaciÃ³n de memoria se modifican de forma similar, para
+guardar el puntero a la informaciÃ³n de tipos. Esta implementaciÃ³n utiliza solo
+la informaciÃ³n sobre que palabras hay que tratar como punteros (deben ser
+escaneadas); la informaciÃ³n sobre quÃ© palabras son efectivamente punteros no
+se utiliza ya que no se mueven celdas.
+
+El algoritmo sigue siendo correcto, puesto que solamente se dejan de escanear
+palabras que el compilador sabe que no pueden ser punteros. Si bien el
+lenguaje permite almacenar punteros en una variable que no lo sea, esto es
+comportamiento indefinido por lo tanto un programa que lo hace no es
+considerado correcto, por lo cual el recolector tampoco debe ser correcto en
+esas circunstancias.
+
+Cabe destacar que la informaciÃ³n de tipos solo se provee para objetos
+almacenados en el *heap*, el Ã¡rea de memoria estÃ¡tica, registros del
+procesador y la pila de todos los hilos siguen siendo escaneados de forma
+completamente conservativa. Se puede forzar el escaneo puramente conservativo
+utilizando la opciÃ³n ``conservative`` (ver :ref:`sol_config_spec`).
+
+
+.. _sol_fork:
+
+Marcado concurrente
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Finalmente se procede al objetivo primario de este trabajo, hacer que la fase
+mÃ¡s costosa del recolector (el marcado) pueda correr de manera concurrente con
+el *mutator*, con el objeto principal de disminuir el tiempo de pausa.
+
+Cabe aclarar, una vez mÃ¡s, que si bien los recolectores concurrentes buscan
+disminuir solo el tiempo de *stop-the-world*, en este caso es tambiÃ©n
+fundamental disminuir el tiempo mÃ¡ximo que estÃ¡ tomado el *lock* global, dado
+que ese tiempo puede convertirse en una pausa para todos los threads que
+requieran servicios del recolector.
+
+Se decide basar la implementaciÃ³n en el *paper* "Non-intrusive Cloning Garbage
+Collector with Stock Operating System Support" [RODR97]_ por las siguientes
+razones principales:
+
+* Su implementaciÃ³n encaja de forma bastante natural con el diseÃ±o del
+  recolector actual, por lo que requiere pocos cambios, lo que hace mÃ¡s
+  factible su aceptaciÃ³n.
+* EstÃ¡ basado en la llamada al sistema :manpage:`fork(2)`, que no solo estÃ¡
+  muy bien soportada (y de manera muy eficiente) en Linux_, debe estar
+  soportada en cualquier sistema operativo :term:`POSIX`.
+* No necesita instrumentar el cÃ³digo incluyendo barreras de memoria para
+  informar al recolector cuando cambia el grafo de conectividad. Este es un
+  aspecto fundamental, dada la filosofÃ­a de D_ de no pagar el precio de cosas
+  que no se usan. La penalizaciÃ³n en la eficiencia solo se paga cuando corre
+  el recolector. Este aspecto tambiÃ©n es crÃ­tico a la hora de evaluar la
+  aceptaciÃ³n de la soluciÃ³n por parte de la comunidad.
+* Dada su sencillez general, no es difÃ­cil ofrecer el algoritmo concurrente
+  como una opciÃ³n, de manera que el usuario pueda optar por usarlo o no.
+
+Llamada al sistema *fork*
+^^^^^^^^^^^^^^^^^^^^^^^^^
+El tÃ©rmino *fork* proviene del inglÃ©s y significa *tenedor* de manera textual,
+pero se lo utiliza como analogÃ­a de una bifurcaciÃ³n. La operaciÃ³n crea una
+copia (llamada *hijo*) del proceso que la ejecuta (llamado *padre*).
+
+El punto mÃ¡s importante es que se crea un espacio de direcciones de memoria
+separado para el proceso hijo y una copia exacta de todos los segmentos de
+memoria del proceso padre. Es por esto que cualquier modificaciÃ³n que se haga
+en el proceso padre, no se refleja en el proceso hijo (y viceversa), a menos
+que la memoria sea compartida entre los procesos de forma explÃ­cita.
+
+Esto, sin embargo, no significa que la memoria fÃ­sica sea realmente duplicada;
+en general todos los sistemas operativos modernos (como Linux_) utilizan una
+tÃ©cnica llamada *COW* (de *copy-on-write* en inglÃ©s, *copiar-al-escribir* en
+castellano) que retrasa la copia de memoria hasta que alguno de los dos
+procesos escribe en un segmento. ReciÃ©n en ese momento el sistema operativo
+realiza la copia de **ese segmento solamente**. Es por esto que la operaciÃ³n
+puede ser muy eficiente, y la copia de memoria es proporcional a la cantidad
+de cambios que hayan.
+
+:manpage:`fork(2)` tiene otra propiedad importante de mencionar: detiene todos
+los hilos de ejecuciÃ³n en el proceso hijo. Es decir, el proceso hijo se crear
+con un solo hilo (el hilo que ejecutÃ³ la operaciÃ³n de :manpage:`fork(2)`).
+
+Algoritmo
+^^^^^^^^^
+Lo que propone el algoritmo es muy sencillo, utilizar la llamada al sistema
+:manpage:`fork(2)` para crear una *fotografÃ­a* de la memoria del proceso en un
+nuevo proceso. En el proceso padre sigue corriendo el *mutator* y en el
+proceso hijo se corre la fase de marcado. El *mutator* puede modificar el
+grafo de conectividad pero los cambios quedan aislados el hijo (el marcado),
+que tiene una visiÃ³n consistente e inmutable de la memoria. El sistema
+operativo duplica las pÃ¡ginas que modifica el padre bajo demanda, por lo tanto
+la cantidad de memoria fÃ­sica realmente copiada es proporcional a la cantidad
+y dispersiÃ³n de los cambios que haga el *mutator*.
+
+La correcciÃ³n del algoritmo se mantiene gracias a que la siguiente invariante
+se preserva:
+
+   Cuando una celda se convierte en basura, permanece como basura hasta ser
+   reciclada por el recolector.
+
+Es decir, el *mutator* no puede *resucitar* una celda *muerta* y esta
+invariante se mantiene al correr la fase de marcado sobre una vista inmutable
+de la memoria. El Ãºnico efecto introducido es que el algoritmo toma una
+aproximaciÃ³n mÃ¡s conservativa. Es decir, lo que sÃ­ puede pasar es que una
+celda que pasÃ³ a estar *muerta* una vez que la fase de marcado se iniciÃ³, pero
+antes de que Ã©sta termine, la celda no se reciclarÃ¡ hasta la prÃ³xima
+recolecciÃ³n, dado que este algoritmo no incluye una comunicaciÃ³n entre
+*mutator* y recolector para notificar cambios en el grafo de conectividad.
+Pero esto no afecta la correcciÃ³n del algoritmo, ya que un recolector es
+correcto cuando nunca recicla celdas *vivas*.
+
+La Ãºnica comunicaciÃ³n necesaria entre el *mutator* y el recolector son los
+bits de marcado (ver :ref:`dgc_impl`), dado que la fase de barrido debe correr
+en el proceso padre. No es necesaria ningÃºn tipo de sincronizaciÃ³n entre
+*mutator* y recolector mÃ¡s allÃ¡ de que uno espera a que el otro finalice.
+
+AdemÃ¡s de almacenar el conjunto de bits ``mark`` en memoria compartida entre
+el proceso padre e hijo (necesario para la fase de barrido), las
+modificaciones necesarias para hacer la fase de marcado concurrente son las
+siguientes [#solforkerr]_::
+
+   function collect() is
+      stop_the_world()
+      fflush(null) // evita que se duplique la salida de los FILE* abiertos
+      child_pid = fork()
+      if child_pid is 0 // proceso hijo
+         mark_phase()
+         exit(0) // termina el proceso hijo
+      // proceso padre
+      start_the_world()
+      wait(child_pid)
+      sweep()
+
+   function mark_phase() is
+      global more_to_scan = false
+      // Borrado: stop_the_world()
+      clear_mark_scan_bits()
+      mark_free_lists()
+      mark_static_data()
+      push_registers_into_stack()
+      thread_self.stack.end = get_stack_top()
+      mark_stacks()
+      pop_registers_from_stack()
+      mark_user_roots()
+      mark_heap()
+      // Borrado: start_the_world()
+
+Como se puede observar, el cambio es extremadamente sencillo. Sigue siendo
+necesario un tiempo mÃ­nimo de pausa (bÃ¡sicamente el tiempo que tarda la
+llamada al sistema operativo :manpage:`fork(2)`) para guardar una vista
+consistente de los registros del CPU y *stacks* de los hilos. Si bien el
+conjunto de bits ``mark`` es compartido por el proceso padre e hijo dado que
+es necesario para *comunicar* las fases de marcado y barrido, cabe notar que
+nunca son utilizados de forma concurrente (la fase de barrido espera que la
+fase de marcado termine antes de usar dichos bits), por lo tanto no necesitan
+ningÃºn tipo de sincronizaciÃ³n y nunca habrÃ¡ mÃ¡s de una recolecciÃ³n en proceso
+debido al *lock* global del recolector.
+
+A pesar de que con estos cambios el recolector tÃ©cnicamente corre de forma
+concurrente, se puede apreciar que para un programa con un solo hilo el
+tiempo mÃ¡ximo de pausa seguirÃ¡ siendo muy grande, incluso mÃ¡s grande que antes
+dado el trabajo extra que impone crear un nuevo proceso y duplicar las pÃ¡ginas
+de memoria modificadas. Lo mismo le pasarÃ¡ a cualquier hilo que necesite hacer
+uso del recolector mientras hay una recolecciÃ³n en proceso, debido al *lock*
+global.
+
+Para bajar este tiempo de pausa se experimenta con dos nuevas mejoras, que se
+describen a continuaciÃ³n, cuyo objetivo es correr la fase de marcado de forma
+concurrente a **todos** los hilos, incluyendo el hilo que la disparÃ³.
+
+.. [#solforkerr] Se omite el manejo de errores y la activaciÃ³n/desactivaciÃ³n
+   del marcado concurrente a travÃ©s de opciones del recolector para facilitar
+   la comprensiÃ³n del algoritmo y los cambios realizados. Si devuelve con
+   error la llamada a ``fork()`` o ``waitpid()``, se vuelve al esquema
+   *stop-the-world* como si se hubiera desactivado el marcado concurrente
+   utilizando la opciÃ³n del recolector ``fork=0``.
+
+
+.. _sol_eager_alloc:
+
+CreaciÃ³n ansiosa de *pools* (*eager allocation*)
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Esta mejora, que puede ser controlada a travÃ©s de la opciÃ³n ``eager_alloc``
+(ver :ref:`sol_config_spec`), consiste en crear un nuevo *pool* cuando un
+pedido de memoria no puede ser satisfecho, justo despuÃ©s de lanzar la
+recolecciÃ³n. Esto permite al recolector satisfacer la peticiÃ³n de memoria
+inmediatamente, corriendo la fase de marcado de forma realmente concurrente,
+incluso para programas con un solo hilo o programas cuyos hilos usan
+frecuentemente servicios del recolector. El precio a pagar es un mayor uso de
+memoria de forma temporal (y el trabajo extra de crear y eliminar *pools* mÃ¡s
+frecuentemente), pero es esperable que el tiempo mÃ¡ximo de pausa **real** se
+vea drÃ¡sticamente disminuido.
+
+A simple vista las modificaciones necesarias para su implementaciÃ³n parecieran
+ser las siguientes::
+
+   // Agregado
+   global mark_pid = 0
+
+   // Agregado
+   function mark_is_running() is
+      return global mark_pid != 0
+
+   function collect() is
+      if mark_is_running()                      //
+         finished = try_wait(global mark_pid)   //
+         if finished                            // Agregado
+            mark_pid = 0                        //
+            sweep()                             //
+         return                                 //
+      stop_the_world()
+      child_pid = fork()
+      fflush(null)
+      if child_pid is 0 // proceso hijo
+         mark_phase()
+         exit(0)
+      // proceso padre
+      start_the_world()
+      // Borrado: wait(child_pid)
+      global mark_pid = child_pid
+
+Sin embargo con sÃ³lo estas modificaciones el algoritmo deja de ser correcto,
+ya que tres cosas problemÃ¡ticas pueden suceder:
+
+1. Puede llamarse a la funciÃ³n ``minimize()`` mientras hay una fase de marcado
+   corriendo en paralelo. Esto puede provocar que se libere un *pool* mientras
+   se lo estÃ¡ usando en la fase de marcado, lo que no serÃ­a un problema
+   (porque el proceso de marcado tiene una copia) si no fuera porque los bits
+   de marcado, que son compartidos por los procesos, se liberan con el *pool*.
+2. Si un bloque libre es asignado despuÃ©s de que la fase de marcado comienza,
+   pero antes de que termine, ese bloque serÃ¡ barrido dado la funciÃ³n
+   ``rebuild_free_lists()`` puede reciclar pÃ¡ginas si todos sus bloques tienen
+   el bit ``freebits`` activo (ver :ref:`dgc_algo_sweep`).
+3. El *pool* creado ansiosamente, tendrÃ¡ sus bits de marcado sin activar, por
+   lo que en la fase de barrido serÃ¡ interpretado como memoria libre, incluso
+   cuando puedan estar siendo utilizados por el *mutator*.
+
+El punto 1 sencillamente hace que el programa finalice con una violaciÃ³n de
+segmento (en el mejor caso) y 2 y 3 pueden desembocar en la liberaciÃ³n de una
+celda alcanzable por el *mutator*.
+
+El punto 1 se resuelve a travÃ©s de la siguiente modificaciÃ³n::
+
+   function minimize() is
+      if mark_is_running()                            // Agregado
+         return                                       //
+      for pool in heap
+         all_free = true
+         for page in pool
+            if page.block_size is not FREE
+               all_free = false
+               break
+         if all_free is true
+            free(pool.pages)
+            free(pool)
+            heap.remove(pool)
+
+La resoluciÃ³n del punto 2 es un poco mÃ¡s laboriosa, ya que hay que mantener
+actualizado los ``freebits``, de forma que las celdas asignadas despuÃ©s de
+empezar la fase de marcado no sean barridas por tener ese bit activo::
+
+   function new_big(size) is
+      number_of_pages = ceil(size / PAGE_SIZE)
+      pages = find_pages(number_of_pages)
+      if pages is null
+         collect()
+         pages = find_pages(number_of_pages)
+         if pages is null
+            minimize()
+            pool = new_pool(number_of_pages)
+            if pool is null
+               return null
+            pages = assign_pages(pool, number_of_pages)
+      pages[0].block.free = true                         // Agregado
+      pages[0].block_size = PAGE
+      foreach page in pages[1 .. end]
+         page.block_size = CONTINUATION
+      return pages[0]
+
+   function assign_page(block_size) is
+      foreach pool in heap
+         foreach page in pool
+            if page.block_size is FREE
+               page.block_size = block_size
+               foreach block in page
+                  block.free = true                         // Agregado
+                  free_lists[page.block_size].link(block)
+
+   function mark_phase() is
+      global more_to_scan = false
+      // Borrado: clear_mark_scan_bits()
+      // Borrado: mark_free_lists()
+      clear_scan_bits()                         // Agregado
+      mark_free()                               //
+      mark_static_data()
+      push_registers_into_stack()
+      thread_self.stack.end = get_stack_top()
+      mark_stacks()
+      pop_registers_from_stack()
+      mark_user_roots()
+      mark_heap()
+
+   // Agregado
+   function clear_scan_bits() is
+      // La implementaciÃ³n real limpia los bits en bloques de forma eficiente
+      foreach pool in heap
+         foreach page in pool
+            foreach block in page
+               block.scan = false
+
+   // Agregado
+   function mark_free() is
+      // La implementaciÃ³n real copia los bits en bloques de forma eficiente
+      foreach pool in heap
+         foreach page in pool
+            foreach block in page
+               block.mark = block.free
+
+   function free_big_object(pool, page) is
+      pool_end = cast(byte*) pool.pages + (PAGE_SIZE * pool.number_of_pages)
+      do
+         page.block_size = FREE
+         page.block.free = true                 // Agregado
+         page = cast(byte*) page + PAGE_SIZE
+      while page < pool_end and page.block_size is CONTINUATION
+
+   function new(size, attrs) is
+      block_size = find_block_size(size)
+      if block_size < PAGE
+         block = new_small(block_size)
+      else
+         block = new_big(size)
+      if block is null
+         throw out_of_memory
+      if final in attrs
+         block.final = true
+      if noscan in attrs
+         block.noscan = true
+      block.free = false         // Agregado
+      return cast(void*) block
+
+   funciones new_pool(number_of_pages = 1) is
+      pool = alloc(pool.sizeof)
+      if pool is null
+         return null
+      pool.number_of_pages = number_of_pages
+      pool.pages = alloc(number_of_pages * PAGE_SIZE)
+      if pool.pages is null
+         free(pool)
+         return null
+      heap.add(pool)
+      foreach page in pool
+         page.block_size = FREE
+         foreach block in page      //
+            block.free = true       // Agregado
+            block.mark = true       //
+      return pool
+
+Finalmente, el punto nÃºmero tres puede ser solucionado con el siguiente
+pequeÃ±o cambio::
+
+   funciones new_pool(number_of_pages = 1) is
+      pool = alloc(pool.sizeof)
+      if pool is null
+         return null
+      pool.number_of_pages = number_of_pages
+      pool.pages = alloc(number_of_pages * PAGE_SIZE)
+      if pool.pages is null
+         free(pool)
+         return null
+      heap.add(pool)
+      foreach page in pool
+         page.block_size = FREE
+         foreach block in page      // Agregado
+            block.mark = true       //
+      return pool
+
+La soluciÃ³n es conservativa porque, por un lado evita la liberaciÃ³n de *pools*
+mientras haya una recolecciÃ³n en curso (lo que puede hacer que el consumo de
+memoria sea un poco mayor al requerido) y por otro asegura que, como se
+mencionÃ³ anteriormente, los cambios hechos al grafo de conectividad luego de
+iniciar la fase de marcado y antes de que Ã©sta termine, no serÃ¡n detectados
+por el recolector hasta la prÃ³xima recolecciÃ³n (marcar todos los bloques de
+un nuevo *pool* como el bit ``mark`` asegura que que la memoria no sea
+recolectada por la fase de barrido cuando termine el marcado).
+
+Estas modificaciones son las que hacen que el algoritmo siga siendo correcto,
+asegurando que no se van a liberar celdas *vivas* (a expensas de diferir la
+liberaciÃ³n de algunas celdas *muertas* por algÃºn tiempo).
+
+
+.. _sol_early_collect:
+
+RecolecciÃ³n temprana (*early collection*)
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Esta mejora, que puede ser controlada a travÃ©s de la opciÃ³n ``early_collect``
+(ver :ref:`sol_config_spec`), consiste en lanzar una recolecciÃ³n preventiva,
+antes de que una peticiÃ³n de memoria falle. El momento en que se lanza la
+recolecciÃ³n es controlado por la opciÃ³n ``min_free`` (ver :ref:`sol_ocup`).
+
+De esta forma tambiÃ©n puede correr de forma realmente concurrente el *mutator*
+y el recolector, al menos hasta que se acabe la memoria, en cuyo caso, a menos
+que la opciÃ³n ``eager_alloc`` (ver :ref:`sol_eager_alloc`) tambiÃ©n estÃ©
+activada, se deberÃ¡ esperar a que la fase de marcado termine para recuperar
+memoria en la fase de barrido.
+
+Para facilitar la comprensiÃ³n de esta mejora se muestran sÃ³lo los cambios
+necesarios si no se utiliza la opciÃ³n ``eager_alloc``::
+
+   function collect(early = false) is  // Modificado
+      if mark_is_running()
+         finished = try_wait(global mark_pid)
+         if finished
+            mark_pid = 0
+            sweep()
+            return                     //
+         else if early                 // Agregado
+            return                     //
+      stop_the_world()
+      fflush(null)
+      child_pid = fork()
+      if child_pid is 0 // proceso hijo
+         mark_phase()
+         exit(0)
+      // proceso padre
+      start_the_world()
+      if early                         //
+         global mark_pid = child_pid   //
+      else                             // Agregado
+         wait(child_pid)               //
+         sweep()                       //
+
+   // Agregado
+   function early_collect() is
+      if not collect_in_progress() and (percent_free < min_free)
+         collect(true)
+
+   function new(size, attrs) is
+      block_size = find_block_size(size)
+      if block_size < PAGE
+         block = new_small(block_size)
+      else
+         block = new_big(size)
+      if block is null
+         throw out_of_memory
+      if final in attrs
+         block.final = true
+      if noscan in attrs
+         block.noscan = true
+      early_collect()               // Agregado
+      return cast(void*) block
+
+Es de esperarse que cuando no estÃ¡ activa la opciÃ³n ``eager_alloc`` por un
+lado el tiempo de pausa mÃ¡ximo no sea tan chico como cuando sÃ­ lo estÃ¡ (dado
+que si la recolecciÃ³n no se lanza de forma suficientemente temprana se va
+a tener que esperar que la fase de marcado termine), y por otro que se hagan
+mÃ¡s recolecciones de lo necesario (cuando pasa lo contrario, se recolecta mÃ¡s
+temprano de lo que se deberÃ­a). Sin embargo, tambiÃ©n es de esperarse que el
+consumo de memoria sea un poco menor que al usar la opciÃ³n ``eager_alloc``.
+
+En cuanto a la correcciÃ³n del algoritmo, Ã©ste solamente presenta los problemas
+nÃºmero 1 y 2 mencionados en :ref:`sol_eager_alloc`, dado que jamÃ¡s se crean
+nuevos *pools* y la soluciÃ³n es la ya presentada, por lo tanto el algoritmo
+sigue siendo correcto con los cuidados pertinentes.
 
 
 
 Resultados
 ----------------------------------------------------------------------------
 
-TODO
+Los resultados de las modificaciÃ³n propuestas en la secciÃ³n anterior (ver
+:ref:`sol_mod`) se evalÃºan utilizando el conjunto de pruebas mencionado en la
+secciÃ³n :ref:`sol_bench`).
+
+En esta secciÃ³n se describe la forma en la que el conjunto de pruebas es
+utilizado, la forma en la que se ejecutan los programas para recolectar dichos
+resultados y las mÃ©tricas principales utilizadas para analizarlos.
+
+A fines prÃ¡cticos, y haciendo alusiÃ³n al nombre utilizado por Tango_, en esta
+secciÃ³n se utiliza el nombre **TBGC** (acrÃ³nimo para el nombre en inglÃ©s
+*Tango Basic Garbage Collector*) para hacer referencia al recolector original
+provisto por Tango_ 0.99.9 (que, recordamos, es el punto de partida de este
+trabajo). Por otro lado, y destacando la principal modificaciÃ³n propuesta por
+este trabajo, haremos referencia al recolector resultante de Ã©ste utilizando
+el nombre **CDGC** (acrÃ³nimo para el nombre en inglÃ©s *Concurrent D Garbage
+Collector*).
+
+
+EjecuciÃ³n del conjunto de pruebas
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+Dado el indeterminismo inherente a los sistemas operativos de tiempo
+compartido modernos, se hace un particular esfuerzo por obtener resultados lo
+mÃ¡s estable posible.
+
+Hardware y software utilizado
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Para realizar las pruebas se utiliza el siguiente hardware:
+
+* Procesador Intel(R) Core(TM)2 Quad CPU Q8400 @ 2.66GHz.
+* 2GiB de memoria RAM.
+
+El entorno de software es el siguiente:
+
+* Sistema operativo Debian_ Sid (para arquitectura *amd64*).
+* Linux_ 2.6.35.7.
+* DMD_ 1.063 modificado para proveer informaciÃ³n de tipos al recolector (ver
+  :ref:`sol_precise`).
+* *Runtime* Tango_ 0.99.9 modificado para utilizar la informaciÃ³n de tipos
+  provista por el compilador modificado.
+* GCC_ 4.4.5.
+* Embedded GNU_ C Library 2.11.2.
+
+Si bien el sistema operativo utiliza arquitectura *amd64*, dado que DMD_
+todavÃ­a no soporta 64 bits, se compila y corren los programas de D_ en 32
+bits.
+
+Opciones del compilador
+^^^^^^^^^^^^^^^^^^^^^^^
+Los programas del conjunto de pruebas se compilan utilizando las siguientes
+opciones del compilador DMD_:
+
+``-O``
+   Aplica optimizaciones generales.
+
+``-inline``
+   Aplica la optimizaciÃ³n de expansiÃ³n de funciones. Consiste en sustituir la
+   llamada a funciÃ³n por el cuerpo de la funciÃ³n (en general solo para
+   funciones pequeÃ±as).
+
+``-release``
+   No genera el cÃ³digo para verificar pre y post-condiciones, invariantes de
+   representaciÃ³n, operaciones fuera de los lÃ­mites de un arreglo y
+   *assert*\ 's en general (ver :ref:`d_dbc`).
+
+ParÃ¡metros de los programas
+^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Los programas de prueba se ejecutan siempre con los mismos parÃ¡metros (a menos
+que se especifique lo contrario), que se detallan a continuaciÃ³n.
+
+.. highlight:: none
+
+``conalloc``
+   ``40 4 bible.txt``
+
+   Procesa 40 veces un archivo de texto plano (de 4MiB de tamaÃ±o) [#solbible]_
+   utilizando 4 hilos (mÃ¡s el principal).
+
+``concpu``
+   ``40 4 bible.txt``
+
+   Procesa 40 veces un archivo de texto plano (de 4MiB de tamaÃ±o) [#solbible]_
+   utilizando 4 hilos (mÃ¡s el principal).
+
+``split``
+   ``bible.txt 2``
+
+   Procesa dos veces un archivo de texto plano (de 4MiB de tamaÃ±o)
+   [#solbible]_.
+
+``sbtree``
+   ``16``
+
+   Construyen Ã¡rboles con profundidad mÃ¡xima 16.
+
+``bh``
+   ``-b 4000``
+
+   Computa las interacciones gravitatorias entre 4.000 cuerpos.
+
+``bisort``
+   ``-s 2097151``
+
+   Ordena alrededor de 2 millones de nÃºmeros (exactamente :math:`2^21
+   = 2097151`).
+
+``em3d``
+   ``-n 4000 -d 300 -i 74``
+
+   Realiza 74 iteraciones para modelar 4.000 nodos con grado 300.
+
+``tsp``
+   ``-c 1000000``
+
+   Resuelve el problema del viajante a travÃ©s de una heurÃ­stica para un
+   millÃ³n de ciudades.
+
+``voronoi``
+   ``-n 30000``
+
+   Se construye un diagrama con 30.000 nodos.
+
+``dil``
+   ``ddoc $dst_dir -hl --kandil -version=Tango -version=TangoDoc
+   -version=Posix -version=linux $tango_files``
+
+   Genera la documentaciÃ³n de todo el cÃ³digo fuente de Tango_ 0.99.9, donde
+   ``$dst_dir`` es el directorio donde almacenar los archivos generados
+   y ``$tango_files`` es la lista de archivos fuente de Tango_.
+
+El resto de los programas se ejecutan sin parÃ¡metros (ver :ref:`sol_bench`
+para una descripciÃ³n detallada sobre cada uno).
+
+.. [#solbible] El archivo contiene la Biblia completa, la versiÃ³n traducida al
+   inglÃ©s autorizada por el Rey Jaime o Jacobo (*Authorized King James
+   Version* en inglÃ©s). Obtenida de: http://download.o-bible.com:8080/kjv.gz
+
+Recolectores y configuraciones utilizadas
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+En general se presentan resultados para TBGC y varias configuraciones de CDGC,
+de manera de poder tener una mejor nociÃ³n de que mejoras y problemas puede
+introducir cada una de las modificaciones mÃ¡s importantes.
+
+CDGC se utiliza con siguientes configuraciones:
+
+.. highlight:: none
+
+cons
+   En modo conservativo. EspecÃ­ficamente, utilizando el juego de opciones::
+
+      conservative=1:fork=0:early_collect=0:eager_alloc=0
+
+prec
+   En modo preciso (ver :ref:`sol_precise`). EspecÃ­ficamente, utilizando el
+   juego de opciones::
+
+      conservative=0:fork=0:early_collect=0:eager_alloc=0
+
+fork
+   En modo preciso activando el marcado concurrente (ver :ref:`sol_fork`).
+   EspecÃ­ficamente, utilizando el juego de opciones::
+
+      conservative=0:fork=1:early_collect=0:eager_alloc=0
+
+ecol
+   En modo preciso activando el marcado concurrente con recolecciÃ³n temprana
+   (ver :ref:`sol_early_collect`).  EspecÃ­ficamente, utilizando el juego de
+   opciones::
+
+      conservative=0:fork=1:early_collect=1:eager_alloc=0
+
+eall
+   En modo preciso activando el marcado concurrente con creaciÃ³n ansiosa de
+   *pools* (ver :ref:`sol_eager_alloc`).  EspecÃ­ficamente, utilizando el juego
+   de opciones::
+
+      conservative=0:fork=1:early_collect=0:eager_alloc=1
+
+todo
+   En modo preciso activando el marcado concurrente con recolecciÃ³n temprana
+   y creaciÃ³n ansiosa de *pools*.  EspecÃ­ficamente, utilizando el juego de
+   opciones::
+
+      conservative=0:fork=1:early_collect=1:eager_alloc=1
+
+MÃ©tricas utilizadas
+^^^^^^^^^^^^^^^^^^^
+Para analizar los resultados se utilizan varias mÃ©tricas. Las mÃ¡s importantes
+son:
+
+* Tiempo total de ejecuciÃ³n.
+* Tiempo mÃ¡ximo de *stop-the-world*.
+* Tiempo mÃ¡ximo de pausa real.
+* Cantidad mÃ¡xima de memoria utilizada.
+* Cantidad total de recolecciones realizadas.
+
+El tiempo total de ejecuciÃ³n es una buena medida del **rendimiento** general
+del recolector, mientras que la cantidad total de recolecciones realizadas
+suele ser una buena medida de su **eficacia** [#soleficacia]_.
+
+Los tiempos mÃ¡ximos de pausa, *stop-the-world* y real, son una buena medida de
+la **latencia** del recolector; el segundo siendo una medida mÃ¡s realista dado
+que es raro que los demÃ¡s hilos no utilicen servicios del recolector mientras
+hay una recolecciÃ³n en curso. Esta medida es particularmente importante para
+programas que necesiten algÃºn nivel de ejecuciÃ³n en *tiempo-real*.
+
+En general el consumo de tiempo y espacio es un compromiso, cuando se consume
+menos tiempo se necesita mÃ¡s espacio y viceversa. La cantidad mÃ¡xima de
+memoria utilizada nos da un parÃ¡metro de esta relaciÃ³n.
+
+.. [#soleficacia] Esto no es necesariamente cierto para recolectores con
+   particiones (ver :ref:`gc_part`) o incrementales (ver :ref:`gc_inc`), dado
+   que en ese caso podrÃ­a realizar muchas recolecciones pero cada una muy
+   velozmente.
+
+MÃ©todologÃ­a de mediciÃ³n
+^^^^^^^^^^^^^^^^^^^^^^^
+Para medir el tiempo total de ejecuciÃ³n se utiliza el comando
+:manpage:`time(1)` con la especificaciÃ³n de formato ``%e``, siendo la mediciÃ³n
+mÃ¡s realista porque incluye el tiempo de carga del ejecutable, inicializaciÃ³n
+del *runtime* de D_ y del recolector.
+
+Todas las demÃ¡s mÃ©tricas se obtienen utilizando la salida generada por la
+opciÃ³n ``collect_stats_file`` (ver :ref:`sol_stats`), por lo que no pueden ser
+medidos para TBGC. Sin embargo se espera que para esos casos los resultados no
+sean muy distintos a CDGC utilizando la configuraciÃ³n **cons** (ver secciÃ³n
+anterior).
+
+Cabe destacar que las corridas para medir el tiempo total de ejecuciÃ³n no son
+las mismas que al utilizar la opciÃ³n ``collect_stats_file``; cuando se mide el
+tiempo de ejecuciÃ³n no se utiliza esa opciÃ³n porque impone un trabajo extra
+importante y perturbarÃ­a demasiado la mediciÃ³n del tiempo. Sin embargo, los
+tiempos medidos internamente al utilizar la opciÃ³n ``collect_stats_file`` son
+muy precisos, dado que se hace un particular esfuerzo para que no se haga un
+trabajo extra mientras se estÃ¡ midiendo el tiempo.
+
+Al obtener el tiempo de *stop-the-world* se ignoran los apariciones del valor
+``-1``, que indica que se solicitÃ³ una recolecciÃ³n pero que ya habÃ­a otra en
+curso, por lo que no se pausan los hilos realmente. Como tiempo de pausa real
+(ver :ref:`sol_fork` para mÃ¡s detalles sobre la diferencia con el tiempo de
+*stop-the-world*) se toma el valor del tiempo que llevÃ³ la asignaciÃ³n de
+memoria que disparÃ³ la recolecciÃ³n.
+
+Para medir la cantidad de memoria mÃ¡xima se calcula el valor mÃ¡ximo de la
+sumatoria de: memoria usada, memoria libre, memoria desperdiciada y memoria
+usada por el mismo recolector (es decir, el total de memoria pedida por el
+programa al sistema operativo, aunque no toda este siendo utilizada por el
+*mutator* realmente).
+
+Por Ãºltimo, la cantidad total de recolecciones realizadas se calcula contando
+la cantidad de entradas del archivo generado por ``collect_stats_file``,
+ignorando la cabecera y las filas cuyo valor de tiempo de *stop-the-world* es
+``-1``, debido a que en ese caso no se disparÃ³ realmente una recolecciÃ³n dado
+que ya habÃ­a una en curso.
+
+AdemÃ¡s, ciertas pruebas se corren variando la cantidad de procesadores
+utilizados, para medir el impacto de la concurrencia en ambientes con un
+procesador solo y con mÃºltiples procesadores. Para esto se utiliza el comando
+:manpage:`taskset`, que establece la *afinidad* de un proceso, *atÃ¡ndolo*
+a correr en un cierto conjunto de procesadores. Si bien las pruebas se
+realizan utilizando 1, 2, 3 y 4 procesadores, los resultados presentados en
+general se limitan a 1 y 4 procesadores, ya que no se observan diferencias
+sustanciales al utilizar 2 o 3 procesadores con respecto a usar 4 (solamente
+se ven de forma mÃ¡s atenuadas las diferencias entre la utilizaciÃ³n de
+1 o 4 procesadores). Dado que de por sÃ­ ya son muchos los datos a procesar
+y analizar, agregar mÃ¡s resultados que no aportan informaciÃ³n valiosa termina
+resultando contraproducente.
+
+En los casos donde se utilizan otro tipo de mÃ©tricas para evaluar aspectos
+particulares sobre alguna modificaciÃ³n se describe como se realiza la mediciÃ³n
+donde se utiliza la mÃ©trica especial.
+
+Variabilidad de los resultados entre ejecuciones
+^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
+Es de esperarse que haya una cierta variaciÃ³n en los resultados entre
+corridas, dada la indeterminaciÃ³n inherente a los sistemas operativos de
+tiempo compartido, que compiten por los recursos de la computadora.
+
+Para minimizar esta variaciÃ³n se utilizan varias herramientas. En primer
+lugar, se corren las pruebas estableciendo mÃ¡xima prioridad (-19 en Linux_) al
+proceso utilizando el comando :manpage:`nice(1)`. La variaciÃ³n en la
+frecuencia del reloj los procesadores (para ahorrar energÃ­a) puede ser otra
+fuente de variaciÃ³n, por lo que se usa el comando :manpage:`cpufreq-set(1)`
+para establecer la mÃ¡xima frecuencia disponible de manera fija.
+
+Sin embargo, a pesar de tomar estas precauciones, se sigue observando una
+amplia variabilidad entre corridas. AdemÃ¡s se observa una variaciÃ³n mÃ¡s
+importante de la esperada no solo en el tiempo, tambiÃ©n en el consumo de
+memoria, lo que es mÃ¡s extraÃ±o. Esta variaciÃ³n se debe principalmente a que
+Linux_ asigna el espacio de direcciones a los procesos con una componente
+azarosa (por razones de seguridad). AdemÃ¡s, por omisiÃ³n, la llamada al sistema
+:manpage:`mmap(2)` asigna direcciones de memoria altas primero, entregando
+direcciones mÃ¡s bajas en llamadas subsiguientes [LWN90311]_.
+
+El comando :manpage:`setarch(8)` sirve para controlar Ã©ste y otros aspectos de
+Linux_. La opciÃ³n ``-L`` hace que se utilice un esquema de asignaciÃ³n de
+direcciones antiguo, que no tiene una componente aleatoria y asigna primero
+direcciones bajas. La opciÃ³n ``-R`` solamente desactiva la componente azarosa
+al momento de asignar direcciones.
+
+.. ftable:: t:sol-setarch
+
+   VariaciÃ³n entre corridas para TBGC.
+
+   VariaciÃ³n entre corridas para TBGC. La mediciÃ³n estÃ¡ efectuada utilizando
+   los valores mÃ¡ximo, mÃ­nimo y media estadÃ­stica de 20 corridas, utilizando
+   la siguiente mÃ©trica: :math:`\frac{max - min}{\mu}`. La medida podrÃ­a
+   realizarse utilizando el desvÃ­o estÃ¡ndar en vez de la amplitud mÃ¡xima, pero
+   en este cuadro se quiere ilustrar la variaciÃ³n mÃ¡xima, no la tÃ­pica.
+
+   .. subtable::
+
+      Del tiempo total de ejecuciÃ³n.
+
+      ======== ======== ======== ========
+      Programa Normal   ``-R``   ``-L``
+      ======== ======== ======== ========
+      bh       0.185    0.004    0.020
+      bigarr   0.012    0.002    0.016
+      bisort   0.006    0.003    0.006
+      conalloc 0.004    0.004    0.004
+      concpu   0.272    0.291    0.256
+      dil      0.198    0.128    0.199
+      em3d     0.006    0.033    0.029
+      mcore    0.009    0.009    0.014
+      rnddata  0.015    0.002    0.011
+      sbtree   0.012    0.002    0.012
+      split    0.025    0.000    0.004
+      tsp      0.071    0.068    0.703
+      voronoi  0.886    0.003    0.006
+      ======== ======== ======== ========
+
+   .. subtable::
+
+      Del consumo mÃ¡ximo de memoria.
+
+      ======== ======== ======== ========
+      Programa Normal   ``-R``   ``-L``
+      ======== ======== ======== ========
+      bh       0.001    0.000    0.001
+      bigarr   0.001    0.000    0.001
+      bisort   0.000    0.000    0.000
+      conalloc 0.753    0.000    0.001
+      concpu   0.002    0.000    0.001
+      dil      0.055    0.028    0.013
+      em3d     0.000    0.001    0.001
+      mcore    0.447    0.482    0.460
+      rnddata  0.000    0.000    0.000
+      sbtree   0.000    0.000    0.000
+      split    0.000    0.000    0.000
+      tsp      0.000    0.001    0.000
+      voronoi  0.001    0.000    0.000
+      ======== ======== ======== ========
+
+Ambas opciones, reducen notablemente la variaciÃ³n en los resultados (ver
+cuadro :vref:`t:sol-setarch`). Esto probablemente se debe a la naturaleza
+conservativa del recolector, dado que la probabilidad de tener *falsos
+punteros* depende directamente de los valores de las direcciones de memoria,
+aunque las pruebas en la que hay concurrencia involucrada, se siguen viendo
+grandes variaciones, que probablemente estÃ©n vinculadas a problemas de
+sincronizaciÃ³n que se ven expuestos gracias al indeterminismo inherente a los
+programas multi-hilo.
+
+Si bien se obtienen resultados mÃ¡s estables utilizando un esquema diferente al
+utilizado por omisiÃ³n, se decide no hacerlo dado que las mediciones serÃ­an
+menos realistas. Los usuarios en general no usan esta opciÃ³n y se presentarÃ­a
+una visiÃ³n mÃ¡s acotada sobre el comportamiento de los programas. Sin embargo,
+para evaluar el este efecto en los resultados, siempre que sea posible se
+analizan los resultados de un gran nÃºmero de corridas observando
+principalmente su mÃ­nima, media, mÃ¡xima y desvÃ­o estÃ¡ndar.
+
+
+
+Resultados para pruebas sintizadas
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+A continuaciÃ³n se presentan los resultados obtenidos para las pruebas
+sintetizadas (ver :ref:`sol_bench_synth`). Se recuerda que este conjunto de
+resultados es Ãºtil para analizar ciertos aspectos puntuales de las
+modificaciones propuestas, pero en general distan mucho de como se comporta un
+programa real, por lo que los resultados deben ser analizados teniendo esto
+presente.
+
+``bigarr``
+^^^^^^^^^^
+.. fig:: fig:sol-bigarr-1cpu
+
+   Resultados para ``bigarr`` (utilizando 1 procesador).
+
+   Resultados para ``bigarr`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-bigarr-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-bigarr-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-bigarr-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-bigarr-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-bigarr-1cpu.pdf
+
+.. fig:: fig:sol-bigarr-4cpu
+
+   Resultados para ``bigarr`` (utilizando 4 procesadores).
+
+   Resultados para ``bigarr`` (utilizando 4 procesadores). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-bigarr-4cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-bigarr-4cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-bigarr-4cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-bigarr-4cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-bigarr-4cpu.pdf
+
+En la figura :vref:`fig:sol-bigarr-1cpu` se pueden observar los resultados
+para ``bigarr`` al utilizar un solo procesador. En ella se puede notar que el
+tiempo total de ejecuciÃ³n en general aumenta al utilizar CDGC, esto es
+esperable, dado esta prueba se limitan a usar servicios del recolector. Dado
+que esta ejecuciÃ³n utiliza solo un procesador y por lo tanto no se puede sacar
+provecho a la concurrencia, es de esperarse que el trabajo extra realizado por
+las modificaciones se vea reflejado en los resultados. En la
+:vref:`fig:sol-bigarr-4cpu` (resultados al utilizar 4 procesadores) se puede
+observar como al usar solamente *eager allocation* se recupera un poco el
+tiempo de ejecuciÃ³n, probablemente debido al incremento en la concurrencia
+(aunque no se observa el mismo efecto al usar *early collection*).
+
+Observando el tiempo total de ejecuciÃ³n, no se esperaba un incremento tan
+notorio al pasar de TBGC a una configuraciÃ³n equivalente de CDGC **cons**,
+haciendo un breve anÃ¡lisis de las posibles causas, lo mÃ¡s probable parece ser
+el incremento en la complejidad de la fase de marcado dada capacidad para
+marcar de forma precisa (aunque no se use la opciÃ³n, se paga el precio de la
+complejidad extra y sin obtener los beneficios).  AdemÃ¡s se puede observar
+como el agregado de precisiÃ³n al marcado mejora un poco las cosas (donde sÃ­ se
+obtiene rÃ©dito de la complejidad extra en el marcado).
+
+En general se observa que al usar *eager allocation* el consumo de memoria
+y los tiempos de pausa se disparan mientras que la cantidad de recolecciones
+disminuye drÃ¡sticamente. Lo que se observa es que el programa es
+mÃ¡s veloz pidiendo memoria que recolectÃ¡ndola, por lo que crece mucho el
+consumo de memoria. Como consecuencia la fase de barrido (que no corre en
+paralelo al *mutator* como la fase de marcado) empieza a ser predominante en
+el tiempo de pausa por ser tan grande la cantidad de memoria a barrer. Este
+efecto se ve tanto al usar 1 como 4 procesadores, aunque el efecto es mucho
+mÃ¡s nocivo al usar 1 debido a la alta variabilidad que impone la competencia
+entre el *mutator* y recolector al correr de forma concurrente.
+
+Sin embargo, el tiempo de *stop-the-world* es siempre considerablemente mÃ¡s
+pequeÃ±o al utilizar marcado concurrente en CDGC, incluso cuando se utiliza
+*eager allocation*, aunque en este caso aumenta un poco, tambiÃ©n debido al
+incremento en el consumo de memoria, ya que el sistema operativo tiene que
+copiar tablas de memoria mÃ¡s grandes al efectuar el *fork* (ver
+:ref:`sol_fork`).
+
+``concpu``
+^^^^^^^^^^
+.. fig:: fig:sol-concpu-1cpu
+
+   Resultados para ``concpu`` (utilizando 1 procesador).
+
+   Resultados para ``concpu`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-concpu-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-concpu-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-concpu-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-concpu-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-concpu-1cpu.pdf
+
+.. fig:: fig:sol-concpu-4cpu
+
+   Resultados para ``concpu`` (utilizando 4 procesadores).
+
+   Resultados para ``concpu`` (utilizando 4 procesadores). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-concpu-4cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-concpu-4cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-concpu-4cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-concpu-4cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-concpu-4cpu.pdf
+
+En la figura :vref:`fig:sol-concpu-1cpu` se pueden observar los resultados
+para ``concpu`` al utilizar un solo procesador. En ella se aprecia que el
+tiempo total de ejecuciÃ³n disminuye levemente al usar marcado concurrente
+mientras no se utilice *eager allocation* pero aumenta al utilizarlo.
+
+Con respecto a la cantidad de recolecciones, uso mÃ¡ximo de memoria y tiempo de
+*stop-the-world* se ve un efecto similar al descripto para ``bigarr`` (aunque
+magnificado), pero sorprendentemente el tiempo total de pausa se dispara,
+ademÃ¡s con una variabilidad sorprendente, cuando se usa marcado concurrente
+(pero no *eager allocation*). Una posible explicaciÃ³n podrÃ­a ser que al
+realizarse el *fork*, el sistema operativo muy probablemente entregue el
+control del Ãºnico procesador disponible al resto de los hilos que compiten por
+Ã©l, por lo que queda mucho tiempo pausado en esa operaciÃ³n aunque realmente no
+estÃ© haciendo trabajo alguno (simplemente no tiene tiempo de procesador para
+correr). Este efecto se cancela al usar *eager allocation* dado que el
+*mutator* nunca se bloquea esperando que el proceso de marcado finalice.
+
+AdemÃ¡s se observa una caÃ­da importante en la cantidad de recolecciones al
+utilizar marcado concurrente. Esto probablemente se deba a que solo un hilo
+pide memoria (y por lo tanto dispara recolecciones), mientras los demÃ¡s hilos
+tambiÃ©n estÃ©n corriendo. Al pausarse todos los hilos por menos tiempo, el
+trabajo se hace mÃ¡s rÃ¡pido (lo que explica la disminuciÃ³n del tiempo total de
+ejecuciÃ³n) y son necesarias menos recolecciones, por terminar mÃ¡s rÃ¡pido
+tambiÃ©n el hilo que las dispara.
+
+En la :vref:`fig:sol-concpu-4cpu` se pueden ver los resultados al utilizar
+4 procesadores, donde el panorama cambia sustancialmente. El efecto mencionado
+en el pÃ¡rrafo anterior no se observa mÃ¡s (pues el sistema operativo tiene mÃ¡s
+procesadores para asignar a los hilos) pero todos los resultados se vuelven
+mÃ¡s variables. Los tiempos de *stop-the-world* y pausa real (salvo por lo
+reciÃ©n mencionado) crecen notablemente, al igual que su variaciÃ³n. No se
+encuentra una razÃ³n evidente para esto; podrÃ­a ser un error en la mediciÃ³n
+dado que al utilizar todos los procesadores disponibles del *hardware*,
+cualquier otro proceso que compita por tiempo de procesador puede afectarla
+mÃ¡s fÃ¡cilmente.
+
+El tiempo total de ejecuciÃ³n crece considerablemente, como se espera, dado que
+el programa aprovecha los mÃºltiples hilos que pueden correr en paralelo en
+procesadores diferentes.
+
+Sin embargo, no se encuentra una razÃ³n clara para explicar el crecimiento
+dramÃ¡tico en la cantidad de recolecciones solo al no usar marcado concurrente
+para 4 procesadores.
+
+``conalloc``
+^^^^^^^^^^^^
+.. fig:: fig:sol-conalloc-1cpu
+
+   Resultados para ``conalloc`` (utilizando 1 procesador).
+
+   Resultados para ``conalloc`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-conalloc-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-conalloc-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-conalloc-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-conalloc-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-conalloc-1cpu.pdf
+
+.. fig:: fig:sol-conalloc-4cpu
+
+   Resultados para ``conalloc`` (utilizando 4 procesadores).
+
+   Resultados para ``conalloc`` (utilizando 4 procesadores). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-conalloc-4cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-conalloc-4cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-conalloc-4cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-conalloc-4cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-conalloc-4cpu.pdf
+
+En la figura :vref:`fig:sol-conalloc-1cpu` se pueden observar los resultados
+para ``conalloc`` al utilizar un solo procesador. Los cambios con respecto
+a lo observado para ``concpu`` son mÃ­nimos. El efecto de la mejorÃ­a al usar
+marcado concurrente pero no *eager allocation* no se observa mÃ¡s, dado que
+``conalloc`` pide memoria en todos los hilos, se crea un cuello de botella. Se
+ve claramente como tampoco baja la cantidad de recolecciones hecha debido
+a esto y se invierte la variabilidad entre los tiempos pico de pausa real
+y *stop-the-world* (sin una razÃ³n obvia, pero probablemente relacionado que
+todos los hilos piden memoria).
+
+Al utilizar 4 procesadores (figura :vref:`fig:sol-conalloc-4cpu`), mÃ¡s allÃ¡ de
+las diferencias mencionadas para 1 procesador, no se observan grandes cambios
+con respecto a lo observado para ``concpu``, excepto que los tiempos de pausa
+(real y *stop-the-world*) son notablemente mÃ¡s pequeÃ±os, lo que pareciera
+confirmar un error en la mediciÃ³n de ``concpu``.
+
+``split``
+^^^^^^^^^
+.. fig:: fig:sol-split-1cpu
+
+   Resultados para ``split`` (utilizando 1 procesador).
+
+   Resultados para ``split`` (utilizando 1 procesador). Se presenta el mÃ­nimos
+   (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris), y el
+   mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de ejecuciÃ³n)
+   o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-split-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-split-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-split-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-split-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-split-1cpu.pdf
+
+Este es el primer caso donde se aprecia la sustancial mejora proporcionada por
+una pequeÃ±a optimizaciÃ³n, el cachÃ© de ``findSize()`` (ver
+:ref:`sol_minor_findsize`). En la figura :vref:`fig:sol-split-1cpu` se puede
+observar con claridad como, para cualquier configuraciÃ³n de CDGC, hay una
+caÃ­da notable en el tiempo total de ejecuciÃ³n. Sin embargo, a excepciÃ³n de
+cuando se utiliza *eager allocation*, la cantidad de recolecciones y memoria
+usada permanece igual.
+
+La utilizaciÃ³n de *eager allocation* mejora (aunque de forma apenas
+apreciable) el tiempo de ejecuciÃ³n, la cantidad de recolecciones baja a un
+tercio y el tiempo de pausa real cae dramÃ¡ticamente. Al usar marcado
+concurrente ya se observa una caÃ­da determinante en el tiempo de
+*stop-the-world*. Todo esto sin verse afectado el uso mÃ¡ximo de memoria,
+incluso al usar *eager allocation*.
+
+Se omiten los resultados para mÃ¡s de un procesador por ser prÃ¡cticamente
+idÃ©nticos para este anÃ¡lisis.
+
+``mcore``
+^^^^^^^^^
+.. fig:: fig:sol-mcore-1cpu
+
+   Resultados para ``mcore`` (utilizando 1 procesador).
+
+   Resultados para ``mcore`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-mcore-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-mcore-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-mcore-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-mcore-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-mcore-1cpu.pdf
+
+.. fig:: fig:sol-mcore-4cpu
+
+   Resultados para ``mcore`` (utilizando 4 procesadores).
+
+   Resultados para ``mcore`` (utilizando 4 procesadores). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-mcore-4cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-mcore-4cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-mcore-4cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-mcore-4cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-mcore-4cpu.pdf
+
+El caso de ``mcore`` es interesante por ser, funcionalmente, una combinaciÃ³n
+entre ``concpu`` y ``split``, con un agregado extra: el incremento notable de
+la competencia por utilizar el recolector entre los mÃºltiples hilos.
+
+Los efectos observados (en la figura :vref:`fig:sol-mcore-1cpu` para
+1 procesador y en la figura :vref:`fig:sol-mcore-4cpu` para 4) confirman esto,
+al ser una suma de los efectos observados para ``concpu`` y ``split``, con el
+agregado de una particularidad extra por la mencionada competencia entre
+hilos. A diferencia de ``concpu`` donde el incremento de procesadores resulta
+en un decremento en el tiempo total de ejecuciÃ³n, en este caso resulta en una
+disminuciÃ³n, dado que se necesita mucha sincronizaciÃ³n entre hilos, por
+utilizar todos de forma intensiva los servicios del recolector (y por lo tanto
+competir por su *lock* global).
+
+Otro efecto comÃºn observado es que cuando el tiempo de pausa es muy pequeÃ±o
+(del orden de los milisegundos), el marcado concurrente suele incrementarlo en
+vez de disminuirlo.
+
+``rnddata``
+^^^^^^^^^^^
+.. fig:: fig:sol-rnddata-1cpu
+
+   Resultados para ``rnddata`` (utilizando 1 procesador).
+
+   Resultados para ``rnddata`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-rnddata-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-rnddata-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-rnddata-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-rnddata-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-rnddata-1cpu.pdf
+
+En la figura :vref:`fig:sol-rnddata-1cpu` se presentan los resultados para
+``rnddata`` utilizando 1 procesador. Una vez mÃ¡s estamos ante un caso en el
+cual se observa claramente la mejorÃ­a gracias a una modificaciÃ³n en particular
+principalmente. En esta caso es el marcado preciso. Se puede ver claramente
+como mejora el tiempo de total de ejecuciÃ³n a algo mÃ¡s que la mitad (en
+promedio, aunque se observa una anomalÃ­a donde el tiempo baja hasta mÃ¡s de
+3 veces). Sin embargo, a menos que se utilice *eager allocation* o *early
+collection* (que en este caso prueba ser muy efectivo), la cantidad de
+recolecciones aumenta considerablemente.
+
+La explicaciÃ³n puede ser hallada en el consumo de memoria, que baja unas
+3 veces en promedio usando marcado preciso que ademÃ¡s hace disminuir
+drÃ¡sticamente (unas 10 veces) el tiempo de pausa (real y *stop-the-world*). El
+tiempo de *stop-the-world* disminuye unas 10 veces mÃ¡s al usar marcado
+concurrente y el tiempo de pausa real al usar *eager allocation*, pero en este
+caso el consumo de memoria aumenta tambiÃ©n bastante (aunque no tanto como
+disminuye el tiempo de pausa, por lo que puede ser un precio que valga la pena
+pagar si se necesitan tiempos de pausa muy pequeÃ±os).
+
+El aumento en el variaciÃ³n de los tiempos de ejecuciÃ³n al usar marcado preciso
+probablemente se debe a lo siguiente: con marcado conservativo, debe estar
+sobreviviendo a las recolecciones el total de memoria pedida por el programa,
+debido a falsos punteros (por eso no se observa prÃ¡cticamente variaciÃ³n en el
+tiempo de ejecuciÃ³n y memoria mÃ¡xima consumida); al marcar con precisiÃ³n
+parcial, se logra disminuir mucho la cantidad de falsos punteros, pero el
+*stack* y la memoria estÃ¡tica, se sigue marcado de forma conservativa, por lo
+tanto dependiendo de los valores (aleatorios) generados por la prueba, aumenta
+o disminuye la cantidad de falsos punteros, variando asÃ­ la cantidad de
+memoria consumida y el tiempo de ejecuciÃ³n.
+
+No se muestran los resultados para mÃ¡s de un procesador por ser demasiado
+similares a los obtenidos utilizando solo uno.
+
+``sbtree``
+^^^^^^^^^^
+Los resultados para ``sbtree`` son tan similares a los obtenidos con
+``bigarr`` que directamente se omiten por completo, dado que no aportan ningÃºn
+tipo de informaciÃ³n nueva. Por un lado es esperable, dado que ambas pruebas se
+limitan prÃ¡cticamente a pedir memoria, la Ãºnica diferencia es que una pide
+objetos grandes y otra objetos pequeÃ±os, pero esta diferencia parece no
+afectar la forma en la que se comportan los cambios introducidos en este
+trabajo.
+
+
+Resultados para pruebas pequeÃ±as
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+A continuaciÃ³n se presentan los resultados obtenidos para las pruebas pequeÃ±as
+(ver :ref:`sol_bench_small`). Se recuerda que si bien este conjunto de pruebas
+se compone de programas reales, que efectÃºan una tarea Ãºtil, estÃ¡n diseÃ±ados
+para ejercitar la asignaciÃ³n de memoria y que no son recomendados para evaluar
+el desempeÃ±o de recolectores de basura. Sin embargo se las utiliza igual por
+falta de programas mÃ¡s realistas, por lo que hay que tomarlas como un grado de
+suspicacia.
+
+``bh``
+^^^^^^
+.. fig:: fig:sol-bh-1cpu
+
+   Resultados para ``bh`` (utilizando 1 procesador).
+
+   Resultados para ``bh`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-bh-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-bh-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-bh-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-bh-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-bh-1cpu.pdf
+
+En la figura :vref:`fig:sol-bh-1cpu` se pueden observar los resultados
+para ``bh`` al utilizar un solo procesador. Ya en una prueba un poco mÃ¡s
+realista se puede observar el efecto positivo del marcado preciso, en especial
+en la cantidad de recolecciones efectuadas (aunque no se traduzca en un menor
+consumo de memoria).
+
+Sin embargo se observa tambiÃ©n un efecto nocivo del marcado preciso en el
+consumo de memoria que intuitivamente deberÃ­a disminuir, pero crece, y de
+forma considerable (unas 3 veces en promedio). La razÃ³n de esta particularidad
+es el incremento en el espacio necesario para almacenar objetos debido a que
+el puntero a la informaciÃ³n del tipo se guarda al final del bloque (ver
+:ref:`sol_precise`). En el cuadro :vref:`t:sol-prec-mem-bh` se puede observar
+la cantidad de memoria pedida por el programa, la cantidad de memoria
+realmente asignada por el recolector (y la memoria desperdiciada) cuando se
+usa marcado conservativo y preciso. Estos valores fueron tomados usando la
+opciÃ³n ``malloc_stats_file`` (ver :ref:`sol_stats`).
+
+.. ftable:: t:sol-prec-mem-bh
+
+   Memoria pedida y asignada para ``bh`` segÃºn modo de marcado.
+
+   Memoria pedida y asignada para ``bh`` segÃºn modo de marcado conservativo
+   o preciso (acumulativo durante toda la vida del programa).
+
+   ============== ============== ============== =================
+   Memoria        Pedida (MiB)   Asignada (MiB) Desperdicio (MiB)
+   ============== ============== ============== =================
+   Conservativo   302.54         354.56         52.02 (15%)
+   Preciso        302.54         472.26         169.72 (36%)
+   ============== ============== ============== =================
+
+MÃ¡s allÃ¡ de esto, los resultados son muy similares a los obtenidos para
+pruebas sintetizadas que se limitan a ejercitar el recolector (como ``bigarr``
+y ``sbtree``), lo que habla de lo mucho que tambiÃ©n lo hace este pequeÃ±o
+programa.
+
+No se muestran los resultados para mÃ¡s de un procesador por ser extremadamente
+similares a los obtenidos utilizando solo uno.
+
+``bisort``
+^^^^^^^^^^
+.. fig:: fig:sol-bisort-1cpu
+
+   Resultados para ``bisort`` (utilizando 1 procesador).
+
+   Resultados para ``bisort`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-bisort-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-bisort-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-bisort-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-bisort-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-bisort-1cpu.pdf
+
+La figura :vref:`fig:sol-bisort-1cpu` muestra los resultados para ``bisort``
+al utilizar 1 procesador. En este caso el parecido es con los resultados para
+la prueba sintetizada ``split``, con la diferencia que el tiempo de ejecuciÃ³n
+total prÃ¡cticamente no varÃ­a entre TBGC y CDGC, ni entre las diferentes
+configuraciones del Ãºltimo (evidentemente en este caso no se aprovecha el
+cachÃ© de ``findSize()``).
+
+Otra diferencia notable es la considerable reducciÃ³n del tiempo de pausa real
+al utilizar *early collection* (mÃ¡s de 3 veces menor en promedio comparado
+a cuando se marca conservativamente, y mÃ¡s de 2 veces menor que cuando se hace
+de forma precisa), lo que indica que la predicciÃ³n de cuando se va a necesitar
+una recolecciÃ³n es mÃ¡s efectiva que para ``split``.
+
+No se muestran los resultados para mÃ¡s de un procesador por ser extremadamente
+similares a los obtenidos utilizando solo uno.
+
+``em3d``
+^^^^^^^^
+.. fig:: fig:sol-em3d-1cpu
+
+   Resultados para ``em3d`` (utilizando 1 procesador).
+
+   Resultados para ``em3d`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-em3d-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-em3d-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-em3d-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-em3d-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-em3d-1cpu.pdf
+
+Los resultados para ``em3d`` (figura :vref:`fig:sol-em3d-1cpu`) son
+sorprendentemente similares a los de ``bisort``. La Ãºnica diferencia es que en
+este caso el marcado preciso y el uso de *early collection** no parecen
+ayudar; por el contrario, aumentan levemente el tiempo de pausa real.
+
+Una vez mÃ¡s no se muestran los resultados para mÃ¡s de un procesador por ser
+extremadamente similares a los obtenidos utilizando solo uno.
+
+``tsp``
+^^^^^^^^
+.. fig:: fig:sol-tsp-1cpu
+
+   Resultados para ``tsp`` (utilizando 1 procesador).
+
+   Resultados para ``tsp`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-tsp-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-tsp-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-tsp-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-tsp-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-tsp-1cpu.pdf
+
+Los resultados para ``tsp`` (figura :vref:`fig:sol-tsp-1cpu`) son
+prÃ¡cticamente idÃ©nticos a los de ``bisort``. La Ãºnica diferencia es que la
+reducciÃ³n del tiempo de pausa real es un poco menor.
+
+Esto confirma en cierta medida la poca utilidad de este juego de pruebas para
+medir el rendimiento de un recolector, dado que evidentemente, si bien todas
+resuelven problemas diferentes, realizan todas el mismo tipo de trabajo.
+
+Una vez mÃ¡s no se muestran los resultados para mÃ¡s de un procesador por ser
+extremadamente similares a los obtenidos utilizando solo uno.
+
+``voronoi``
+^^^^^^^^^^^
+.. fig:: fig:sol-voronoi-1cpu
+
+   Resultados para ``voronoi`` (utilizando 1 procesador).
+
+   Resultados para ``voronoi`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-voronoi-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-voronoi-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-voronoi-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-voronoi-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-voronoi-1cpu.pdf
+
+.. fig:: fig:sol-voronoi-4cpu
+
+   Resultados para ``voronoi`` (utilizando 4 procesadores).
+
+   Resultados para ``voronoi`` (utilizando 4 procesadores). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-voronoi-4cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-voronoi-4cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-voronoi-4cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-voronoi-4cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-voronoi-4cpu.pdf
+
+En la figura :vref:`fig:sol-voronoi-1cpu` se presentan los resultados para
+``voronoi``, probablemente la prueba mÃ¡s interesante de este conjunto de
+pruebas pequeÃ±as.
+
+Por un lado se puede observar una vez mÃ¡s como baja dramÃ¡ticamente el tiempo
+total de ejecuciÃ³n cuando se empieza a utilizar CDGC. Ya se ha visto que esto
+es comÃºn en programas que se benefician del cachÃ© de ``findSize()``, pero en
+este caso no parece provenir toda la ganancia solo de ese cambio, dado que
+para TBGC se ve una variaciÃ³n entre los resultados muy grande que desaparece
+al cambiar a CDGC, esto no puede ser explicado por esa optimizaciÃ³n. En
+general la disminuciÃ³n de la variaciÃ³n de los resultados hemos visto que estÃ¡
+asociada al incremento en la precisiÃ³n en el marcado, dado que los falsos
+punteros ponen una cuota de aleatoriedad importante. Pero este tampoco parece
+ser el caso, ya que no se observan cambios apreciables al pasar a usar marcado
+preciso.
+
+Lo que se observa en esta oportunidad es un caso patolÃ³gico de un mal factor
+de ocupaciÃ³n del *heap* (ver :ref:`sol_ocup`). Lo que muy probablemente estÃ¡
+sucediendo con TBGC es que luego de ejecutar una recolecciÃ³n, se libera muy
+poco espacio, entonces luego de un par de asignaciones, es necesaria una nueva
+recolecciÃ³n. En este caso es donde dificulta la tarea de analizar los
+resultados la falta de mÃ©tricas para TBGC, dado que no se pueden observar la
+cantidad de recolecciones ni de consumo mÃ¡ximo de memoria. Sin embargo es
+fÃ¡cil corroborar esta teorÃ­a experimentalmente, gracias a la opciÃ³n
+``min_free``. Utilizando la ``min_free=0`` para emular el comportamiento de
+TBGC (se recuerda que el valor por omisiÃ³n es ``min_free=5``), se obtiene una
+media de 4 segundos, mucho mÃ¡s parecida a lo obtenido para TBGC.
+
+Otra particularidad de esta prueba es que al utilizar *early collection* el
+tiempo de pausa real aumenta notablemente al usar un procesador, mientras que
+al usar 4 (ver figura :vref:`fig:sol-voronoi-4cpu` disminuye levemente (ademÃ¡s
+de otros cambios en el nivel de variaciÃ³n, pero en general las medias no
+cambian).
+
+
+Resultados para pruebas reales
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+A continuaciÃ³n se presentan los resultados obtenidos para las pruebas reales
+(ver :ref:`sol_bench_real`). Recordamos que solo se pudo halla un programa que
+pueda ser utilizado a este fin, Dil_, y que el objetivo principal de este
+trabajo se centra alrededor de obtener resultados positivos para este
+programa, por lo que a pesar de ser una Ãºnica prueba, se le presta particular
+atenciÃ³n.
+
+``dil``
+^^^^^^^
+.. fig:: fig:sol-dil-1cpu
+
+   Resultados para ``dil`` (utilizando 1 procesador).
+
+   Resultados para ``dil`` (utilizando 1 procesador). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-dil-1cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-dil-1cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-dil-1cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-dil-1cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-dil-1cpu.pdf
+
+.. fig:: fig:sol-dil-4cpu
+
+   Resultados para ``dil`` (utilizando 4 procesadores).
+
+   Resultados para ``dil`` (utilizando 4 procesadores). Se presenta el
+   mÃ­nimos (en negro), la media centrada entre dos desvÃ­os estÃ¡ndar (en gris),
+   y el mÃ¡ximo (en blanco) calculados sobre 50 corridas (para tiempo de
+   ejecuciÃ³n) o 20 corridas (para el resto).
+
+   .. subfig::
+
+      Tiempo de ejecuciÃ³n (seg)
+
+      .. image:: plots/time-dil-4cpu.pdf
+
+   .. subfig::
+
+      Cantidad de recolecciones
+
+      .. image:: plots/ncol-dil-4cpu.pdf
+
+   .. subfig::
+
+      Uso mÃ¡ximo de memoria (MiB)
+
+      .. image:: plots/mem-dil-4cpu.pdf
+
+   .. subfig::
+
+      *Stop-the-world* mÃ¡ximo (seg)
+
+      .. image:: plots/stw-dil-4cpu.pdf
+
+   .. subfig::
+
+      Pausa real mÃ¡xima (seg)
+
+      .. image:: plots/pause-dil-4cpu.pdf
+
+En la figura :vref:`fig:sol-dil-1cpu` se presentan los resultados para
+``dil`` al utilizar un procesador. Una vez mÃ¡s vemos una mejorÃ­a inmediata del
+tiempo total de ejecuciÃ³n al pasar de TBGC a CDGC, y una vez mÃ¡s se debe
+principalmente al mal factor de ocupaciÃ³n del *heap* de TBGC, dado que
+utilizando CDGC con la opciÃ³n ``min_free=0`` se obtiene una media del orden de
+los 80 segundos, bastante mÃ¡s alta que el tiempo obtenido para TBGC.
+
+Sin embargo se observa un pequeÃ±o incremento del tiempo de ejecuciÃ³n al
+introducir marcado preciso, y un incremento bastante mÃ¡s importante (de
+alrededor del 30%) en el consumo mÃ¡ximo de memoria. Nuevamente, como pasa con
+la prueba ``bh``, el efecto es probablemente producto del incremento en el
+espacio necesario para almacenar objetos debido a que el puntero a la
+informaciÃ³n del tipo se guarda al final del bloque (ver :ref:`sol_precise`).
+En el cuadro :vref:`t:sol-prec-mem-dil` se puede observar la diferencia de
+memoria desperdiciada entre el modo conservativo y preciso.
+
+El pequeÃ±o incremento en el tiempo total de ejecuciÃ³n podrÃ­a estar dado por la
+mayor probabilidad de tener *falsos punteros* debido al incremento del tamaÃ±o
+del *heap*; se recuerda que el *stack* y memoria estÃ¡tica se siguen marcado de
+forma conservativa, incluso en modo preciso.
+
+.. ftable:: t:sol-prec-mem-dil
+
+   Memoria pedida y asignada para ``dil`` segÃºn modo de marcado.
+
+   Memoria pedida y asignada para ``dil`` segÃºn modo de marcado conservativo
+   o preciso (acumulativo durante toda la vida del programa).
+
+   ============== ============== ============== =================
+   Memoria        Pedida (MiB)   Asignada (MiB) Desperdicio (MiB)
+   ============== ============== ============== =================
+   Conservativo   307.48         399.94         92.46 (23%)
+   Preciso        307.48         460.24         152.76 (33%)
+   ============== ============== ============== =================
+
+TambiÃ©n se puede observar una gran disminuciÃ³n del tiempo total de ejecuciÃ³n
+(cerca de un 60%, y mÃ¡s de un 200% comparado con TBGC) alrededor de la mitad)
+al empezar a usar *eager allocation*, acompaÃ±ado como es usual de una baja en
+la cantidad de recolecciones realizadas (esta vez mayor, de mÃ¡s de 3 veces)
+y de una caÃ­da drÃ¡stica del tiempo de pausa real (alrededor de 40 veces mÃ¡s
+pequeÃ±o); todo esto con un incremento marginal en el consumo total de memoria
+(aproximadamente un 5%). En este caso el uso de *early collection* apenas
+ayuda a bajar el tiempo de pausa real en un 20% en promedio aproximadamente.
+El tiempo de *stop-the-world* cae dramÃ¡ticamente al empezar a realizar la fase
+de marcado de manera concurrente; es 200 veces mÃ¡s pequeÃ±o.
+
+Al utilizar 4 procesadores (ver figura :vref:`fig:sol-dil-4cpu`), hay algunos
+pequeÃ±os cambios. El tiempo total de ejecuciÃ³n es reducido todavÃ­a mÃ¡s (un 20%
+que cuando se usa 1 procesador) cuando se utiliza *eager allocation*. AdemÃ¡s
+al utilizar *early collection*, hay otra pequeÃ±a ganancia de alrededor del
+10%, tanto para el tiempo total de ejecuciÃ³n como para el tiempo de pausa
+real.
+
+
+.. _sol_accept:
+
+AceptaciÃ³n
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
+Los avances de este trabajo fueron comunicados regularmente a la comunidad de
+D_ a travÃ©s de un blog [LMTDGC]_ y del grupo de noticias de D_. Los
+comentarios hechos sobre el primero son en general positivos y denotan una
+buena recepciÃ³n por parte de la comunidad a las modificaciones propuestas.
+
+Una vez agregado el marcado concurrente se hace un anuncio en el grupo de
+noticias que tambiÃ©n muestra buenos comentarios y aceptaciÃ³n, en particular
+por parte de Sean Kelly, encargado de mantener el *runtime* de `D 2.0`_, que
+comienza a trabajar en adaptar el recolector con idea de tal vez incluirlo en
+el futuro [NGA19235]_. Poco despuÃ©s Sean Kelly publica una versiÃ³n preliminar
+de la adaptaciÃ³n en la lista de correos que coordina el desarrollo del
+*runtime* de `D 2.0`_ [DRT117]_.
+
+TambiÃ©n se ha mostrado interÃ©s de incluirlo en Tango_, aunque no se han ha
+comenzado aÃºn con la adaptaciÃ³n, pero deberÃ­a ser trivial dado que este
+trabajo se desarrolla usando Tango_ (y el recolector estÃ¡ basado en el de
+Tango_) [TT1997]_.
 
 
 .. include:: links.rst