X-Git-Url: https://git.llucax.com/z.facultad/75.00/informe.git/blobdiff_plain/93304243d72347314f0d9c402a0632ab50550016..6c0df59:/source/solucion.rst?ds=inline

diff --git a/source/solucion.rst b/source/solucion.rst
index fe9086b..979d7fe 100644
--- a/source/solucion.rst
+++ b/source/solucion.rst
@@ -38,6 +38,8 @@ se intenta abordar los demÃ¡s problemas planteados siempre que sea posible
 hacerlo sin alejarse demasiado del objetivo principal.
 
 
+.. highlight:: d
+
 .. _sol_bench:
 
 Banco de pruebas
@@ -141,8 +143,8 @@ El cÃ³digo fuente del programa es el siguiente::
             indi[] = testPop1.individuals ~ testPop2.individuals;
          }
          version (everythingOk) {
-            indi[0..N1] = testPop1.individuals;
-            indi[N1..N2] = testPop2.individuals;
+            indi[0 .. N1] = testPop1.individuals;
+            indi[N1 .. N2] = testPop2.individuals;
          }
       }
       return 0;
@@ -562,6 +564,8 @@ ser Ãºtiles para encontrar problemas muy particulares, estÃ¡ es la que da una
 lectura mÃ¡s cercana a la realidad del uso de un recolector.
 
 
+.. highlight:: pcode
+
 .. _sol_mod:
 
 Modificaciones propuestas
@@ -883,7 +887,7 @@ Probablemente el caso mÃ¡s significativo, y por tanto el Ãºnico que vale la pena
 mencionar, es la conversiÃ³n de marcado iterativo a marcado recursivo y luego
 a un esquema hÃ­brido. Como se describe en :ref:`dgc_bad`, el marcado iterativo
 tiene sus ventajas, pero tiene desventajas tambiÃ©n. Al convertirlo a puramente
-recursivo, se impracticable por resultar en errores de desbordamiento de pila.
+recursivo, es impracticable por resultar en errores de desbordamiento de pila.
 
 Por lo tanto se prueba con un esquema hÃ­brido, poniendo un lÃ­mite a la
 recursividad, volviendo al algoritmo iterativo cuando se alcanza este lÃ­mite.
@@ -1133,7 +1137,9 @@ a continuaciÃ³n.
 
 Los conjuntos de bits guardan la informaciÃ³n sobre la primera palabra en el
 bit menos significativo. Dada la complejidad de la representaciÃ³n, se ilustra
-con un ejemplo. Dada la estructura::
+con un ejemplo. Dada la estructura:
+
+.. code-block:: d
 
    union U {
       ubyte ub;
@@ -1581,7 +1587,7 @@ empezar la fase de marcado no sean barridas por tener ese bit activo::
             pages = assign_pages(pool, number_of_pages)
       pages[0].block.free = true                         // Agregado
       pages[0].block_size = PAGE
-      foreach page in pages[1..end]
+      foreach page in pages[1 .. end]
          page.block_size = CONTINUATION
       return pages[0]
 
@@ -1906,8 +1912,6 @@ que se especifique lo contrario), que se detallan a continuaciÃ³n.
    ``$dst_dir`` es el directorio donde almacenar los archivos generados
    y ``$tango_files`` es la lista de archivos fuente de Tango_.
 
-.. highlight:: d
-
 El resto de los programas se ejecutan sin parÃ¡metros (ver :ref:`sol_bench`
 para una descripciÃ³n detallada sobre cada uno).
 
@@ -1963,8 +1967,6 @@ todo
 
       conservative=0:fork=1:early_collect=1:eager_alloc=1
 
-.. highlight:: d
-
 MÃ©tricas utilizadas
 ^^^^^^^^^^^^^^^^^^^
 Para analizar los resultados se utilizan varias mÃ©tricas. Las mÃ¡s importantes
@@ -2163,8 +2165,6 @@ modificaciones propuestas, pero en general distan mucho de como se comporta un
 programa real, por lo que los resultados deben ser analizados teniendo esto
 presente.
 
-``bigarr``
-^^^^^^^^^^
 .. fig:: fig:sol-bigarr-1cpu
 
    Resultados para ``bigarr`` (utilizando 1 procesador).
@@ -2243,47 +2243,6 @@ presente.
 
       .. image:: plots/pause-bigarr-4cpu.pdf
 
-En la figura :vref:`fig:sol-bigarr-1cpu` se pueden observar los resultados
-para ``bigarr`` al utilizar un solo procesador. En ella se puede notar que el
-tiempo total de ejecuciÃ³n en general aumenta al utilizar CDGC, esto es
-esperable, dado esta prueba se limitan a usar servicios del recolector. Dado
-que esta ejecuciÃ³n utiliza solo un procesador y por lo tanto no se puede sacar
-provecho a la concurrencia, es de esperarse que el trabajo extra realizado por
-las modificaciones se vea reflejado en los resultados. En la
-:vref:`fig:sol-bigarr-4cpu` (resultados al utilizar 4 procesadores) se puede
-observar como al usar solamente *eager allocation* se recupera un poco el
-tiempo de ejecuciÃ³n, probablemente debido al incremento en la concurrencia
-(aunque no se observa el mismo efecto al usar *early collection*).
-
-Observando el tiempo total de ejecuciÃ³n, no se esperaba un incremento tan
-notorio al pasar de TBGC a una configuraciÃ³n equivalente de CDGC **cons**,
-haciendo un breve anÃ¡lisis de las posibles causas, lo mÃ¡s probable parece ser
-el incremento en la complejidad de la fase de marcado dada capacidad para
-marcar de forma precisa (aunque no se use la opciÃ³n, se paga el precio de la
-complejidad extra y sin obtener los beneficios).  AdemÃ¡s se puede observar
-como el agregado de precisiÃ³n al marcado mejora un poco las cosas (donde sÃ­ se
-obtiene rÃ©dito de la complejidad extra en el marcado).
-
-En general se observa que al usar *eager allocation* el consumo de memoria
-y los tiempos de pausa se disparan mientras que la cantidad de recolecciones
-disminuye drÃ¡sticamente. Lo que se observa es que el programa es
-mÃ¡s veloz pidiendo memoria que recolectÃ¡ndola, por lo que crece mucho el
-consumo de memoria. Como consecuencia la fase de barrido (que no corre en
-paralelo al *mutator* como la fase de marcado) empieza a ser predominante en
-el tiempo de pausa por ser tan grande la cantidad de memoria a barrer. Este
-efecto se ve tanto al usar 1 como 4 procesadores, aunque el efecto es mucho
-mÃ¡s nocivo al usar 1 debido a la alta variabilidad que impone la competencia
-entre el *mutator* y recolector al correr de forma concurrente.
-
-Sin embargo, el tiempo de *stop-the-world* es siempre considerablemente mÃ¡s
-pequeÃ±o al utilizar marcado concurrente en CDGC, incluso cuando se utiliza
-*eager allocation*, aunque en este caso aumenta un poco, tambiÃ©n debido al
-incremento en el consumo de memoria, ya que el sistema operativo tiene que
-copiar tablas de memoria mÃ¡s grandes al efectuar el *fork* (ver
-:ref:`sol_fork`).
-
-``concpu``
-^^^^^^^^^^
 .. fig:: fig:sol-concpu-1cpu
 
    Resultados para ``concpu`` (utilizando 1 procesador).
@@ -2362,52 +2321,6 @@ copiar tablas de memoria mÃ¡s grandes al efectuar el *fork* (ver
 
       .. image:: plots/pause-concpu-4cpu.pdf
 
-En la figura :vref:`fig:sol-concpu-1cpu` se pueden observar los resultados
-para ``concpu`` al utilizar un solo procesador. En ella se aprecia que el
-tiempo total de ejecuciÃ³n disminuye levemente al usar marcado concurrente
-mientras no se utilice *eager allocation* pero aumenta al utilizarlo.
-
-Con respecto a la cantidad de recolecciones, uso mÃ¡ximo de memoria y tiempo de
-*stop-the-world* se ve un efecto similar al descripto para ``bigarr`` (aunque
-magnificado), pero sorprendentemente el tiempo total de pausa se dispara,
-ademÃ¡s con una variabilidad sorprendente, cuando se usa marcado concurrente
-(pero no *eager allocation*). Una posible explicaciÃ³n podrÃ­a ser que al
-realizarse el *fork*, el sistema operativo muy probablemente entregue el
-control del Ãºnico procesador disponible al resto de los hilos que compiten por
-Ã©l, por lo que queda mucho tiempo pausado en esa operaciÃ³n aunque realmente no
-estÃ© haciendo trabajo alguno (simplemente no tiene tiempo de procesador para
-correr). Este efecto se cancela al usar *eager allocation* dado que el
-*mutator* nunca se bloquea esperando que el proceso de marcado finalice.
-
-AdemÃ¡s se observa una caÃ­da importante en la cantidad de recolecciones al
-utilizar marcado concurrente. Esto probablemente se deba a que solo un hilo
-pide memoria (y por lo tanto dispara recolecciones), mientras los demÃ¡s hilos
-tambiÃ©n estÃ©n corriendo. Al pausarse todos los hilos por menos tiempo, el
-trabajo se hace mÃ¡s rÃ¡pido (lo que explica la disminuciÃ³n del tiempo total de
-ejecuciÃ³n) y son necesarias menos recolecciones, por terminar mÃ¡s rÃ¡pido
-tambiÃ©n el hilo que las dispara.
-
-En la :vref:`fig:sol-concpu-4cpu` se pueden ver los resultados al utilizar
-4 procesadores, donde el panorama cambia sustancialmente. El efecto mencionado
-en el pÃ¡rrafo anterior no se observa mÃ¡s (pues el sistema operativo tiene mÃ¡s
-procesadores para asignar a los hilos) pero todos los resultados se vuelven
-mÃ¡s variables. Los tiempos de *stop-the-world* y pausa real (salvo por lo
-reciÃ©n mencionado) crecen notablemente, al igual que su variaciÃ³n. No se
-encuentra una razÃ³n evidente para esto; podrÃ­a ser un error en la mediciÃ³n
-dado que al utilizar todos los procesadores disponibles del *hardware*,
-cualquier otro proceso que compita por tiempo de procesador puede afectarla
-mÃ¡s fÃ¡cilmente.
-
-El tiempo total de ejecuciÃ³n crece considerablemente, como se espera, dado que
-el programa aprovecha los mÃºltiples hilos que pueden correr en paralelo en
-procesadores diferentes.
-
-Sin embargo, no se encuentra una razÃ³n clara para explicar el crecimiento
-dramÃ¡tico en la cantidad de recolecciones solo al no usar marcado concurrente
-para 4 procesadores.
-
-``conalloc``
-^^^^^^^^^^^^
 .. fig:: fig:sol-conalloc-1cpu
 
    Resultados para ``conalloc`` (utilizando 1 procesador).
@@ -2486,24 +2399,6 @@ para 4 procesadores.
 
       .. image:: plots/pause-conalloc-4cpu.pdf
 
-En la figura :vref:`fig:sol-conalloc-1cpu` se pueden observar los resultados
-para ``conalloc`` al utilizar un solo procesador. Los cambios con respecto
-a lo observado para ``concpu`` son mÃ­nimos. El efecto de la mejorÃ­a al usar
-marcado concurrente pero no *eager allocation* no se observa mÃ¡s, dado que
-``conalloc`` pide memoria en todos los hilos, se crea un cuello de botella. Se
-ve claramente como tampoco baja la cantidad de recolecciones hecha debido
-a esto y se invierte la variabilidad entre los tiempos pico de pausa real
-y *stop-the-world* (sin una razÃ³n obvia, pero probablemente relacionado que
-todos los hilos piden memoria).
-
-Al utilizar 4 procesadores (figura :vref:`fig:sol-conalloc-4cpu`), mÃ¡s allÃ¡ de
-las diferencias mencionadas para 1 procesador, no se observan grandes cambios
-con respecto a lo observado para ``concpu``, excepto que los tiempos de pausa
-(real y *stop-the-world*) son notablemente mÃ¡s pequeÃ±os, lo que pareciera
-confirmar un error en la mediciÃ³n de ``concpu``.
-
-``split``
-^^^^^^^^^
 .. fig:: fig:sol-split-1cpu
 
    Resultados para ``split`` (utilizando 1 procesador).
@@ -2543,26 +2438,6 @@ confirmar un error en la mediciÃ³n de ``concpu``.
 
       .. image:: plots/pause-split-1cpu.pdf
 
-Este es el primer caso donde se aprecia la sustancial mejora proporcionada por
-una pequeÃ±a optimizaciÃ³n, el cachÃ© de ``findSize()`` (ver
-:ref:`sol_minor_findsize`). En la figura :vref:`fig:sol-split-1cpu` se puede
-observar con claridad como, para cualquier configuraciÃ³n de CDGC, hay una
-caÃ­da notable en el tiempo total de ejecuciÃ³n. Sin embargo, a excepciÃ³n de
-cuando se utiliza *eager allocation*, la cantidad de recolecciones y memoria
-usada permanece igual.
-
-La utilizaciÃ³n de *eager allocation* mejora (aunque de forma apenas
-apreciable) el tiempo de ejecuciÃ³n, la cantidad de recolecciones baja a un
-tercio y el tiempo de pausa real cae dramÃ¡ticamente. Al usar marcado
-concurrente ya se observa una caÃ­da determinante en el tiempo de
-*stop-the-world*. Todo esto sin verse afectado el uso mÃ¡ximo de memoria,
-incluso al usar *eager allocation*.
-
-Se omiten los resultados para mÃ¡s de un procesador por ser prÃ¡cticamente
-idÃ©nticos para este anÃ¡lisis.
-
-``mcore``
-^^^^^^^^^
 .. fig:: fig:sol-mcore-1cpu
 
    Resultados para ``mcore`` (utilizando 1 procesador).
@@ -2641,26 +2516,6 @@ idÃ©nticos para este anÃ¡lisis.
 
       .. image:: plots/pause-mcore-4cpu.pdf
 
-El caso de ``mcore`` es interesante por ser, funcionalmente, una combinaciÃ³n
-entre ``concpu`` y ``split``, con un agregado extra: el incremento notable de
-la competencia por utilizar el recolector entre los mÃºltiples hilos.
-
-Los efectos observados (en la figura :vref:`fig:sol-mcore-1cpu` para
-1 procesador y en la figura :vref:`fig:sol-mcore-4cpu` para 4) confirman esto,
-al ser una suma de los efectos observados para ``concpu`` y ``split``, con el
-agregado de una particularidad extra por la mencionada competencia entre
-hilos. A diferencia de ``concpu`` donde el incremento de procesadores resulta
-en un decremento en el tiempo total de ejecuciÃ³n, en este caso resulta en una
-disminuciÃ³n, dado que se necesita mucha sincronizaciÃ³n entre hilos, por
-utilizar todos de forma intensiva los servicios del recolector (y por lo tanto
-competir por su *lock* global).
-
-Otro efecto comÃºn observado es que cuando el tiempo de pausa es muy pequeÃ±o
-(del orden de los milisegundos), el marcado concurrente suele incrementarlo en
-vez de disminuirlo.
-
-``rnddata``
-^^^^^^^^^^^
 .. fig:: fig:sol-rnddata-1cpu
 
    Resultados para ``rnddata`` (utilizando 1 procesador).
@@ -2700,6 +2555,153 @@ vez de disminuirlo.
 
       .. image:: plots/pause-rnddata-1cpu.pdf
 
+``bigarr``
+^^^^^^^^^^
+En la figura :vref:`fig:sol-bigarr-1cpu` se pueden observar los resultados
+para ``bigarr`` al utilizar un solo procesador. En ella se puede notar que el
+tiempo total de ejecuciÃ³n en general aumenta al utilizar CDGC, esto es
+esperable, dado esta prueba se limitan a usar servicios del recolector. Dado
+que esta ejecuciÃ³n utiliza solo un procesador y por lo tanto no se puede sacar
+provecho a la concurrencia, es de esperarse que el trabajo extra realizado por
+las modificaciones se vea reflejado en los resultados. En la
+:vref:`fig:sol-bigarr-4cpu` (resultados al utilizar 4 procesadores) se puede
+observar como al usar solamente *eager allocation* se recupera un poco el
+tiempo de ejecuciÃ³n, probablemente debido al incremento en la concurrencia
+(aunque no se observa el mismo efecto al usar *early collection*).
+
+Observando el tiempo total de ejecuciÃ³n, no se esperaba un incremento tan
+notorio al pasar de TBGC a una configuraciÃ³n equivalente de CDGC **cons**,
+haciendo un breve anÃ¡lisis de las posibles causas, lo mÃ¡s probable parece ser
+el incremento en la complejidad de la fase de marcado dada capacidad para
+marcar de forma precisa (aunque no se use la opciÃ³n, se paga el precio de la
+complejidad extra y sin obtener los beneficios).  AdemÃ¡s se puede observar
+como el agregado de precisiÃ³n al marcado mejora un poco las cosas (donde sÃ­ se
+obtiene rÃ©dito de la complejidad extra en el marcado).
+
+En general se observa que al usar *eager allocation* el consumo de memoria
+y los tiempos de pausa se disparan mientras que la cantidad de recolecciones
+disminuye drÃ¡sticamente. Lo que se observa es que el programa es
+mÃ¡s veloz pidiendo memoria que recolectÃ¡ndola, por lo que crece mucho el
+consumo de memoria. Como consecuencia la fase de barrido (que no corre en
+paralelo al *mutator* como la fase de marcado) empieza a ser predominante en
+el tiempo de pausa por ser tan grande la cantidad de memoria a barrer. Este
+efecto se ve tanto al usar 1 como 4 procesadores, aunque el efecto es mucho
+mÃ¡s nocivo al usar 1 debido a la alta variabilidad que impone la competencia
+entre el *mutator* y recolector al correr de forma concurrente.
+
+Sin embargo, el tiempo de *stop-the-world* es siempre considerablemente mÃ¡s
+pequeÃ±o al utilizar marcado concurrente en CDGC, incluso cuando se utiliza
+*eager allocation*, aunque en este caso aumenta un poco, tambiÃ©n debido al
+incremento en el consumo de memoria, ya que el sistema operativo tiene que
+copiar tablas de memoria mÃ¡s grandes al efectuar el *fork* (ver
+:ref:`sol_fork`).
+
+``concpu``
+^^^^^^^^^^
+En la figura :vref:`fig:sol-concpu-1cpu` se pueden observar los resultados
+para ``concpu`` al utilizar un solo procesador. En ella se aprecia que el
+tiempo total de ejecuciÃ³n disminuye levemente al usar marcado concurrente
+mientras no se utilice *eager allocation* pero aumenta al utilizarlo.
+
+Con respecto a la cantidad de recolecciones, uso mÃ¡ximo de memoria y tiempo de
+*stop-the-world* se ve un efecto similar al descripto para ``bigarr`` (aunque
+magnificado), pero sorprendentemente el tiempo total de pausa se dispara,
+ademÃ¡s con una variabilidad sorprendente, cuando se usa marcado concurrente
+(pero no *eager allocation*). Una posible explicaciÃ³n podrÃ­a ser que al
+realizarse el *fork*, el sistema operativo muy probablemente entregue el
+control del Ãºnico procesador disponible al resto de los hilos que compiten por
+Ã©l, por lo que queda mucho tiempo pausado en esa operaciÃ³n aunque realmente no
+estÃ© haciendo trabajo alguno (simplemente no tiene tiempo de procesador para
+correr). Este efecto se cancela al usar *eager allocation* dado que el
+*mutator* nunca se bloquea esperando que el proceso de marcado finalice.
+
+AdemÃ¡s se observa una caÃ­da importante en la cantidad de recolecciones al
+utilizar marcado concurrente. Esto probablemente se deba a que solo un hilo
+pide memoria (y por lo tanto dispara recolecciones), mientras los demÃ¡s hilos
+tambiÃ©n estÃ©n corriendo. Al pausarse todos los hilos por menos tiempo, el
+trabajo se hace mÃ¡s rÃ¡pido (lo que explica la disminuciÃ³n del tiempo total de
+ejecuciÃ³n) y son necesarias menos recolecciones, por terminar mÃ¡s rÃ¡pido
+tambiÃ©n el hilo que las dispara.
+
+En la :vref:`fig:sol-concpu-4cpu` se pueden ver los resultados al utilizar
+4 procesadores, donde el panorama cambia sustancialmente. El efecto mencionado
+en el pÃ¡rrafo anterior no se observa mÃ¡s (pues el sistema operativo tiene mÃ¡s
+procesadores para asignar a los hilos) pero todos los resultados se vuelven
+mÃ¡s variables. Los tiempos de *stop-the-world* y pausa real (salvo por lo
+reciÃ©n mencionado) crecen notablemente, al igual que su variaciÃ³n. No se
+encuentra una razÃ³n evidente para esto; podrÃ­a ser un error en la mediciÃ³n
+dado que al utilizar todos los procesadores disponibles del *hardware*,
+cualquier otro proceso que compita por tiempo de procesador puede afectarla
+mÃ¡s fÃ¡cilmente.
+
+El tiempo total de ejecuciÃ³n crece considerablemente, como se espera, dado que
+el programa aprovecha los mÃºltiples hilos que pueden correr en paralelo en
+procesadores diferentes.
+
+Sin embargo, no se encuentra una razÃ³n clara para explicar el crecimiento
+dramÃ¡tico en la cantidad de recolecciones solo al no usar marcado concurrente
+para 4 procesadores.
+
+``conalloc``
+^^^^^^^^^^^^
+En la figura :vref:`fig:sol-conalloc-1cpu` se pueden observar los resultados
+para ``conalloc`` al utilizar un solo procesador. Los cambios con respecto
+a lo observado para ``concpu`` son mÃ­nimos. El efecto de la mejorÃ­a al usar
+marcado concurrente pero no *eager allocation* no se observa mÃ¡s, dado que
+``conalloc`` pide memoria en todos los hilos, se crea un cuello de botella. Se
+ve claramente como tampoco baja la cantidad de recolecciones hecha debido
+a esto y se invierte la variabilidad entre los tiempos pico de pausa real
+y *stop-the-world* (sin una razÃ³n obvia, pero probablemente relacionado que
+todos los hilos piden memoria).
+
+Al utilizar 4 procesadores (figura :vref:`fig:sol-conalloc-4cpu`), mÃ¡s allÃ¡ de
+las diferencias mencionadas para 1 procesador, no se observan grandes cambios
+con respecto a lo observado para ``concpu``, excepto que los tiempos de pausa
+(real y *stop-the-world*) son notablemente mÃ¡s pequeÃ±os, lo que pareciera
+confirmar un error en la mediciÃ³n de ``concpu``.
+
+``split``
+^^^^^^^^^
+Este es el primer caso donde se aprecia la sustancial mejora proporcionada por
+una pequeÃ±a optimizaciÃ³n, el cachÃ© de ``findSize()`` (ver
+:ref:`sol_minor_findsize`). En la figura :vref:`fig:sol-split-1cpu` se puede
+observar con claridad como, para cualquier configuraciÃ³n de CDGC, hay una
+caÃ­da notable en el tiempo total de ejecuciÃ³n. Sin embargo, a excepciÃ³n de
+cuando se utiliza *eager allocation*, la cantidad de recolecciones y memoria
+usada permanece igual.
+
+La utilizaciÃ³n de *eager allocation* mejora (aunque de forma apenas
+apreciable) el tiempo de ejecuciÃ³n, la cantidad de recolecciones baja a un
+tercio y el tiempo de pausa real cae dramÃ¡ticamente. Al usar marcado
+concurrente ya se observa una caÃ­da determinante en el tiempo de
+*stop-the-world*. Todo esto sin verse afectado el uso mÃ¡ximo de memoria,
+incluso al usar *eager allocation*.
+
+Se omiten los resultados para mÃ¡s de un procesador por ser prÃ¡cticamente
+idÃ©nticos para este anÃ¡lisis.
+
+``mcore``
+^^^^^^^^^
+El caso de ``mcore`` es interesante por ser, funcionalmente, una combinaciÃ³n
+entre ``concpu`` y ``split``, con un agregado extra: el incremento notable de
+la competencia por utilizar el recolector entre los mÃºltiples hilos.
+
+Los efectos observados (en la figura :vref:`fig:sol-mcore-1cpu` para
+1 procesador y en la figura :vref:`fig:sol-mcore-4cpu` para 4) confirman esto,
+al ser una suma de los efectos observados para ``concpu`` y ``split``, con el
+agregado de una particularidad extra por la mencionada competencia entre
+hilos. A diferencia de ``concpu`` donde el incremento de procesadores resulta
+en un decremento en el tiempo total de ejecuciÃ³n, en este caso resulta en una
+disminuciÃ³n, dado que se necesita mucha sincronizaciÃ³n entre hilos, por
+utilizar todos de forma intensiva los servicios del recolector (y por lo tanto
+competir por su *lock* global).
+
+Otro efecto comÃºn observado es que cuando el tiempo de pausa es muy pequeÃ±o
+(del orden de los milisegundos), el marcado concurrente suele incrementarlo en
+vez de disminuirlo.
+
+``rnddata``
+^^^^^^^^^^^
 En la figura :vref:`fig:sol-rnddata-1cpu` se presentan los resultados para
 ``rnddata`` utilizando 1 procesador. Una vez mÃ¡s estamos ante un caso en el
 cual se observa claramente la mejorÃ­a gracias a una modificaciÃ³n en particular
@@ -2747,16 +2749,6 @@ trabajo.
 Resultados para pruebas pequeÃ±as
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
-A continuaciÃ³n se presentan los resultados obtenidos para las pruebas pequeÃ±as
-(ver :ref:`sol_bench_small`). Se recuerda que si bien este conjunto de pruebas
-se compone de programas reales, que efectÃºan una tarea Ãºtil, estÃ¡n diseÃ±ados
-para ejercitar la asignaciÃ³n de memoria y que no son recomendados para evaluar
-el desempeÃ±o de recolectores de basura. Sin embargo se las utiliza igual por
-falta de programas mÃ¡s realistas, por lo que hay que tomarlas como un grado de
-suspicacia.
-
-``bh``
-^^^^^^
 .. fig:: fig:sol-bh-1cpu
 
    Resultados para ``bh`` (utilizando 1 procesador).
@@ -2796,23 +2788,16 @@ suspicacia.
 
       .. image:: plots/pause-bh-1cpu.pdf
 
-En la figura :vref:`fig:sol-bh-1cpu` se pueden observar los resultados
-para ``bh`` al utilizar un solo procesador. Ya en una prueba un poco mÃ¡s
-realista se puede observar el efecto positivo del marcado preciso, en especial
-en la cantidad de recolecciones efectuadas (aunque no se traduzca en un menor
-consumo de memoria).
-
-Sin embargo se observa tambiÃ©n un efecto nocivo del marcado preciso en el
-consumo de memoria que intuitivamente deberÃ­a disminuir, pero crece, y de
-forma considerable (unas 3 veces en promedio). La razÃ³n de esta particularidad
-es el incremento en el espacio necesario para almacenar objetos debido a que
-el puntero a la informaciÃ³n del tipo se guarda al final del bloque (ver
-:ref:`sol_precise`). En el cuadro :vref:`t:sol-prec-mem-bh` se puede observar
-la cantidad de memoria pedida por el programa, la cantidad de memoria
-realmente asignada por el recolector (y la memoria desperdiciada) cuando se
-usa marcado conservativo y preciso. Estos valores fueron tomados usando la
-opciÃ³n ``malloc_stats_file`` (ver :ref:`sol_stats`).
+A continuaciÃ³n se presentan los resultados obtenidos para las pruebas pequeÃ±as
+(ver :ref:`sol_bench_small`). Se recuerda que si bien este conjunto de pruebas
+se compone de programas reales, que efectÃºan una tarea Ãºtil, estÃ¡n diseÃ±ados
+para ejercitar la asignaciÃ³n de memoria y que no son recomendados para evaluar
+el desempeÃ±o de recolectores de basura. Sin embargo se las utiliza igual por
+falta de programas mÃ¡s realistas, por lo que hay que tomarlas como un grado de
+suspicacia.
 
+``bh``
+^^^^^^
 .. ftable:: t:sol-prec-mem-bh
 
    Memoria pedida y asignada para ``bh`` segÃºn modo de marcado.
@@ -2827,16 +2812,12 @@ opciÃ³n ``malloc_stats_file`` (ver :ref:`sol_stats`).
    Preciso        302.54         472.26         169.72 (36%)
    ============== ============== ============== =================
 
-MÃ¡s allÃ¡ de esto, los resultados son muy similares a los obtenidos para
-pruebas sintetizadas que se limitan a ejercitar el recolector (como ``bigarr``
-y ``sbtree``), lo que habla de lo mucho que tambiÃ©n lo hace este pequeÃ±o
-programa.
-
-No se muestran los resultados para mÃ¡s de un procesador por ser extremadamente
-similares a los obtenidos utilizando solo uno.
+En la figura :vref:`fig:sol-bh-1cpu` se pueden observar los resultados
+para ``bh`` al utilizar un solo procesador. Ya en una prueba un poco mÃ¡s
+realista se puede observar el efecto positivo del marcado preciso, en especial
+en la cantidad de recolecciones efectuadas (aunque no se traduzca en un menor
+consumo de memoria).
 
-``bisort``
-^^^^^^^^^^
 .. fig:: fig:sol-bisort-1cpu
 
    Resultados para ``bisort`` (utilizando 1 procesador).
@@ -2876,24 +2857,17 @@ similares a los obtenidos utilizando solo uno.
 
       .. image:: plots/pause-bisort-1cpu.pdf
 
-La figura :vref:`fig:sol-bisort-1cpu` muestra los resultados para ``bisort``
-al utilizar 1 procesador. En este caso el parecido es con los resultados para
-la prueba sintetizada ``split``, con la diferencia que el tiempo de ejecuciÃ³n
-total prÃ¡cticamente no varÃ­a entre TBGC y CDGC, ni entre las diferentes
-configuraciones del Ãºltimo (evidentemente en este caso no se aprovecha el
-cachÃ© de ``findSize()``).
-
-Otra diferencia notable es la considerable reducciÃ³n del tiempo de pausa real
-al utilizar *early collection* (mÃ¡s de 3 veces menor en promedio comparado
-a cuando se marca conservativamente, y mÃ¡s de 2 veces menor que cuando se hace
-de forma precisa), lo que indica que la predicciÃ³n de cuando se va a necesitar
-una recolecciÃ³n es mÃ¡s efectiva que para ``split``.
-
-No se muestran los resultados para mÃ¡s de un procesador por ser extremadamente
-similares a los obtenidos utilizando solo uno.
+Sin embargo se observa tambiÃ©n un efecto nocivo del marcado preciso en el
+consumo de memoria que intuitivamente deberÃ­a disminuir, pero crece, y de
+forma considerable (unas 3 veces en promedio). La razÃ³n de esta particularidad
+es el incremento en el espacio necesario para almacenar objetos debido a que
+el puntero a la informaciÃ³n del tipo se guarda al final del bloque (ver
+:ref:`sol_precise`). En el cuadro :vref:`t:sol-prec-mem-bh` se puede observar
+la cantidad de memoria pedida por el programa, la cantidad de memoria
+realmente asignada por el recolector (y la memoria desperdiciada) cuando se
+usa marcado conservativo y preciso. Estos valores fueron tomados usando la
+opciÃ³n ``malloc_stats_file`` (ver :ref:`sol_stats`).
 
-``em3d``
-^^^^^^^^
 .. fig:: fig:sol-em3d-1cpu
 
    Resultados para ``em3d`` (utilizando 1 procesador).
@@ -2933,16 +2907,23 @@ similares a los obtenidos utilizando solo uno.
 
       .. image:: plots/pause-em3d-1cpu.pdf
 
-Los resultados para ``em3d`` (figura :vref:`fig:sol-em3d-1cpu`) son
-sorprendentemente similares a los de ``bisort``. La Ãºnica diferencia es que en
-este caso el marcado preciso y el uso de *early collection** no parecen
-ayudar; por el contrario, aumentan levemente el tiempo de pausa real.
+MÃ¡s allÃ¡ de esto, los resultados son muy similares a los obtenidos para
+pruebas sintetizadas que se limitan a ejercitar el recolector (como ``bigarr``
+y ``sbtree``), lo que habla de lo mucho que tambiÃ©n lo hace este pequeÃ±o
+programa.
 
-Una vez mÃ¡s no se muestran los resultados para mÃ¡s de un procesador por ser
-extremadamente similares a los obtenidos utilizando solo uno.
+No se muestran los resultados para mÃ¡s de un procesador por ser extremadamente
+similares a los obtenidos utilizando solo uno.
+
+``bisort``
+^^^^^^^^^^
+La figura :vref:`fig:sol-bisort-1cpu` muestra los resultados para ``bisort``
+al utilizar 1 procesador. En este caso el parecido es con los resultados para
+la prueba sintetizada ``split``, con la diferencia que el tiempo de ejecuciÃ³n
+total prÃ¡cticamente no varÃ­a entre TBGC y CDGC, ni entre las diferentes
+configuraciones del Ãºltimo (evidentemente en este caso no se aprovecha el
+cachÃ© de ``findSize()``).
 
-``tsp``
-^^^^^^^^
 .. fig:: fig:sol-tsp-1cpu
 
    Resultados para ``tsp`` (utilizando 1 procesador).
@@ -2982,19 +2963,22 @@ extremadamente similares a los obtenidos utilizando solo uno.
 
       .. image:: plots/pause-tsp-1cpu.pdf
 
-Los resultados para ``tsp`` (figura :vref:`fig:sol-tsp-1cpu`) son
-prÃ¡cticamente idÃ©nticos a los de ``bisort``. La Ãºnica diferencia es que la
-reducciÃ³n del tiempo de pausa real es un poco menor.
+Otra diferencia notable es la considerable reducciÃ³n del tiempo de pausa real
+al utilizar *early collection* (mÃ¡s de 3 veces menor en promedio comparado
+a cuando se marca de forma conservativa, y mÃ¡s de 2 veces menor que cuando se
+hace de forma precisa), lo que indica que la predicciÃ³n de cuando se va
+a necesitar una recolecciÃ³n es mÃ¡s efectiva que para ``split``.
 
-Esto confirma en cierta medida la poca utilidad de este juego de pruebas para
-medir el rendimiento de un recolector, dado que evidentemente, si bien todas
-resuelven problemas diferentes, realizan todas el mismo tipo de trabajo.
+No se muestran los resultados para mÃ¡s de un procesador por ser extremadamente
+similares a los obtenidos utilizando solo uno.
 
-Una vez mÃ¡s no se muestran los resultados para mÃ¡s de un procesador por ser
-extremadamente similares a los obtenidos utilizando solo uno.
+``em3d``
+^^^^^^^^
+Los resultados para ``em3d`` (figura :vref:`fig:sol-em3d-1cpu`) son
+sorprendentemente similares a los de ``bisort``. La Ãºnica diferencia es que en
+este caso el marcado preciso y el uso de *early collection** no parecen
+ayudar; por el contrario, aumentan levemente el tiempo de pausa real.
 
-``voronoi``
-^^^^^^^^^^^
 .. fig:: fig:sol-voronoi-1cpu
 
    Resultados para ``voronoi`` (utilizando 1 procesador).
@@ -3073,6 +3057,24 @@ extremadamente similares a los obtenidos utilizando solo uno.
 
       .. image:: plots/pause-voronoi-4cpu.pdf
 
+Una vez mÃ¡s no se muestran los resultados para mÃ¡s de un procesador por ser
+extremadamente similares a los obtenidos utilizando solo uno.
+
+``tsp``
+^^^^^^^^
+Los resultados para ``tsp`` (figura :vref:`fig:sol-tsp-1cpu`) son
+prÃ¡cticamente idÃ©nticos a los de ``bisort``. La Ãºnica diferencia es que la
+reducciÃ³n del tiempo de pausa real es un poco menor.
+
+Esto confirma en cierta medida la poca utilidad de este juego de pruebas para
+medir el rendimiento de un recolector, dado que evidentemente, si bien todas
+resuelven problemas diferentes, realizan todas el mismo tipo de trabajo.
+
+Una vez mÃ¡s no se muestran los resultados para mÃ¡s de un procesador por ser
+extremadamente similares a los obtenidos utilizando solo uno.
+
+``voronoi``
+^^^^^^^^^^^
 En la figura :vref:`fig:sol-voronoi-1cpu` se presentan los resultados para
 ``voronoi``, probablemente la prueba mÃ¡s interesante de este conjunto de
 pruebas pequeÃ±as.
@@ -3107,19 +3109,9 @@ al usar 4 (ver figura :vref:`fig:sol-voronoi-4cpu` disminuye levemente (ademÃ¡s
 de otros cambios en el nivel de variaciÃ³n, pero en general las medias no
 cambian).
 
-
 Resultados para pruebas reales
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
-A continuaciÃ³n se presentan los resultados obtenidos para las pruebas reales
-(ver :ref:`sol_bench_real`). Recordamos que solo se pudo halla un programa que
-pueda ser utilizado a este fin, Dil_, y que el objetivo principal de este
-trabajo se centra alrededor de obtener resultados positivos para este
-programa, por lo que a pesar de ser una Ãºnica prueba, se le presta particular
-atenciÃ³n.
-
-``dil``
-^^^^^^^
 .. fig:: fig:sol-dil-1cpu
 
    Resultados para ``dil`` (utilizando 1 procesador).
@@ -3159,6 +3151,22 @@ atenciÃ³n.
 
       .. image:: plots/pause-dil-1cpu.pdf
 
+A continuaciÃ³n se presentan los resultados obtenidos para las pruebas reales
+(ver :ref:`sol_bench_real`). Recordamos que solo se pudo halla un programa que
+pueda ser utilizado a este fin, Dil_, y que el objetivo principal de este
+trabajo se centra alrededor de obtener resultados positivos para este
+programa, por lo que a pesar de ser una Ãºnica prueba, se le presta particular
+atenciÃ³n.
+
+``dil``
+^^^^^^^
+En la figura :vref:`fig:sol-dil-1cpu` se presentan los resultados para
+``dil`` al utilizar un procesador. Una vez mÃ¡s vemos una mejorÃ­a inmediata del
+tiempo total de ejecuciÃ³n al pasar de TBGC a CDGC, y una vez mÃ¡s se debe
+principalmente al mal factor de ocupaciÃ³n del *heap* de TBGC, dado que
+utilizando CDGC con la opciÃ³n ``min_free=0`` se obtiene una media del orden de
+los 80 segundos, bastante mÃ¡s alta que el tiempo obtenido para TBGC.
+
 .. fig:: fig:sol-dil-4cpu
 
    Resultados para ``dil`` (utilizando 4 procesadores).
@@ -3198,13 +3206,6 @@ atenciÃ³n.
 
       .. image:: plots/pause-dil-4cpu.pdf
 
-En la figura :vref:`fig:sol-dil-1cpu` se presentan los resultados para
-``dil`` al utilizar un procesador. Una vez mÃ¡s vemos una mejorÃ­a inmediata del
-tiempo total de ejecuciÃ³n al pasar de TBGC a CDGC, y una vez mÃ¡s se debe
-principalmente al mal factor de ocupaciÃ³n del *heap* de TBGC, dado que
-utilizando CDGC con la opciÃ³n ``min_free=0`` se obtiene una media del orden de
-los 80 segundos, bastante mÃ¡s alta que el tiempo obtenido para TBGC.
-
 Sin embargo se observa un pequeÃ±o incremento del tiempo de ejecuciÃ³n al
 introducir marcado preciso, y un incremento bastante mÃ¡s importante (de
 alrededor del 30%) en el consumo mÃ¡ximo de memoria. Nuevamente, como pasa con
@@ -3214,11 +3215,6 @@ informaciÃ³n del tipo se guarda al final del bloque (ver :ref:`sol_precise`).
 En el cuadro :vref:`t:sol-prec-mem-dil` se puede observar la diferencia de
 memoria desperdiciada entre el modo conservativo y preciso.
 
-El pequeÃ±o incremento en el tiempo total de ejecuciÃ³n podrÃ­a estar dado por la
-mayor probabilidad de tener *falsos punteros* debido al incremento del tamaÃ±o
-del *heap*; se recuerda que el *stack* y memoria estÃ¡tica se siguen marcado de
-forma conservativa, incluso en modo preciso.
-
 .. ftable:: t:sol-prec-mem-dil
 
    Memoria pedida y asignada para ``dil`` segÃºn modo de marcado.
@@ -3233,6 +3229,11 @@ forma conservativa, incluso en modo preciso.
    Preciso        307.48         460.24         152.76 (33%)
    ============== ============== ============== =================
 
+El pequeÃ±o incremento en el tiempo total de ejecuciÃ³n podrÃ­a estar dado por la
+mayor probabilidad de tener *falsos punteros* debido al incremento del tamaÃ±o
+del *heap*; se recuerda que el *stack* y memoria estÃ¡tica se siguen marcado de
+forma conservativa, incluso en modo preciso.
+
 TambiÃ©n se puede observar una gran disminuciÃ³n del tiempo total de ejecuciÃ³n
 (cerca de un 60%, y mÃ¡s de un 200% comparado con TBGC) alrededor de la mitad)
 al empezar a usar *eager allocation*, acompaÃ±ado como es usual de una baja en