2 .. Acá va lo que decidí hacer en base al análisis anterior y sus razones.
9 ============================================================================
11 Como hemos visto en :ref:`dgc`, la mejora del recolector de basura puede ser
12 abordada desde múltiples flancos, con varias alternativas viables. Por lo
13 tanto, para reducir la cantidad de posibilidades hay que tener en cuenta uno
14 de los principales objetivos de este trabajo: encontrar una solución que tenga
15 una buena probabilidad de ser adoptada por el lenguaje, o alguno de sus
16 compiladores al menos. Para asegurar esto, la solución debe tener un alto
17 grado de aceptación en la comunidad, lo que implica algunos puntos claves:
19 * La eficiencia general de la solución no debe ser notablemente peor, en
20 ningún aspecto, que la implementación actual.
21 * Los cambios no deben ser drásticos.
22 * La solución debe atacar de forma efectiva al menos uno de los problemas
23 principales del recolector actual.
25 Bajo estos requerimientos, se concluye que probablemente el área más fértil
26 para explorar sea la falta de concurrencia por cumplir todos estos puntos:
28 * Si bien hay evidencia en la literatura sobre el incremento del tiempo de
29 ejecución total de ejecución de un programa al usar algoritmos concurrentes,
30 éste no es, en general, muy grande comparativamente.
31 * Existen algoritmos de recolección concurrente que no requieren ningún grado
32 de cooperación por parte del lenguaje o el compilador.
33 * La falta de concurrencia y los largos tiempos de pausa es una de las
34 críticas más frecuentes al recolector actual por parte de la comunidad.
36 A pesar de ser la concurrencia la veta principal a explorar en este trabajo,
37 se intenta abordar los demás problemas planteados siempre que sea posible
38 hacerlo sin alejarse demasiado del objetivo principal.
46 ----------------------------------------------------------------------------
48 Teniendo en cuenta que uno de los objetivos principales es no empeorar la
49 eficiencia general de forma notable, la confección de un banco de pruebas es
50 un aspecto fundamental, para poder comprobar con cada cambio que la eficiencia
51 final no se vea notablemente afectada.
53 La confección de un banco de pruebas no es una tarea trivial, mucho menos para
54 un lenguaje con el nivel de fragmentación que tuvo D_ (que hace que a fines
55 prácticos hayan 3 versiones del lenguaje compitiendo), y cuya masa crítica de
56 usuarios es de aficionados que usualmente abandonan los proyectos, quedando
57 obsoletos rápidamente.
59 Con el objetivo de confeccionar este banco de pruebas, desde el comienzo del
60 trabajo se han recolectado (usando como fuente principalmente el grupo de
61 noticias de D_ [#benchmod]_) programas triviales sintetizados con el único
62 propósito de mostrar problemas con el recolector de basura. Otros programas de
63 este estilo fueron escritos explícitamente para este trabajo.
65 Además se han recolectado [#benchmod]_ algunos pequeños programas portados de
66 otros lenguajes de programación, que si bien son pequeños y tienen como
67 objetivo ejercitar el recolector de basura, son programas reales que resuelven
68 un problema concreto, lo que otorga un juego de pruebas un poco más amplio que
69 los programas triviales.
71 .. [#benchmod] Cabe destacar que en general todos los programas recolectados
72 han sido modificados levemente para ajustarlos mejor a las necesidades del
73 banco de prueba (entre las modificaciones más frecuentes se encuentran la
74 conversión de Phobos_ a Tango_ y la eliminación de mensajes por salida
77 Pero probablemente lo más importante para confeccionar un banco de pruebas
78 verdaderamente útil es disponer de programas reales, que hayan sido diseñados
79 con el único objetivo de hacer su trabajo, sin pensar en como impacta el
80 recolector sobre ellos (ni ellos sobre el recolector). Estos programas proveen
81 las pruebas más realistas y amplias. Desgraciadamente no hay muchos programas
82 reales escritos en D_ disponibles públicamente, y no se encontró en la
83 comunidad tampoco una muestra de voluntad por compartir programas privados
84 para usar como banco de pruebas en este trabajo.
86 Por lo tanto el banco de pruebas que se conformó como una mezcla de estas tres
93 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
95 Este es el juego de programas triviales, escritos con el único objetivo de
96 ejercitar un área particular y acotada del recolector.
101 Su objetivo es ejercitar la manipulación de arreglos de tamaño considerable
102 que almacenan objetos de tamaño pequeño o mediano. Esta prueba fue hallada__
103 en el grupo de noticias de D_ y escrita por Babele Dunnit y aunque
104 originalmente fue concebido para mostrar un problema con la concatenación de
105 arreglos (como se aprecia en la sentencia ``version(loseMemory)``), ejercita
106 los aspectos más utilizados del del recolector: manipulación de arreglos
107 y petición e memoria. Es una de las pruebas que más estresa al recolector ya
108 que todo el trabajo que realiza el programa es utilizar servicios de éste.
110 El código fuente del programa es el siguiente::
118 Individual[20] children;
125 foreach (inout individual; individuals)
126 individual = new Individual;
128 Individual[N1] individuals;
131 version = loseMemory;
133 int main(char[][] args)
136 Population testPop1 = new Population;
137 Population testPop2 = new Population;
139 for (int i = 0; i < IT; i++) {
142 version (loseMemory) {
143 indi[] = testPop1.individuals ~ testPop2.individuals;
145 version (everythingOk) {
146 indi[0 .. N1] = testPop1.individuals;
147 indi[N1 .. N2] = testPop2.individuals;
153 __ http://www.digitalmars.com/webnews/newsgroups.php?art_group=digitalmars.D&article_id=54084
156 ``concpu`` y ``conalloc``
157 ^^^^^^^^^^^^^^^^^^^^^^^^^
158 Estos dos programas fueron escritos especialmente para este trabajo con el fin
159 de ejercitar la interacción entre el recolector y un *mutator* con varios
160 hilos. La única diferencia entre ellos es que ``concpu`` lanza hilos que hacen
161 trabajar de forma intensiva el procesador pero que no utilizan servicios del
162 recolector, salvo en el hilo principal, mientras que ``conalloc`` utiliza
163 servicios del recolector en todos los hilos lanzados.
165 El objetivo de estos programas es medir el impacto de las pausas del
166 recolector. Se espera medir dos tipos de pausa principales, por un lado el
167 tiempo máximo de pausa real, que puede involucrar a más de un hilo y por otro
168 el tiempo de *stop-the-world*, es decir, el tiempo en que los hilos son
169 efectivamente pausados por el recolector para tomar una *foto* de la pila
170 y registros para agregarlos al *root set*.
172 Se espera ``concpu`` sea capaz de explotar cualquier reducción en el tiempo de
173 *stop-the-world*, ya que los hilos solo son interrumpidos por este tipo de
174 pausa. Por otro lado, se espera que ``conalloc`` sea afectado por el tiempo
175 máximo de pausa, que podrían sufrir los hilos incluso cuando el *mundo* sigue
176 su marcha, debido al *lock* global del recolector y que los hilos usan
179 El código de ``concpu`` es el siguiente::
181 import tango.core.Thread: Thread;
182 import tango.core.Atomic: Atomic;
183 import tango.io.device.File: File;
184 import tango.util.digest.Sha512: Sha512;
185 import tango.util.Convert: to;
190 Atomic!(int) running;
192 void main(char[][] args)
194 auto fname = args[0];
198 NT = to!(int)(args[2]);
200 N = to!(int)(args[1]);
203 BYTES = cast(ubyte[]) File.get(fname);
204 auto threads = new Thread[NT];
205 foreach(ref thread; threads) {
206 thread = new Thread(&doSha);
209 while (running.load()) {
210 auto a = new void[](BYTES.length / 4);
211 a[] = cast(void[]) BYTES[];
214 foreach(thread; threads)
220 auto sha = new Sha512;
221 for (size_t i = 0; i < N; i++)
226 El código de ``conalloc`` es igual excepto por la función ``doSha()``, que es
227 de la siguiente manera::
231 for (size_t i = 0; i < N; i++) {
232 auto sha = new Sha512;
241 Escrito por David Schima y también hallado__ en el grupo de noticias de D_,
242 este programa pretende mostrar como afecta el *lock* global del recolector
243 en ambientes *multi-core*, incluso cuando a simple vista parecen no utilizarse
244 servicios del recolector::
246 import tango.core.Thread;
250 enum { nThreads = 4 };
251 auto threads = new Thread[nThreads];
252 foreach (ref thread; threads) {
253 thread = new Thread(&doAppending);
256 foreach (thread; threads)
263 for (size_t i = 0; i < 1_000_000; i++)
267 __ http://www.digitalmars.com/webnews/newsgroups.php?art_group=digitalmars.D&article_id=103563
269 El secreto está en que la concatenación de arreglos utiliza por detrás
270 servicios del recolector, por lo tanto un programa multi-hilo en el cual los
271 hilos (aparentemente) no comparten ningún estado, se puede ver
272 considerablemente afectado por el recolector (siendo este efecto más visible
273 en ambientes *multi-core* por el nivel de sincronización extra que significa
274 a nivel de *hardware*). Cabe destacar que, sin embargo, en Linux_ no es tan
280 Este programa trivial lee un archivo de texto y genera un arreglo de cadenas
281 de texto resultantes de partir el texto en palabras. Fue escrito por Leonardo
282 Maffi y también hallado__ en el grupo de noticias de D_. Su objetivo era
283 mostrar lo ineficiente que puede ser concatenar datos a un mismo arreglo
284 repetidas veces y ha desembocado en una pequeña optimización que sirvió para
285 paliar el problema de forma razonablemente efectiva [PAN09]_.
287 El código es el siguiente::
289 import tango.io.device.File: File;
290 import tango.text.Util: delimit;
291 import tango.util.Convert: to;
293 int main(char[][] args) {
296 auto txt = cast(byte[]) File.get(args[1]);
297 auto n = (args.length > 2) ? to!(uint)(args[2]) : 1;
302 auto words = delimit!(byte)(txt, cast(byte[]) " \t\n\r");
303 return !words.length;
306 __ http://www.digitalmars.com/webnews/newsgroups.php?art_group=digitalmars.D&article_id=67673
311 Este programa fue escrito por Oskar Linde y nuevamente hallado__ en el grupo
312 de noticias. Fue construido para mostrar como el hecho de que el recolector
313 sea conservativo puede hacer que al leer datos binarios hayan muchos *falsos
314 punteros* que mantengan vivas celdas que en realidad ya no deberían ser
315 accesibles desde el *root set* del grafo de conectividad.
317 __ http://www.digitalmars.com/webnews/newsgroups.php?art_group=digitalmars.D&article_id=46407
319 El código del programa es el siguiente::
321 import tango.math.random.Random;
323 const IT = 125; // number of iterations, each creates an object
324 const BYTES = 1_000_000; // ~1MiB per object
325 const N = 50; // ~50MiB of initial objects
329 C c; // makes the compiler not set NO_SCAN
330 long[BYTES/long.sizeof] data;
334 auto rand = new Random();
337 foreach (ref o; objs) {
339 foreach (ref x; o.data)
342 for (int i = 0; i < IT; ++i) {
344 foreach (ref x; o.data)
346 // do something with the data...
353 Este programa está basado en la prueba de nombre ``binary-trees`` de `The
354 Computer Language Benchmarks Game`__, una colección de 12 programas escritos
355 en alrededor de 30 lenguajes de programación para comparar su eficiencia
356 (medida en tiempo de ejecución, uso de memoria y cantidad de líneas de
357 código). De este juego de programas se utilizó solo ``binary-trees`` por ser
358 el único destinado a ejercitar el manejo de memoria. El programa sólo manipula
359 árboles binarios, creándolos y recorriéndolos inmediatamente (no realiza
360 ningún trabajo útil). La traducción a D_ fue realizada por Andrey Khropov
361 y fue hallada__ en el grupo de noticias.
363 __ http://shootout.alioth.debian.org/
364 __ http://www.digitalmars.com/webnews/newsgroups.php?art_group=digitalmars.D&article_id=43991
366 El código fuente es el siguiente::
368 import tango.util.Convert;
371 int main(string[] args)
373 int N = args.length > 1 ? to!(int)(args[1]) : 1;
375 int maxDepth = (minDepth + 2) > N ? minDepth + 2 : N;
376 int stretchDepth = maxDepth + 1;
377 int check = TreeNode.BottomUpTree(0, stretchDepth).ItemCheck;
378 TreeNode longLivedTree = TreeNode.BottomUpTree(0, maxDepth);
379 for (int depth = minDepth; depth <= maxDepth; depth += 2) {
380 int iterations = 1 << (maxDepth - depth + minDepth);
382 for (int i = 1; i <= iterations; i++) {
383 check += TreeNode.BottomUpTree(i, depth).ItemCheck;
384 check += TreeNode.BottomUpTree(-i, depth).ItemCheck;
392 TreeNode left, right;
395 this(int item, TreeNode left = null, TreeNode right = null)
402 static TreeNode BottomUpTree(int item, int depth)
405 return new TreeNode(item,
406 BottomUpTree(2 * item - 1, depth - 1),
407 BottomUpTree(2 * item, depth - 1));
408 return new TreeNode(item);
414 return item + left.ItemCheck() - right.ItemCheck();
423 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
425 Todos los pequeños programas utilizados como parte del banco de prueba
426 provienen del `Olden Benchmark`__ [CAR95]_. Estos programas fueron diseñados
427 para probar el lenguaje de programación Olden__; un lenguaje diseñado para
428 paralelizar programas automáticamente en arquitecturas con memoria
429 distribuida. Son programas relativamente pequeños (entre 400 y 1000 líneas de
430 código fuente cada uno) que realizan una tarea secuencial que asigna
431 estructuras de datos dinámicamente. Las estructuras están usualmente
432 organizadas como listas o árboles, y muy raramente como arreglos. Los
433 programas pasan la mayor parte del tiempo alocando datos y el resto usando los
434 datos alocados, por lo que en general están acotados en tiempo por el uso de
435 memoria (y no de procesador).
437 __ http://www.irisa.fr/caps/people/truong/M2COct99/Benchmarks/Olden/Welcome.html
438 __ http://www.martincarlisle.com/olden.html
440 La traducción a D_ fue realizada por Leonardo Maffi y están basadas a su vez
441 en la traducción de este juego de pruebas a Java_, JOlden__ [CMK01]_. En Java_
442 no se recomienda utilizar este conjunto de pruebas para medir la eficiencia
443 del recolector de basura, dado que se han creado mejores pruebas para este
444 propósito, como DaCapo__ [BLA06]_, sin embargo, dada la falta de programas
445 disponibles en general, y de un conjunto de pruebas especialmente diseñado
446 para evaluar el recolector de basura en D_, se decide utilizarlas en este
447 trabajo de todos modos. Sin embargo sus resultados deben ser interpretados con
448 una pizca de sal por lo mencionado anteriormente.
450 __ http://www-ali.cs.umass.edu/DaCapo/benchmarks.html
451 __ http://www.dacapobench.org/
453 En general (salvo para el programa ``voronoï``) está disponible el código
454 fuente portado a D_, Java_ y Python_, e incluso varias versiones con distintas
455 optimizaciones para reducir el consumo de tiempo y memoria. Además provee
456 comparaciones de tiempo entre todas ellas. Los programas utilizados en este
457 banco de pruebas son la versión traducida más literalmente de Java_ a D_, ya
458 que hace un uso más intensivo del recolector que las otras versiones.
460 A continuación se da una pequeña descripción de cada uno de los 5 programas
461 traducidos y los enlaces en donde encontrar el código fuente (y las
462 comparaciones de tiempos estar disponibles).
467 Este programa computa las interacciones gravitatorias entre un número
468 :math:`N` de cuerpos en tiempo :math:`O(N log N)` y está basado en árboles
469 heterogéneos de 8 ramas, según el algoritmo descripto por Barnes & Hut
472 Código fuente disponible en:
473 http://www.fantascienza.net/leonardo/js/dolden_bh.zip
478 Este programa ordena :math:`N` números, donde :math:`N` es una potencia de 2,
479 usando un ordenamiento *Bitonic* adaptativo, un algoritmo paralelo óptimo para
480 computadoras con memoria compartida, según describen Bilardi & Nicolau
481 [BN98]_. Utiliza árboles binarios como principal estructuras de datos.
483 Código fuente disponible en:
484 http://www.fantascienza.net/leonardo/js/dolden_bisort.zip
489 Este programa modela la propagación de ondas electromagnéticas a través de
490 objetos en 3 dimensiones. Realiza un cálculo simple sobre un grafo irregular
491 bipartito (implementado utilizando listas simplemente enlazadas) cuyos nodos
492 representan valores de campo eléctrico y magnético. El algoritmo es el
493 descripto por Culler, et al. [CDG93]_.
495 Código fuente disponible en:
496 http://www.fantascienza.net/leonardo/js/dolden_em3d.zip
501 Este programa implementa una heurística para resolver el problema del viajante
502 (*traveling salesman problem*) utilizando árboles binarios balanceados. El
503 algoritmo utilizado es el descripto por Karp [KAR77]_.
506 Código fuente disponible en:
507 http://www.fantascienza.net/leonardo/js/dolden_tsp.zip
512 Este programa genera un conjunto aleatorio de puntos y computa su diagrama de
513 Voronoï, una construcción geométrica que permite construir una partición del
514 plano euclídeo, utilizando el algoritmo descripto por Guibas & Stolfi [GS85]_.
516 Código fuente disponible en: http://codepad.org/xGDCS3KO
522 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
524 Dil_ (escrito en su mayor parte por Aziz Köksal y publicado bajo licencia
525 GPL_) es, lamentablemente, el único programa real hallado que, a pesar de
526 estar incompleto, es lo suficientemente grande, mantenido y estable como para
527 ser incluido en el banco de pruebas. Se trata de un compilador de D_ escrito
528 en D_ y está incompleto porque no puede generar código (falta implementar el
529 análisis semántico y la generación de código), por lo que es principalmente
530 utilizado para generar documentación a partir del código.
532 El programa está compuesto por:
534 * 32.000 líneas de código fuente (aproximadamente).
535 * 86 módulos (o archivos).
536 * 322 diferentes tipos de datos definidos por el usuario, de los cuales 34 son
537 tipos *livianos* (``struct``) y 288 tipos polimórficos (``class``), de los
538 que 260 son subtipos (sub-clases).
540 Puede observarse entonces que a pesar de ser incompleto, es una pieza de
541 software bastante compleja y de dimensión considerable.
543 Además, al interpretar código fuente se hace un uso intensivo de cadenas de
544 texto que en general presentan problemas muy particulares por poder ser
545 objetos extremadamente pequeños y de tamaños poco convencionales (no múltiplos
546 de palabras, por ejemplo). A su vez, el texto interpretado es convertido a una
547 representación interna en forma de árbol (o *árbol de sintaxis abstracta*)
548 modelado por tipos *livianos* y polimórficos que están organizados en arreglos
549 dinámicos contiguos y asociativos (que usan muchos servicios del recolector),
550 y que finalmente son manipulados para obtener y generar la información
551 necesaria, creando y dejando *morir* objetos constantemente (pero no como única
552 forma de procesamiento, como otras pruebas sintetizadas).
554 Por último, a diferencia de muchos otros programas escritos en D_, que dadas
555 algunas de las ineficiencias del recolector invierten mucho trabajo en limitar
556 su uso, este programa no está escrito pensando en dichas limitaciones, por lo
557 que muestra un funcionamiento muy poco sesgado por estas infortunadas
560 Por todas estas razones, Dil_ es el ejemplar que tal vez mejor sirve a la hora
561 de medir de forma realista los resultados obtenidos o los avances realizados.
562 Si bien, como se ha dicho anteriormente, las demás pruebas del banco pueden
563 ser útiles para encontrar problemas muy particulares, está es la que da una
564 lectura más cercana a la realidad del uso de un recolector.
571 Modificaciones propuestas
572 ----------------------------------------------------------------------------
574 Se decide realizar todas las modificaciones al recolector actual de forma
575 progresiva e incremental, partiendo como base del recolector de la versión
576 0.99.9 de Tango_. Las razones que motivan esta decisión son varias; por un
577 lado es lo más apropiado dados los requerimientos claves mencionados al
578 principio de este capítulo. Por ejemplo, al hacer cambios incrementales es más
579 fácil comprobar que la eficiencia no se aleja mucho del actual con cada
580 modificación y una modificación gradual impone menos resistencia a la
581 aceptación del nuevo recolector.
583 Además la construcción de un recolector de cero es una tarea difícil
584 considerando que un error en el recolector es extremadamente complejo de
585 rastrear, dado que en general el error se detecta en el *mutator* y en una
586 instancia muy posterior al origen real del error. Esto ha sido comprobado de
587 forma práctica, dado que, a modo de ejercicio para interiorizarse en el
588 funcionamiento del *runtime* de D_, primero se ha construido desde cero una
589 implementación de un recolector *naïve*, resultando muy difícil su depuración
590 por las razones mencionadas. Por el contrario, comenzar con un recolector en
591 funcionamiento como base hace más sencillo tanto probar cada pequeña
592 modificación para asegurar que no introduce fallos, como encontrar y reparar
593 los fallos cuando estos se producen, ya que el código incorrecto introducido
594 está bien aislado e identificado.
596 A continuación se hace un recorrido sobre cada una de las mejoras propuestas,
597 y en los casos en los que la mejora propone un cambio algorítmico, se analiza
598 la corrección del algoritmo resultante, partiendo de la base de que el
599 algoritmo tomado como punto de partida es un marcado y barrido que utiliza la
600 abstracción tricolor para hacer la fase de marcado de forma iterativa (ver
601 :ref:`gc_mark_sweep` y :ref:`gc_intro_tricolor`), cuya corrección ya está
602 probada en la literatura preexistente.
608 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
610 Una de las primeras mejoras propuestas es la posibilidad de configurar el
611 recolector de forma más sencilla. El requerimiento mínimo es la posibilidad de
612 configurar el recolector sin necesidad de recompilarlo. La complejidad de esto
613 surge de que el recolector debe ser transparente para el programa del usuario.
615 Configurar el recolector en tiempo de compilación del programa del usuario
616 probablemente requeriría modificar el compilador, y además, si bien es una
617 mejora sustancial a la configuración en tiempo de compilación del recolector,
618 no termina de ser completamente conveniente para realizar pruebas reiteradas
619 con un mismo programa para encontrar los mejores valores de configuración para
620 ese programa en particular.
622 Por otro lado, permitir configurar el recolector en tiempo de ejecución, una
623 vez que su estructura interna ya fue definida y creada, puede ser no solo
624 tedioso y complejo, además ineficiente, por lo tanto esta opción también se
627 Finalmente, lo que parece ser más apropiado para un recolector, es permitir la
628 configuración en tiempo de inicialización. Es decir, configurar el recolectar
629 sin necesidad de recompilar ni el programa del usuario ni el recolector, pero
630 antes de que el programa del usuario inicie, de manera que una vez iniciado el
631 recolector con ciertos parámetros, éstos no cambien nunca más en durante la
634 Este esquema provee la mejor relación entre configurabilidad, conveniencia,
635 eficiencia y simplicidad. Una posibilidad para lograr esto es utilizar
636 parámetros de línea de comandos, sin embargo no parece ni sencillo (proveer
637 una forma de leer los parámetros de línea de comandos requiere cambios en el
638 *runtime*) ni apropiado (el recolector debería ser lo más transparente posible
639 para el programa del usuario).
641 Otra posibilidad es utilizar variables de entorno, que parece ser la opción
642 más sencilla y apropiada. Sencilla porque las variables de entorno pueden ser
643 leídas directamente al inicializar el recolector sin necesidad de cooperación
644 alguna del *runtime*, a través de :manpage:`getenv(3)`. Apropiada porque, si
645 bien el problema de invasión del programa del usuario también existe, es una
646 práctica más frecuente y aceptada la configuración de módulos internos
647 o bibliotecas compartidas a través de variables de entorno.
649 Por último, antes de comenzar a usar este esquema de configuración, se
650 verifica que tomar ciertas decisiones en tiempo de ejecución no impacten en la
651 eficiencia del recolector. Para esto se convierten algunas opciones que antes
652 eran solo seleccionables en tiempo de compilación del recolector para que
653 puedan ser seleccionables en tiempo de inicialización y se comprueba que no
654 hay una penalización apreciable.
659 Especificación de opciones
660 ^^^^^^^^^^^^^^^^^^^^^^^^^^
661 Para especificar opciones de configuración, hay que hacerlo a través de la
662 variable de entorno de nombre :envvar:`D_GC_OPTS`. El valor de esa variable es
663 interpretado de la siguiente manera (en formato similar a :term:`BNF`):
666 D_GC_OPTS: `option` ( ':' `option` )* <lista de opciones>
667 option: `name` [ '=' `value` ]
668 name: `namec` `namec`* <nombre de la opción>
669 value: `valuec`* <valor de la opción>
670 namec: `valuec` - '='
671 valuec: [0x01-0xFF] - ':' <cualquier char salvo '\0' y ':'>
673 Es decir, se compone de una lista de opciones separadas por **:**. Cada opción
674 se especifica con un nombre, opcionalmente seguido por un valor (separados por
677 El valor de una opción puede ser un texto arbitrario (exceptuando los
678 caracteres ``'\0'`` y ``':'`` y de longitud máxima 255), pero cada opción lo
679 interpreta de forma particular. Como caso general, hay opciones booleanas, que
680 toman como valor verdadero un cualquier número distinto de 0 (o si el valor es
681 vació, es decir, solo se indica el nombre de la opción), y como valor falso
682 cualquier otro texto.
684 A continuación se listan las opciones reconocidas por el recolector (indicando
685 el formato del valor de la opción de tener uno especial):
688 Esta es una opción (booleana) disponible en el recolector original, pero
689 que se cambia para que sea configurable en tiempo de inicialización
690 (estando desactivada por omisión). Activa la opción ``MEMSTOMP`` descripta
694 Esta opción es también booleana (desactivada por omisión), está disponible
695 en el recolector original, y se la cambia para sea configurable en tiempo
696 de inicialización. Activa la opción ``SENTINEL`` descripta en
700 Esta opción permite crear una cierta cantidad de *pools* de un tamaño
701 determinado previo a que inicie el programa. Si se especifica solo un
702 número, se crea un *pool* con ese tamaño en MiB. Si, en cambio, se
703 especifica una cadena del tipo ``3x1``, el primer número indica la cantidad
704 de *pools* y el segundo el tamaño en MiB de cada uno (3 *pools* de 1MiB en
705 este caso). Ver :ref:`sol_pre_alloc` para más detalles sobre la utilidad de
709 El valor de esta opción indica el porcentaje mínimo porcentaje del *heap*
710 que debe quedar libre luego de una recolección. Siendo un porcentaje, solo
711 se aceptan valores entre 0 y 100, siendo su valor por omisión 5. Ver
712 :ref:`sol_ocup` para más detalles sobre su propósito.
714 ``malloc_stats_file``
715 Esta opción sirve para especificar un archivo en el cual escribir un
716 reporte de todas la operaciones de pedido de memoria realizadas por el
717 programa (durante su tiempo de vida). Ver :ref:`sol_stats` para más
718 detalles sobre la información provista y el formato del reporte.
720 ``collect_stats_file``
721 Esta opción sirve para especificar un archivo en el cual escribir un
722 reporte de todas las recolecciones hechas durante el tiempo de vida del
723 programa. Ver :ref:`sol_stats` para más detalles sobre la información
724 provista y el formato del reporte.
727 Esta opción booleana permite desactivar el escaneo preciso del *heap*,
728 forzando al recolector a ser completamente conservativo (excepto por los
729 bloques con el atributo ``NO_SCAN`` que siguen sin ser escaneados). Ver
730 :ref:`sol_precise` para más detalles sobre la existencia de esta opción.
733 Esta opción booleana (activada por omisión) permite seleccionar si el
734 recolector debe correr la fase de marcado en paralelo o no (es decir, si el
735 recolector corre de forma concurrente con el *mutator*). Para más detalles
739 Esta opción booleana (activada por omisión), sólo puede estar activa si
740 ``fork`` también está activa y sirve para indicar al recolector que reserve
741 un nuevo *pool* de memoria cuando una petición no puede ser satisfecha,
742 justo antes de lanzar la recolección concurrente. Ver
743 :ref:`sol_eager_alloc` para más detalles sobre el propósito de esta opción.
746 Esta opción booleana (desactivada por omisión), también sólo puede estar
747 activa si ``fork`` está activa y sirve para indicar al recolector que lance
748 una recolección (concurrente) antes de que la memoria libre se termine (la
749 recolección temprana será disparada cuando el porcentaje de memoria libre
750 sea menor a ``min_free``). Ver :ref:`sol_early_collect` para más detalles
751 sobre el propósito de esta opción.
753 Cualquier opción o valor no reconocido es ignorado por el recolector. Se
754 utilizan los valores por omisión de las opciones que no fueron especificadas,
755 o cuyos valores no pudieron ser interpretados correctamente.
757 Para cambiar la configuración del recolector se puede invocar el programa de
758 la siguiente manera (usando un intérprete de comandos del tipo *bourne
763 D_GC_OPTS=conservative:eager_alloc=0:early_collect=1:pre_alloc=2x5 ./programa
765 En este ejemplo, se activan las opciones ``conservative`` y ``early_collect``,
766 se desactiva ``eager_alloc`` y se crean 2 *pools* de 5MiB cada uno al
767 inicializar el recolector.
770 Reestructuración y cambios menores
771 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
773 Si bien se decide no comenzar una implementación desde cero, se ha mostrado
774 (ver :ref:`dgc_bad_code`) que la implementación actual es lo suficientemente
775 desprolija como para complicar su modificación. Es por esto que se hacen
776 algunas reestructuraciones básicas del código, reescribiendo o saneando de
777 forma incremental todas aquellas partes que complican su evolución.
779 Además de las modificaciones puramente estéticas (aunque no por eso menos
780 valuables, ya que la legibilidad y simplicidad del código son un factor
781 fundamental a la hora de ser mantenido o extendido), se hacen otras pequeñas
782 mejoras, que se detallan a continuación.
784 Remoción de memoria *no-encomendada*
785 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
786 Se elimina la distinción entre memoria *encomendada* y *no-encomendada* (ver
787 :ref:`dgc_committed`), pasando a estar *encomendada* toda la memoria
788 administrada por el recolector.
790 Si bien a nivel de eficiencia este cambio no tuvo impacto alguno (cuando en un
791 principio se especuló con que podría dar alguna ganancia en este sentido), se
792 elimina el concepto de memoria *encomendada* para quitar complejidad al
795 Esta mejora no afecta a la corrección del algoritmo, ya que a nivel lógico el
796 recolector solo ve la memoria *encomendada*.
798 .. _sol_minor_findsize:
800 Caché de ``Pool.findSize()``
801 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
802 Se crea un caché de tamaño de bloque para el método ``findSize()`` de un
803 *pool*. Esto acelera considerablemente las operaciones que necesitan pedir el
804 tamaño de un bloque reiteradamente, por ejemplo, al añadir nuevos elementos
805 a un arreglo dinámico. En esencia es una extensión a una de las optimizaciones
806 propuestas por Vladimir Panteleev [PAN09]_, que propone un caché global para
807 todo el recolector en vez de uno por *pool*.
809 Esta mejora tampoco afecta a la corrección del algoritmo, ya que nuevamente no
810 afecta su comportamiento a nivel lógico, solo cambia detalles en la
811 implementación de forma transparentes para el algoritmo de recolección.
813 Optimizaciones sobre ``findPool()``
814 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
815 Al analizar los principales cuellos de botella del recolector, es notoria la
816 cantidad de tiempo que pasa ejecutando la función ``findPool()``, que dado un
817 puntero devuelve el *pool* de memoria al cual pertenece. Es por esto que se
818 minimiza el uso de esta función. Además, dado que los *pools* de memoria están
819 ordenados por el puntero de comienzo del bloque de memoria manejado por el
820 *pool*, se cambia la búsqueda (originalmente lineal) por una búsqueda binaria.
821 Finalmente, dado que la lista de libre está construida almacenando el puntero
822 al siguiente en las mismas celdas que componen la lista, se almacena también
823 el puntero al *pool* al que dicha celda pertenece (dado que la celda más
824 pequeña es de 16 bytes, podemos garantizar que caben dos punteros, incluso
825 para arquitecturas de 64 bits). De esta manera no es necesario usar
826 ``findPool()`` al quitar una celda de la lista de libres.
828 Una vez más, la mejora no afecta la corrección del código.
832 Pre-asignación de memoria
833 ^^^^^^^^^^^^^^^^^^^^^^^^^
834 Esta opción permite crear una cierta cantidad de *pools* de un tamaño
835 determinado previo a que inicie el programa. Normalmente el recolector no
836 reserva memoria hasta que el programa lo pida. Esto puede llegar a evitar
837 que un programa haga muchas recolecciones al comenzar, hasta que haya
838 cargado su conjunto de datos de trabajo.
840 Se han analizado varios valores por omisión pero ninguno es consistentemente
841 mejor que comenzar sin memoria asignada, por lo tanto no se cambia el
842 comportamiento original, pero se agrega una opción (ver ``pre_alloc`` en
843 :ref:`sol_config_spec`) para que el usuario pueda experimentar con cada
844 programa en particular si esta opción es beneficiosa.
846 Esta opción tampoco cambia la corrección del algoritmo de recolección, solo
847 sus condiciones iniciales.
851 Mejora del factor de ocupación del *heap*
852 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
853 El factor de ocupación del *heap* debe ser apropiado por dos razones. Por un
854 lado, si el *heap* está demasiado ocupado todo el tiempo, serán necesarias
855 muchas recolecciones que, aunque pequeñas dado que la memoria utilizada es
856 poca, puede llegar a ser extremadamente ineficiente en casos patológicos (ver
857 :ref:`dgc_bad_ocup`). Por otro lado, si el tamaño del *heap* es extremadamente
858 grande (en comparación con el tamaño real del grupo de trabajo del programa),
859 se harán pocas recolecciones pero cada una es muy costosa, porque el algoritmo
860 de marcado y barrido es :math:`O(\lvert Heap \rvert)` (ver
861 :ref:`gc_mark_sweep`). Además la afinidad del caché va a ser extremadamente
864 Para mantener el factor de ocupación dentro de límites razonables, se agrega
865 la opción ``min_free`` (ver :ref:`sol_config_spec`). Esta opción indica el
866 recolector cual debe ser el porcentaje mínimo del *heap* que debe quedar libre
867 luego de una recolección. En caso de no cumplirse, se pide más memoria al
868 sistema operativo para cumplir este requerimiento. Además, luego de cada
869 recolección se verifica que el tamaño del *heap* no sea mayor a ``min_free``,
870 para evitar que el *heap* crezca de forma descontrolada. Si es mayor
871 a ``min_free`` se intenta minimizar el uso de memoria liberando *pools* que
872 estén completamente desocupados, mientras que el factor de ocupación siga
873 siendo mayor a ``min_free``. Si liberar un *pool* implica pasar ese límite, no
874 se libera y se pasa a analizar el siguiente y así sucesivamente.
876 Esta modificación no afecta a la corrección del algoritmo, ya que no lo afecta
879 Modificaciones descartadas
880 ^^^^^^^^^^^^^^^^^^^^^^^^^^
881 Se realizan varias otras modificaciones, con la esperanza de mejorar la
882 eficiencia del recolector, pero que, al contrario de lo esperado, empeoran la
883 eficiencia o la mejoran de forma muy marginal en comparación con la
884 complejidad agregada.
886 Probablemente el caso más significativo, y por tanto el único que vale la pena
887 mencionar, es la conversión de marcado iterativo a marcado recursivo y luego
888 a un esquema híbrido. Como se describe en :ref:`dgc_bad`, el marcado iterativo
889 tiene sus ventajas, pero tiene desventajas también. Al convertirlo a puramente
890 recursivo, se impracticable por resultar en errores de desbordamiento de pila.
892 Por lo tanto se prueba con un esquema híbrido, poniendo un límite a la
893 recursividad, volviendo al algoritmo iterativo cuando se alcanza este límite.
895 La implementación del algoritmo híbrido consiste en los siguientes cambios
896 sobre el algoritmo original (ver :ref:`dgc_algo_mark`)::
898 function mark_phase() is
899 global more_to_scan = false
900 global depth = 0 // Agregado
902 clear_mark_scan_bits()
905 push_registers_into_stack()
906 thread_self.stack.end = get_stack_top()
908 pop_registers_from_stack()
913 function mark_range(begin, end) is
915 global depth++ // Agregado
917 [pool, page, block] = find_block(pointer)
918 if block is not null and block.mark is false
920 if block.noscan is false
922 if (global depth > MAX_DEPTH) //
923 more_to_scan = true //
925 foreach ptr in block.words //
929 Al analizar los resultados de de esta modificación, se observa una mejoría muy
930 level, para valores de ``MAX_DEPTH`` mayores a cero (en algunos casos bastante
931 mayores) y en general para ``MAX_DEPTH`` cero (es decir, usando el algoritmo
932 de forma completamente iterativa) los resultados son peores, dado que se paga
933 el trabajo extra sin ganancia alguna. En la figura :vref:`fig:sol-mark-rec` se
934 puede ver, por ejemplo, el tiempo total de ejecución de Dil_ al generar la
935 documentación completa del código de Tango_, según varía el valor de
938 .. fig:: fig:sol-mark-rec
940 Análisis de tiempo total de ejecución en función del valor de
943 Tiempo total de ejecución de Dil_ al generar la documentación completa del
944 código de Tango_ en función del valor de ``MAX_DEPTH``. El rombo no
945 pertenece a ningún nivel de recursividad, representa el tiempo de ejecución
946 del algoritmo original (puramente iterativo).
948 .. image:: sol-mark-rec-dil.pdf
951 Dado que aumentar el nivel máximo de recursividad significa un uso mayor del
952 *stack*, y que esto puede impactar en el usuario (si el usuario tuviera un
953 programa que esté al borde de consumir todo el *stack*, el recolector podría
954 hacer fallar al programa de una forma inesperada para el usuario, problema que
955 sería muy difícil de depurar para éste), y que los resultados obtenidos no son
956 rotundamente superiores a los resultados sin esta modificación, se opta por no
957 incluir este cambio. Tampoco vale la pena incluirlo como una opción con valor
958 por omisión 0 porque, como se ha dicho, para este caso el resultado es incluso
959 peor que sin la modificación.
961 Esta modificación mantiene la corrección del recolector dado que tampoco
962 modifica el algoritmo sino su implementación. Además ambos casos extremos son
963 correctos (si ``MAX_DEPTH`` es 0, el algoritmo es puramente iterativo y si
964 pudiera ser infinito resultaría en el algoritmo puramente recursivo).
969 Recolección de estadísticas
970 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
972 Un requerimiento importante, tanto para evaluar los resultados de este trabajo
973 como para analizar el comportamiento de los programas estudiados, es la
974 recolección de estadísticas. Hay muchos aspectos que pueden ser analizados
975 a la hora de evaluar un recolector, y es por esto que se busca que la
976 recolección de datos sea lo más completa posible.
978 Con este objetivo, se decide recolectar datos sobre lo que, probablemente,
979 sean las operaciones más importantes del recolector: asignación de memoria
982 Todos los datos recolectados son almacenados en archivos que se especifican
983 a través de opciones del recolector (ver :ref:`sol_config_spec`). Los archivos
984 especificados debe poder ser escritos (y creados de ser necesario) por el
985 recolector (de otra forma se ignora la opción). El conjunto de datos
986 recolectados son almacenados en formato :term:`CSV` en el archivo, comenzando
987 con una cabecera que indica el significado de cada columna.
989 Los datos recolectados tienen en general 4 tipos de valores diferentes:
992 Se guarda en segundos como número de punto flotante (por ejemplo ``0.12``).
995 Se guarda en forma hexadecimal (por ejemplo ``0xa1b2c3d4``).
998 Se guarda como un número decimal, expresado en bytes (por ejemplo ``32``).
1001 Se guarda como el número ``0`` si es falso o ``1`` si es verdadero.
1003 Esta modificación mantiene la corrección del recolector dado que no hay cambio
1006 Asignación de memoria
1007 ^^^^^^^^^^^^^^^^^^^^^
1008 La recolección de datos sobre asignación de memoria se activa asignando un
1009 nombre de archivo a la opción ``malloc_stats_file``. Por cada asignación de
1010 memoria pedida por el programa (es decir, por cada llamada a la función
1011 ``gc_malloc()``) se guarda una fila con los siguientes datos:
1013 1. Cantidad de segundos que pasaron desde que empezó el programa (*timestamp*).
1014 2. Tiempo total que tomó la asignación de memoria.
1015 3. Valor del puntero devuelto por la asignación.
1016 4. Tamaño de la memoria pedida por el programa.
1017 5. Si esta petición de memoria disparó una recolección o no.
1018 6. Si debe ejecutarse un *finalizador* sobre el objeto (almacenado en la
1019 memoria pedida) cuando ésta no sea más alcanzable (cuando sea barrido).
1020 7. Si objeto carece de punteros (es decir, no debe ser escaneada).
1021 8. Si objeto no debe ser movido por el recolector.
1022 9. Puntero a la información sobre la ubicación de los punteros del objeto.
1023 10. Tamaño del tipo del objeto.
1024 11. Primera palabra con los bits que indican que palabras del tipo deben ser
1025 escaneados punteros y cuales no (en hexadecimal).
1026 12. Primera palabra con los bits que indican que palabras del tipo son
1027 punteros garantizados (en hexadecimal).
1029 Como puede apreciarse, la mayor parte de esta información sirve más para
1030 analizar el programa que el recolector. Probablemente solo el punto 2 sea de
1031 interés para analizar como se comporta el recolector.
1033 El punto 8 es completamente inútil, ya que el compilador nunca provee esta
1034 información, pero se la deja por si en algún momento comienza a hacerlo. Los
1035 puntos 9 a 12 provee información sobre el tipo del objeto almacenado, útil
1036 para un marcado preciso (ver :ref:`sol_precise`).
1038 El punto 6 indica, indirectamente, cuales de los objetos asignados son
1039 *pesados*, ya que éstos son los únicos que pueden tener un *finalizador*.
1040 Además, a través de los puntos 4 y 10 es posible inferir si lo que va
1041 almacenarse es un objeto solo o un arreglo de objetos.
1043 Recolección de basura
1044 ^^^^^^^^^^^^^^^^^^^^^
1045 Los datos sobre las recolecciones realizadas se guardan al asignar un nombre
1046 de archivo a la opción ``collect_stats_file``. Cada vez que se dispara una
1047 recolección [#solcollect]_ (es decir, cada vez que se llama a la función
1048 ``fullcollect()``) se guarda una fila con los siguientes datos:
1050 1. Cantidad de segundos que pasaron desde que empezó el programa (*timestamp*).
1051 2. Tiempo total que tomó la asignación de memoria que disparó la recolección.
1052 3. Tiempo total que tomó la recolección.
1053 4. Tiempo total que deben pausarse todos los hilos (tiempo de
1055 5. Cantidad de memoria usada antes de la recolección.
1056 6. Cantidad de memoria libre antes de la recolección.
1057 7. Cantidad de memoria desperdiciada antes de la recolección.
1058 8. Cantidad de memoria utilizada por el mismo recolector antes de la
1059 recolección (para sus estructuras internas).
1060 9. Cantidad de memoria usada después de la recolección.
1061 10. Cantidad de memoria libre después de la recolección.
1062 11. Cantidad de memoria desperdiciada [#solwaste]_ después de la recolección.
1063 12. Cantidad de memoria utilizada por el mismo recolector después de la
1066 Si bien el punto 4 parece ser el más importante para un programa que necesita
1067 baja latencia, dado el *lock* global del recolector, el punto 2 es
1068 probablemente el valor más significativo en este aspecto, dado que, a menos
1069 que el programa en cuestión utilice muy poco el recolector en distintos hilos,
1070 los hilos se verán pausados de todas formas cuando necesiten utilizar el
1073 .. [#solcollect] Esto es en el sentido más amplio posible. Por ejemplo, cuando
1074 se utiliza marcado concurrente (ver :ref:`sol_fork`), se guarda esta
1075 información incluso si ya hay una recolección activa, pero el tiempo de
1076 pausa de los hilos será -1 para indicar que en realidad nunca fueron
1079 .. [#solwaste] Memoria *desperdiciada* se refiere a memoria que directamente
1080 no puede utilizarse debido a la fragmentación. Si por ejemplo, se piden 65
1081 bytes de memoria, dada la organización del *heap* en bloques (ver
1082 :ref:`dgc_org`), el recolector asignará un bloque de 128 bytes, por lo
1083 tanto 63 bytes quedarán desperdiciados.
1089 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
1091 Para agregar el soporte de marcado preciso se aprovecha el trabajo realizado
1092 por Vincent Lang (ver :ref:`dgc_via_art`) [DBZ3463]_, dado que se basa en `D
1093 1.0`_ y Tango_, al igual que este trabajo. Dado el objetivo y entorno común,
1094 se abre la posibilidad de adaptar sus cambios a este trabajo, utilizando una
1095 versión modificada de DMD_ (dado que los cambios aún no son integrados al
1096 compilador oficial).
1098 .. TODO: Apéndice con parches a DMD y Tango?
1100 Información de tipos provista por el compilador
1101 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1102 Con éstas modificaciones, el compilador en cada asignación le pasa al
1103 recolector información sobre los punteros del tipo para el cual se pide la
1104 memoria. Esta información se pasa como un puntero a un arreglo de palabras con
1105 la estructura mostrada en la figura :vref:`fig:sol-ptrmap` y que se describe
1108 .. fig:: fig:sol-ptrmap
1110 Estructura de la información de tipos provista por el compilador.
1118 +-------------+----------------------------+----------------------------+
1119 | "Tamaño en" | "Bits indicando si la" | "Bits indicando si" |
1120 | "cantidad" | "palabra en una posición" | "la palabra en una" |
1121 | "de" | "debe escanearse como" | "posición es" |
1122 | "palabras" | "si fuera un puntero" | "un puntero" |
1123 +-------------+----------------------------+----------------------------+
1126 +----- 1 -----+------- ceil(N/BPW) --------+------- ceil(N/BPW) --------+
1129 * La primera palabra indica el tamaño, en **cantidad de palabras**, del tipo
1130 para el cual se pide la memoria (:math:`N`).
1131 * Las siguientes :math:`ceil(\frac{N}{BPW})` palabras indican,
1132 como un conjunto de bits, qué palabras deben ser escaneadas por el
1133 recolector como si fueran punteros (donde :math:`BPW` indica la cantidad de
1134 bits por palabra, por ejemplo 32 para x86).
1135 * Las siguientes :math:`ceil(\frac{N}{BPW})` palabras son otro conjunto de
1136 bits indicando qué palabras son realmente punteros.
1138 Los conjuntos de bits guardan la información sobre la primera palabra en el
1139 bit menos significativo. Dada la complejidad de la representación, se ilustra
1140 con un ejemplo. Dada la estructura:
1151 void* begin1; // 1 word
1152 byte[size_t.sizeof * 14 + 1] bytes; // 15 words
1153 // el compilador agrega bytes de "padding" para alinear
1154 void* middle; // 1 word
1155 size_t[14] ints; // 14 words
1156 void* end1; // 1 words
1157 // hasta acá se almacenan los bits en la primera palabra
1158 void* begin2; // 1 words
1164 El compilador genera la estructura que se muestra en la figura
1165 :vref:`fig:sol-ptrmap-example` (asumiendo una arquitectura de 32 bits). Como
1166 puede apreciarse, el miembro ``u``, al ser una unión entre un puntero y un
1167 dato común, el compilador no puede asegurar que lo que se guarda en esa
1168 palabra sea realmente un puntero, pero indica que debe ser escaneado. El
1169 recolector debe debe ser conservativo en este caso, y escanear esa palabra
1170 como si fuera un puntero.
1172 .. fig:: fig:sol-ptrmap-example
1174 Ejemplo de estructura de información de tipos generada para el tipo ``S``.
1181 /---- "bit de 'end1'" -\
1183 | /---- "bit de 'middle'" | "de bits"
1185 | "bits de" | "bits de" /---- "bit de 'begin1'" | "primera"
1186 | "'ints'" | "'bytes'" | | "palabra"
1187 |/------------\|/-------------\| -/
1189 +----------------------------------+
1190 | 00000000000000000000000000100100 | "Tamaño en cantidad de palabras (36)"
1191 +==================================+ --\
1192 | 10000000000000010000000000000001 | | "Bits que indican si hay que"
1193 +----------------------------------+ | "escanear una palabra según"
1194 | 00000000000000000000000000001101 | | "su posición"
1195 +==================================+ --+
1196 | 10000000000000010000000000000001 | | "Bits que indican si hay un"
1197 +----------------------------------+ | "puntero en la palabra según"
1198 | 00000000000000000000000000001001 | | "su posición"
1199 +----------------------------------+ --/
1201 \--------------------------/|||| -\
1202 "bits de relleno" |||| |
1203 |||| | "Significado"
1204 "bit de 's'" |||| | "de bits"
1206 \---------------/||\---- "bit de 'begin2'" | "segunda"
1208 /---------------/\---- "bit de 'i'" |
1212 Si una implementación quisiera mover memoria (ver :ref:`gc_moving`), debería
1213 mantener inmóvil a cualquier objeto que sea apuntado por una palabra de estas
1214 características, ya que no es seguro actualizar la palabra con la nueva
1215 posición el objeto movido. Es por esta razón que se provee desglosada la
1216 información sobre lo que hay que escanear, y lo que es realmente un puntero
1217 (que puede ser actualizado de forma segura por el recolector de ser
1220 Implementación en el recolector
1221 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1222 La implementación está basada en la idea original de David Simcha, pero
1223 partiendo de la implementación de Vincent Lang (que está basada en Tango_)
1224 y consiste en almacenar el puntero a la estructura con la descripción del tipo
1225 generada por el compilador al final del bloque de datos. Este puntero solo se
1226 almacena si el bloque solicitado no tiene el atributo ``NO_SCAN``, dado que en
1227 ese caso no hace falta directamente escanear ninguna palabra del bloque.
1229 En la figura :vref:`fig:sol-ptrmap-blk` se puede ver, como continuación del
1230 ejemplo anterior, como se almacenaría en memoria un objeto del tipo ``S``.
1232 .. fig:: fig:sol-ptrmap-blk
1234 Ejemplo de bloque que almacena un objeto de tipo ``S`` con información de
1241 +------------------------ 256 bytes -----------------------------+
1244 +----------------------------------+-----------------------+-----+
1246 | Objeto | Desperdicio | Ptr |
1248 +----------------------------------+-----------------------+-----+
1251 +------------ 144 bytes -----------+------ 108 bytes ------+- 4 -+
1254 Un problema evidente de este esquema es que si el tamaño de un objeto se
1255 aproxima mucho al tamaño de bloque (difiere en menos de una palabra), el
1256 objeto ocupará el doble de memoria.
1258 El algoritmo de marcado se cambia de la siguiente forma::
1261 global conservative_scan = [1, 1, 0]
1264 function must_scan_word(pos, bits) is
1265 return bits[pos / BITS_PER_WORD] & (1 << (pos % BITS_PER_WORD))
1267 function mark_range(begin, end, ptrmap) is // Modificado
1268 number_of_words_in_type = ptrmap[0] // Agregado
1269 size_t* scan_bits = ptrmap + 1 // Agregado
1272 foreach word_pos in 0..number_of_words_in_type //
1273 if not must_scan_word(n, scan_bits) // Agregado
1275 [pool, page, block] = find_block(pointer)
1276 if block is not null and block.mark is false
1278 if block.noscan is false
1280 global more_to_scan = true
1281 pointer += number_of_words_in_type // Modificado
1283 function mark_heap() is
1284 while global more_to_scan
1285 global more_to_scan = false
1286 foreach pool in heap
1287 foreach page in pool
1288 if page.block_size <= PAGE // saltea FREE y CONTINUATION
1289 foreach block in page
1290 if block.scan is true
1292 if page.block_size is PAGE // obj grande //
1293 begin = cast(byte*) page //
1294 end = find_big_object_end(pool, page) //
1295 else // objeto pequeño //
1296 begin = block.begin //
1297 end = block.end // Modificado
1298 ptrmap = global conservative_scan //
1299 if NO_SCAN not in block.attrs //
1300 end -= size_t.sizeof //
1301 ptrmap = cast(size_t*) *end //
1302 mark_range(begin, end, ptrmap) //
1304 function mark_static_data() is
1305 mark_range(static_data.begin, static_data.end,
1306 global conservative_scan) // Agregado
1308 function mark_stacks() is
1309 foreach thread in threads
1310 mark_range(thread.stack.begin, thread.stack.end,
1311 global conservative_scan) // Agregado
1313 function mark_user_roots() is
1314 foreach root_range in user_roots
1315 mark_range(root_range.begin, root_range.end,
1316 global conservative_scan) // Agregado
1318 Las funciones de asignación de memoria se modifican de forma similar, para
1319 guardar el puntero a la información de tipos. Esta implementación utiliza solo
1320 la información sobre que palabras hay que tratar como punteros (deben ser
1321 escaneadas); la información sobre qué palabras son efectivamente punteros no
1322 se utiliza ya que no se mueven celdas.
1324 El algoritmo sigue siendo correcto, puesto que solamente se dejan de escanear
1325 palabras que el compilador sabe que no pueden ser punteros. Si bien el
1326 lenguaje permite almacenar punteros en una variable que no lo sea, esto es
1327 comportamiento indefinido por lo tanto un programa que lo hace no es
1328 considerado correcto, por lo cual el recolector tampoco debe ser correcto en
1329 esas circunstancias.
1331 Cabe destacar que la información de tipos solo se provee para objetos
1332 almacenados en el *heap*, el área de memoria estática, registros del
1333 procesador y la pila de todos los hilos siguen siendo escaneados de forma
1334 completamente conservativa. Se puede forzar el escaneo puramente conservativo
1335 utilizando la opción ``conservative`` (ver :ref:`sol_config_spec`).
1341 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
1343 Finalmente se procede al objetivo primario de este trabajo, hacer que la fase
1344 más costosa del recolector (el marcado) pueda correr de manera concurrente con
1345 el *mutator*, con el objeto principal de disminuir el tiempo de pausa.
1347 Cabe aclarar, una vez más, que si bien los recolectores concurrentes buscan
1348 disminuir solo el tiempo de *stop-the-world*, en este caso es también
1349 fundamental disminuir el tiempo máximo que está tomado el *lock* global, dado
1350 que ese tiempo puede convertirse en una pausa para todos los threads que
1351 requieran servicios del recolector.
1353 Se decide basar la implementación en el *paper* "Non-intrusive Cloning Garbage
1354 Collector with Stock Operating System Support" [RODR97]_ por las siguientes
1355 razones principales:
1357 * Su implementación encaja de forma bastante natural con el diseño del
1358 recolector actual, por lo que requiere pocos cambios, lo que hace más
1359 factible su aceptación.
1360 * Está basado en la llamada al sistema :manpage:`fork(2)`, que no solo está
1361 muy bien soportada (y de manera muy eficiente) en Linux_, debe estar
1362 soportada en cualquier sistema operativo :term:`POSIX`.
1363 * No necesita instrumentar el código incluyendo barreras de memoria para
1364 informar al recolector cuando cambia el grafo de conectividad. Este es un
1365 aspecto fundamental, dada la filosofía de D_ de no pagar el precio de cosas
1366 que no se usan. La penalización en la eficiencia solo se paga cuando corre
1367 el recolector. Este aspecto también es crítico a la hora de evaluar la
1368 aceptación de la solución por parte de la comunidad.
1369 * Dada su sencillez general, no es difícil ofrecer el algoritmo concurrente
1370 como una opción, de manera que el usuario pueda optar por usarlo o no.
1372 Llamada al sistema *fork*
1373 ^^^^^^^^^^^^^^^^^^^^^^^^^
1374 El término *fork* proviene del inglés y significa *tenedor* de manera textual,
1375 pero se lo utiliza como analogía de una bifurcación. La operación crea una
1376 copia (llamada *hijo*) del proceso que la ejecuta (llamado *padre*).
1378 El punto más importante es que se crea un espacio de direcciones de memoria
1379 separado para el proceso hijo y una copia exacta de todos los segmentos de
1380 memoria del proceso padre. Es por esto que cualquier modificación que se haga
1381 en el proceso padre, no se refleja en el proceso hijo (y viceversa), a menos
1382 que la memoria sea compartida entre los procesos de forma explícita.
1384 Esto, sin embargo, no significa que la memoria física sea realmente duplicada;
1385 en general todos los sistemas operativos modernos (como Linux_) utilizan una
1386 técnica llamada *COW* (de *copy-on-write* en inglés, *copiar-al-escribir* en
1387 castellano) que retrasa la copia de memoria hasta que alguno de los dos
1388 procesos escribe en un segmento. Recién en ese momento el sistema operativo
1389 realiza la copia de **ese segmento solamente**. Es por esto que la operación
1390 puede ser muy eficiente, y la copia de memoria es proporcional a la cantidad
1391 de cambios que hayan.
1393 :manpage:`fork(2)` tiene otra propiedad importante de mencionar: detiene todos
1394 los hilos de ejecución en el proceso hijo. Es decir, el proceso hijo se crear
1395 con un solo hilo (el hilo que ejecutó la operación de :manpage:`fork(2)`).
1399 Lo que propone el algoritmo es muy sencillo, utilizar la llamada al sistema
1400 :manpage:`fork(2)` para crear una *fotografía* de la memoria del proceso en un
1401 nuevo proceso. En el proceso padre sigue corriendo el *mutator* y en el
1402 proceso hijo se corre la fase de marcado. El *mutator* puede modificar el
1403 grafo de conectividad pero los cambios quedan aislados el hijo (el marcado),
1404 que tiene una visión consistente e inmutable de la memoria. El sistema
1405 operativo duplica las páginas que modifica el padre bajo demanda, por lo tanto
1406 la cantidad de memoria física realmente copiada es proporcional a la cantidad
1407 y dispersión de los cambios que haga el *mutator*.
1409 La corrección del algoritmo se mantiene gracias a que la siguiente invariante
1412 Cuando una celda se convierte en basura, permanece como basura hasta ser
1413 reciclada por el recolector.
1415 Es decir, el *mutator* no puede *resucitar* una celda *muerta* y esta
1416 invariante se mantiene al correr la fase de marcado sobre una vista inmutable
1417 de la memoria. El único efecto introducido es que el algoritmo toma una
1418 aproximación más conservativa. Es decir, lo que sí puede pasar es que una
1419 celda que pasó a estar *muerta* una vez que la fase de marcado se inició, pero
1420 antes de que ésta termine, la celda no se reciclará hasta la próxima
1421 recolección, dado que este algoritmo no incluye una comunicación entre
1422 *mutator* y recolector para notificar cambios en el grafo de conectividad.
1423 Pero esto no afecta la corrección del algoritmo, ya que un recolector es
1424 correcto cuando nunca recicla celdas *vivas*.
1426 La única comunicación necesaria entre el *mutator* y el recolector son los
1427 bits de marcado (ver :ref:`dgc_impl`), dado que la fase de barrido debe correr
1428 en el proceso padre. No es necesaria ningún tipo de sincronización entre
1429 *mutator* y recolector más allá de que uno espera a que el otro finalice.
1431 Además de almacenar el conjunto de bits ``mark`` en memoria compartida entre
1432 el proceso padre e hijo (necesario para la fase de barrido), las
1433 modificaciones necesarias para hacer la fase de marcado concurrente son las
1434 siguientes [#solforkerr]_::
1436 function collect() is
1438 fflush(null) // evita que se duplique la salida de los FILE* abiertos
1440 if child_pid is 0 // proceso hijo
1442 exit(0) // termina el proceso hijo
1448 function mark_phase() is
1449 global more_to_scan = false
1450 // Borrado: stop_the_world()
1451 clear_mark_scan_bits()
1454 push_registers_into_stack()
1455 thread_self.stack.end = get_stack_top()
1457 pop_registers_from_stack()
1460 // Borrado: start_the_world()
1462 Como se puede observar, el cambio es extremadamente sencillo. Sigue siendo
1463 necesario un tiempo mínimo de pausa (básicamente el tiempo que tarda la
1464 llamada al sistema operativo :manpage:`fork(2)`) para guardar una vista
1465 consistente de los registros del CPU y *stacks* de los hilos. Si bien el
1466 conjunto de bits ``mark`` es compartido por el proceso padre e hijo dado que
1467 es necesario para *comunicar* las fases de marcado y barrido, cabe notar que
1468 nunca son utilizados de forma concurrente (la fase de barrido espera que la
1469 fase de marcado termine antes de usar dichos bits), por lo tanto no necesitan
1470 ningún tipo de sincronización y nunca habrá más de una recolección en proceso
1471 debido al *lock* global del recolector.
1473 A pesar de que con estos cambios el recolector técnicamente corre de forma
1474 concurrente, se puede apreciar que para un programa con un solo hilo el
1475 tiempo máximo de pausa seguirá siendo muy grande, incluso más grande que antes
1476 dado el trabajo extra que impone crear un nuevo proceso y duplicar las páginas
1477 de memoria modificadas. Lo mismo le pasará a cualquier hilo que necesite hacer
1478 uso del recolector mientras hay una recolección en proceso, debido al *lock*
1481 Para bajar este tiempo de pausa se experimenta con dos nuevas mejoras, que se
1482 describen a continuación, cuyo objetivo es correr la fase de marcado de forma
1483 concurrente a **todos** los hilos, incluyendo el hilo que la disparó.
1485 .. [#solforkerr] Se omite el manejo de errores y la activación/desactivación
1486 del marcado concurrente a través de opciones del recolector para facilitar
1487 la comprensión del algoritmo y los cambios realizados. Si devuelve con
1488 error la llamada a ``fork()`` o ``waitpid()``, se vuelve al esquema
1489 *stop-the-world* como si se hubiera desactivado el marcado concurrente
1490 utilizando la opción del recolector ``fork=0``.
1493 .. _sol_eager_alloc:
1495 Creación ansiosa de *pools* (*eager allocation*)
1496 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1497 Esta mejora, que puede ser controlada a través de la opción ``eager_alloc``
1498 (ver :ref:`sol_config_spec`), consiste en crear un nuevo *pool* cuando un
1499 pedido de memoria no puede ser satisfecho, justo después de lanzar la
1500 recolección. Esto permite al recolector satisfacer la petición de memoria
1501 inmediatamente, corriendo la fase de marcado de forma realmente concurrente,
1502 incluso para programas con un solo hilo o programas cuyos hilos usan
1503 frecuentemente servicios del recolector. El precio a pagar es un mayor uso de
1504 memoria de forma temporal (y el trabajo extra de crear y eliminar *pools* más
1505 frecuentemente), pero es esperable que el tiempo máximo de pausa **real** se
1506 vea drásticamente disminuido.
1508 A simple vista las modificaciones necesarias para su implementación parecieran
1509 ser las siguientes::
1515 function mark_is_running() is
1516 return global mark_pid != 0
1518 function collect() is
1519 if mark_is_running() //
1520 finished = try_wait(global mark_pid) //
1521 if finished // Agregado
1528 if child_pid is 0 // proceso hijo
1533 // Borrado: wait(child_pid)
1534 global mark_pid = child_pid
1536 Sin embargo con sólo estas modificaciones el algoritmo deja de ser correcto,
1537 ya que tres cosas problemáticas pueden suceder:
1539 1. Puede llamarse a la función ``minimize()`` mientras hay una fase de marcado
1540 corriendo en paralelo. Esto puede provocar que se libere un *pool* mientras
1541 se lo está usando en la fase de marcado, lo que no sería un problema
1542 (porque el proceso de marcado tiene una copia) si no fuera porque los bits
1543 de marcado, que son compartidos por los procesos, se liberan con el *pool*.
1544 2. Si un bloque libre es asignado después de que la fase de marcado comienza,
1545 pero antes de que termine, ese bloque será barrido dado la función
1546 ``rebuild_free_lists()`` puede reciclar páginas si todos sus bloques tienen
1547 el bit ``freebits`` activo (ver :ref:`dgc_algo_sweep`).
1548 3. El *pool* creado ansiosamente, tendrá sus bits de marcado sin activar, por
1549 lo que en la fase de barrido será interpretado como memoria libre, incluso
1550 cuando puedan estar siendo utilizados por el *mutator*.
1552 El punto 1 sencillamente hace que el programa finalice con una violación de
1553 segmento (en el mejor caso) y 2 y 3 pueden desembocar en la liberación de una
1554 celda alcanzable por el *mutator*.
1556 El punto 1 se resuelve a través de la siguiente modificación::
1558 function minimize() is
1559 if mark_is_running() // Agregado
1564 if page.block_size is not FREE
1572 La resolución del punto 2 es un poco más laboriosa, ya que hay que mantener
1573 actualizado los ``freebits``, de forma que las celdas asignadas después de
1574 empezar la fase de marcado no sean barridas por tener ese bit activo::
1576 function new_big(size) is
1577 number_of_pages = ceil(size / PAGE_SIZE)
1578 pages = find_pages(number_of_pages)
1581 pages = find_pages(number_of_pages)
1584 pool = new_pool(number_of_pages)
1587 pages = assign_pages(pool, number_of_pages)
1588 pages[0].block.free = true // Agregado
1589 pages[0].block_size = PAGE
1590 foreach page in pages[1 .. end]
1591 page.block_size = CONTINUATION
1594 function assign_page(block_size) is
1595 foreach pool in heap
1596 foreach page in pool
1597 if page.block_size is FREE
1598 page.block_size = block_size
1599 foreach block in page
1600 block.free = true // Agregado
1601 free_lists[page.block_size].link(block)
1603 function mark_phase() is
1604 global more_to_scan = false
1605 // Borrado: clear_mark_scan_bits()
1606 // Borrado: mark_free_lists()
1607 clear_scan_bits() // Agregado
1610 push_registers_into_stack()
1611 thread_self.stack.end = get_stack_top()
1613 pop_registers_from_stack()
1618 function clear_scan_bits() is
1619 // La implementación real limpia los bits en bloques de forma eficiente
1620 foreach pool in heap
1621 foreach page in pool
1622 foreach block in page
1626 function mark_free() is
1627 // La implementación real copia los bits en bloques de forma eficiente
1628 foreach pool in heap
1629 foreach page in pool
1630 foreach block in page
1631 block.mark = block.free
1633 function free_big_object(pool, page) is
1634 pool_end = cast(byte*) pool.pages + (PAGE_SIZE * pool.number_of_pages)
1636 page.block_size = FREE
1637 page.block.free = true // Agregado
1638 page = cast(byte*) page + PAGE_SIZE
1639 while page < pool_end and page.block_size is CONTINUATION
1641 function new(size, attrs) is
1642 block_size = find_block_size(size)
1643 if block_size < PAGE
1644 block = new_small(block_size)
1646 block = new_big(size)
1653 block.free = false // Agregado
1654 return cast(void*) block
1656 funciones new_pool(number_of_pages = 1) is
1657 pool = alloc(pool.sizeof)
1660 pool.number_of_pages = number_of_pages
1661 pool.pages = alloc(number_of_pages * PAGE_SIZE)
1662 if pool.pages is null
1666 foreach page in pool
1667 page.block_size = FREE
1668 foreach block in page //
1669 block.free = true // Agregado
1670 block.mark = true //
1673 Finalmente, el punto número tres puede ser solucionado con el siguiente
1676 funciones new_pool(number_of_pages = 1) is
1677 pool = alloc(pool.sizeof)
1680 pool.number_of_pages = number_of_pages
1681 pool.pages = alloc(number_of_pages * PAGE_SIZE)
1682 if pool.pages is null
1686 foreach page in pool
1687 page.block_size = FREE
1688 foreach block in page // Agregado
1689 block.mark = true //
1692 La solución es conservativa porque, por un lado evita la liberación de *pools*
1693 mientras haya una recolección en curso (lo que puede hacer que el consumo de
1694 memoria sea un poco mayor al requerido) y por otro asegura que, como se
1695 mencionó anteriormente, los cambios hechos al grafo de conectividad luego de
1696 iniciar la fase de marcado y antes de que ésta termine, no serán detectados
1697 por el recolector hasta la próxima recolección (marcar todos los bloques de
1698 un nuevo *pool* como el bit ``mark`` asegura que que la memoria no sea
1699 recolectada por la fase de barrido cuando termine el marcado).
1701 Estas modificaciones son las que hacen que el algoritmo siga siendo correcto,
1702 asegurando que no se van a liberar celdas *vivas* (a expensas de diferir la
1703 liberación de algunas celdas *muertas* por algún tiempo).
1706 .. _sol_early_collect:
1708 Recolección temprana (*early collection*)
1709 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1710 Esta mejora, que puede ser controlada a través de la opción ``early_collect``
1711 (ver :ref:`sol_config_spec`), consiste en lanzar una recolección preventiva,
1712 antes de que una petición de memoria falle. El momento en que se lanza la
1713 recolección es controlado por la opción ``min_free`` (ver :ref:`sol_ocup`).
1715 De esta forma también puede correr de forma realmente concurrente el *mutator*
1716 y el recolector, al menos hasta que se acabe la memoria, en cuyo caso, a menos
1717 que la opción ``eager_alloc`` (ver :ref:`sol_eager_alloc`) también esté
1718 activada, se deberá esperar a que la fase de marcado termine para recuperar
1719 memoria en la fase de barrido.
1721 Para facilitar la comprensión de esta mejora se muestran sólo los cambios
1722 necesarios si no se utiliza la opción ``eager_alloc``::
1724 function collect(early = false) is // Modificado
1725 if mark_is_running()
1726 finished = try_wait(global mark_pid)
1731 else if early // Agregado
1736 if child_pid is 0 // proceso hijo
1742 global mark_pid = child_pid //
1748 function early_collect() is
1749 if not collect_in_progress() and (percent_free < min_free)
1752 function new(size, attrs) is
1753 block_size = find_block_size(size)
1754 if block_size < PAGE
1755 block = new_small(block_size)
1757 block = new_big(size)
1764 early_collect() // Agregado
1765 return cast(void*) block
1767 Es de esperarse que cuando no está activa la opción ``eager_alloc`` por un
1768 lado el tiempo de pausa máximo no sea tan chico como cuando sí lo está (dado
1769 que si la recolección no se lanza de forma suficientemente temprana se va
1770 a tener que esperar que la fase de marcado termine), y por otro que se hagan
1771 más recolecciones de lo necesario (cuando pasa lo contrario, se recolecta más
1772 temprano de lo que se debería). Sin embargo, también es de esperarse que el
1773 consumo de memoria sea un poco menor que al usar la opción ``eager_alloc``.
1775 En cuanto a la corrección del algoritmo, éste solamente presenta los problemas
1776 número 1 y 2 mencionados en :ref:`sol_eager_alloc`, dado que jamás se crean
1777 nuevos *pools* y la solución es la ya presentada, por lo tanto el algoritmo
1778 sigue siendo correcto con los cuidados pertinentes.
1783 ----------------------------------------------------------------------------
1785 Los resultados de las modificación propuestas en la sección anterior (ver
1786 :ref:`sol_mod`) se evalúan utilizando el conjunto de pruebas mencionado en la
1787 sección :ref:`sol_bench`).
1789 En esta sección se describe la forma en la que el conjunto de pruebas es
1790 utilizado, la forma en la que se ejecutan los programas para recolectar dichos
1791 resultados y las métricas principales utilizadas para analizarlos.
1793 A fines prácticos, y haciendo alusión al nombre utilizado por Tango_, en esta
1794 sección se utiliza el nombre **TBGC** (acrónimo para el nombre en inglés
1795 *Tango Basic Garbage Collector*) para hacer referencia al recolector original
1796 provisto por Tango_ 0.99.9 (que, recordamos, es el punto de partida de este
1797 trabajo). Por otro lado, y destacando la principal modificación propuesta por
1798 este trabajo, haremos referencia al recolector resultante de éste utilizando
1799 el nombre **CDGC** (acrónimo para el nombre en inglés *Concurrent D Garbage
1803 Ejecución del conjunto de pruebas
1804 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
1806 Dado el indeterminismo inherente a los sistemas operativos de tiempo
1807 compartido modernos, se hace un particular esfuerzo por obtener resultados lo
1808 más estable posible.
1810 Hardware y software utilizado
1811 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1812 Para realizar las pruebas se utiliza el siguiente hardware:
1814 * Procesador Intel(R) Core(TM)2 Quad CPU Q8400 @ 2.66GHz.
1815 * 2GiB de memoria RAM.
1817 El entorno de software es el siguiente:
1819 * Sistema operativo Debian_ Sid (para arquitectura *amd64*).
1821 * DMD_ 1.063 modificado para proveer información de tipos al recolector (ver
1822 :ref:`sol_precise`).
1823 * *Runtime* Tango_ 0.99.9 modificado para utilizar la información de tipos
1824 provista por el compilador modificado.
1826 * Embedded GNU_ C Library 2.11.2.
1828 Si bien el sistema operativo utiliza arquitectura *amd64*, dado que DMD_
1829 todavía no soporta 64 bits, se compila y corren los programas de D_ en 32
1832 Opciones del compilador
1833 ^^^^^^^^^^^^^^^^^^^^^^^
1834 Los programas del conjunto de pruebas se compilan utilizando las siguientes
1835 opciones del compilador DMD_:
1838 Aplica optimizaciones generales.
1841 Aplica la optimización de expansión de funciones. Consiste en sustituir la
1842 llamada a función por el cuerpo de la función (en general solo para
1843 funciones pequeñas).
1846 No genera el código para verificar pre y post-condiciones, invariantes de
1847 representación, operaciones fuera de los límites de un arreglo y
1848 *assert*\ 's en general (ver :ref:`d_dbc`).
1850 Parámetros de los programas
1851 ^^^^^^^^^^^^^^^^^^^^^^^^^^^
1852 Los programas de prueba se ejecutan siempre con los mismos parámetros (a menos
1853 que se especifique lo contrario), que se detallan a continuación.
1860 Procesa 40 veces un archivo de texto plano (de 4MiB de tamaño) [#solbible]_
1861 utilizando 4 hilos (más el principal).
1866 Procesa 40 veces un archivo de texto plano (de 4MiB de tamaño) [#solbible]_
1867 utilizando 4 hilos (más el principal).
1872 Procesa dos veces un archivo de texto plano (de 4MiB de tamaño)
1878 Construyen árboles con profundidad máxima 16.
1883 Computa las interacciones gravitatorias entre 4.000 cuerpos.
1888 Ordena alrededor de 2 millones de números (exactamente :math:`2^21
1892 ``-n 4000 -d 300 -i 74``
1894 Realiza 74 iteraciones para modelar 4.000 nodos con grado 300.
1899 Resuelve el problema del viajante a través de una heurística para un
1905 Se construye un diagrama con 30.000 nodos.
1908 ``ddoc $dst_dir -hl --kandil -version=Tango -version=TangoDoc
1909 -version=Posix -version=linux $tango_files``
1911 Genera la documentación de todo el código fuente de Tango_ 0.99.9, donde
1912 ``$dst_dir`` es el directorio donde almacenar los archivos generados
1913 y ``$tango_files`` es la lista de archivos fuente de Tango_.
1915 El resto de los programas se ejecutan sin parámetros (ver :ref:`sol_bench`
1916 para una descripción detallada sobre cada uno).
1918 .. [#solbible] El archivo contiene la Biblia completa, la versión traducida al
1919 inglés autorizada por el Rey Jaime o Jacobo (*Authorized King James
1920 Version* en inglés). Obtenida de: http://download.o-bible.com:8080/kjv.gz
1922 Recolectores y configuraciones utilizadas
1923 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
1924 En general se presentan resultados para TBGC y varias configuraciones de CDGC,
1925 de manera de poder tener una mejor noción de que mejoras y problemas puede
1926 introducir cada una de las modificaciones más importantes.
1928 CDGC se utiliza con siguientes configuraciones:
1933 En modo conservativo. Específicamente, utilizando el juego de opciones::
1935 conservative=1:fork=0:early_collect=0:eager_alloc=0
1938 En modo preciso (ver :ref:`sol_precise`). Específicamente, utilizando el
1941 conservative=0:fork=0:early_collect=0:eager_alloc=0
1944 En modo preciso activando el marcado concurrente (ver :ref:`sol_fork`).
1945 Específicamente, utilizando el juego de opciones::
1947 conservative=0:fork=1:early_collect=0:eager_alloc=0
1950 En modo preciso activando el marcado concurrente con recolección temprana
1951 (ver :ref:`sol_early_collect`). Específicamente, utilizando el juego de
1954 conservative=0:fork=1:early_collect=1:eager_alloc=0
1957 En modo preciso activando el marcado concurrente con creación ansiosa de
1958 *pools* (ver :ref:`sol_eager_alloc`). Específicamente, utilizando el juego
1961 conservative=0:fork=1:early_collect=0:eager_alloc=1
1964 En modo preciso activando el marcado concurrente con recolección temprana
1965 y creación ansiosa de *pools*. Específicamente, utilizando el juego de
1968 conservative=0:fork=1:early_collect=1:eager_alloc=1
1972 Para analizar los resultados se utilizan varias métricas. Las más importantes
1975 * Tiempo total de ejecución.
1976 * Tiempo máximo de *stop-the-world*.
1977 * Tiempo máximo de pausa real.
1978 * Cantidad máxima de memoria utilizada.
1979 * Cantidad total de recolecciones realizadas.
1981 El tiempo total de ejecución es una buena medida del **rendimiento** general
1982 del recolector, mientras que la cantidad total de recolecciones realizadas
1983 suele ser una buena medida de su **eficacia** [#soleficacia]_.
1985 Los tiempos máximos de pausa, *stop-the-world* y real, son una buena medida de
1986 la **latencia** del recolector; el segundo siendo una medida más realista dado
1987 que es raro que los demás hilos no utilicen servicios del recolector mientras
1988 hay una recolección en curso. Esta medida es particularmente importante para
1989 programas que necesiten algún nivel de ejecución en *tiempo-real*.
1991 En general el consumo de tiempo y espacio es un compromiso, cuando se consume
1992 menos tiempo se necesita más espacio y viceversa. La cantidad máxima de
1993 memoria utilizada nos da un parámetro de esta relación.
1995 .. [#soleficacia] Esto no es necesariamente cierto para recolectores con
1996 particiones (ver :ref:`gc_part`) o incrementales (ver :ref:`gc_inc`), dado
1997 que en ese caso podría realizar muchas recolecciones pero cada una muy
2000 Métodología de medición
2001 ^^^^^^^^^^^^^^^^^^^^^^^
2002 Para medir el tiempo total de ejecución se utiliza el comando
2003 :manpage:`time(1)` con la especificación de formato ``%e``, siendo la medición
2004 más realista porque incluye el tiempo de carga del ejecutable, inicialización
2005 del *runtime* de D_ y del recolector.
2007 Todas las demás métricas se obtienen utilizando la salida generada por la
2008 opción ``collect_stats_file`` (ver :ref:`sol_stats`), por lo que no pueden ser
2009 medidos para TBGC. Sin embargo se espera que para esos casos los resultados no
2010 sean muy distintos a CDGC utilizando la configuración **cons** (ver sección
2013 Cabe destacar que las corridas para medir el tiempo total de ejecución no son
2014 las mismas que al utilizar la opción ``collect_stats_file``; cuando se mide el
2015 tiempo de ejecución no se utiliza esa opción porque impone un trabajo extra
2016 importante y perturbaría demasiado la medición del tiempo. Sin embargo, los
2017 tiempos medidos internamente al utilizar la opción ``collect_stats_file`` son
2018 muy precisos, dado que se hace un particular esfuerzo para que no se haga un
2019 trabajo extra mientras se está midiendo el tiempo.
2021 Al obtener el tiempo de *stop-the-world* se ignoran los apariciones del valor
2022 ``-1``, que indica que se solicitó una recolección pero que ya había otra en
2023 curso, por lo que no se pausan los hilos realmente. Como tiempo de pausa real
2024 (ver :ref:`sol_fork` para más detalles sobre la diferencia con el tiempo de
2025 *stop-the-world*) se toma el valor del tiempo que llevó la asignación de
2026 memoria que disparó la recolección.
2028 Para medir la cantidad de memoria máxima se calcula el valor máximo de la
2029 sumatoria de: memoria usada, memoria libre, memoria desperdiciada y memoria
2030 usada por el mismo recolector (es decir, el total de memoria pedida por el
2031 programa al sistema operativo, aunque no toda este siendo utilizada por el
2032 *mutator* realmente).
2034 Por último, la cantidad total de recolecciones realizadas se calcula contando
2035 la cantidad de entradas del archivo generado por ``collect_stats_file``,
2036 ignorando la cabecera y las filas cuyo valor de tiempo de *stop-the-world* es
2037 ``-1``, debido a que en ese caso no se disparó realmente una recolección dado
2038 que ya había una en curso.
2040 Además, ciertas pruebas se corren variando la cantidad de procesadores
2041 utilizados, para medir el impacto de la concurrencia en ambientes con un
2042 procesador solo y con múltiples procesadores. Para esto se utiliza el comando
2043 :manpage:`taskset`, que establece la *afinidad* de un proceso, *atándolo*
2044 a correr en un cierto conjunto de procesadores. Si bien las pruebas se
2045 realizan utilizando 1, 2, 3 y 4 procesadores, los resultados presentados en
2046 general se limitan a 1 y 4 procesadores, ya que no se observan diferencias
2047 sustanciales al utilizar 2 o 3 procesadores con respecto a usar 4 (solamente
2048 se ven de forma más atenuadas las diferencias entre la utilización de
2049 1 o 4 procesadores). Dado que de por sí ya son muchos los datos a procesar
2050 y analizar, agregar más resultados que no aportan información valiosa termina
2051 resultando contraproducente.
2053 En los casos donde se utilizan otro tipo de métricas para evaluar aspectos
2054 particulares sobre alguna modificación se describe como se realiza la medición
2055 donde se utiliza la métrica especial.
2057 Variabilidad de los resultados entre ejecuciones
2058 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
2059 Es de esperarse que haya una cierta variación en los resultados entre
2060 corridas, dada la indeterminación inherente a los sistemas operativos de
2061 tiempo compartido, que compiten por los recursos de la computadora.
2063 Para minimizar esta variación se utilizan varias herramientas. En primer
2064 lugar, se corren las pruebas estableciendo máxima prioridad (-19 en Linux_) al
2065 proceso utilizando el comando :manpage:`nice(1)`. La variación en la
2066 frecuencia del reloj los procesadores (para ahorrar energía) puede ser otra
2067 fuente de variación, por lo que se usa el comando :manpage:`cpufreq-set(1)`
2068 para establecer la máxima frecuencia disponible de manera fija.
2070 Sin embargo, a pesar de tomar estas precauciones, se sigue observando una
2071 amplia variabilidad entre corridas. Además se observa una variación más
2072 importante de la esperada no solo en el tiempo, también en el consumo de
2073 memoria, lo que es más extraño. Esta variación se debe principalmente a que
2074 Linux_ asigna el espacio de direcciones a los procesos con una componente
2075 azarosa (por razones de seguridad). Además, por omisión, la llamada al sistema
2076 :manpage:`mmap(2)` asigna direcciones de memoria altas primero, entregando
2077 direcciones más bajas en llamadas subsiguientes [LWN90311]_.
2079 El comando :manpage:`setarch(8)` sirve para controlar éste y otros aspectos de
2080 Linux_. La opción ``-L`` hace que se utilice un esquema de asignación de
2081 direcciones antiguo, que no tiene una componente aleatoria y asigna primero
2082 direcciones bajas. La opción ``-R`` solamente desactiva la componente azarosa
2083 al momento de asignar direcciones.
2085 .. ftable:: t:sol-setarch
2087 Variación entre corridas para TBGC.
2089 Variación entre corridas para TBGC. La medición está efectuada utilizando
2090 los valores máximo, mínimo y media estadística de 20 corridas, utilizando
2091 la siguiente métrica: :math:`\frac{max - min}{\mu}`. La medida podría
2092 realizarse utilizando el desvío estándar en vez de la amplitud máxima, pero
2093 en este cuadro se quiere ilustrar la variación máxima, no la típica.
2097 Del tiempo total de ejecución.
2099 ======== ======== ======== ========
2100 Programa Normal ``-R`` ``-L``
2101 ======== ======== ======== ========
2102 bh 0.185 0.004 0.020
2103 bigarr 0.012 0.002 0.016
2104 bisort 0.006 0.003 0.006
2105 conalloc 0.004 0.004 0.004
2106 concpu 0.272 0.291 0.256
2107 dil 0.198 0.128 0.199
2108 em3d 0.006 0.033 0.029
2109 mcore 0.009 0.009 0.014
2110 rnddata 0.015 0.002 0.011
2111 sbtree 0.012 0.002 0.012
2112 split 0.025 0.000 0.004
2113 tsp 0.071 0.068 0.703
2114 voronoi 0.886 0.003 0.006
2115 ======== ======== ======== ========
2119 Del consumo máximo de memoria.
2121 ======== ======== ======== ========
2122 Programa Normal ``-R`` ``-L``
2123 ======== ======== ======== ========
2124 bh 0.001 0.000 0.001
2125 bigarr 0.001 0.000 0.001
2126 bisort 0.000 0.000 0.000
2127 conalloc 0.753 0.000 0.001
2128 concpu 0.002 0.000 0.001
2129 dil 0.055 0.028 0.013
2130 em3d 0.000 0.001 0.001
2131 mcore 0.447 0.482 0.460
2132 rnddata 0.000 0.000 0.000
2133 sbtree 0.000 0.000 0.000
2134 split 0.000 0.000 0.000
2135 tsp 0.000 0.001 0.000
2136 voronoi 0.001 0.000 0.000
2137 ======== ======== ======== ========
2139 Ambas opciones, reducen notablemente la variación en los resultados (ver
2140 cuadro :vref:`t:sol-setarch`). Esto probablemente se debe a la naturaleza
2141 conservativa del recolector, dado que la probabilidad de tener *falsos
2142 punteros* depende directamente de los valores de las direcciones de memoria,
2143 aunque las pruebas en la que hay concurrencia involucrada, se siguen viendo
2144 grandes variaciones, que probablemente estén vinculadas a problemas de
2145 sincronización que se ven expuestos gracias al indeterminismo inherente a los
2146 programas multi-hilo.
2148 Si bien se obtienen resultados más estables utilizando un esquema diferente al
2149 utilizado por omisión, se decide no hacerlo dado que las mediciones serían
2150 menos realistas. Los usuarios en general no usan esta opción y se presentaría
2151 una visión más acotada sobre el comportamiento de los programas. Sin embargo,
2152 para evaluar el este efecto en los resultados, siempre que sea posible se
2153 analizan los resultados de un gran número de corridas observando
2154 principalmente su mínima, media, máxima y desvío estándar.
2158 Resultados para pruebas sintizadas
2159 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2161 A continuación se presentan los resultados obtenidos para las pruebas
2162 sintetizadas (ver :ref:`sol_bench_synth`). Se recuerda que este conjunto de
2163 resultados es útil para analizar ciertos aspectos puntuales de las
2164 modificaciones propuestas, pero en general distan mucho de como se comporta un
2165 programa real, por lo que los resultados deben ser analizados teniendo esto
2170 .. fig:: fig:sol-bigarr-1cpu
2172 Resultados para ``bigarr`` (utilizando 1 procesador).
2174 Resultados para ``bigarr`` (utilizando 1 procesador). Se presenta el
2175 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2176 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2177 ejecución) o 20 corridas (para el resto).
2181 Tiempo de ejecución (seg)
2183 .. image:: plots/time-bigarr-1cpu.pdf
2187 Cantidad de recolecciones
2189 .. image:: plots/ncol-bigarr-1cpu.pdf
2193 Uso máximo de memoria (MiB)
2195 .. image:: plots/mem-bigarr-1cpu.pdf
2199 *Stop-the-world* máximo (seg)
2201 .. image:: plots/stw-bigarr-1cpu.pdf
2205 Pausa real máxima (seg)
2207 .. image:: plots/pause-bigarr-1cpu.pdf
2209 .. fig:: fig:sol-bigarr-4cpu
2211 Resultados para ``bigarr`` (utilizando 4 procesadores).
2213 Resultados para ``bigarr`` (utilizando 4 procesadores). Se presenta el
2214 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2215 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2216 ejecución) o 20 corridas (para el resto).
2220 Tiempo de ejecución (seg)
2222 .. image:: plots/time-bigarr-4cpu.pdf
2226 Cantidad de recolecciones
2228 .. image:: plots/ncol-bigarr-4cpu.pdf
2232 Uso máximo de memoria (MiB)
2234 .. image:: plots/mem-bigarr-4cpu.pdf
2238 *Stop-the-world* máximo (seg)
2240 .. image:: plots/stw-bigarr-4cpu.pdf
2244 Pausa real máxima (seg)
2246 .. image:: plots/pause-bigarr-4cpu.pdf
2248 En la figura :vref:`fig:sol-bigarr-1cpu` se pueden observar los resultados
2249 para ``bigarr`` al utilizar un solo procesador. En ella se puede notar que el
2250 tiempo total de ejecución en general aumenta al utilizar CDGC, esto es
2251 esperable, dado esta prueba se limitan a usar servicios del recolector. Dado
2252 que esta ejecución utiliza solo un procesador y por lo tanto no se puede sacar
2253 provecho a la concurrencia, es de esperarse que el trabajo extra realizado por
2254 las modificaciones se vea reflejado en los resultados. En la
2255 :vref:`fig:sol-bigarr-4cpu` (resultados al utilizar 4 procesadores) se puede
2256 observar como al usar solamente *eager allocation* se recupera un poco el
2257 tiempo de ejecución, probablemente debido al incremento en la concurrencia
2258 (aunque no se observa el mismo efecto al usar *early collection*).
2260 Observando el tiempo total de ejecución, no se esperaba un incremento tan
2261 notorio al pasar de TBGC a una configuración equivalente de CDGC **cons**,
2262 haciendo un breve análisis de las posibles causas, lo más probable parece ser
2263 el incremento en la complejidad de la fase de marcado dada capacidad para
2264 marcar de forma precisa (aunque no se use la opción, se paga el precio de la
2265 complejidad extra y sin obtener los beneficios). Además se puede observar
2266 como el agregado de precisión al marcado mejora un poco las cosas (donde sí se
2267 obtiene rédito de la complejidad extra en el marcado).
2269 En general se observa que al usar *eager allocation* el consumo de memoria
2270 y los tiempos de pausa se disparan mientras que la cantidad de recolecciones
2271 disminuye drásticamente. Lo que se observa es que el programa es
2272 más veloz pidiendo memoria que recolectándola, por lo que crece mucho el
2273 consumo de memoria. Como consecuencia la fase de barrido (que no corre en
2274 paralelo al *mutator* como la fase de marcado) empieza a ser predominante en
2275 el tiempo de pausa por ser tan grande la cantidad de memoria a barrer. Este
2276 efecto se ve tanto al usar 1 como 4 procesadores, aunque el efecto es mucho
2277 más nocivo al usar 1 debido a la alta variabilidad que impone la competencia
2278 entre el *mutator* y recolector al correr de forma concurrente.
2280 Sin embargo, el tiempo de *stop-the-world* es siempre considerablemente más
2281 pequeño al utilizar marcado concurrente en CDGC, incluso cuando se utiliza
2282 *eager allocation*, aunque en este caso aumenta un poco, también debido al
2283 incremento en el consumo de memoria, ya que el sistema operativo tiene que
2284 copiar tablas de memoria más grandes al efectuar el *fork* (ver
2289 .. fig:: fig:sol-concpu-1cpu
2291 Resultados para ``concpu`` (utilizando 1 procesador).
2293 Resultados para ``concpu`` (utilizando 1 procesador). Se presenta el
2294 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2295 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2296 ejecución) o 20 corridas (para el resto).
2300 Tiempo de ejecución (seg)
2302 .. image:: plots/time-concpu-1cpu.pdf
2306 Cantidad de recolecciones
2308 .. image:: plots/ncol-concpu-1cpu.pdf
2312 Uso máximo de memoria (MiB)
2314 .. image:: plots/mem-concpu-1cpu.pdf
2318 *Stop-the-world* máximo (seg)
2320 .. image:: plots/stw-concpu-1cpu.pdf
2324 Pausa real máxima (seg)
2326 .. image:: plots/pause-concpu-1cpu.pdf
2328 .. fig:: fig:sol-concpu-4cpu
2330 Resultados para ``concpu`` (utilizando 4 procesadores).
2332 Resultados para ``concpu`` (utilizando 4 procesadores). Se presenta el
2333 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2334 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2335 ejecución) o 20 corridas (para el resto).
2339 Tiempo de ejecución (seg)
2341 .. image:: plots/time-concpu-4cpu.pdf
2345 Cantidad de recolecciones
2347 .. image:: plots/ncol-concpu-4cpu.pdf
2351 Uso máximo de memoria (MiB)
2353 .. image:: plots/mem-concpu-4cpu.pdf
2357 *Stop-the-world* máximo (seg)
2359 .. image:: plots/stw-concpu-4cpu.pdf
2363 Pausa real máxima (seg)
2365 .. image:: plots/pause-concpu-4cpu.pdf
2367 En la figura :vref:`fig:sol-concpu-1cpu` se pueden observar los resultados
2368 para ``concpu`` al utilizar un solo procesador. En ella se aprecia que el
2369 tiempo total de ejecución disminuye levemente al usar marcado concurrente
2370 mientras no se utilice *eager allocation* pero aumenta al utilizarlo.
2372 Con respecto a la cantidad de recolecciones, uso máximo de memoria y tiempo de
2373 *stop-the-world* se ve un efecto similar al descripto para ``bigarr`` (aunque
2374 magnificado), pero sorprendentemente el tiempo total de pausa se dispara,
2375 además con una variabilidad sorprendente, cuando se usa marcado concurrente
2376 (pero no *eager allocation*). Una posible explicación podría ser que al
2377 realizarse el *fork*, el sistema operativo muy probablemente entregue el
2378 control del único procesador disponible al resto de los hilos que compiten por
2379 él, por lo que queda mucho tiempo pausado en esa operación aunque realmente no
2380 esté haciendo trabajo alguno (simplemente no tiene tiempo de procesador para
2381 correr). Este efecto se cancela al usar *eager allocation* dado que el
2382 *mutator* nunca se bloquea esperando que el proceso de marcado finalice.
2384 Además se observa una caída importante en la cantidad de recolecciones al
2385 utilizar marcado concurrente. Esto probablemente se deba a que solo un hilo
2386 pide memoria (y por lo tanto dispara recolecciones), mientras los demás hilos
2387 también estén corriendo. Al pausarse todos los hilos por menos tiempo, el
2388 trabajo se hace más rápido (lo que explica la disminución del tiempo total de
2389 ejecución) y son necesarias menos recolecciones, por terminar más rápido
2390 también el hilo que las dispara.
2392 En la :vref:`fig:sol-concpu-4cpu` se pueden ver los resultados al utilizar
2393 4 procesadores, donde el panorama cambia sustancialmente. El efecto mencionado
2394 en el párrafo anterior no se observa más (pues el sistema operativo tiene más
2395 procesadores para asignar a los hilos) pero todos los resultados se vuelven
2396 más variables. Los tiempos de *stop-the-world* y pausa real (salvo por lo
2397 recién mencionado) crecen notablemente, al igual que su variación. No se
2398 encuentra una razón evidente para esto; podría ser un error en la medición
2399 dado que al utilizar todos los procesadores disponibles del *hardware*,
2400 cualquier otro proceso que compita por tiempo de procesador puede afectarla
2403 El tiempo total de ejecución crece considerablemente, como se espera, dado que
2404 el programa aprovecha los múltiples hilos que pueden correr en paralelo en
2405 procesadores diferentes.
2407 Sin embargo, no se encuentra una razón clara para explicar el crecimiento
2408 dramático en la cantidad de recolecciones solo al no usar marcado concurrente
2409 para 4 procesadores.
2413 .. fig:: fig:sol-conalloc-1cpu
2415 Resultados para ``conalloc`` (utilizando 1 procesador).
2417 Resultados para ``conalloc`` (utilizando 1 procesador). Se presenta el
2418 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2419 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2420 ejecución) o 20 corridas (para el resto).
2424 Tiempo de ejecución (seg)
2426 .. image:: plots/time-conalloc-1cpu.pdf
2430 Cantidad de recolecciones
2432 .. image:: plots/ncol-conalloc-1cpu.pdf
2436 Uso máximo de memoria (MiB)
2438 .. image:: plots/mem-conalloc-1cpu.pdf
2442 *Stop-the-world* máximo (seg)
2444 .. image:: plots/stw-conalloc-1cpu.pdf
2448 Pausa real máxima (seg)
2450 .. image:: plots/pause-conalloc-1cpu.pdf
2452 .. fig:: fig:sol-conalloc-4cpu
2454 Resultados para ``conalloc`` (utilizando 4 procesadores).
2456 Resultados para ``conalloc`` (utilizando 4 procesadores). Se presenta el
2457 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2458 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2459 ejecución) o 20 corridas (para el resto).
2463 Tiempo de ejecución (seg)
2465 .. image:: plots/time-conalloc-4cpu.pdf
2469 Cantidad de recolecciones
2471 .. image:: plots/ncol-conalloc-4cpu.pdf
2475 Uso máximo de memoria (MiB)
2477 .. image:: plots/mem-conalloc-4cpu.pdf
2481 *Stop-the-world* máximo (seg)
2483 .. image:: plots/stw-conalloc-4cpu.pdf
2487 Pausa real máxima (seg)
2489 .. image:: plots/pause-conalloc-4cpu.pdf
2491 En la figura :vref:`fig:sol-conalloc-1cpu` se pueden observar los resultados
2492 para ``conalloc`` al utilizar un solo procesador. Los cambios con respecto
2493 a lo observado para ``concpu`` son mínimos. El efecto de la mejoría al usar
2494 marcado concurrente pero no *eager allocation* no se observa más, dado que
2495 ``conalloc`` pide memoria en todos los hilos, se crea un cuello de botella. Se
2496 ve claramente como tampoco baja la cantidad de recolecciones hecha debido
2497 a esto y se invierte la variabilidad entre los tiempos pico de pausa real
2498 y *stop-the-world* (sin una razón obvia, pero probablemente relacionado que
2499 todos los hilos piden memoria).
2501 Al utilizar 4 procesadores (figura :vref:`fig:sol-conalloc-4cpu`), más allá de
2502 las diferencias mencionadas para 1 procesador, no se observan grandes cambios
2503 con respecto a lo observado para ``concpu``, excepto que los tiempos de pausa
2504 (real y *stop-the-world*) son notablemente más pequeños, lo que pareciera
2505 confirmar un error en la medición de ``concpu``.
2509 .. fig:: fig:sol-split-1cpu
2511 Resultados para ``split`` (utilizando 1 procesador).
2513 Resultados para ``split`` (utilizando 1 procesador). Se presenta el mínimos
2514 (en negro), la media centrada entre dos desvíos estándar (en gris), y el
2515 máximo (en blanco) calculados sobre 50 corridas (para tiempo de ejecución)
2516 o 20 corridas (para el resto).
2520 Tiempo de ejecución (seg)
2522 .. image:: plots/time-split-1cpu.pdf
2526 Cantidad de recolecciones
2528 .. image:: plots/ncol-split-1cpu.pdf
2532 Uso máximo de memoria (MiB)
2534 .. image:: plots/mem-split-1cpu.pdf
2538 *Stop-the-world* máximo (seg)
2540 .. image:: plots/stw-split-1cpu.pdf
2544 Pausa real máxima (seg)
2546 .. image:: plots/pause-split-1cpu.pdf
2548 Este es el primer caso donde se aprecia la sustancial mejora proporcionada por
2549 una pequeña optimización, el caché de ``findSize()`` (ver
2550 :ref:`sol_minor_findsize`). En la figura :vref:`fig:sol-split-1cpu` se puede
2551 observar con claridad como, para cualquier configuración de CDGC, hay una
2552 caída notable en el tiempo total de ejecución. Sin embargo, a excepción de
2553 cuando se utiliza *eager allocation*, la cantidad de recolecciones y memoria
2554 usada permanece igual.
2556 La utilización de *eager allocation* mejora (aunque de forma apenas
2557 apreciable) el tiempo de ejecución, la cantidad de recolecciones baja a un
2558 tercio y el tiempo de pausa real cae dramáticamente. Al usar marcado
2559 concurrente ya se observa una caída determinante en el tiempo de
2560 *stop-the-world*. Todo esto sin verse afectado el uso máximo de memoria,
2561 incluso al usar *eager allocation*.
2563 Se omiten los resultados para más de un procesador por ser prácticamente
2564 idénticos para este análisis.
2568 .. fig:: fig:sol-mcore-1cpu
2570 Resultados para ``mcore`` (utilizando 1 procesador).
2572 Resultados para ``mcore`` (utilizando 1 procesador). Se presenta el
2573 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2574 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2575 ejecución) o 20 corridas (para el resto).
2579 Tiempo de ejecución (seg)
2581 .. image:: plots/time-mcore-1cpu.pdf
2585 Cantidad de recolecciones
2587 .. image:: plots/ncol-mcore-1cpu.pdf
2591 Uso máximo de memoria (MiB)
2593 .. image:: plots/mem-mcore-1cpu.pdf
2597 *Stop-the-world* máximo (seg)
2599 .. image:: plots/stw-mcore-1cpu.pdf
2603 Pausa real máxima (seg)
2605 .. image:: plots/pause-mcore-1cpu.pdf
2607 .. fig:: fig:sol-mcore-4cpu
2609 Resultados para ``mcore`` (utilizando 4 procesadores).
2611 Resultados para ``mcore`` (utilizando 4 procesadores). Se presenta el
2612 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2613 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2614 ejecución) o 20 corridas (para el resto).
2618 Tiempo de ejecución (seg)
2620 .. image:: plots/time-mcore-4cpu.pdf
2624 Cantidad de recolecciones
2626 .. image:: plots/ncol-mcore-4cpu.pdf
2630 Uso máximo de memoria (MiB)
2632 .. image:: plots/mem-mcore-4cpu.pdf
2636 *Stop-the-world* máximo (seg)
2638 .. image:: plots/stw-mcore-4cpu.pdf
2642 Pausa real máxima (seg)
2644 .. image:: plots/pause-mcore-4cpu.pdf
2646 El caso de ``mcore`` es interesante por ser, funcionalmente, una combinación
2647 entre ``concpu`` y ``split``, con un agregado extra: el incremento notable de
2648 la competencia por utilizar el recolector entre los múltiples hilos.
2650 Los efectos observados (en la figura :vref:`fig:sol-mcore-1cpu` para
2651 1 procesador y en la figura :vref:`fig:sol-mcore-4cpu` para 4) confirman esto,
2652 al ser una suma de los efectos observados para ``concpu`` y ``split``, con el
2653 agregado de una particularidad extra por la mencionada competencia entre
2654 hilos. A diferencia de ``concpu`` donde el incremento de procesadores resulta
2655 en un decremento en el tiempo total de ejecución, en este caso resulta en una
2656 disminución, dado que se necesita mucha sincronización entre hilos, por
2657 utilizar todos de forma intensiva los servicios del recolector (y por lo tanto
2658 competir por su *lock* global).
2660 Otro efecto común observado es que cuando el tiempo de pausa es muy pequeño
2661 (del orden de los milisegundos), el marcado concurrente suele incrementarlo en
2666 .. fig:: fig:sol-rnddata-1cpu
2668 Resultados para ``rnddata`` (utilizando 1 procesador).
2670 Resultados para ``rnddata`` (utilizando 1 procesador). Se presenta el
2671 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2672 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2673 ejecución) o 20 corridas (para el resto).
2677 Tiempo de ejecución (seg)
2679 .. image:: plots/time-rnddata-1cpu.pdf
2683 Cantidad de recolecciones
2685 .. image:: plots/ncol-rnddata-1cpu.pdf
2689 Uso máximo de memoria (MiB)
2691 .. image:: plots/mem-rnddata-1cpu.pdf
2695 *Stop-the-world* máximo (seg)
2697 .. image:: plots/stw-rnddata-1cpu.pdf
2701 Pausa real máxima (seg)
2703 .. image:: plots/pause-rnddata-1cpu.pdf
2705 En la figura :vref:`fig:sol-rnddata-1cpu` se presentan los resultados para
2706 ``rnddata`` utilizando 1 procesador. Una vez más estamos ante un caso en el
2707 cual se observa claramente la mejoría gracias a una modificación en particular
2708 principalmente. En esta caso es el marcado preciso. Se puede ver claramente
2709 como mejora el tiempo de total de ejecución a algo más que la mitad (en
2710 promedio, aunque se observa una anomalía donde el tiempo baja hasta más de
2711 3 veces). Sin embargo, a menos que se utilice *eager allocation* o *early
2712 collection* (que en este caso prueba ser muy efectivo), la cantidad de
2713 recolecciones aumenta considerablemente.
2715 La explicación puede ser hallada en el consumo de memoria, que baja unas
2716 3 veces en promedio usando marcado preciso que además hace disminuir
2717 drásticamente (unas 10 veces) el tiempo de pausa (real y *stop-the-world*). El
2718 tiempo de *stop-the-world* disminuye unas 10 veces más al usar marcado
2719 concurrente y el tiempo de pausa real al usar *eager allocation*, pero en este
2720 caso el consumo de memoria aumenta también bastante (aunque no tanto como
2721 disminuye el tiempo de pausa, por lo que puede ser un precio que valga la pena
2722 pagar si se necesitan tiempos de pausa muy pequeños).
2724 El aumento en el variación de los tiempos de ejecución al usar marcado preciso
2725 probablemente se debe a lo siguiente: con marcado conservativo, debe estar
2726 sobreviviendo a las recolecciones el total de memoria pedida por el programa,
2727 debido a falsos punteros (por eso no se observa prácticamente variación en el
2728 tiempo de ejecución y memoria máxima consumida); al marcar con precisión
2729 parcial, se logra disminuir mucho la cantidad de falsos punteros, pero el
2730 *stack* y la memoria estática, se sigue marcado de forma conservativa, por lo
2731 tanto dependiendo de los valores (aleatorios) generados por la prueba, aumenta
2732 o disminuye la cantidad de falsos punteros, variando así la cantidad de
2733 memoria consumida y el tiempo de ejecución.
2735 No se muestran los resultados para más de un procesador por ser demasiado
2736 similares a los obtenidos utilizando solo uno.
2740 Los resultados para ``sbtree`` son tan similares a los obtenidos con
2741 ``bigarr`` que directamente se omiten por completo, dado que no aportan ningún
2742 tipo de información nueva. Por un lado es esperable, dado que ambas pruebas se
2743 limitan prácticamente a pedir memoria, la única diferencia es que una pide
2744 objetos grandes y otra objetos pequeños, pero esta diferencia parece no
2745 afectar la forma en la que se comportan los cambios introducidos en este
2749 Resultados para pruebas pequeñas
2750 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
2752 A continuación se presentan los resultados obtenidos para las pruebas pequeñas
2753 (ver :ref:`sol_bench_small`). Se recuerda que si bien este conjunto de pruebas
2754 se compone de programas reales, que efectúan una tarea útil, están diseñados
2755 para ejercitar la asignación de memoria y que no son recomendados para evaluar
2756 el desempeño de recolectores de basura. Sin embargo se las utiliza igual por
2757 falta de programas más realistas, por lo que hay que tomarlas como un grado de
2762 .. fig:: fig:sol-bh-1cpu
2764 Resultados para ``bh`` (utilizando 1 procesador).
2766 Resultados para ``bh`` (utilizando 1 procesador). Se presenta el
2767 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2768 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2769 ejecución) o 20 corridas (para el resto).
2773 Tiempo de ejecución (seg)
2775 .. image:: plots/time-bh-1cpu.pdf
2779 Cantidad de recolecciones
2781 .. image:: plots/ncol-bh-1cpu.pdf
2785 Uso máximo de memoria (MiB)
2787 .. image:: plots/mem-bh-1cpu.pdf
2791 *Stop-the-world* máximo (seg)
2793 .. image:: plots/stw-bh-1cpu.pdf
2797 Pausa real máxima (seg)
2799 .. image:: plots/pause-bh-1cpu.pdf
2801 En la figura :vref:`fig:sol-bh-1cpu` se pueden observar los resultados
2802 para ``bh`` al utilizar un solo procesador. Ya en una prueba un poco más
2803 realista se puede observar el efecto positivo del marcado preciso, en especial
2804 en la cantidad de recolecciones efectuadas (aunque no se traduzca en un menor
2805 consumo de memoria).
2807 Sin embargo se observa también un efecto nocivo del marcado preciso en el
2808 consumo de memoria que intuitivamente debería disminuir, pero crece, y de
2809 forma considerable (unas 3 veces en promedio). La razón de esta particularidad
2810 es el incremento en el espacio necesario para almacenar objetos debido a que
2811 el puntero a la información del tipo se guarda al final del bloque (ver
2812 :ref:`sol_precise`). En el cuadro :vref:`t:sol-prec-mem-bh` se puede observar
2813 la cantidad de memoria pedida por el programa, la cantidad de memoria
2814 realmente asignada por el recolector (y la memoria desperdiciada) cuando se
2815 usa marcado conservativo y preciso. Estos valores fueron tomados usando la
2816 opción ``malloc_stats_file`` (ver :ref:`sol_stats`).
2818 .. ftable:: t:sol-prec-mem-bh
2820 Memoria pedida y asignada para ``bh`` según modo de marcado.
2822 Memoria pedida y asignada para ``bh`` según modo de marcado conservativo
2823 o preciso (acumulativo durante toda la vida del programa).
2825 ============== ============== ============== =================
2826 Memoria Pedida (MiB) Asignada (MiB) Desperdicio (MiB)
2827 ============== ============== ============== =================
2828 Conservativo 302.54 354.56 52.02 (15%)
2829 Preciso 302.54 472.26 169.72 (36%)
2830 ============== ============== ============== =================
2832 Más allá de esto, los resultados son muy similares a los obtenidos para
2833 pruebas sintetizadas que se limitan a ejercitar el recolector (como ``bigarr``
2834 y ``sbtree``), lo que habla de lo mucho que también lo hace este pequeño
2837 No se muestran los resultados para más de un procesador por ser extremadamente
2838 similares a los obtenidos utilizando solo uno.
2842 .. fig:: fig:sol-bisort-1cpu
2844 Resultados para ``bisort`` (utilizando 1 procesador).
2846 Resultados para ``bisort`` (utilizando 1 procesador). Se presenta el
2847 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2848 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2849 ejecución) o 20 corridas (para el resto).
2853 Tiempo de ejecución (seg)
2855 .. image:: plots/time-bisort-1cpu.pdf
2859 Cantidad de recolecciones
2861 .. image:: plots/ncol-bisort-1cpu.pdf
2865 Uso máximo de memoria (MiB)
2867 .. image:: plots/mem-bisort-1cpu.pdf
2871 *Stop-the-world* máximo (seg)
2873 .. image:: plots/stw-bisort-1cpu.pdf
2877 Pausa real máxima (seg)
2879 .. image:: plots/pause-bisort-1cpu.pdf
2881 La figura :vref:`fig:sol-bisort-1cpu` muestra los resultados para ``bisort``
2882 al utilizar 1 procesador. En este caso el parecido es con los resultados para
2883 la prueba sintetizada ``split``, con la diferencia que el tiempo de ejecución
2884 total prácticamente no varía entre TBGC y CDGC, ni entre las diferentes
2885 configuraciones del último (evidentemente en este caso no se aprovecha el
2886 caché de ``findSize()``).
2888 Otra diferencia notable es la considerable reducción del tiempo de pausa real
2889 al utilizar *early collection* (más de 3 veces menor en promedio comparado
2890 a cuando se marca conservativamente, y más de 2 veces menor que cuando se hace
2891 de forma precisa), lo que indica que la predicción de cuando se va a necesitar
2892 una recolección es más efectiva que para ``split``.
2894 No se muestran los resultados para más de un procesador por ser extremadamente
2895 similares a los obtenidos utilizando solo uno.
2899 .. fig:: fig:sol-em3d-1cpu
2901 Resultados para ``em3d`` (utilizando 1 procesador).
2903 Resultados para ``em3d`` (utilizando 1 procesador). Se presenta el
2904 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2905 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2906 ejecución) o 20 corridas (para el resto).
2910 Tiempo de ejecución (seg)
2912 .. image:: plots/time-em3d-1cpu.pdf
2916 Cantidad de recolecciones
2918 .. image:: plots/ncol-em3d-1cpu.pdf
2922 Uso máximo de memoria (MiB)
2924 .. image:: plots/mem-em3d-1cpu.pdf
2928 *Stop-the-world* máximo (seg)
2930 .. image:: plots/stw-em3d-1cpu.pdf
2934 Pausa real máxima (seg)
2936 .. image:: plots/pause-em3d-1cpu.pdf
2938 Los resultados para ``em3d`` (figura :vref:`fig:sol-em3d-1cpu`) son
2939 sorprendentemente similares a los de ``bisort``. La única diferencia es que en
2940 este caso el marcado preciso y el uso de *early collection** no parecen
2941 ayudar; por el contrario, aumentan levemente el tiempo de pausa real.
2943 Una vez más no se muestran los resultados para más de un procesador por ser
2944 extremadamente similares a los obtenidos utilizando solo uno.
2948 .. fig:: fig:sol-tsp-1cpu
2950 Resultados para ``tsp`` (utilizando 1 procesador).
2952 Resultados para ``tsp`` (utilizando 1 procesador). Se presenta el
2953 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
2954 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
2955 ejecución) o 20 corridas (para el resto).
2959 Tiempo de ejecución (seg)
2961 .. image:: plots/time-tsp-1cpu.pdf
2965 Cantidad de recolecciones
2967 .. image:: plots/ncol-tsp-1cpu.pdf
2971 Uso máximo de memoria (MiB)
2973 .. image:: plots/mem-tsp-1cpu.pdf
2977 *Stop-the-world* máximo (seg)
2979 .. image:: plots/stw-tsp-1cpu.pdf
2983 Pausa real máxima (seg)
2985 .. image:: plots/pause-tsp-1cpu.pdf
2987 Los resultados para ``tsp`` (figura :vref:`fig:sol-tsp-1cpu`) son
2988 prácticamente idénticos a los de ``bisort``. La única diferencia es que la
2989 reducción del tiempo de pausa real es un poco menor.
2991 Esto confirma en cierta medida la poca utilidad de este juego de pruebas para
2992 medir el rendimiento de un recolector, dado que evidentemente, si bien todas
2993 resuelven problemas diferentes, realizan todas el mismo tipo de trabajo.
2995 Una vez más no se muestran los resultados para más de un procesador por ser
2996 extremadamente similares a los obtenidos utilizando solo uno.
3000 .. fig:: fig:sol-voronoi-1cpu
3002 Resultados para ``voronoi`` (utilizando 1 procesador).
3004 Resultados para ``voronoi`` (utilizando 1 procesador). Se presenta el
3005 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
3006 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
3007 ejecución) o 20 corridas (para el resto).
3011 Tiempo de ejecución (seg)
3013 .. image:: plots/time-voronoi-1cpu.pdf
3017 Cantidad de recolecciones
3019 .. image:: plots/ncol-voronoi-1cpu.pdf
3023 Uso máximo de memoria (MiB)
3025 .. image:: plots/mem-voronoi-1cpu.pdf
3029 *Stop-the-world* máximo (seg)
3031 .. image:: plots/stw-voronoi-1cpu.pdf
3035 Pausa real máxima (seg)
3037 .. image:: plots/pause-voronoi-1cpu.pdf
3039 .. fig:: fig:sol-voronoi-4cpu
3041 Resultados para ``voronoi`` (utilizando 4 procesadores).
3043 Resultados para ``voronoi`` (utilizando 4 procesadores). Se presenta el
3044 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
3045 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
3046 ejecución) o 20 corridas (para el resto).
3050 Tiempo de ejecución (seg)
3052 .. image:: plots/time-voronoi-4cpu.pdf
3056 Cantidad de recolecciones
3058 .. image:: plots/ncol-voronoi-4cpu.pdf
3062 Uso máximo de memoria (MiB)
3064 .. image:: plots/mem-voronoi-4cpu.pdf
3068 *Stop-the-world* máximo (seg)
3070 .. image:: plots/stw-voronoi-4cpu.pdf
3074 Pausa real máxima (seg)
3076 .. image:: plots/pause-voronoi-4cpu.pdf
3078 En la figura :vref:`fig:sol-voronoi-1cpu` se presentan los resultados para
3079 ``voronoi``, probablemente la prueba más interesante de este conjunto de
3082 Por un lado se puede observar una vez más como baja dramáticamente el tiempo
3083 total de ejecución cuando se empieza a utilizar CDGC. Ya se ha visto que esto
3084 es común en programas que se benefician del caché de ``findSize()``, pero en
3085 este caso no parece provenir toda la ganancia solo de ese cambio, dado que
3086 para TBGC se ve una variación entre los resultados muy grande que desaparece
3087 al cambiar a CDGC, esto no puede ser explicado por esa optimización. En
3088 general la disminución de la variación de los resultados hemos visto que está
3089 asociada al incremento en la precisión en el marcado, dado que los falsos
3090 punteros ponen una cuota de aleatoriedad importante. Pero este tampoco parece
3091 ser el caso, ya que no se observan cambios apreciables al pasar a usar marcado
3094 Lo que se observa en esta oportunidad es un caso patológico de un mal factor
3095 de ocupación del *heap* (ver :ref:`sol_ocup`). Lo que muy probablemente está
3096 sucediendo con TBGC es que luego de ejecutar una recolección, se libera muy
3097 poco espacio, entonces luego de un par de asignaciones, es necesaria una nueva
3098 recolección. En este caso es donde dificulta la tarea de analizar los
3099 resultados la falta de métricas para TBGC, dado que no se pueden observar la
3100 cantidad de recolecciones ni de consumo máximo de memoria. Sin embargo es
3101 fácil corroborar esta teoría experimentalmente, gracias a la opción
3102 ``min_free``. Utilizando la ``min_free=0`` para emular el comportamiento de
3103 TBGC (se recuerda que el valor por omisión es ``min_free=5``), se obtiene una
3104 media de 4 segundos, mucho más parecida a lo obtenido para TBGC.
3106 Otra particularidad de esta prueba es que al utilizar *early collection* el
3107 tiempo de pausa real aumenta notablemente al usar un procesador, mientras que
3108 al usar 4 (ver figura :vref:`fig:sol-voronoi-4cpu` disminuye levemente (además
3109 de otros cambios en el nivel de variación, pero en general las medias no
3113 Resultados para pruebas reales
3114 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
3116 A continuación se presentan los resultados obtenidos para las pruebas reales
3117 (ver :ref:`sol_bench_real`). Recordamos que solo se pudo halla un programa que
3118 pueda ser utilizado a este fin, Dil_, y que el objetivo principal de este
3119 trabajo se centra alrededor de obtener resultados positivos para este
3120 programa, por lo que a pesar de ser una única prueba, se le presta particular
3125 .. fig:: fig:sol-dil-1cpu
3127 Resultados para ``dil`` (utilizando 1 procesador).
3129 Resultados para ``dil`` (utilizando 1 procesador). Se presenta el
3130 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
3131 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
3132 ejecución) o 20 corridas (para el resto).
3136 Tiempo de ejecución (seg)
3138 .. image:: plots/time-dil-1cpu.pdf
3142 Cantidad de recolecciones
3144 .. image:: plots/ncol-dil-1cpu.pdf
3148 Uso máximo de memoria (MiB)
3150 .. image:: plots/mem-dil-1cpu.pdf
3154 *Stop-the-world* máximo (seg)
3156 .. image:: plots/stw-dil-1cpu.pdf
3160 Pausa real máxima (seg)
3162 .. image:: plots/pause-dil-1cpu.pdf
3164 .. fig:: fig:sol-dil-4cpu
3166 Resultados para ``dil`` (utilizando 4 procesadores).
3168 Resultados para ``dil`` (utilizando 4 procesadores). Se presenta el
3169 mínimos (en negro), la media centrada entre dos desvíos estándar (en gris),
3170 y el máximo (en blanco) calculados sobre 50 corridas (para tiempo de
3171 ejecución) o 20 corridas (para el resto).
3175 Tiempo de ejecución (seg)
3177 .. image:: plots/time-dil-4cpu.pdf
3181 Cantidad de recolecciones
3183 .. image:: plots/ncol-dil-4cpu.pdf
3187 Uso máximo de memoria (MiB)
3189 .. image:: plots/mem-dil-4cpu.pdf
3193 *Stop-the-world* máximo (seg)
3195 .. image:: plots/stw-dil-4cpu.pdf
3199 Pausa real máxima (seg)
3201 .. image:: plots/pause-dil-4cpu.pdf
3203 En la figura :vref:`fig:sol-dil-1cpu` se presentan los resultados para
3204 ``dil`` al utilizar un procesador. Una vez más vemos una mejoría inmediata del
3205 tiempo total de ejecución al pasar de TBGC a CDGC, y una vez más se debe
3206 principalmente al mal factor de ocupación del *heap* de TBGC, dado que
3207 utilizando CDGC con la opción ``min_free=0`` se obtiene una media del orden de
3208 los 80 segundos, bastante más alta que el tiempo obtenido para TBGC.
3210 Sin embargo se observa un pequeño incremento del tiempo de ejecución al
3211 introducir marcado preciso, y un incremento bastante más importante (de
3212 alrededor del 30%) en el consumo máximo de memoria. Nuevamente, como pasa con
3213 la prueba ``bh``, el efecto es probablemente producto del incremento en el
3214 espacio necesario para almacenar objetos debido a que el puntero a la
3215 información del tipo se guarda al final del bloque (ver :ref:`sol_precise`).
3216 En el cuadro :vref:`t:sol-prec-mem-dil` se puede observar la diferencia de
3217 memoria desperdiciada entre el modo conservativo y preciso.
3219 El pequeño incremento en el tiempo total de ejecución podría estar dado por la
3220 mayor probabilidad de tener *falsos punteros* debido al incremento del tamaño
3221 del *heap*; se recuerda que el *stack* y memoria estática se siguen marcado de
3222 forma conservativa, incluso en modo preciso.
3224 .. ftable:: t:sol-prec-mem-dil
3226 Memoria pedida y asignada para ``dil`` según modo de marcado.
3228 Memoria pedida y asignada para ``dil`` según modo de marcado conservativo
3229 o preciso (acumulativo durante toda la vida del programa).
3231 ============== ============== ============== =================
3232 Memoria Pedida (MiB) Asignada (MiB) Desperdicio (MiB)
3233 ============== ============== ============== =================
3234 Conservativo 307.48 399.94 92.46 (23%)
3235 Preciso 307.48 460.24 152.76 (33%)
3236 ============== ============== ============== =================
3238 También se puede observar una gran disminución del tiempo total de ejecución
3239 (cerca de un 60%, y más de un 200% comparado con TBGC) alrededor de la mitad)
3240 al empezar a usar *eager allocation*, acompañado como es usual de una baja en
3241 la cantidad de recolecciones realizadas (esta vez mayor, de más de 3 veces)
3242 y de una caída drástica del tiempo de pausa real (alrededor de 40 veces más
3243 pequeño); todo esto con un incremento marginal en el consumo total de memoria
3244 (aproximadamente un 5%). En este caso el uso de *early collection* apenas
3245 ayuda a bajar el tiempo de pausa real en un 20% en promedio aproximadamente.
3246 El tiempo de *stop-the-world* cae dramáticamente al empezar a realizar la fase
3247 de marcado de manera concurrente; es 200 veces más pequeño.
3249 Al utilizar 4 procesadores (ver figura :vref:`fig:sol-dil-4cpu`), hay algunos
3250 pequeños cambios. El tiempo total de ejecución es reducido todavía más (un 20%
3251 que cuando se usa 1 procesador) cuando se utiliza *eager allocation*. Además
3252 al utilizar *early collection*, hay otra pequeña ganancia de alrededor del
3253 10%, tanto para el tiempo total de ejecución como para el tiempo de pausa
3260 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
3262 Los avances de este trabajo fueron comunicados regularmente a la comunidad de
3263 D_ a través de un blog [LMTDGC]_ y del grupo de noticias de D_. Los
3264 comentarios hechos sobre el primero son en general positivos y denotan una
3265 buena recepción por parte de la comunidad a las modificaciones propuestas.
3267 Una vez agregado el marcado concurrente se hace un anuncio en el grupo de
3268 noticias que también muestra buenos comentarios y aceptación, en particular
3269 por parte de Sean Kelly, encargado de mantener el *runtime* de `D 2.0`_, que
3270 comienza a trabajar en adaptar el recolector con idea de tal vez incluirlo en
3271 el futuro [NGA19235]_. Poco después Sean Kelly publica una versión preliminar
3272 de la adaptación en la lista de correos que coordina el desarrollo del
3273 *runtime* de `D 2.0`_ [DRT117]_.
3275 También se ha mostrado interés de incluirlo en Tango_, aunque no se han ha
3276 comenzado aún con la adaptación, pero debería ser trivial dado que este
3277 trabajo se desarrolla usando Tango_ (y el recolector está basado en el de
3281 .. include:: links.rst
3283 .. vim: set ts=3 sts=3 sw=3 et tw=78 spelllang=es :