X-Git-Url: https://git.llucax.com/z.facultad/75.00/informe.git/blobdiff_plain/e06143e98714199eba6570381554d812fd86556d..ade63acf6c8d0abf0afa54e1eeb0f4fcc8f514e6:/source/dgc.rst

diff --git a/source/dgc.rst b/source/dgc.rst
index 929d48c..e12b9df 100644
--- a/source/dgc.rst
+++ b/source/dgc.rst
@@ -28,21 +28,725 @@ TODO
 Recolector de basura actual de D
 ----------------------------------------------------------------------------
 
-TODO
+Como paso bÃ¡sico fundamental para poder mejorar el recolector de basura de D_,
+primero hay que entender la implementaciÃ³n actual, de forma de conocer sus
+puntos fuertes, problemas y limitaciones, de manera tal de poder analizar
+formas de mejorarlo.
+
+Como se mencionÃ³ en la secciÃ³n :ref:`d_lang`, en D_ hay dos bibliotecas base
+para soportar el lenguaje (*runtimes*): Phobos_ y Tango_. La primera es la
+biblioteca estÃ¡ndar de D_, la segunda un proyecto mÃ¡s abierto y dinÃ¡mico que
+surgiÃ³ como alternativa a Phobos_ debido a que Phobos_ es muy desprolija y que
+era muy difÃ­cil impulsar cambios en ella. Ahora Phobos_ tiene el agravante de
+estar *congelada* en su versiÃ³n 1 (solo se realizan correcciones de errores).
+
+Dado que Tango_ estÃ¡ mejor organizada, su desarrollo es mÃ¡s abierto (aceptan
+cambios y mejoras) y que hay una mayor disponibilidad de programas
+y bibliotecas escritos para Tango_, en este trabajo se decide tomar esta
+biblioteca *runtime* como base para el anÃ¡lisis y mejoras propuestas, a pesar
+de ser Phobos_ la estÃ¡ndar. De todas formas el recolector de basura de Tango_
+es prÃ¡cticamente el mismo que el de Phobos_, por lo tanto Ã©ste anÃ¡lisis en
+particular es vÃ¡lido para cualquiera de las dos.
+
+El recolector actual es un recolector :ref:`indirecto <gc_direct>`, :ref:`no
+incremental <gc_inc>` que realiza un :ref:`marcado y barrido <gc_mark_sweep>`
+relativamente bÃ¡sico.  A diferencia del algoritmo clÃ¡sico presentado Ã©ste
+realiza un marcado no recursivo. La fase de marcado es :ref:`stop-the-world
+<gc_concurrent` mientras que la fase de barrido corre en paralelo con el
+*mutator*, excepto el hilo que disparÃ³ la recolecciÃ³n que es quien efectÃºa el
+barrido (ademÃ¡s los hilos que intenten asignar nueva memoria o interactuar con
+el recolector de cualquier otra forma se bloquean hasta que la fase de barrido
+concluya). El marcado es casi totalmente :ref:`conservativo <gc_conserv>`; si
+bien posee alguna informaciÃ³n de tipos (distingue entre celdas que pueden
+tener punteros y celdas que definitivamente no los tienen, pero no dispone de
+informaciÃ³n sobre quÃ© campos de las celdas son punteros y cuales no). AdemÃ¡s
+no tiene soporte alguno de :ref:`recolecciÃ³n particionada <gc_part>`.
+
+Si bien el recolector es bastante bÃ¡sico, posee una :ref:`organizaciÃ³n de
+memoria <dgc_org>` relativamente moderna (utiliza una :ref:`lista de libres
+<gc_free_list>` con un *two level allocator*) y algunas optimizaciones
+particulares para amortiguar casos patolÃ³gicos.
+
+
+.. _dgc_org:
+
+OrganizaciÃ³n del *heap*
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
+La memoria del *heap* estÃ¡ organizada en *pools*. Un *pool* es una regiÃ³n de
+*pÃ¡ginas* contÃ­guas. Una pÃ¡gina es, en general, la unidad mÃ­nima de memoria que
+maneja un sistema operativo con soporte de memoria virtual. Cada pÃ¡gina dentro
+de un *pool* sirve a su vez como contenedora de bloques (llamados *bin* en la
+:ref:`implementaciÃ³n <dgc_impl>`) de tamaÃ±o fijo. Todos los bloques
+pertenecientes a la misma pÃ¡gina tienen el mismo tamaÃ±o de bloque (ver figura
+:vref:`fig:dgc-org`). Los tamaÃ±os de bloque posibles son potencias de 2 desde
+16 bytes hasta 4096 (el tamaÃ±o tÃ­pico de una pÃ¡gina), es decir: 16, 32, 64,
+128, 256, 512, 1024, 2048 y 4096 [#dgcpageplus]_. Todos los objetos, arreglos
+o celdas en general se ubican en estos bloques (en uno del tamaÃ±o mÃ¡s pequeÃ±o
+que haya que sea suficientemente grande como para almacenar dicho objeto).  En
+caso de que un objeto sea mayor a una pÃ¡gina, se utilizan la menor cantidad de
+pÃ¡ginas contÃ­guas de un pool que tengan espacio suficiente para almacenar
+dicho objeto.
+
+.. [#dgcpageplus] AdemÃ¡s existe otro tamaÃ±o de bloque especial que se utiliza
+   para indicar la continuaciÃ³n de un objeto grande (que ocupan mÃ¡s de una
+   pÃ¡gina).
+
+.. fig:: fig:dgc-org
+
+   OrganizaciÃ³n del *heap* del recolector de basura actual de D.
+
+   OrganizaciÃ³n del *heap*. En este ejemplo todos los *pools* tienen 2 pÃ¡ginas
+   excepto el *pool* 2 que tiene una sola.  El tamaÃ±o de bloque que almacena
+   cada pÃ¡gina varÃ­a entre 64 bytes (pÃ¡gina 0 del *pool* 2) hasta 4096 (ambas
+   pÃ¡ginas del *pool* N) que es una pÃ¡gina completa.
+
+   .. aafig::
+      :scale: 1.4
+
+      +----------------------------------------------------------------------+
+      |                                 Heap                                 |
+      +======================================================================+
+      |   "Pool 0"     "Pool 1"     "Pool 2"     "Pool 3"   ...   "Pool N"   |
+      | +----------+ +----------+ +----------+ +----------+     +----------+ |
+      | | PÃ¡gina 0 | | PÃ¡gina 0 | | PÃ¡gina 0 | | PÃ¡gina 0 | ... | PÃ¡gina 0 | |
+      | |  (8x512) | | (4x1024) | |  (64x64) | | (2x2048) | ... | (1x4096) | |
+      | |+--------+| |+--------+| |+--------+| |+--------+|     |+--------+| |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| || Bloque || ||qqqqqqqq|| ||        ||     ||        || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| |+--------+| ||qqqqqqqq|| || Bloque ||     ||        || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| || Bloque || ||qqqqqqqq|| ||        ||     ||        || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| |+--------+| ||qqqqqqqq|| |+--------+|     || Bloque || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| || Bloque || ||qqqqqqqq|| ||        ||     ||        || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| |+--------+| ||qqqqqqqq|| || Bloque ||     ||        || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| || Bloque || ||qqqqqqqq|| ||        ||     ||        || |
+      | || Bloque || ||        || ||qqqqqqqq|| ||        ||     ||        || |
+      | |+--------+| |+--------+| |+--------+| |+--------+|     |+--------+| |
+      | | PÃ¡gina 1 | | PÃ¡gina 1 | +----------+ | PÃ¡gina 1 | ... | PÃ¡gina 1 | |
+      | | (16x256) | |  (8x512) |              | (32x128) | ... | (1x4096) | |
+      | |+--------+| |+--------+|              |+--------+|     |+--------+| |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     ||        || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     ||        || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     ||        || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     || Bloque || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     ||        || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     ||        || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              ||nnnnnnnn||     ||        || |
+      | |+--------+| || Bloque ||              ||nnnnnnnn||     ||        || |
+      | |+--------+| |+--------+|              |+--------+| ... |+--------+| |
+      | +----------+ +----------+              +----------+     +----------+ |
+      +----------------------------------------------------------------------+
+
+Cada pÃ¡gina de un *pool* puede estar asignada a contener bloques de un tamaÃ±o
+especÃ­fico o puede estar libre. A su vez, cada bloque puede estar ocupado por
+una celda o estar libre. Los bloques libres de un tamaÃ±o especÃ­fico (a
+excepciÃ³n de aquellos bloques que ocupen una pÃ¡gina entera) ademÃ¡s forman
+parte de una :ref:`lista de libres <gc_free_list>` (ver figura
+:vref:`fig:dgc-free-list`). Esto permite asignar objetos relativamente
+pequeÃ±os de forma bastante eficiente.
+
+.. fig:: fig:dgc-free-list
+
+   Ejemplo de listas de libres.
+
+   .. digraph:: dgc_free_list
+
+      margin  = 0;
+      rankdir = LR;
+      ratio   = fill;
+      size    = "4.6,3.6";
+      node [ shape = record, width = 0, height = 0 ];
+
+      subgraph cluster_heap {
+         style = solid;
+         color = black;
+
+         free [ label = "Libres|<p16> 16|<p32> 32|<p64> 64|<p128> 128|<p256> 256|<p512> 512|<p1024> 1024|<p2048> 2048" ];
+
+         free:p16 -> b1 -> b2 -> b3;
+         free:p32 -> b4 -> b5 -> b6 -> b7 -> b8;
+         // free:p64 is empty
+         free:p128 -> b9;
+         free:p256 -> b10 -> b11;
+         free:p512 -> b12;
+         free:p1024 -> b13 -> b14;
+         free:p2048 -> b15 -> b16 -> b17;
+      }
+
+
+Atributos de *pool*
+^^^^^^^^^^^^^^^^^^^
+Cada *pool* tiene la siguiente informaciÃ³n asociada:
+
+*number_of_pages*:
+   cantidad de pÃ¡ginas que tiene. Esta cantidad es fija en toda la vida de un
+   *pool*.
+
+*pages*:
+   bloque de memoria contÃ­guo de tamaÃ±o ``PAGE_SIZE * number_of_pages``
+   (siendo ``PAGE_SIZE`` el tamaÃ±o de pÃ¡gina, que normalmente son 4096 bytes).
+
+
+Atributos de pÃ¡gina
+^^^^^^^^^^^^^^^^^^^
+Cada pÃ¡gina dentro de un *pool* tiene un Ãºnico atributo asociado: *block_size*.
+Se trata del tamaÃ±o de los bloques que almacena esta pÃ¡gina.
+
+Una pÃ¡gina siempre almacena bloques del mismo tamaÃ±o, que pueden ser 16, 32,
+64, 128, 256, 512, 1024, 2048 o 4096 (llamado con el nombre especial
+``PAGE``). AdemÃ¡s hay dos tamaÃ±os de bloque sÃ­mbÃ³licos que tienen un
+significado especial:
+
+``FREE``:
+   indica que la pÃ¡gina estÃ¡ completamente libre y que la pÃ¡gina estÃ¡
+   disponible para albergar cualquier tamaÃ±o de bloque que sea necesario (pero
+   una vez que se le asignÃ³ un nuevo tamaÃ±o de bloque ya no puede ser cambiado
+   hasta que la pÃ¡gina vuelva a liberarse por completo).
+
+``CONTINUATION``:
+   indica que esta pÃ¡gina es la continuaciÃ³n de un objeto grande (es decir,
+   que ocupa una o mÃ¡s pÃ¡ginas). Luego se presentan mÃ¡s detalles sobre objetos
+   grandes.
+
+Las pÃ¡ginas con esto tamaÃ±os de bloque especiales (conceptualmente) no
+contienen bloques.
+
+
+Atributos de bloque
+^^^^^^^^^^^^^^^^^^^
+Cada bloque tiene asociados varios atributos:
+
+*mark*:
+   utilizado en la fase de :ref:`marcado <dgc_algo_mark>`, indica que un nodo
+   ya fue visitado (serÃ­an las celdas *negras* en la :ref:`abstracciÃ³n
+   tricolor <gc_intro_tricolor>`).
+
+*scan*:
+   utilizado tambiÃ©n en la fase de :ref:`marcado <dgc_algo_mark>`, indica que
+   una celda visitada todavÃ­a tiene *hijas* sin marcar (serÃ­an las celdas
+   *grises* en la :ref:`abstracciÃ³n tricolor <gc_intro_tricolor>`).
+
+*free*:
+   indica que el bloque estÃ¡ libre (no estÃ¡ siendo utilizado por ningÃºn objeto
+   *vivo*). Esto es necesario solo por la forma en la que realiza el
+   :ref:`marcado <dgc_algo_mark>` y :ref:`barrido <dgc_algo_sweep>` en el
+   :ref:`algoritmo actual <dgc_algo>` (las celdas con el atributo este
+   atributo son tomadas como *basura* aunque estÃ©n marcadas con *mark*).
 
+*final*:
+   indica que el bloque contiene un objeto que tiene un destructor (que debe
+   ser llamado cuando la celda pasa de *viva* a *basura*).
 
-DiseÃ±o
-~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+*noscan*:
+   indica que el bloque contiene un objeto que no tiene punteros y por lo
+   tanto no debe ser marcado de forma conservativa (no tiene *hijas*).
 
-.. AcÃ¡ irÃ­a bÃ¡sicamente lo que escribÃ­ en el blog sobre la implmentaciÃ³n
-   actual
 
-TODO
+Objetos grandes
+^^^^^^^^^^^^^^^
+El recolector de basura actual de D_ trata de forma diferente a los objetos
+grandes. Todo objeto grande empieza en un bloque con tamaÃ±o ``PAGE``
+y (opcionalmente) continÃºa en los bloques contÃ­guos subsiguientes que tengan
+el tamaÃ±o de bloque ``CONTINUATION`` (si el objeto ocupa mÃ¡s que una pÃ¡gina).
+El fin de un objeto grande queda marcado por el fin del *pool* o una pÃ¡gina
+con tamaÃ±o de bloque distinto a ``CONTINUATION`` (lo que suceda primero).
+
+Cuando un objeto grande se convierte en *basura*, todas sus pÃ¡ginas se liberan
+por completo, siendo marcadas con tamaÃ±o ``FREE`` para que puedan ser
+almacenado en ellas otros objetos grandes o incluso nuevos bloques de un
+tamaÃ±o determinado.
 
 
 
-ImplementaciÃ³n
+.. _dgc_algo:
+
+Algoritmos del recolector
+~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
+
+A continuaciÃ³n se explica como provee el recolector actual de D_ los servicios
+bÃ¡sicos que debe proveer cualquier recolector, como se presentÃ³ en la secciÃ³n
+:ref:`gc_intro_services`.
+
+Cabe aclarar que se presenta una versiÃ³n simplificada del algoritmo, o mÃ¡s
+precisamente, de la implementaciÃ³n del algoritmo, ya que no se exponen en esta
+secciÃ³n muchas optimizaciones que harÃ­an muy compleja la tarea de explicar
+como funciona conceptualmente. En la siguiente secciÃ³n, :ref:`dgc_impl`, se
+darÃ¡n mÃ¡s detalles sobre las optimizaciones importantes y diferencias con el
+algoritmo aquÃ­ presentado, junto con detalles sobre como se implementa la
+organizaciÃ³n del *heap* que se explicÃ³ en la secciÃ³n anterior.
+
+
+.. _dgc_algo_collect:
+
+RecolecciÃ³n
+^^^^^^^^^^^
+A grandes razgos el algoritmo de recolecciÃ³n puede resumirse de las dos fases
+bÃ¡sicas de cualquier algoritmo de :ref:`marcado y barrido <gc_mark_sweep>`::
+
+   function collect() is
+      mark_phase()
+      sweep_phase()
+
+
+.. _dgc_algo_mark:
+
+Fase de marcado
+^^^^^^^^^^^^^^^
+Esta fase consiste de varios pasos, que pueden resumirse en el siguiente
+algoritmo::
+
+   function mark_phase() is
+      more_to_scan = false
+      stop_the_world()
+      clear_mark_scan_bits()
+      mark_free_lists()
+      mark_static_data()
+      push_registers_into_stack()
+      mark_stacks()
+      mark_user_roots()
+      mark_heap()
+      start_the_world()
+
+La variable **global** ``more_to_scan`` indica al algoritmo iterativo cuando
+debe finalizar: la funciÃ³n ``mark()`` (que veremos mÃ¡s adelante) lo pone en
+``true`` cuando una nueva celda debe ser visitada, por lo tanto la iteraciÃ³n
+se interrumpe cuando no hay mÃ¡s celdas por visitar.
+
+Las funciones ``stop_the_world()`` y ``start_the_world()`` sencillamente
+pausan y reanudan todos los hilos respectivamente::
+
+   function stop_the_world() is
+      foreach thread in threads
+         thread.pause()
+
+   function start_the_world() is
+      foreach thread in threads
+         thread.resume()
+
+La funciÃ³n ``clear_mark_scan_bits()`` se encarga de resetear todos los
+atributos *mark* y *scan* de cada bloque del *heap*::
+
+   function clear_mark_scan_bits() is
+      foreach pool in heap
+         foreach page in pool
+            foreach block in page
+               block.mark = false
+               block.scan = false
+
+La funciÃ³n ``mark_free_lists()`` por su parte se encarga de activar el bit
+*mark* de todos los bloques de las listas de libres de manera de que la fase
+de marcado (que es iterativa y realiza varias pasadas sobre **todo** el
+*heap*, incluyendo las celdas libres) no visite las celdas libres perdiendo
+tiempo sin sentido y potencialmente manteniendo *vivas* celdas que en
+realdidad son *basura* (falsos positivos)::
+
+   function mark_free_lists() is
+      foreach free_list in heap
+         foreach block in free_list
+            block.mark = true
+            block.free = true
+
+Notar que los bloques libres quedan entonces marcados aunque sean *basura* por
+definiciÃ³n. Para evitar que en la etapa de barrido se tomen estos bloques como
+celdas vivas, a todos los bloques en la lista de libres tambiÃ©n se los marca
+con el bit *free*, asÃ­ el barrido puede tomar como *basura* estos bloques
+aunque estÃ©n marcados.
+
+El *root set* estÃ¡ compuesto por el Ã¡rea de memoria estÃ¡tica (variables
+globales), los *stacks* de todos los hilos y los registros del procesador.
+Primero se marca el Ã¡rea de memoria estÃ¡tica de manera :ref:`conservativa
+<gc_conserv>` (es decir, tomando cada *word* como si fuera un puntero)::
+
+   function mark_static_data() is
+      foreach word in static_data
+         pointer = cast(void*) word
+         mark(pointer)
+
+Para poder tomar los registros como parte del *root set* primero se apilan
+en el *stack* a travÃ©s de la funciÃ³n::
+
+   function push_registers_into_stack() is
+      foreach register in registers
+         push(register)
+
+Una vez hecho esto, basta marcar (de forma conservativa) los *stacks* de todos
+los threads para terminar de marcar el *root set*::
+
+   function mark_stacks() is
+      foreach thread in threads
+         foreach word in thread.stack
+            pointer = cast(void*) word
+            mark(pointer)
+
+Dado que D_ soporta manejo de memoria manual al mismo tiempo que memoria
+automÃ¡tica, es posible que existan celdas de memoria que no estÃ©n en el *root
+set* convencional ni en el *heap* del recolector. Para evitar que se libere
+alguna celda que estaba siendo referenciada desde memoria administrada por el
+usuario, Ã©ste debe informarle al recolector sobre la existencia de estoas
+nuevas raÃ­ces. Es por esto que para concluir el marcado del *root set*
+completo se procede a marcar las raÃ­ces definidas por el usuario::
+
+   function mark_user_roots() is
+      foreach pointer in user_roots
+         mark(pointer)
+
+El algoritmo de marcado no es recursivo sino iterativo por lo tanto al marcar
+una celda (o bloque) no se siguen sus *hijas*, solo se activa el bit de *scan*
+(a menos que la celda no contenga punteros, es decir, tenga el bit *noscan*)::
+
+   function mark(pointer) is
+      [pool, page, block] = find_block(pointer)
+      if block is not null and block.mark is false
+         block.mark = true
+         if block.noscan is false
+            block.scan = true
+            more_to_scan = true
+
+Por lo tanto en este punto, tenemos todas las celdas inmediatamente
+alcanzables desde el *root set* marcadas y con el bit *scan* activado si la
+celda puede contener punteros. Por lo tanto solo resta marcar (nuevamente de
+forma conservativa) iterativamente todo el *heap* hasta que no hayan mÃ¡s
+celdas para visitar (con el bit *scan* activo)::
+
+   function mark_heap() is
+      while more_to_scan
+         more_to_scan = false
+         foreach pool in heap
+            foreach page in pool
+               if page.block_size <= PAGE // saltea FREE y CONTINUATION
+                  foreach block in page
+                     if block.scan is true
+                        block.scan = false
+                        if page.block_size is PAGE // objeto grande
+                           start = cast(byte*) page
+                           end = find_big_object_end(pool, page)
+                           foreach word in start..end
+                                 pointer = cast(void*) word
+                                 mark(pointer)
+                        else // objeto pequeÃ±o
+                           foreach word in block
+                              pointer = cast(void*) word
+                              mark(pointer)
+
+AquÃ­ puede verse, con un poco de esfuerzo, la utilizaciÃ³n de la
+:ref:`abtracciÃ³n tricolor <gc_intro_tricolor>`: todas las celdas alcanzables
+desde el *root set* son pintadas de *gris* (tienen los bits *mark* y *scan*
+activados), excepto aquellas celdas atÃ³micas (es decir, que se sabe que no
+tienen punteros) que son marcadas directamente de *negro*. Luego se van
+obteniendo celdas del conjunto de las *grises*, se las pinta de *negro* (es
+decir, se desactiva el big *scan*) y se pintan todas sus *hijas* de *gris* (o
+*negro* directamente si no tienen punteros). Este procedimiento se repite
+mientras el conjunto de celdas *grises* no sea vacÃ­o (es decir, que
+``more_to_scan`` sea ``true``).
+
+A continuaciÃ³n se presenta la implementaciÃ³n de las funciones suplementarias
+utilizadas en la fase de marcado::
+
+   function find_big_object_end(pool, page) is
+      pool_end = cast(byte*) pool.pages + (PAGE_SIZE * pool.number_of_pages)
+      do
+         page = cast(byte*) page + PAGE_SIZE
+      while page.block_size is CONTINUATION and page < pool_end
+      return page
+
+   function find_block(pointer) is
+      foreach pool in heap
+         foreach page in pool
+            if page.block_size is PAGE
+               big_object_start = cast(byte*) page
+               big_object_end = find_big_object_end(pool, page)
+               if big_object_start <= pointer < big_object_end
+                  return [pool, page, big_object_start]
+            else if page.bloc_size < PAGE
+               foreach block in page
+                  block_start = cast(byte*) block
+                  block_end = block_start + page.block_size
+                  if block_start <= pointer < block_end
+                     return [pool, page, block_start]
+      return [null, null, null]
+
+Cabe destacar que la funciÃ³n ``find_block()`` devuelve el pool, la pÃ¡gina y el
+comienzo del bloque al que apunta el puntero, es decir, soporta punteros
+*interiores*.
+
+
+.. _dgc_algo_sweep:
+
+Fase de barrido
+^^^^^^^^^^^^^^^
+Esta fase es considerablemente mÃ¡s sencilla que el marcado; el algoritmo puede
+dividirse en dos pasos bÃ¡sicos::
+
+   function sweep_phase() is
+      sweep()
+      rebuild_free_lists()
+
+El barrido se realiza con una pasada por sobre todo el *heap* de la siguiente
+manera::
+
+   function sweep() is
+      foreach pool in heap
+         foreach page in pool
+            if page.block_size <= PAGE // saltea FREE y CONTINUATION
+               foreach block in page
+                  if block.mark is false
+                     if block.final is true
+                        finalize(block)
+                     block.free = true
+                     block.final = false
+                     block.noscan = false
+                     if page.block_size is PAGE // objeto grande
+                        free_big_object(pool, page)
+
+Como se observa, se recorre todo el *heap* en busca de bloques y pÃ¡ginas
+libres. Los bloques libres son marcados con el atributo ``free`` y las pÃ¡ginas
+libres son marcadas con el tamaÃ±o de bloque simbÃ³lico ``FREE``. Para los
+objetos grandes se marcan todas las pÃ¡ginas que utilizaban como ``FREE``::
+
+   function free_big_object(pool, page) is
+      pool_end = cast(byte*) pool.pages + (PAGE_SIZE * pool.number_of_pages)
+      do
+         page = cast(byte*) page + PAGE_SIZE
+         page.block_size = FREE
+      while page.block_size is CONTINUATION and page < pool_end
+
+AdemÃ¡s, los bloques que tienen en atributo ``final`` son finalizados llamando
+a la funciÃ³n ``finalize()``. Esta funciÃ³n es un servicio que provee la
+biblioteca *runtime* y en Ãºltima instancia llama al destructor del objeto
+almacenado en el bloque a liberar.
+
+Una vez marcados todos los bloques y pÃ¡ginas como libre, se procede
+a reconstruir las listas de libres. En el proceso buscan las pÃ¡ginas que
+tengan todos los bloques libres para marcar la pÃ¡gina completa como libre (de
+manera que pueda utilizarse para albergar otro tamaÃ±o de bloque u objetos
+grandes de ser necesario)::
+
+   function rebuild_free_lists() is
+      foreach free_list in heap
+         free_list.clear()
+      foreach pool in heap
+         foreach page in pool
+            if page.block_size < PAGE // objetos pequeÃ±os
+               if is_page_free(page)
+                  page.block_size = FREE
+               else
+                  foreach block in page
+                     if block.free is true
+                        free_lists[page.block_size].link(block)
+
+Esta reorganizaciÃ³n de listas libres ademÃ¡s mejoran la localidad de
+referencia y previenen la fragmentaciÃ³n. La localidad de referencia se ve
+mojorada debido a que asignaciones de memoria proximas en el tiempo serÃ¡n
+tambiÃ©n prÃ³ximas en espacio porque pertenecerÃ¡n a la misma pÃ¡gina (al menos si
+las asignaciones son todas del mismo tamaÃ±o). La fragmentaciÃ³n se minimiza por
+el mismo efecto, primero se asignarÃ¡n todos los bloques de la misma pÃ¡gina.
+
+A continuaciÃ³n se presenta la implementaciÃ³n de una de las funciones
+suplementarias de la fase de barrido::
+
+   function is_page_free(page) is
+      foreach block in page
+         if block.free is false
+            return false
+      return true
+
+Las demÃ¡s funciones suplementarias pertenecen a la manipulaciÃ³n de listas
+libres que no son mÃ¡s que operaciones sobre una lista simplemente enlazada. En
+la secciÃ³n :ref:`dgc_impl` se verÃ¡ con mÃ¡s detalles como las implementa el
+recolector actual.
+
+
+.. _dgc_algo_alloc:
+
+AsignaciÃ³n de memoria
+^^^^^^^^^^^^^^^^^^^^^
+La asignaciÃ³n de memoria del recolector es relativamente compleja, excepto
+cuando se asgina un objeto pequeÃ±o y ya existe algÃºn bloque con el tamaÃ±o
+preciso en la lista de libres. Para el resto de los casos la cantidad de
+trabajo que debe hacer el recolector para asignar la memoria es considerable.
+
+El algoritmo de asignaciÃ³n de memoria se puede resumir asÃ­::
+
+   function new(size, attrs) is
+      block_size = find_block_size(size)
+      if block_size < PAGE
+         block = new_small(block_size)
+      else
+         block = new_big(size)
+      if block is null
+         throw out_of_memory
+      if final in attrs
+         block.final = true
+      if noscan in attrs
+         block.noscan = true
+      return cast(void*) block
+
+La funciÃ³n ``find_block_size()`` sencillamente busca el tamaÃ±o de bloque se
+mejor se ajuste al tamaÃ±o solicitado (es decir, el bloque mÃ¡s pequeÃ±o lo
+suficientemente grande como para poder almacenar el tamaÃ±o solicitado). Una
+vez mÃ¡s el algoritmo distingue objetos grandes de pequeÃ±os. Los pequeÃ±os se
+asginan de las siguiente manera::
+
+      function new_small(block_size) is
+         block = find_block_with_size(block_size)
+         if block is null
+            collect()
+            block = find_block_with_size(block_size)
+            if block is null
+               new_pool()
+               block = find_block_with_size(block_size)
+               return null
+         return block
+
+Se intenta reiteradas veces conseguir un bloque del tamaÃ±o correcto libre,
+realizando diferentes acciones si no se tiene Ã©xito. Primero se intenta hacer
+una :ref:`recolecciÃ³n <dgc_algo_collect>` y si no se puede encontrar
+suficiente espacio luego de ella se intenta crear un nuevo *pool* de memoria
+pidiendo memoria al *low level allocator* (el sistema operativo generalmente).
+
+Para intentar buscar un bloque de memoria libre se realiza lo siguiente::
+
+      function find_block_with_size(block_size) is
+         block = free_lists[block_size].pop_first()
+         if block is null
+            assign_page(block_size)
+            block = free_lists[block_size].pop_first()
+         return block
+
+Si no se puede obtener un bloque de la lista de libres correspondiente, se
+busca asignar una pÃ¡gina libre al tamaÃ±o de bloque deseado de forma de
+*alimentar* la lista de libres con dicho tamaÃ±o::
+
+      function assign_page(block_size) is
+         foreach pool in heap
+            foreach page in pool
+               if page.block_size is FREE
+                  page.block_size = block_size
+                  foreach block in page
+                     free_lists[page.block_size].link(block)
+
+Cuando todo ello falla, el Ãºltimo recurso consiste en pedir memoria al sistema
+operativo, creando un nuevo *pool*::
+
+      funciones new_pool(number_of_pages = 1) is
+         pool = alloc(pool.sizeof)
+         if pool is null
+            return null
+         pool.number_of_pages = number_of_pages
+         pool.pages = alloc(number_of_pages * PAGE_SIZE)
+         if pool.pages is null
+            free(pool)
+            return null
+         heap.add(pool)
+         return pool
+
+Se recuerda que la funciÃ³n ``alloc()`` es un :ref:`servicio
+<gc_intro_services>` provisto por el *low level allocator* y en la
+implementaciÃ³n actual de D_ en general es el sistema operativo (aunque
+opcionalmente puede utilizarse la biblioteca estÃ¡ndar de C, que a su vez
+utiliza el sistema operativo).
+
+Cualquier error en estas funciones es propagado y en Ãºltima instancia, cuando
+todo falla, la funciÃ³n ``new()`` termina lanzando una excepciÃ³n indicando que
+se agotÃ³ la memoria.
+
+Si el tamaÃ±o de bloque necesario para cumplir con la asignaciÃ³n de memoria es
+de una pÃ¡gina, entonces se utiliza otro algoritmo para alocar un objeto
+grande::
+
+      function new_big(size) is
+         number_of_pages = ceil(size / PAGE_SIZE)
+         pages = find_pages(number_of_pages)
+         if pages is null
+            collect()
+            pages = find_pages(number_of_pages)
+            if pages is null
+               minimize()
+               pool = new_pool(number_of_pages)
+               if pool is null
+                  return null
+               pages = assign_pages(pool, number_of_pages)
+         pages[0].block_size = PAGE
+         foreach page in pages[1..end]
+            page.block_size = CONTINUATION
+         return pages[0]
+
+De forma similar a la asignaciÃ³n de objetos pequeÃ±os, se intenta encontrar una
+serie de pÃ¡ginas contÃ­guas, dentro de un mismo *pool*, suficientes para
+almacenar el tamaÃ±o requerido y si esto falla, se realizan diferentes pasos
+y se vuelve a intentar. Puede observarse que, a diferencia de la asignaciÃ³n de
+objetos pequeÃ±os, si luego de la recolecciÃ³n no se pudo encontrar lugar
+suficiente, se trata de minimizar el uso de memoria fÃ­sica utilizando la
+siguiente funciÃ³n, que devuelve al *low level allocator* los *pools*
+completamente libres::
+
+   function minimize() is
+      for pool in heap
+         all_free = true
+         for page in pool
+            if page.block_size is not FREE
+               all_free = false
+               break
+         if all_free is true
+            free(pool.pages)
+            free(pool)
+            heap.remove(pool)
+
+Volviendo a la funciÃ³n ``new_big()``, para hallar una serie de pÃ¡ginas
+contÃ­guas se utiliza el siguiente algoritmo::
+
+      function find_pages(number_of_pages) is
+         foreach pool in heap
+            pages = assign_pages(pool, number_of_pages)
+            if pages
+               return pages
+         return null
+
+Como se dijo, las pÃ¡ginas deben estar contenidas en un mismo *pool* (para
+tener la garantÃ­a de que sean contÃ­guas), por lo tanto se busca *pool* por
+*pool* dicha cantidad de pÃ¡ginas libres consecutivas a travÃ©s del siguiente
+algoritmo::
+
+      function assign_pages(pool, number_of_pages) is
+         pages_found = 0
+         first_page = null
+         foreach page in pool
+            if page.block_size is FREE
+               if pages_found is 0
+                  pages_found = 1
+                  first_page = page
+               else
+                  pages_found = pages_found + 1
+               if pages_found is number_of_pages
+                  return [first_page .. page]
+            else
+               pages_found = 0
+               first_page = null
+         return null
+
+Una vez mÃ¡s, cuando todo ello falla (incluso luego de una recolecciÃ³n), se
+intenta alocar un nuevo *pool*, esta vez con una cantidad de pÃ¡ginas
+suficientes como para almacenar el objeto grande y si esto falla el error se
+propaga hasta la funciÃ³n ``new()`` que lanza una excepciÃ³n.
+
+
+
+.. _dgc_impl:
+
+Detalles de implementaciÃ³n
 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
 
 .. AcÃ¡ dirÃ­a por quÃ© hay que reescribirlo para usar lo que estÃ¡
@@ -59,84 +763,79 @@ TODO
 
 
 
-Como se ha visto, D_ es un lenguaje de programaciÃ³n muy completo,
-pero aÃºn tiene algunos aspectos inconclusos. Su recolector de basura
-estÃ¡ en un estado de evoluciÃ³n muy temprana. Se trata de un marcado y
-barrido (*mark and sweep*) conservativo que, en ciertas circunstancias,
-no se comporta como es debido, ya que revisa toda la memoria del programa
-en busca de referencias a objetos en el *heap* (en vez de revisar sÃ³lo
-las partes que almacenan punteros). Esto produce que, en ciertos casos,
-por ejemplo al almacenar arreglos de nÃºmero o *strings* en la pila, el
-recolector de basura se encuentre con *falsos positivos*, pensando que
-un Ã¡rea del *heap* estÃ¡ siendo utilizada cuando en realidad el puntero
-que hacÃ­a referencia a Ã©sta no era tal. Este efecto puede llevar a la
-pÃ©rdida de memoria masiva, llegando al lÃ­mite de que eventualmente
+Como se ha visto, D_ es un lenguaje de programaciÃ³n muy completo, pero aÃºn
+tiene algunos aspectos inconclusos. Su recolector de basura estÃ¡ en un estado
+de evoluciÃ³n muy temprana. Se trata de un marcado y barrido (*mark and sweep*)
+conservativo que, en ciertas circunstancias, no se comporta como es debido, ya
+que revisa toda la memoria del programa en busca de referencias a objetos en
+el *heap* (en vez de revisar sÃ³lo las partes que almacenan punteros). Esto
+produce que, en ciertos casos, por ejemplo al almacenar arreglos de nÃºmero
+o *strings* en la pila, el recolector de basura se encuentre con *falsos
+positivos*, pensando que un Ã¡rea del *heap* estÃ¡ siendo utilizada cuando en
+realidad el puntero que hacÃ­a referencia a Ã©sta no era tal. Este efecto puede
+llevar a la pÃ©rdida de memoria masiva, llegando al lÃ­mite de que eventualmente
 el sistema operativo tenga que matar al programa por falta de memoria
-[DNG46407]_. AÃºn cuando el programa no tenga estos problemas de por sÃ­,
-por usar datos que no pueden ser confundidos con direcciones de memoria,
-este problema podrÃ­a ser explotado por ataques de seguridad, inyectando
-valores que sÃ­ sean punteros vÃ¡lidos y provocando el efecto antes
-mencionado que deriva en la terminaciÃ³n abrupta del programa [DNG35364]_.
-Finalmente, a estos problemas se suman los problemas de *performance*
-[DNG43991]_.
-
-Es difÃ­cil que D_ pueda ser un lenguaje de programaciÃ³n exitoso si
-no provee un recolector de basura eficiente y que realmente evite la
-pÃ©rdida masiva de memoria. Por otro lado, D_ podrÃ­a atraer a una base de
-usuarios mucho mÃ¡s amplia, si la gama de estrategias de recolecciÃ³n es
-mÃ¡s amplia, pudiendo lograr adaptarse a mÃ¡s casos de uso sin llegar al
-lÃ­mite de tener que caer en el manejo explÃ­cito de memoria y perder por
-completo las ventajas de la recolecciÃ³n de basura (con la consecuencia
-ya mencionada de que el manejo de memoria tenga que pasar a ser parte
-de las interfaces y la complejidad que esto agrega al diseÃ±o -y uso-
-de una biblioteca).
+[DNG46407]_. AÃºn cuando el programa no tenga estos problemas de por sÃ­, por
+usar datos que no pueden ser confundidos con direcciones de memoria, este
+problema podrÃ­a ser explotado por ataques de seguridad, inyectando valores que
+sÃ­ sean punteros vÃ¡lidos y provocando el efecto antes mencionado que deriva en
+la terminaciÃ³n abrupta del programa [DNG35364]_.  Finalmente, a estos problemas
+se suman los problemas de *performance* [DNG43991]_.
+
+Es difÃ­cil que D_ pueda ser un lenguaje de programaciÃ³n exitoso si no provee un
+recolector de basura eficiente y que realmente evite la pÃ©rdida masiva de
+memoria. Por otro lado, D_ podrÃ­a atraer a una base de usuarios mucho mÃ¡s
+amplia, si la gama de estrategias de recolecciÃ³n es mÃ¡s amplia, pudiendo lograr
+adaptarse a mÃ¡s casos de uso sin llegar al lÃ­mite de tener que caer en el
+manejo explÃ­cito de memoria y perder por completo las ventajas de la
+recolecciÃ³n de basura (con la consecuencia ya mencionada de que el manejo de
+memoria tenga que pasar a ser parte de las interfaces y la complejidad que esto
+agrega al diseÃ±o -y uso- de una biblioteca).
 
 
 
 Soluciones Propuestas
 
-Para poder implementar un recolector de basura no conservativo es
-necesario disponer de un soporte de reflexiÃ³n (en tiempo de compilaciÃ³n
-[DNG44607]_ y de ejecuciÃ³n [DNG29291]_) bastante completo . De otra forma
-es imposible distinguir si un Ã¡rea de memoria de la pila es utilizada
-como un puntero o como un simple conjunto de datos. D_ provee algÃºn
-grado de reflexiÃ³n, pero muy limitado como para poder obtener este
-tipo de informaciÃ³n. Ya hay un plan para agregar mayores capacidades
-de reflexibilidad [DNG6842]_, y un pequeÃ±o avance en este sentido en la
-`versiÃ³n 1.001`_, pero con algunos problemas [DNG6890]_ [DNG6893]_.
+Para poder implementar un recolector de basura no conservativo es necesario
+disponer de un soporte de reflexiÃ³n (en tiempo de compilaciÃ³n [DNG44607]_ y de
+ejecuciÃ³n [DNG29291]_) bastante completo . De otra forma es imposible
+distinguir si un Ã¡rea de memoria de la pila es utilizada como un puntero o como
+un simple conjunto de datos. D_ provee algÃºn grado de reflexiÃ³n, pero muy
+limitado como para poder obtener este tipo de informaciÃ³n. Ya hay un plan para
+agregar mayores capacidades de reflexibilidad [DNG6842]_, y un pequeÃ±o avance
+en este sentido en la `versiÃ³n 1.001`_, pero con algunos problemas [DNG6890]_
+[DNG6893]_.
 
 .. _`versiÃ³n 1.001`: http://www.digitalmars.com/d/changelog.html#new1_001
 
-Se han propuesto otros mÃ©todos e implementaciones de recolector de basura,
-por ejemplo colectores con movimiento (*moving collectors*) [DNG42557]_
-y conteo de referencias [DNG38689]_. Pero D_ es un lenguaje muy particular
-en cuanto a la recolecciÃ³n de basura (al permitir :ref:d_low_level hay
-muchas consideraciones a las que otros lenguajes no deben enfrentarse) y no
-es sencillo pensar en otras implementaciones sin hacer modificaciones de
-base al lenguaje.
+Se han propuesto otros mÃ©todos e implementaciones de recolector de basura, por
+ejemplo colectores con movimiento (*moving collectors*) [DNG42557]_ y conteo de
+referencias [DNG38689]_. Pero D_ es un lenguaje muy particular en cuanto a la
+recolecciÃ³n de basura (al permitir :ref:d_low_level hay muchas consideraciones
+a las que otros lenguajes no deben enfrentarse) y no es sencillo pensar en
+otras implementaciones sin hacer modificaciones de base al lenguaje.
 
 
 
 Problemas para Implementar Colectores con Movimiento
 
-El principal problema es la capacidad de D_ de manipular punteros y
-otras estructuras de bajo nivel, como uniones. O incluso la capacidad
-de interactuar con C. Al mover un objeto de un Ã¡rea de memoria a otro,
-es necesario actualizar todos los punteros que apuntan a Ã©ste. En D_
-esta tarea no es trivial [DNG42564]_
+El principal problema es la capacidad de D_ de manipular punteros y otras
+estructuras de bajo nivel, como uniones. O incluso la capacidad de interactuar
+con C. Al mover un objeto de un Ã¡rea de memoria a otro, es necesario actualizar
+todos los punteros que apuntan a Ã©ste. En D_ esta tarea no es trivial
+[DNG42564]_
 
 
 
 Problemas para Implementar Conteo de Referencias
 
-Este tipo de recolectores reparten la carga de la recolecciÃ³n de forma
-uniforme a lo largo (y a la par) de la ejecuciÃ³n del programa. El
-problema principal para implementar este tipo de recolecciÃ³n es
-la necesidad de soporte en el compilador (cada asignaciÃ³n debe ser
-acompaÃ±ada por el incremento/decremento de contadores de referencia), a
-menos que se implemente en una biblioteca. Por otro lado, caracterÃ­sticas
-como el rebanado de arreglos (ver :ref:d_high_level) son
-difÃ­ciles de proveer con el conteo de referencias, entre otros problemas
+Este tipo de recolectores reparten la carga de la recolecciÃ³n de forma uniforme
+a lo largo (y a la par) de la ejecuciÃ³n del programa. El problema principal
+para implementar este tipo de recolecciÃ³n es la necesidad de soporte en el
+compilador (cada asignaciÃ³n debe ser acompaÃ±ada por el incremento/decremento de
+contadores de referencia), a menos que se implemente en una biblioteca. Por
+otro lado, caracterÃ­sticas como el rebanado de arreglos (ver :ref:d_high_level)
+son difÃ­ciles de proveer con el conteo de referencias, entre otros problemas
 [DNG38704]_.