Eliminar índice

[z.facultad/75.00/informe.git] / source / gc.rst
diff --git a/source/gc.rst b/source/gc.rst

index ef01f69b4738eae95ea217c9e119325801036a75..1998a31d558cd172bc8735f2a2d9c404867269ef 100644 (file)
--- a/source/gc.rst
+++ b/source/gc.rst
@@ -95,13 +95,14 @@ errores.
  
  
  
+.. _gc_intro_basics:
  
  Conceptos básicos
  ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
  
  Los programas pueden hacer uso principalmente de 4 áreas de memoria:
  
-Registros:
+Registros
     Se trata de la memoria más básica de una computadora. Es el área de memoria
     en la que puede operar realmente el procesador, es extremadamente escasa
     y generalmente su uso es administrado por el lenguaje de programación (o
@@ -109,7 +110,7 @@ Registros:
     realizando tareas de muy bajo nivel, un programador nunca manipula los
     registros explícitamente.
  
-Área de memoria estática:
+Área de memoria estática
     Es la forma de memoria más simple que un programador utiliza
     explícitamente. En general las variables globales se almacenan en este
     área, que es parte inherente del programa y está disponible durante toda su
@@ -119,7 +120,7 @@ Registros:
     compilación**. Los primeros lenguajes de programación solo contaban con
     este tipo de memoria (además de los registros del procesador).
  
-*Stack* (pila):
+*Stack* (pila)
     Los primeros lenguajes de programación que hicieron uso de una pila
     aparecieron en el año 1958 (Algol-58 y Atlas Autocode) y fueron los
     primeros en introducir estructura de bloques, almacenando las variables
@@ -137,7 +138,7 @@ Registros:
        a otra cosa, como al nodo de una lista o a un objeto en el sentido de
        programación orientada a objetos).
  
-*Heap*:
+*Heap*
     A diferencia del *stack*, el *heap* provee un área de memoria que puede ser
     obtenida dinámicamente pero sin limitaciones de orden. Es el tipo de
     memoria más flexible y por lo tanto el más complejo de administrar; razón
@@ -155,22 +156,6 @@ el *root set*. Por lo tanto, una celda está *viva* si y sólo si su dirección
  de memoria está almacenada en una celda *raíz* (parte del *root set*) o si
  está almacenada en otra celda *viva* del *heap*.
  
-Expresado más formalmente, dada la relación :math:`M \to N`, donde :math:`M`
-es una celda del *heap* o parte del *root set* y :math:`N` es una celda del
-*heap*, definida como:
-
-.. math::
-
-   M \to N \Longleftrightarrow M \text{ almacena un puntero a } N
-
-El conjunto de celdas vivas (o *live set*) queda determinado por:
-
-.. math::
-
-   vivas = \left\lbrace N \in Celdas \big/
-      ( \exists r \in Raices / r \to N ) \vee (\exists M \in vivas / M \to N )
-   \right\rbrace
-
  Cabe aclarar que esta es una definición conceptual, asumiendo que el programa
  siempre limpia una dirección de memoria almacenada en el *root set* o una
  celda del *heap* cuando la celda a la que apunta no va a ser utilizada
@@ -182,10 +167,9 @@ lenguajes de programación que requieran un recolector de basura conservativo.
  
  Por último, siendo que el recolector de basura es parte del programa de forma
  indirecta, es común ver en la literatura que se diferencia entre dos partes
-del programa, el recolector de basura y el programa en sí. Dado que para el
-recolector de basura, lo único que interesa conocer del programa en sí son los
-cambios al grafo de conectividad de las celdas, normalmente se lo llama
-*mutator*.
+del programa, el recolector de basura y el programa en sí. A la primera se la
+suele denominar simplemente *recolector* y a la segunda *mutator*, dado que es
+la única que modifica (o *muta*) el grafo de conectividad.
  
  
  
@@ -211,7 +195,7 @@ fueron visitados componen el *live set*; el resto de los vértices son
  
  Más formalmente, Definimos:
  
-*Camino*:
+*Camino*
     secuencia de vértices tal que cada uno de los vértices tiene una arista al
     próximo vértice en la secuencia. Todo camino finito tiene un *vértice
     inicial* y un *vértice final* (llamados en conjunto *vértices terminales*).
@@ -224,7 +208,12 @@ Más formalmente, Definimos:
              \exists (v_i \to v_{i+1}) \in A
        \right\rbrace
  
-*Conexión*:
+   Un camino cuyos *vértices terminales* coinciden, es decir :math:`v_1
+   = v_N`, es denominado **Ciclo**. Cabe notar que los *vértices terminales*
+   de un ciclo son completamente arbitrarios, ya que cualquier *vértice
+   interior* puede ser un *vértice terminal*.
+
+*Conexión*
     decimos que :math:`M` está *conectado* a :math:`N` si y sólo si existe un
     camino de :math:`M` a :math:`N`.
  
@@ -232,7 +221,7 @@ Más formalmente, Definimos:
  
        M \mapsto N \Longleftrightarrow \exists \underset{M \to N}{C} \in G
  
-*Live set*:
+*Live set*
     el conjunto de celdas *vivas* está dado por todos los vértices (:math:`v`)
     del grafo para los cuales existe una raíz en el *root set* que esté
     conectada a él.
@@ -243,7 +232,7 @@ Más formalmente, Definimos:
           \left( \exists r \in Root \thickspace set \big/ r \mapsto v \right)
        \right\rbrace
  
-*Basura*:
+*Basura*
     la basura, o celdas *muertas*, quedan determinadas entonces por todas las
     celdas del *heap* que no son parte del *live set*.
  
@@ -317,18 +306,13 @@ Esto es, efectivamente, una partición del *heap* (ver figura
  
  Al proceso de visitar los vértices *conectados* desde el *root set* se lo
  denomina *marcado*, *fase de marcado* o *mark phase* en inglés, debido a que
-es necesario marcar los vértices para evitar visitar 2 veces el mismo nodo en
-casos de que el grafo contenga ciclos [#gccycle]_. De forma similar a la
-búsqueda, que puede realizarse *primero a lo ancho* (*breadth-first*)
-o *primero a lo alto* (*depth-first*) del grafo, el marcado de un grafo
-también puede realizarse de ambas maneras. Cada una podrá o no tener efectos
-en el rendimiento, en particular dependiendo de la aplicación puede convenir
-uno u otro método para lograr una mejor localidad de referencia.
-
-.. [#gccycle] Un ciclo es un camino donde el *vértice inicial* es el mismo
-   que el *vértice final*. Por lo tanto, los *vértices terminales* son
-   completamente arbitrarios, ya que cualquier *vértice interior* puede ser un
-   *vértice terminal*.
+es necesario marcar los vértices para evitar visitar dos veces el mismo nodo
+en casos en los que el grafo contenga ciclos. De forma similar a la búsqueda,
+que puede realizarse *primero a lo ancho* (*breadth-first*) o *primero a lo
+alto* (*depth-first*) del grafo, el marcado de un grafo también puede
+realizarse de ambas maneras. Cada una podrá o no tener efectos en el
+rendimiento, en particular dependiendo de la aplicación puede convenir uno
+u otro método para lograr una mejor localidad de referencia.
  
  Un algoritmo simple (recursivo) de marcado *primero a lo alto* puede ser el
  siguiente (asumiendo que partimos con todos los vértices sin marcar)
@@ -602,7 +586,7 @@ esta abstracción es una nueva partición del heap al momento de marcar, esta
  vez son tres porciones: blanca, gris y negra.
  
  Al principio todas las celdas se pintan de blanco, excepto el *root set* que
-se punta de gris. Luego se van obteniendo celdas del conjunto de las grises
+se pinta de gris. Luego se van obteniendo celdas del conjunto de las grises
  y se las pinta de negro, pintando sus hijas directas de gris.
  
  Una vez que no hay más celdas grises, tenemos la garantía de que las celdas
@@ -625,12 +609,15 @@ vacíos)::
           v = gray_set.pop()
           black_set.add(v)
           for (src, dst) in v.edges
-            if v in white_set
-               white_set.remove(v)
-               gray_set.add(v)
+            if dst in white_set
+               white_set.remove(dst)
+               gray_set.add(dst)
  
-Es simple notar que este algoritmo es naturalmente no recursivo, lo que de por
-sí ya presenta una ventaja sobre el marcado *bicolor*.
+Si bien este algoritmo no es recursivo, tiene un requerimiento de espacio
+:math:`O(\lvert Live \thickspace set \rvert)`. Un ejemplo donde se aprecia
+esto a simple vista es cuando el *Live set* resulta una lista simplemente
+enlazada, en cuyo caso el *gray_set* deberá almacenar todos los nodos del
+*Live set*.
  
  
  
@@ -659,7 +646,7 @@ recolectores a lo largo de este documento.
  
  Servicios utilizados por el recolector son los siguientes:
  
-:math:`alloc() \to cell`:
+:math:`alloc() \to cell`
     obtiene una nueva celda de memoria. El mecanismo por el cual se obtiene la
     celda es indistinto para esta sección, puede ser de una lista libre, puede
     ser de un administrador de memoria de más bajo nivel provisto por el
@@ -672,16 +659,16 @@ Servicios utilizados por el recolector son los siguientes:
     contrario) que las celdas son de tamaño fijo. Esta restricción normalmente
     puede ser fácilmente relajada (en los recolectores que la tienen).
  
-:math:`free(cell)`:
+:math:`free(cell)`
     libera una celda que ya no va a ser utilizada. La celda liberada debe haber
     sido obtenida mediante ``alloc()``.
  
  Y los servicios básicos proporcionados por el recolector son los siguientes:
  
-:math:`new() \to cell`:
+:math:`new() \to cell`
     obtiene una celda de memoria para ser utilizada por el programa.
  
-:math:`update(ref, cell)`:
+:math:`update(ref, cell)`
     notifica al recolector que la referencia :math:`ref` ahora apunta
     a :math:`cell`. Visto más formalmente, sería análogo a decir que hubo un
     cambio en la conectividad del grafo: la arista :math:`src \to old` cambia
@@ -691,7 +678,7 @@ Y los servicios básicos proporcionados por el recolector son los siguientes:
     :math:`cell` es ``null``, sería análogo a informar que se elimina la arista
     :math:`src \to old`.
  
-:math:`del(cell)`:
+:math:`del(cell)`
     este servicio, según el algoritmo, puede ser utilizado para informar un
     cambio en la conectividad del grafo, la eliminación de una arista (análogo
     a :math:`update(ref, null)` pero sin proporcionar información sobre la
@@ -699,9 +686,10 @@ Y los servicios básicos proporcionados por el recolector son los siguientes:
     referencias <gc_rc>`. Para otros recolectores puede significar que el
     usuario asegura que no hay más referencias a esta celda, es decir, análogo
     a eliminar el conjunto de aristas :math:`\big\lbrace (v, w) \in A , v \in
-   Live \thickspace set , w \in Live \thickspace set \big/ w = cell`.
+   Live \thickspace set , w \in Live \thickspace set \big/ w = cell
+   \big\rbrace`.
  
-:math:`collect()`:
+:math:`collect()`
     indica al recolector que debe hacer un análisis del grafo de conectividad
     en busca de *basura*. Generalmente este servicio es invocado por el propio
     recolector cuando no hay más celdas reciclables.
@@ -718,7 +706,7 @@ aunque en ciertas circunstancias pueden ser utilizados por el usuario también.
  Algoritmos clásicos
  ----------------------------------------------------------------------------
  
-En la literatura se encuentran normalmente referencias a 3 algoritmos
+En la literatura se encuentran normalmente referencias a tres algoritmos
  clásicos, que son utilizados generalmente como bloques básicos para construir
  recolectores más complejos. Se presentan las versiones históricas más simples
  a fin de facilitar la comprensión conceptual.
@@ -811,31 +799,29 @@ Ciclos
  
  El conteo de referencias tiene, sin embargo, un problema fundamental: **falla
  con estructuras cíclicas**. Esto significa que siempre que haya un ciclo en el
-grafo de conectividad, hay una pérdida de memoria potencial en el programa. Un
-ciclo es un camino :math:`\underset{v \to v}{C}`, es decir, el *vértice
-inicial* es el mismo que el *vértice final*.
+grafo de conectividad, hay una pérdida de memoria potencial en el programa.
  
  Cuando esto sucede, las celdas que participan del ciclo tienen siempre su
-contador mayor que 0, sin embargo puede no haber ningún elemento del *root
-set* que apunte a una celda dentro del ciclo, por lo tanto el ciclo es
-*basura* (al igual que cualquier otra celda para la cual hayan referencias
-desde el ciclo pero que no tenga otras referencias externas) y sin embargo los
+contador mayor que 0, sin embargo puede suceder que ningún elemento del *root
+set* apunte a una celda dentro del ciclo, por lo tanto el ciclo es *basura*
+(al igual que cualquier otra celda para la cual hayan referencias desde el
+ciclo pero que no tenga otras referencias externas) y sin embargo los
  contadores no son 0. Los ciclos, por lo tanto, violan la invariante del conteo
  de referencia.
  
  Hay formas de solucionar esto, pero siempre recaen en un esquema que va por
  fuera del conteo de referencias puro. En general los métodos para solucionar
  esto son variados y van desde realizar un marcado del sub-grafo para detectar
-nodos hasta tener otro recolector completo de *emergencia*, pasando por tratar
-los ciclos como un todo contar las referencias al ciclo completo en vez de
-a cada celda en particular.
+ciclos y liberarlos hasta tener otro recolector completo de *emergencia*;
+pasando por tratar los ciclos como un todo para contar las referencias al
+ciclo completo en vez de a cada celda en particular.
  
  Incluso con este problema, el conteo de referencia sin ningún tipo de solución
  en cuanto a la detección y recolección de ciclos fue utilizado en muchos
  lenguajes de programación sin que su necesidad sea tan evidente. Por ejemplo
  Python_ agregó recolección de ciclos en la versión 2.0 [NAS00]_ (liberada en
  octubre de 2000) y PHP_ recién agrega detección de ciclos en la versión 5.3
-(todavía no liberada al momento de escribir este documento) [PHP081]_.
+[PHP530]_.
  
  
  .. _gc_rc_example:
@@ -1137,7 +1123,7 @@ contador de ``h2`` que queda en 0, transformándose en *basura* (ver figura
  
     Ejemplo de conteo de referencias: actualización de una referencia (parte 1).
  
-   Cambio en la referencia ``h2.l`` :math:`\to` ``h2`` a ``h2.l`` :math:`\to`
+   Cambio en la referencia ``h3.l`` :math:`\to` ``h2`` a ``h3.l`` :math:`\to`
     ``h5`` (parte 1).
  
     .. subfig::
@@ -1195,7 +1181,7 @@ contador de ``h2`` que queda en 0, transformándose en *basura* (ver figura
  
     .. subfig::
  
-      Luego se procede a visitar las hijas de ``h3``, comenzando por ``h2``.
+      Luego se procede a visitar la antigua referencia de ``h3.l`` (``h2``).
  
        .. digraph:: g4_2
  
@@ -1311,7 +1297,7 @@ de actualizar la referencia ``h3.l`` para que apunte a ``h5`` (ver figura
  
     Ejemplo de conteo de referencias: actualización de una referencia (parte 2).
  
-   Cambio en la referencia ``h2.l`` :math:`\to` ``h2`` a ``h2.l`` :math:`\to`
+   Cambio en la referencia ``h3.l`` :math:`\to` ``h2`` a ``h3.l`` :math:`\to`
     ``h5`` (parte 2).
  
     .. subfig::
@@ -1703,8 +1689,8 @@ sus *low level allocators*).
     Estructura del *heap* de un recolector con copia de semi-espacios.
  
     .. aafig::
-      :aspect: 0.7
-      :scale: 1.4
+      :aspect: 70
+      :scale: 115
  
        zzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz
  
@@ -1842,7 +1828,6 @@ apunta a ``h3``, por lo tanto ésta es movida al *Tospace* primero, dejando una
        la recolección.
  
        .. aafig::
-         :scale: 1.25
  
           +--------------------------------------------------+
           | "Fromspace"                                      |
@@ -1874,7 +1859,6 @@ apunta a ``h3``, por lo tanto ésta es movida al *Tospace* primero, dejando una
        y dejando una *forwarding address*.
  
        .. aafig::
-         :scale: 1.25
  
           +--------------------------------------------------+
           | "Fromspace"                                      |
@@ -1921,7 +1905,6 @@ ubicación de ``h2`` pero no se vuelve a copiar la celda (ver figura
        *forwarding address*.
  
        .. aafig::
-         :scale: 1.25
  
           +--------------------------------------------------+
           | "Fromspace"                                      |
@@ -1954,7 +1937,6 @@ ubicación de ``h2`` pero no se vuelve a copiar la celda (ver figura
        *forwarding address*.
  
        .. aafig::
-         :scale: 1.25
  
           +--------------------------------------------------+
           | "Fromspace"                                      |
@@ -1997,7 +1979,6 @@ nueva ubicación de ``h3``, como se muestra en la figura
        *forwarding address*.
  
        .. aafig::
-         :scale: 1.25
  
           +--------------------------------------------------+
           | "Fromspace"                                      |
@@ -2029,7 +2010,6 @@ nueva ubicación de ``h3``, como se muestra en la figura
        semi-espacios y se actualiza la referencia del *root set*.
  
        .. aafig::
-         :scale: 1.25
  
           +--------------------------------------------------+
           | "Tospace"                                        |
@@ -2195,7 +2175,8 @@ disponibles para realizar la recolección (ver figura
        *Stop-the-world*.
  
        .. aafig::
-         :aspect: 0.7
+         :scale: 110
+         :aspect: 70
  
            ___________________________________________________________________
           |                                                                   |
@@ -2213,7 +2194,8 @@ disponibles para realizar la recolección (ver figura
        Paralelo.
  
        .. aafig::
-         :aspect: 0.7
+         :scale: 110
+         :aspect: 70
  
            ___________________________________________________________________
           |                                                                   |
@@ -2231,7 +2213,8 @@ disponibles para realizar la recolección (ver figura
        Concurrente.
  
        .. aafig::
-         :aspect: 0.7
+         :scale: 110
+         :aspect: 70
  
            ___________________________________________________________________
           |                                                                   |
@@ -2256,12 +2239,12 @@ consume el recolector, debido a la necesidad de re-escanear sub-grafos que han
  sido modificados, además de la sincronización necesaria entre *mutator*
  y recolector.
  
-¿Cúal es la idea entonces de un recolector concurrente? Una vez más, al igual
+¿Cuál es la idea entonces de un recolector concurrente? Una vez más, al igual
  que los recolectores incrementales, el principal objetivo es disminuir las
  largas pausas provocadas por la recolección de basura. Sin embargo, este tipo
  de algoritmos además permite hacer un mejor aprovechamiento de las
-arquitecturas *multi-core* [#gcmulticore]_ que cada vez se afirman más, ya que
-el *mutator* y el recolector pueden estar corriendo realmente en paralelo,
+arquitecturas *multi-core* [#gcmulticore]_ que cada vez son más comunes, ya
+que el *mutator* y el recolector pueden estar corriendo realmente en paralelo,
  cada uno en un procesador distinto. Algunos recolectores van más allá
  y permiten incluso paralelizar la recolección de basura en varios hilos
  ([HUEL98]_, [LINS05]_). Otros ejemplos de recolectores concurrentes (aunque no
@@ -2430,7 +2413,8 @@ donde el trabajo va a ser mejor recompensado (ver :vref:`fig:gc-part`).
     Concentración de basura en distintas particiones del *heap*.
  
     .. aafig::
-      :aspect: 0.7
+      :scale: 110
+      :aspect: 70
  
         _______________________________________________________________________
        |                                                                       |
@@ -2485,4 +2469,4 @@ y complejidades del esquema generacional.
  
  .. include:: links.rst
  
-.. vim: set ts=3 sts=3 sw=3 et tw=78 :
+.. vim: set ts=3 sts=3 sw=3 et tw=78 spelllang=es :