/* Block Sorting Optimizado en memoria! */
+typedef struct _dict_ {
+ char *word;
+ int len;
+ int hits;
+} t_Diccionario;
+
+#define PALABRA(a) {a, sizeof(a)-1, 0}
+
+#define DICT_SIZE sizeof(dic)/sizeof(t_Diccionario)
+
+/* ASCII Numero 3 como caracter de escape */
+#define ESCAPE_CHARACTER 0x3
+
+/* Diccionario */
+t_Diccionario dic[] = {
+ /* Preposiciones (no todas) */
+ PALABRA(" ante"),
+ PALABRA(" bajo"),
+ PALABRA(" cabe"),
+ PALABRA(" con"),
+ PALABRA(" contra"),
+ /* PALABRA(" de"), XXX No se si conviene, solo ahorra 1 byte y puede romper localidad */
+ PALABRA(" desde"),
+ PALABRA(" hasta"),
+ PALABRA(" hacia"),
+ PALABRA(" para"),
+ PALABRA(" por"),
+ PALABRA(" según"),
+ PALABRA(" sin"),
+ PALABRA(" sobre"),
+ PALABRA(" tras"),
+ PALABRA(" mediante"),
+ PALABRA(" durante"),
+
+ /* Articulos */
+ PALABRA(" el "),
+ PALABRA(" la "),
+ PALABRA(" ella "),
+ PALABRA(" del "),
+ PALABRA(" los "),
+ PALABRA(" las "),
+ PALABRA(" lo "),
+ PALABRA(" que"),
+ PALABRA(" una "),
+ PALABRA(" también"),
+ PALABRA(" tambien"),
+ PALABRA(" cuando"),
+ PALABRA(" pero"),
+ PALABRA(" todo"),
+ /* Otras de test */
+ PALABRA(" si "),
+ PALABRA(" mas "),
+ PALABRA(" más "),
+ PALABRA(" porque"),
+ PALABRA(" entonces"),
+ PALABRA(" siempre"),
+ PALABRA(" segundo"),
+ PALABRA(" programa"),
+ PALABRA(" existe"),
+ PALABRA(" recien"),
+ PALABRA(" máximo"),
+ PALABRA(" mínimo"),
+ PALABRA(" casi"),
+ PALABRA(" sección"),
+ PALABRA(" informe"),
+ PALABRA(" Informe"),
+ PALABRA(" acción"),
+ PALABRA(" perdedor"),
+ PALABRA(" existencia"),
+ PALABRA(" aire"),
+ PALABRA(" árbol"),
+ PALABRA(" prueba"),
+ PALABRA(" muestra"),
+ PALABRA(" animal"),
+ PALABRA(" suerte"),
+ PALABRA(" portador"),
+ PALABRA(" molesto"),
+ PALABRA(" cielo"),
+ PALABRA(" impulso"),
+ PALABRA(" alcohol"),
+ PALABRA(" seguido"),
+ PALABRA(" permiso"),
+ PALABRA(" cuarto"),
+ PALABRA(" brillante"),
+ PALABRA(" tener"),
+ PALABRA(" ningún"),
+ PALABRA(" fácil"),
+};
+
typedef struct _bs_decode_t_ {
char c;
Uint32 sig;
(*j) += 9;
}
-int bs_readblock(FILE *fp, char *data, Uint32 pagesize)
+char check_hint(char c)
+{
+ static int current_pos = 0;
+ char hits = 0;
+ int i;
+ char hit_pos = -1;
+
+ for(i=0; i<DICT_SIZE; i++) {
+ /* Veo de no pasarme */
+ if (current_pos < dic[i].len) {
+ /* Si la palabra tiene suficientes hints */
+ if (dic[i].hits == current_pos) {
+ if (dic[i].word[current_pos] == c) {
+ dic[i].hits++;
+ hits++;
+ if (dic[i].hits == dic[i].len) {
+ hit_pos = i;
+ }
+ } else {
+ /* Esta palabra ya no tiene posibilidades */
+ dic[i].hits = 0;
+ }
+ }
+ } else {
+ dic[i].hits = 0;
+ }
+ }
+
+ current_pos++;
+
+ if (hits == 0) {
+ current_pos = 0;
+ return -1; /* No hay hints ! */
+ }
+ if (hits > 1) return -2; /* Tengo mas de 1 hint! */
+
+ if (hit_pos == -1) return -2; /* Tengo 1 solo hit pero no es completo */
+
+ /* Tengo 1 solo hint !!!! */
+ current_pos = 0;
+ return hit_pos;
+}
+
+void bs_clean_dic()
+{
+ int i;
+ for(i=0; i<DICT_SIZE; i++) {
+ dic[i].hits = 0;
+ }
+}
+
+int bs_readblock(FILE *fp, char *data, Uint32 pagesize, int usar_dic)
{
Uint32 i=0;
- char c;
- while ((!feof(fp)) && (i < pagesize)) {
+ char c, hint;
+ char buffer[100];
+ int j, buffer_pos=0;
+
+ while ((!feof(fp)) && ((i+buffer_pos) < pagesize)) {
c = fgetc(fp);
-/* if (c != '\n')*/
- if (c == 0x01) {
- /* Debo encodear el \0 para que no complique */
- data[i++] = 0x01;
- data[i++] = 0xFF;
- }
- if (isupper(c)) {
- data[i++] = 0x01;
- data[i++] = tolower(c);
- } else {
+ hint = check_hint(c);
+
+ if (usar_dic != 1) {
data[i++] = c;
+ continue;
+ }
+
+ switch (hint) {
+ case -1:
+ /* No hay hints, vacio el buffer y luego saco el c */
+ for(j=0; j<buffer_pos; j++)
+ data[i++] = buffer[j];
+
+ data[i++] = c;
+ buffer_pos = 0;
+ bs_clean_dic();
+ break;
+ case -2:
+ /* Tengo mas de 1 hit, tengo posibilidades, guardo este char en el buffer */
+ buffer[buffer_pos++] = c;
+ break;
+ default:
+ /* Me retornaron un numero positivo!!, eso quiere decir que ese numero
+ * es la posicion dentro del diccionario de la palabra que puedo reemplazar
+ */
+ data[i++] = ESCAPE_CHARACTER;
+ /* Trato de hacer que el caracter sea comun en textos, para que no me rompa
+ * la localidad
+ */
+ data[i++] = hint+32;
+ bs_clean_dic();
+ /* Imprimo el buffer que deberia ser la palabra que reemplazo */
+/* {
+ int iii;
+ for(iii=0; iii<buffer_pos; iii++)
+ printf("%c", buffer[iii]);
+ printf("%c\n", c);
+ } */
+ /* El buffer no lo necesito mas */
+ buffer_pos = 0;
}
-/* else
- bs_EOL(data, pagesize, &i);*/
}
+ for(j=0; j<buffer_pos; j++)
+ data[i++] = buffer[j];
/* Saco un EOF que lee de mas */
if (i<pagesize) i--;
*/
void bs_restore(char *dst, char *c, Uint32 k, Uint32 len);
-int bs_readblock(FILE *fp, char *data, Uint32 pagesize);
+int bs_readblock(FILE *fp, char *data, Uint32 pagesize, int usar_dic);
#endif
#include "bs.h"
+void print_v(char *txt, char *data, Uint32 len)
+{
+ Uint32 i;
+
+ printf("%s", txt);
+
+ for(i=0; i<len; i++) {
+ if (data[i] == '\n')
+ printf("#");
+ else
+ printf("%c", data[i]);
+ }
+ printf("\n");
+}
+
int main(int argc, char *argv[])
{
char *data;
}
data = malloc(sizeof(char)*len);
- salida = malloc(sizeof(char)*(len+1+sizeof(unsigned long int)*2));
+ salida = malloc(sizeof(char)*(len+1+sizeof(unsigned long int)));
orig = malloc(sizeof(char)*(len+1));
salida[len] = '\0';
bs = bs_create(len);
- c = fgetc(fp);
total = 0;
while (!feof(fp)) {
i = 0;
- while ((!feof(fp)) && (i < len)) {
- data[i++] = c;
- c = fgetc(fp);
- total++;
- }
- /* lleno data mano! */
- srand(time(NULL));
- {
- size_t jj;
- for(jj=0; jj<i;jj++)
- data[jj] = rand()%255;
- }
+ i = bs_readblock(fp, data, len, 1);
+
+ total += i;
+
bs_solve(data, salida, bs, &k, i);
/* XXX ACA SALIDA DEBERIA PASAR A LA SIGUIENTE ETAPA XXX */
if (argc == 3) {
- bs_restore(orig, salida+sizeof(Uint32)*2, k, i);
+ bs_restore(orig, salida+sizeof(Uint32), k, i);
+ print_v("Leido : ", data, i);
+ print_v("BS : ", salida+sizeof(Uint32), i);
+ /*print_v("Restorado : ", orig, i);*/
} else
fwrite(salida, 1, i, stdout);
}
int qflag;
int sflag;
int mflag;
+ int rflag; /* Richard Dictionary :-) */
} t_Flags;
int comprimir(char *src, char *dst, Uint32 pagesize, Uint32 volumesize, t_Flags *flags, char *staticmodel);
memset(&flags, 0, sizeof(t_Flags));
- while ((ch = getopt(argc, argv, "scdzm:t:q:")) != -1) {
+ while ((ch = getopt(argc, argv, "rscdzm:t:q:")) != -1) {
switch (ch) {
case 'c': flags.cflag = 1;
volumesize = atol(optarg);
break;
+ case 'r': flags.rflag = 1;
+ break;
case 'q': flags.qflag = 1;
switch (atoi(optarg))
{
}
break;
- default: fprintf(stderr, "Usage: %s [-cdzs][-q blksize][-t volsize][-m modeldumpfile] source target\n", argv[0]);
+ default: fprintf(stderr, "Usage: %s [-cdzsr][-q blksize][-t volsize][-m modeldumpfile] source target\n", argv[0]);
return(2);
}
}
if ( (argc == 1) || (flags.cflag & flags.dflag) || !(flags.cflag | flags.dflag) || ((argc - optind) < 2) || (flags.mflag & flags.sflag)) {
- fprintf(stderr, "Usage: %s [-cdzs][-q compressionquality][-t volsize][-m modeldumpfile] source target\n", argv[0]);
+ fprintf(stderr, "Usage: %s [-cdzsr][-q compressionquality][-t volsize][-m modeldumpfile] source target\n", argv[0]);
return (3);
}
if ((flags.tflag) && (volumesize <= 0l)) {
total = 0;
while (!feof(fp)) {
i = 0;
- i = bs_readblock(fp, data, pagesize);
+ i = bs_readblock(fp, data, pagesize, flags->rflag);
total += i;