Los bits en un mensaje: en memoria de Claude Shannon

En la actualidad todos sabemos que existió un gran físico llamado Albert Einstein (1879-1955).
En contraste, pocos saben que existió un notable matemático e ingeniero llamado Claude Shannon (1916-2001). La fórmula de Einstein más conocida es E=mc2; la energía E de una masa m se encuentra al multiplicar esta masa por el cuadrado de la velocidad de la luz c2. Esta es una de las fórmulas más elegantes, sencillas y útiles de la física. A Claude Shannon también se le conoce por una fórmula muy simple, ingeniosa y útil que revolucionó las comunicaciones digitales como hoy las conocemos. Esta fórmula es: I=-log2(p) y nos da el contenido de información I en bits de un mensaje que tiene una probabilidad p de ocurrir. En esta fórmula se usa el logaritmo de base 2, y lo podemos entender con el siguiente ejemplo: 24=2*2*2*2=16; implica que log2(16)=4.
Claude Shannon se graduó en 1936 como matemático e ingeniero eléctrico simultáneamente. Después de la Segunda Guerra Mundial, en 1948, Shannon publicó este importante artículo científico: Claude Shannon, “A Mathematical Theory of Communication”, Bell System Technical Journal, Vol. 27, pp. 379–424 (1948). En este artículo se define por primera vez en la historia, la cantidad de bits de información que contiene un mensaje.
Como vimos, los bits información de un mensaje están relacionados con la probabilidad de que este mensaje ocurra. Por ejemplo, si alguien envía el mensaje: en León Gto., el 10 abril, será un día soleado. Para esta fecha, esto es muy probable, tal vez con un 99% de certeza. La cantidad de bits de información de este mensaje es de 0.014 bits; una información muy baja.
Decir que un 10 de abril será soleado no es sorpresa, así que su información es baja. Si ahora consideramos el mensaje opuesto, “el 10 abril será un día nublado”, tendrá una probabilidad muy baja, 100%-99%=1%, sin embargo, tendrá una cantidad de información alta, de 6.64bits.
Esto es el mensaje: “el 10 de abril será nublado” contiene 6.64/0.014=474 más bits de información que el mensaje: “el 10 de abril será soleado”. En la Fig. 2 se muestra pictóricamente estos dos mensajes.

Ahora supongamos que no solo tenemos un mensaje, sino N mensajes {M1, M1,…, MN}, cada
uno con una probabilidad de pn. Pongamos como ejemplo el alfabeto español. Nuestro alfabeto
está compuesto por 27 letras (A, B, C,…, Z), y además sabemos que la probabilidad de
ocurrencia de cada letra es la que se muestra en la Fig. 3.

La Fig. 3 muestra que la letra más frecuente es la E (13.68%), la cantidad de información de la
letra E es de 2.87bits. Por otro lado, la letra menos frecuente es la W (0.01%) con una
probabilidad de 0.0001, y cuya información es de 13.28bits. La información promedio de las
letras en textos escritos en español es de solo 4.042bits. En la práctica, usar un número de bits
diferente por cada letra no es práctico. Por ejemplo, con 5 bits podemos representar 32 símbolos
diferentes, 25=32, o log2(32)=5. Siendo 32 superior a 27, entonces podemos representar desde
la primera letra A=(00000) hasta la letra 27, la Z=(11011) con estos 5 bits. Y todavía nos
sobran 32-27=5 números binarios que podríamos usar para codificar otros 5 símbolos como por
ejemplo, (+,-,=,$,%).
Finalmente, el código más usado en informática es el código ASCII (del inglés, Estándar
Americano para el Intercambio de Información). Este código requiere 7 bits y codifica hasta
27=128 caracteres distintos (entre otros: a-z; A-Z; 0-9; @,#,$,%,&,*,”,+,-, etc.); desde 0=(0000000) hasta el 127=(1111111). Por ejemplo, en ASCII la letra E se codifica usando el numero binario 1000101, la minúscula e, se codifica como 1100110, el número 5 como 0110101, el signo de dólar $ como 0100100 y así sucesivamente (ASCII – Wikipedia).
Como vimos, aunque Claude Shannon no es un científico tan famoso como Albert Einstein,
a Shannon le debemos la teoría de la información que hace posible la internet, que podamos
comunicarnos con nuestros celulares y que el telescopio espacial James Webb pueda mandar
fabulosas imágenes de nuestro universo desde una distancia de 1.5 millones de kilómetros de
nuestro planeta.

1. Claude Shannon, Claude Shannon – Wikipedia, la enciclopedia libre
2. Teoría de la información, Teoría de la información – Wikipedia, la enciclopedia libre
3. Frecuencia de aparición de letras. Frecuencia de aparición de letras – Wikipedia, la enciclopedia libre
4. ASCII en Wikipedia ASCII – Wikipedia
5. Telescopio espacial James Webb. Telescopio espacial James Webb – Wikipedia, la enciclopedia libre

Leave a comment