domingo, mayo 19, 2024
No menu items!
InicioBlogsASCII frente a Unicode frente a UTF-7 frente a UTF-8 frente a...

ASCII frente a Unicode frente a UTF-7 frente a UTF-8 frente a UTF-32 frente a ANSI

Aquí encontrará todo sobre la diferencia entre ASCII, Unicode, UTF-7, UTF-8, UTF-32 y ANSI:

Tanto ASCII como Unicode son estándares de codificación.

ASCII es un estándar inicial que se publicó por primera vez en 1963, mientras que Unicode es un estándar más amplio.

Los estándares Unicode se implementan mediante formatos UTF-8, UTF-16 o UTF-32.

ANSI es un nombre inapropiado para un estándar de codificación de Windows, pero el propio ANSI no lo reconoce.

Entonces, si desea aprender todo sobre en qué se diferencian ASCII, Unicode, UTF-7, UTF-8 y UTF-32 de ANSI, entonces este artículo es para usted.

¡Vamos a sumergirnos de lleno!

  • ASCII: ¿Qué es ASCII y para qué se utiliza ASCII?

ASCII frente a Unicode frente a UTF-7 frente a UTF-8 frente a UTF-32 frente a ANSI

¿Cuál es la diferencia entre ASCII, Unicode, UTF-7, UTF-8, UTF-32 y ANSI?

En sus viajes, probablemente haya visto al menos uno de los términos ASCII, Unicode, UTF-7, UTF-8, UTF-16, UTF-32 y ANSI.

Sin embargo, lo que quizás le resulte menos familiar es la diferencia real entre estos siete términos.

Navegar en la batalla de ASCII, Unicode, UTF-7, UTF-8, UTF-16, UTF-32 y ANSI y para qué son mejores o para qué se utilizan puede ser un viaje complicado.

Pero no temas, no es imposible de entender.

Para comprender completamente estos términos, es bueno comenzar con un “imagínate esto”.

¿Cómo surgió ASCII?

Martillo de máquina de escribir manual "7".

Imagínese una máquina de escribir.

Probablemente sepas cómo se ve uno.

Ahora, imagina el martillo de una máquina de escribir.

Si nunca has visto un martillo de máquina de escribir, es un pequeño rectángulo con un carácter en la parte superior e inferior.

El martillo suele tener letras minúsculas y mayúsculas, pero a veces dígitos y símbolos.

En la época de las máquinas de escribir, los caracteres disponibles eran los que veías en el teclado.

Esta cantidad de caracteres era la cantidad de teclas del teclado, más el carácter adicional en la parte superior del tipo martillo.

Obtuvo caracteres adicionales literalmente “cambiando” las barras de tipo para cambiar la alineación del lugar donde se presionó la tecla y obtener un nuevo carácter.

Con los teclados de computadora, los conjuntos de caracteres pueden ir más allá de lo que es mecánicamente posible en un teclado.

Usted sabe que los teclados de computadora modernos tienen capacidad para mucho más que eso.

Pero, en las primeras computadoras, la elección de caracteres no era mucho mejor que en una máquina de escribir.

El estándar americano original de caracteres sólo tenía 128 caracteres y se llamaba ASCII.

Del código Morse a las máquinas de escribir: conozca el ASCII

ASCII significa Código estándar americano para el intercambio de información.

Estuvo disponible como estándar de comunicación electrónica en 1963.

Es fundamental para casi todos los demás conjuntos de caracteres y estándares de codificación modernos, que amplían los 128 caracteres originales de ASCII.

A pesar de tener casi medio siglo de antigüedad, sigue siendo un pilar del panorama de la codificación.

Las páginas web sin ningún juego de caracteres designado automáticamente utilizan ASCII de forma predeterminada.

El desarrollo de ASCII surgió del código telegráfico.

Al igual que el código Morse, el ASCII depende de diferentes combinaciones de indicadores negativos o positivos que, juntos, equivalen a un carácter determinado.

El código Morse usa puntos y rayas y ASCII usa 1 y 0, pero la premisa es la misma.

ASCII fue, en cierto sentido, un invento revolucionario.

Hizo la lista de Hitos internacionales de la ingeniería eléctrica y electrónicajunto con hazañas como la televisión de alta definición, los reproductores de discos compactos (CD) y el nacimiento de Internet.

ASCII es anterior a todos estos hitos.

También existe una extensión de la tabla ASCII básica que agrega otros 128 caracteres a los 128 caracteres originales.

Se llama ASCII extendido o EASCII.

Por lo tanto, las tablas ASCII básica y extendida combinaron un total de 256 caracteres.

¿Qué es el Unicode? (4 estándares)

Unicode es un estándar de codificación.

Amplió y se basó en el conjunto de caracteres ASCII original, cuyos 128 caracteres comprenden los primeros caracteres de Unicode.

En marzo de 2020, Unicode cubre la friolera de 143,859 caracteres, incluido el conjunto ASCII original y miles de caracteres más que pertenecen a caracteres y glifos tanto en inglés como en otros idiomas.

Incluso en su versión inicial, Unicode proporcionaba un total de 7.163 caracteres, aproximadamente cincuenta y cinco veces el número de caracteres de ASCII.

Las computadoras avanzaron drásticamente desde principios de los años 60 hasta 1987, el año en que se produjo el origen de Unicode.

Desarrollado por Joe Becker y Lee Collins de Xerox y Mark Davis de Apple, Unicode pretendía dotar a las computadoras de capacidades multilingües e internacionales.

Cada edición posterior agregó (o ocasionalmente eliminó) varios guiones.

Las escrituras son colecciones de caracteres incluidos en un conjunto de caracteres, generalmente relacionados con diferentes idiomas y alfabetos, como el griego o el han.

Los estándares Unicode se implementan mediante UTF-8, UTF-16 o UTF-32.

#1UTF-7

UTF-7 significa formato de transformación Unicode de 7 bits.

Probablemente, no suele ver esto como un formato de codificación estandarizado.

También puede llamar la atención que verá números que son múltiplos de ocho (como los otros códigos UTF incluidos), y este es siete.

Nunca ganó fuerza y ​​ahora se considera obsoleto.

En el mundo de la informática, el siete es un número realmente extraño.

A las computadoras les gustan los múltiplos de dos y los múltiplos de ocho.

El único número impar que realmente le gusta es el uno, pero sólo como identificador de positivo (frente a negativo) o verdadero (frente a falso).

De todos modos, esta comparación termina siendo un conjunto de dos.

ASCII también se ejecutaba en 7 bits, pero esto fue formativo y temprano en los días de la codificación.

UTF-7 pretendía ser una alternativa de correo electrónico menos exigente que UTF-8, pero su falta de seguridad la convirtió en una mala elección.

UTF-7 no duró mucho y a menudo se pasa por alto.

#2UTF-8

UTF-8 es lo más cercano al santo grial de la codificación de caracteres, ya que proporciona una gran biblioteca de scripts sin sobrecargar las computadoras con renderizado innecesario.

Es el formato estándar en la World Wide Web.

En 1989, el Organización Internacional de Normalización buscó crear un conjunto de caracteres universal de varios bytes.

La codificación inicial UTF-1 logró temporalmente este objetivo.

Sin embargo, debido a problemas como la reutilización de caracteres de impresión ASCII, fue rápidamente reemplazado por UTF-8.

UTF-8 se creó en 1992 y sigue siendo el formato de codificación estándar desde entonces.

Tiene un bit adicional, en comparación con los 7 bits de ASCII, lo que permite una mayor cantidad de caracteres que puede manejar.

Agregar un poco más a la mezcla significó que UTF-8 podría permitir más caracteres.

Sin embargo, un código de 1 byte en UTF-8 es igual que el juego de caracteres ASCII.

Esto se debe a que ASCII todavía constituye la base de UTF-8 y, por lo tanto, está incluido en su conjunto.

#3UTF-16

A finales de los años 80, tanto el Consorcio Unicode como el subcomité de estandarización ISO/IEC JTC 1/SC 2 comenzaron a trabajar en un conjunto de caracteres universal.

🔥 Leer:  ASCII: ¿Qué es ASCII y ASCII? ¿Para qué se utiliza ASCII?

De manera bastante extraña (y confusa), este “Conjunto de caracteres universales” original obtuvo el nombre “Unicode”, pero luego cambió a UCS-2. Esto puede causar cierta confusión, pero Unicode casi siempre significa el estándar.

El primer borrador de directrices ISO/IEC JTC 1/SC 2 llamado ISO 10646 finalmente se convirtió en UTF-16 y UCS-2.

UTF-16 surgió de la codificación anterior UCS-2 cuando se hizo evidente que más de 65.000 puntos de código Se necesitaría, que es lo que proporcionó UTF-8.

Sin embargo, el mapeo de caracteres de UTF-16 no coincide con ASCII y no es compatible con versiones anteriores.

Aunque utilizable, esta falta de compatibilidad con ASCII hace que UTF-16 sea ocasionalmente problemático.

Diseñado como un codificación de ancho variableeste es a veces un punto de controversia.

Ralentizó el tiempo de renderizado.

Aunque el conjunto de personajes en su conjunto pretendía incluir más personajes, esto ocurrió a costa de la eficiencia.

#4UTF-32

Si recuerdas la historia de UTF-16 de hace unos momentos, deberías recordar algo llamado ISO 10646.

Fue un borrador de directrices que finalmente se convirtió en estándar.

En algún momento después de UTF-16, ISO 10646 definió una forma de codificación que se ejecutaba en 32 bits.

Llamaron a esta forma de codificación UCS-4.

UCS-4 tenía una enorme variedad de puntos de código.

Estos puntos de código comenzaron en 0 y llegaron hasta 0x7FFFFFFF.

Finalmente, el RFC 3629 impuso restricciones a Unicode.

RFC 3629 impulsó a UCS-4 para que cumpliera con las limitaciones de UTF-16.

Esta versión limitada de UCS-4 se convirtió en lo que ahora se conoce como UTF-32.

Después de esto, ISO/IEC JTC 1/SC 2 declaró en un documento de procedimiento que todos los puntos de código futuros tanto para UCS-4 como para UTF-32 se limitarían al estándar Unicode.

Dado que UTF-32 ahora puede representar todos los puntos de código de USC-4, ahora se consideran prácticamente idénticos.

¿Qué es ANSI?

El Instituto Nacional Estadounidense de Estándares, o ANSI, comenzó como la Asociación Estadounidense de Estándares.

Esta asociación fue responsable del desarrollo de ASCII.

En 1969 cambió su nombre a ANSI.

Si investiga un poco, encontrará que ANSI es una organización y no un estándar o una codificación de caracteres en absoluto.

¿O es eso?

ANSI es, de hecho, un conjunto de caracteres pero también es un nombre inapropiado.

El verdadero nombre del código ANSI es Windows-1252 o Windows-CP y no es un estándar reconocido por el Instituto Nacional Estadounidense de Estándares.

Windows históricamente utilizó la “página de códigos ANSI” como término para cualquier codificación que no sea DOS.

Utiliza los 128 caracteres ASCII originales más 127 adicionales.

Al igual que ASCII, es un codificador de caracteres de un solo byte y es el codificador de ese tipo más popular en el mundo.

Como se dijo antes, ANSI es un nombre inapropiado pero persiste como término hasta el día de hoy para referirse a Windows-1252.

¿Qué son los estándares? (2 términos)

Mujer haciendo un gesto despistado frente a su computadora portátil, dentro de una cafetería.

A estas alturas habrás notado que este conjunto de términos se divide en dos categorías: codificaciones y estándares.

Si bien existe cierto cruce entre los dos, cada término es principalmente uno u otro.

Un estándar, en el mundo técnico, es una “norma o requisito establecido para una tarea repetible”.

Énfasis en la “tarea repetible”.

En cualquier entorno técnico, ningún evento o actividad es bueno a menos que sea repetible.

Esto es especialmente cierto en el mundo de la informática.

De los términos enumerados, tres de ellos se consideran oficialmente estándares.

Estos son ASCII, Unicode y ANSI.

Aunque los estándares Unicode rigen las codificaciones UTF, no son estándares en sí mismos.

ASCII es un poco extraño ya que es a la vez una codificación y un estandar.

Sin embargo, esto es comprensible, dado que su origen es anterior a muchas de las normas que las instituciones reconocen hoy.

#1ASCII

Como estándar inicial, ASCII se publicó por primera vez en 1963.

Pero las computadoras de 1963 no eran lo que son hoy.

Ni siquiera eran lo que eran en los años 80.

ASCII fue diseñado para colocar códigos de control y controles gráficos en dos grupos separados.

Los códigos de significado que indican un espacio o una eliminación se suceden y los caracteres como letras o números vienen después.

El patrón ASCII también se llama orden bético ASCII, y los dos puntos principales de esto son que todas las letras mayúsculas preceden a todas las letras minúsculas.

No significa que diga “A, a, B, b”, sino “A, B, C” y después de que esas letras concluyan, comience con “a, b, c” después de “Z” (mayúscula).

Desde su desarrollo, ASCII ha pasado por doce revisiones, la última de ellas en 1986.

El comité que desarrolló ASCII originalmente fue la Asociación Estadounidense de Estándares, que ahora se conoce como el Instituto Nacional Estadounidense de Estándares, comúnmente conocido como ANSI.

#2 Unicódigo

La mayor diferencia entre Unicode y ASCII es justamente esa: su tamaño.

Un borrador de directrices de ISO/CEI JTC 1/SC 2 creado en 1990 finalmente se convirtió en el estándar Unicode con adiciones y modificaciones a lo largo del tiempo, con el objetivo de incluir tantos caracteres como sea posible.

Unicode en sí no es una codificación.

Deja ese asunto en manos de UTF-8 y sus amigos.

El propio estándar proporciona páginas de códigos, así como directrices para la normalización, renderizado, etc.

UTF-7, UTF-8, UTF-16 y UTF-32 son implementaciones del estándar Unicode.

Aunque figura aquí, UTF-7 no se considera una codificación estándar Unicode oficial.

El estándar Unicode posee un espacio de código dividido en diecisiete planos.

Este espacio de código es un conjunto de rangos numéricos que van del 0 al 10FFFF y se denominan puntos de código.

Cada plano contiene un rango dentro de estos valores.

Unicode denota su código con una U al frente (“U+”) seguida de un punto de código en valor hexadecimal. U+0000 y U+10FFFF son ejemplos de denotaciones reconocidas para Unicode.

¿Por qué UTF no es un estándar?

UTF-7, UTF-8, UTF-16 y UTF-32 no son estándares y, por lo tanto, no pueden explicarse como tales.

Hacerlo sería como describir un libro de cocina como los ingredientes y herramientas de la comida.

Un libro de cocina te dice qué se puede cocinar y cómo cocinarlo y, en ese sentido, es como un estándar.

Los ingredientes y herramientas te permiten implementar eso y crear una comida.

Por muy necesarias que sean las instrucciones, una comida no es nada sin la comida y los objetos necesarios para crearla.

Estos cuatro conjuntos de caracteres UTF se denominan codificaciones.

Es decir, son la herramienta que permite al usuario solicitar un carácter, enviar una señal a través de la computadora y regresar como texto visible en la pantalla.

El estándar Unicode se implementa mediante codificaciones, de las cuales UTF-8, UTF-16 y UTF-32 son las más populares.

¿Qué es una codificación? (3 términos)

Hombre de negocios entrecerrando los ojos y frustrándose con la computadora.

Primero, trate de superar la redacción incómoda de la palabra.

Sí, suena a verbo, pero es un sustantivo, como un dibujo o una pintura.

Una codificación implica implementar una colección de caracteres.

Cuando se procesan mediante una codificación como UTF-8, a los caracteres se les asigna un número entero para que puedan manifestarse como caracteres.

Dentro del ámbito de la codificación, varios términos definen aspectos de la codificación.

  • Personaje: La unidad de texto más pequeña posible. Podría ser la letra “G” o un espacio o una devolución.
  • Conjunto de caracteres: Colección de personajes. Estos no se limitan a un solo idioma, como el inglés y el francés, que son idiomas separados, sino que utilizan los mismos caracteres latinos.
  • Conjunto de caracteres codificados: A diferencia de los juegos de caracteres que no tienen alineación numérica, los juegos de caracteres codificados asignan números enteros a cada carácter.
  • Punto de código: El número entero correspondiente dentro de un conjunto de caracteres que le da un valor al que se puede hacer referencia.
  • Espacio de código: Rango de números enteros compuesto por puntos de código.
🔥 Leer:  MuscleWiki es su solución definitiva hacia una vida saludable

Estos términos describen la base de los términos de codificación.

#1 UTF-8

Cuando se procesan datos, se cuentan sus bits.

Un bit es la única unidad de información que verá representada como un “1” (verdadero) o un “0” (falso) en un número binario como 0011 (el número binario de 4 bits para el número tres).

UTF-8 es una codificación de 8 bits, a diferencia de ASCII, que es de 7 bits.

El número tres de arriba es un número binario de 4 bits. Ocho bits siempre formarán un byte.

La razón por la que ASCII se llama 7 bits es que el número entero inicial es siempre cero, lo que obliga a la computadora a ignorarlo y solo reconocer los otros siete bits de información.

UTF-8 es de 8 bits, pero tanto UTF-8 como ASCII pueden generar un byte. UTF-8 puede tener hasta cuatro bytes, pero puede tolerar la función de un solo byte de ASCII y, por lo tanto, es compatible con versiones anteriores.

Y eso es lo que lo hace oro.

La flexibilidad de UTF-8 puede manejar situaciones de bytes grandes pero aún así ser lo suficientemente rápido como para manejar bytes individuales y no exagerar con un peso de bytes innecesario.

#2UTF-16

Lo que hace que UTF-16 sea un poco complicado es que UTF-16, como mínimo, requiere al menos dos bytes.

ASCII sólo puede hacer un byte. Si bien UTF-8 puede procesar hasta cuatro bytes, su mínimo coincide con ASCII en ese aspecto: ambos pueden procesar un byte.

Como UTF-16 avanza información en lotes de dos bytes, si intenta mover algo en ASCII, pierde el código.

Dado que ASCII solo puede mover un byte, UTF-16 avanza con solo la mitad de los datos requeridos.

Te queda un punto de código cuyo valor es sólo la primera mitad de lo que debería ser, lo que te da un carácter completamente diferente.

Aparte del tamaño, esta se convierte en la principal diferencia entre UTF-16 y UTF-8. UTF-8 puede retroceder y fusionarse con ASCII, mientras que UTF-16 se adelanta y descarta la pequeñez de ASCII y no puede procesar adecuadamente su codificación.

#3UTF-32

Entonces, está UTF-8 que puede tener de uno a cuatro bytes, está UTF-16 que necesita al menos dos bytes y luego está UTF-32.

UTF-32 requiere al menos cuatro bytes. Eso es grande.

Imagínate esto.

Tienes una pelota de béisbol que le vas a enviar a tu primo Kevin.

El envío se basa en el peso y el tamaño del paquete.

Decides enviar la pelota de béisbol en una caja que pueda contener una pelota de baloncesto.

Pagas el doble de lo que deberías porque permitiste un artículo mucho más grande en la caja que no era necesario.

UTF-32 es así.

Se necesita más tiempo para transportar 32 bits y más espacio para almacenarlos.

El beneficio es que se necesitan menos cálculos para determinar qué carácter se debe representar.

Tanto UTF-8 como UTF-16 deben determinar cuántos bytes tiene algo para calcularlo, lo que supone más tiempo. UTF-32 sólo conoce cuatro bytes.

Se dedica más tiempo a otra parte, pero menos tiempo a este cálculo.

¿Qué son los conjuntos de caracteres?

Primer plano del teclado de la computadora con foco en la letra K.

En general, los juegos de caracteres representan una codificación de caracteres donde a cada carácter se le asigna un número.

Dado que las computadoras ya no necesitan relacionarse directamente con números binarios, la mayoría de los conjuntos de caracteres tienen un número que es más fácil de identificar.

Estos números se traducen a números binarios, lo que le indica a la computadora qué carácter desea.

Los números que ve son generalmente hexadecimales y, a menudo, tienen una denotación especial según el estándar al que se adhieren.

Como probablemente ya habrás adivinado, los conjuntos de caracteres no son sólo letras o números.

También son más que signos de puntuación y símbolos.

Esencialmente, cualquier cosa que puedas decirle a tu teclado que haga es un carácter.

¿Espacio? Personaje. ¿Devolver? Personaje. ¿Emojis? Personaje. ¿Borrar? Personaje.

Como se dijo antes, ASCII, Unicode y ANSI no son conjuntos de caracteres.

Son estándares.

Determinan cómo se implementan los conjuntos de caracteres, pero la verdadera implementación de los caracteres y qué son los caracteres está determinada por la codificación.

ASCII como conjunto de caracteres

ASCII es el conjunto de caracteres básico y fundamental. También es el único término entre los siete enumerados que sirve como conjunto de caracteres y estándar.

Pero ahora es el momento de centrarse en ello como un conjunto de personajes.

ASCII codifica 128 caracteres en números enteros de 7 bits.

Los primeros 32 (0-31) caracteres se denominan “códigos de control” y existían para controlar el hardware físico.

Los caracteres numerados del 32 al 127 comprenden los caracteres imprimibles de ASCII, excepto el último carácter, que es Eliminar.

Los caracteres imprimibles de ASCII constan de letras latinas mayúsculas, minúsculas, dígitos del 0 al 9 y catorce signos de puntuación.

Los personajes fueron determinados en Estados Unidos por un estadounidense.

En ese momento, ASCII pretendía que sus caracteres fueran únicamente para uso americano o inglés.

No incluye escritura especial ni caracteres fonéticos como À o œ, a pesar de su presencia en los caracteres latinos.

Este desarrollo no se produciría hasta más tarde.

Personajes de control: función detrás de escena

Los personajes de control comenzaron como una forma de manipular el hardware de la computadora.

Esto ocurrió en la época de la invención del ASCII a principios de los años 60, cuando las computadoras funcionaban de manera más mecánica.

Es probable que aún reconozcas algunos personajes de control, aunque quizás con nombres diferentes.

“Carro de regreso” es un término que queda de la época de las máquinas de escribir, equivale a presionar la “tecla enter”.

Otros personajes de control se han vuelto más oscuros o profundamente ocultos dentro de las funciones de una computadora.

Es importante comprender que en las primeras computadoras, los códigos de control servían para permitir cualquier cosa que una computadora pudiera hacer, como reconocer el “fin del medio” cuando la computadora llegaba al final de una hoja de papel.

Esto no es algo que ingresamos hoy, pero aún así es algo que lee la computadora.

Algo que ASCII, ANSI y Unicode tienen en común son estos códigos de control.

Los primeros 32 caracteres, más 127 para Eliminar, son códigos de control para cada uno de estos conjuntos de caracteres.

O, en el caso de Unicode, para los conjuntos de caracteres UTF que supervisa Unicode.

Juegos de caracteres Unicode y UTF

Como recordará, Unicode pretende encapsular tantos caracteres de tantos idiomas como sea posible.

Su primera versión de 1991 añadió al juego de caracteres ASCII original una biblioteca de 24 scripts.

Estos incluían alfabetos como el hebreo, el árabe y el hiragana.

Cada uno o dos años después de esta primera edición, Unicode agrega una cantidad variable de guiones a su repertorio.

Si bien estos suelen ser idiomas o alfabetos lingüísticos, a veces una versión agrega símbolos especiales, como símbolos de naipes o emojis.

UTF-8, UTF-16 y UTF-32 manejan los mismos conjuntos de caracteres y bibliotecas.

Codifican de manera diferente, lo que altera su uso, pero por lo demás, son idénticos en los caracteres que proporcionan.

Aunque Unicode administra los 128 caracteres ASCII originales, también actualizó (pero no reemplazó) algunos de ellos.

Por ejemplo, Unicode proporciona el signo de centavo original de ASCII (¢), pero también un signo de centavo de ancho completo (¢) que ocupa un tamaño mayor dentro de un lugar de carácter.

ANSI (o Windows-1252) como conjunto de caracteres

Para reiterar: ANSI es un nombre inapropiado y el conjunto de caracteres al que se puede hacer referencia como “ANSI” a menudo significa Windows-1252.

🔥 Leer:  Zilog Z80 frente a MOS 6502 frente a Intel 8080: ¿mejor?

Pero por ahora se llamará ANSI para evitar confusiones.

Al igual que ASCII, ANSI es un conjunto de caracteres de letras latinas básicas.

Esto incluye los caracteres ASCII clásicos, como los códigos de control, las letras mayúsculas y minúsculas, los dígitos y los signos de puntuación, pero también letras extra como Č y ű.

ANSI también presenta símbolos de moneda adicionales, como el signo del centavo (¢), el yen (¥) y la libra inglesa (£).

Sin embargo, todos estos todavía se consideran parte de los caracteres latinos, como todos los caracteres ASCII.

Aunque ANSI incluye el doble de caracteres que ASCII, todos los caracteres siguen siendo latinos.

Una expansión a otros caracteres, como el japonés o el griego, no se produciría hasta el lanzamiento de Unicode.

¿Donde están ahora?

UX UI y tecnología de desarrollo de programación.

Aparte de UTF-7, todas las demás codificaciones y estándares enumerados aquí todavía se utilizan hasta cierto punto.

ASCII se considera el padre fundador de toda la codificación moderna y sirve tanto como conjunto de caracteres como estándar.

Ninguno de los otros términos mantiene esta distinción.

Unicode sirve exclusivamente como estándar.

Los estándares en sí no son conjuntos de caracteres ni codificaciones, sino que supervisan y proporcionan directrices.

Unicode supervisa UTF-8, UTF-16 y UTF-32 como implementaciones de los estándares que defiende.

El acrónimo ANSI significa Instituto Nacional Estadounidense de Estándares, pero a menudo es un nombre inapropiado para la página de códigos Windows-1252.

No parece probable que esto se aclare pronto.

UTF-8 sigue siendo la implementación de Unicode más utilizada y solo se diferencia de UTF-16 y UTF-32 en la forma en que procesa y entrega memoria en la computadora.

El ASCII clásico

A pesar de su antigüedad, ASCII no se considera obsoleto y mantiene su estatus fundamental para Unicode y otras codificaciones.

ASCII sigue siendo importante en la era moderna.

HTML incorpora atajos que le permiten ingresar caracteres ASCII, como una tilde (~) u otros caracteres que ocasionalmente se pierden en la representación web.

Esto se logra señalando al navegador en código HTML con un signo comercial (&) seguido de un signo de almohadilla (#) con el número decimal correlacionado del carácter que desea.

Los códigos de control ASCII no tienen ningún significado para HTML y no se puede acceder a ellos de la misma manera que a los caracteres imprimibles.

Aunque los nombres de los códigos de control parecen anticuados y sin uso, muchos de ellos todavía realizan acciones dentro de la computadora.

La principal diferencia es que los usuarios ya no necesitan activar estos comandos ellos mismos y generalmente son una función automática de las computadoras modernas.

El estado de ANSI (o Windows-1252)

Por un lado, ANSI todavía se llama ANSI y no Windows-1252 tanto como debería ser.

También se considera ASCII extendido, lo cual tiene sentido dado que la mitad es igual que ASCII. Sin embargo, a diferencia de ASCII, no está estandarizado por los Institutos Nacionales de Estándares de Estados Unidos, de donde recibe su nombre inapropiado.

En octubre de 2020, el 0,4% de los sitios web de todo el mundo declararon que utilizaban Windows-1252. Se considera idéntica la codificación ISO/IEC 8859-1, que es utilizada por el 1,9% de todos los sitios web. Esto eleva el uso de Windows-1252 al 2,3%, más que UTF-16 o UTF-32.

A pesar de ser utilizado por más de 30.000 sitios web, Windows-1252 no ha recibido una actualización de versión desde que debutó su cuarta y última versión en Microsoft Windows 98.

A diferencia de ASCII o Unicode, ANSI no es universal en todos los sistemas operativos.

Microsoft lo creó para uso exclusivo de sus productos Windows y, como resultado, ese es el único lugar donde se usa.

El estándar Unicode hoy y el pequeño UTF-7

Unicode ya no se considera una codificación y se reconoce exclusivamente como un estándar o se hace referencia a él como una abreviatura del Unicode Standard Consortium.

El estándar Unicode tiene actualmente 143.859 caracteres en su repertorio.

El consorcio lanzó Unicode 13.0 en marzo de 2020, que agregó 5930 caracteres y cuatro secuencias de comandos a su biblioteca.

Ningún otro estándar lo iguala en amplitud y variedad.

Sin embargo, se abordan algunas cuestiones, especialmente las relativas unificación hanlo cual es una gran tarea para implementar e incluir adecuadamente la variedad de personajes Han.

Una parte de esta controversia tiene que ver con cuestiones internacionales entre los países de Asia oriental que utilizan los caracteres Han.

UTF-7 sigue siendo oscuro. Nunca reconocido oficialmente por el Consorcio Unicode, es el término de esta lista que podría considerarse un fracaso.

Unicode no tiene planes de resucitarlo o adaptarlo, ya que, en primer lugar, nunca cumplió bien su propósito original.

UTF-8: Rey de la Web

UTF-8 ha seguido siendo un pilar desde su desarrollo en 1992. A partir de 2020, alrededor del 96% de todas las páginas web utilizan UTF-8.

Es compatible con versiones anteriores de ASCII, a pesar de que ASCII es de 7 bits y UTF-8 de 8 bits.

Si hace clic derecho y selecciona “ver código fuente de la página” en cualquier página web determinada, es probable que encuentre una designación para “UTF-8” como conjunto de caracteres.

A pesar de la intención de UTF-7 de manejar correos electrónicos, UTF-8 también sirve como codificación para casi todos los servicios de correo electrónico.

La versatilidad de UTF-8 también le permite mostrar los mismos puntos de código que UTF-16 y UTF-32.

Su diferencia radica principalmente en el proceso de datos de cada codificación. UTF-8 sigue siendo el más eficiente para la web e incluso, en algunos casos, se prefiere en otros lugares.

Ciertos lenguajes de programación utilizan UTF-8, como PHP, que es un lenguaje de programación generalmente adecuado para uso web y se comunica con bases de datos a través de navegadores web.

UTF-16: uso selectivo

Dado que UTF-16 no es compatible con ASCII, esto lo desaconseja para su uso en la web.

Como resultado, no ha ganado tanta popularidad como UTF-8 o UTF-32.

Debido a que UTF-16 es una codificación de ancho variable, requiere conocimiento adicional de cuántos bytes se están entregando.

Esto consume memoria adicional, lo que ralentiza el tiempo de renderizado.

La web utiliza UTF-16 menos del 0,01% del tiempo, en comparación con el uso web de UTF-8 del 96%.

A pesar de estos problemas, especialmente cuando se usa en la web, UTF-16 se usa comúnmente en Java y Windows.

Rara vez se usa para Unix, como Linux y posteriormente Apple y Android.

Sin embargo, a partir de mayo de 2019, incluso Microsoft Windows parece estar alejándose de UTF-16 y prefiriendo UTF-8, que ahora admite y recomienda.

JavaScript conserva la capacidad de utilizar tanto UTF-16 como, sorprendentemente, el viejo UCS-16.

UTF-32

El uso actual de UTF-32 se centra principalmente en API internas (interfaz de programación de aplicaciones).

Debido a que UTF-32 no necesita preprocesar la codificación de ancho variable, es más rápido para las API.

Unix y el lenguaje de programación Python poseen la capacidad de utilizar UTF-32.

Sin embargo, UTF-8 sigue siendo la mejor opción para la codificación. Aunque muchos programas pueden manejarlo, UTF-8 es más eficiente y compacto que UTF-32.

Las API que funcionan internamente solo tienen que realizar llamadas al sistema operativo.

Sin embargo, esto requiere que tanto el sistema operativo como el software posean la capacidad de manejar UTF-32.

El uso de UTF-32 aquí exige menos de un sistema operativo que de un navegador web.

Sin embargo, tanto el software como el sistema operativo deben comunicarse mediante UTF-32.

De lo contrario, el intento es infructuoso.

A pesar de ser utilizable, UTF-32 todavía no es tan viable como UTF-8 y no se usa con tanta frecuencia porque consume mucha más memoria.

  • ASCII: ¿Qué es ASCII y para qué se utiliza ASCII?
Recomendamos

Populares