L'Encodeur ATRAC

Retour Sommaire

Les entrées d'un appareil MiniDisc sont particulières. Un DAT possède des entrées analogiques avec convertisseurs A/N ainsi que des entrées numériques directement transmises au modulateur ETM (Eight to Ten Modulation). Le CD, quant à lui, possède les mêmes attributs avec une modulation EFM (Eight to Fourteen Modulation) et une correction d'erreurs CIRC (Cross Interleave Reed Solomon Code). Dans les deux cas, le signal passe au maximum par un seul convertisseur. Le cas du MiniDisc est bien différent car il en comporte deux : un convertisseur A/N, transformant le signal analogique en signal PCM (Pulse Code Modulation), et un convertisseur PCM / ATRAC. Il faut comprendre qu'à ce stade, même un signal PCM entrant en S/PDIF (coaxial ou optique) est à nouveau converti en signal ATRAC. Dans le cas d'une copie numérique de DAT vers DAT, le signal ne passe par aucun convertisseur (uniquement des interfaces S/PDIF ou AES) tandis qu'une copie de MiniDisc vers MiniDisc passe par deux convertisseurs: un ATRAC / PCM et PCM / ATRAC.

La particularité du système ATRAC est de posséder un algorithme évolutif; depuis sa création en 1992, celui-ci s'est amélioré au fil de ses différentes versions et la qualité de reproduction n'a donc cessé d'augmenter depuis la version 1.0.

*Version*	Convertisseur A / N	Année de sortie
ATRAC 1.0	16 bits	1992
ATRAC 2.0	16 bits	1993
ATRAC 3.0	16 bits	1994
ATRAC 3.5	18 bits	1995
ATRAC 4.0	20 bits	1996
ATRAC 4.5	20 bits	1998
ATRAC Type R-DSP 1.0	20 bits (DSP 24 bits)	1999

*Versions*	Numéro IC (type de processeur)	Exemple de modèle MiniDisc	Date de sortie
ATRAC 1	CXD-2527	MDS-101	2/93
ATRAC 2	CXD-2531	MDS-102 MDS-501	11/93 2/94
ATRAC 2	CXD-2531R	MDM111 MDH-10
ATRAC 3	CXD-2536R	MZ-R3	5/95
ATRAC 3	CXD-2536R	MZ-R3	5/95
ATRAC 3.5	CXD-2536A	MDS-JA3ES	6/95
ATRAC 3.5	CXD-2536B	MDS-503	10/95
ATRAC 3.5	CXD-2536AR	MZ-E40	1/97
ATRAC 4.0	CXD-2650R	MDS-JE500/S37 N. Americain MDS-JE510 MDS-JE700	8/96
ATRAC 4.0	CXD-2652R	MZ-R30	8/96
ATRAC 4.0	CXD-2652AR	MZ-R50/MZ-R55/MZ-R37 European MDS-JE510	8/97
ATRAC 4.5	CXD-2537R	MDS-JA50ES	12/96
ATRAC 4.5	CXD-2654R	MDS-JE520	9/98
ATRAC Type R		MDS-JE530, MDS-JB 930, MDS-JE640, MDS-JE440	99

L'algorithme ne travaille plus avec des convertisseurs A/N conventionnels mais avec une plus haute résolution. Le format 24 bits est aujourd'hui adopté par Sony, ce qui permet de réduire le niveau de bruit de manière considérable ainsi que de travailler avec une plus grande précision de retour en 16 bits. En effet, Sony ne cherche pas à attirer le client avec des slogans commerciaux tel que "Résolution 24 bits" étiquetés sur chaque appareil mais joue la franchise avec la mention "Intelligent Adaptive Reallocation Algorithm", tout en gardant le label "qualité 16 bits" dans les manuels de chaque appareil, ce qui me paraît bien plus judicieux. Le résultat est que, même dans les bas niveaux (-80 dB), le système est capable de reproduire le son enregistré sans pour autant générer le bruit de quantification du 16 bits classique. Ce qui veut dire qu'un niveau de -80 dB provenant d'un MiniDisc possède une qualité sonore bien supérieure au -80 dB d'un CD.

Revenons-en à notre encodeur ATRAC :

Le schéma de l'encodeur ci-dessus comporte trois éléments: l'Analyseur Spectral, le Quantificateur Spectral et l'Assignation de Bits. Dans un premier temps, l'Analyseur Spectral filtre le signal PCM en 3 bandes de fréquences, puis celles-ci sont converties en domaine fréquentiel par Transformées de Fourier (FFT). Le débit à l'entrée de l'encodeur est celui du CD, c'est-à-dire 1,4 Mbits / sec tandis qu'à sa sortie il est de 292 kbits / sec, soit une compression d'environ 5 : 1.

L'analyseur spectral transforme le signal PCM conventionnel en PCM spectral contenant des informations de temps; ensuite, selon un modèle psychoacoustique que contient l'algorithme ATRAC, ce dernier est requantifié grâce à l'assignation de bits et au quantificateur spectral.

L'Analyseur Spectral :

Dans un premier temps, tous les 512 échantillons de 16 bits par canal (1024 octets), le signal PCM filtré en trois zones spectrales: grave (0 à 5,5 kHz), médium (5,5 kHz à 11 kHz) et aigu (11 à 22 kHz), par l'intermédiaire de deux Quadrature Mirror Filters (QMF's) qui sont de simples filtres numériques. Une ligne à retard évite "l'aliasing" (perte de corrélation entre les signaux) des fréquences aiguës pendant que graves et médiums sont séparés dans QMF 2. Une fois ce travail terminé dans le domaine temporel, chacune de ces trois grandes bandes de fréquences va être convertie en domaine fréquentiel par fenêtres de 11,6 ms grâce aux trois Modified Discrete Cosine Transform (MDCT), ce sont des analyseurs de Fourier FFT (Fast Fourier Transform). L'Assignation de Taille de Bloc permet aux MDCT d'allouer le nombre de bits nécessaires pour chaque raie spectral. A partir de cette étape, le système travaille toujours dans le domaine fréquentiel avec en plus, des informations temporelles. A la sortie de l'analyseur, nous avons donc, pour 512 échantillons de 16 bits par canal, un spectre représentant une durée sonore de 11,6 ms. Cependant, l'algorithme ATRAC ne se contente pas de coder chaque raie de ce spectre en une seule durée, il divise la fenêtre de 11,6 ms en 8 sous-fenêtres pour les aigus et 4 pour les graves et médiums : c'est le principe des modes courts et modes longs définis plus loin.

Toutes les raies spectrales ne sont pas traitées indépendemment les unes des autres mais organisées en 52 bandes critiques. Celà signifie qu'elle seront assimilées, traitées par bandes dans l'Allocation de bits et le Quantificateur Spectral. Le passage en mode court ou long est sélectionnable et indépendant pour chaque bande de fréquences. Il faut savoir cependant que le système ne peut passer en mode court dans une bande critique située entre deux autres en mode long, c'est une particularité de celui-ci. Ces bandes critiques contiennent un certain nombre de bits et reflètent une durée sonore élémentaire de 11,6 ms en mode long et 1,45 ms ou 2,9 ms en mode court. Dans le graphe ci-dessous, noter que la concentration de bandes est plus importante dans les fréquences graves que aiguës, ce qui est représentatif des caractéristiques de l'oreille humaine.

Nous avons, sur un total de 52 bandes critiques :

20 bandes critiques pour les fréquences graves

16 bandes critiques pour les fréquences médiums

16 bandes critiques pour les fréquences aiguës

En résumé, pour chaque bande de fréquence :

Selon le type du signal, chaque bande critique représente une durée sonore élémentaire variable; il existe deux modes : le mode long (11,6 ms) et le mode court (1,45 ms dans les fréquences aiguës et 2,9 ms dans les autres). D'une manière générale, le mode long restitue les sons avec une très bonne précision. Cependant, certaines imperfections voire distorsions peuvent apparaître lors de l'échantillonnage de transitoires ou attaques très brèves; l'erreur de quantification est alors présente sur toute la longueur de la fenêtre et celle-ci est trop longue pour être masquée, c'est le problème du pré-écho relatif à l'effet de postériorité traité ci-dessus. Pour éviter ce problème, le système ATRAC bascule en mode court lorsqu'il détecte un signal bref de type transitoire ou attaque succincte.

Pour un signal décroissant, le passage en mode court n'est pas nécessaire car l'erreur de quantification est masquée par l'effet de précédence qui est, je le rappelle, beaucoup plus tolérant à l'égard de l'oreille. En conséquence, l'algorithme parvient à restituer correctement quasiment tous les signaux même transitoires (car seul l'échantillonnage par le système ATRAC d'un signal test spécifique peut présenter de la distorsion à la restitution).

Le Quantificateur Spectral :

Résumons la situation, nous nous trouvons à la sortie de l'Analyseur Spectral avec un spectre correspondant à une durée sonore de 11,6 ms et comportant des informations de répartitions dans le temps des différents spectras (modes court et long). Ces derniers seront assimilés et répartis en 52 bandes critiques appelées Block Floating Units (BFU's) au sein du quantificateur spectral. Ces BFU contiennent différentes informations. C'est en effet à ce stade que l'on va attribuer un Facteur d'Echelle à chaque BFU. Le facteur d'échelle est utilisé pour déterminer les niveaux relatifs des différentes valeurs de crête d'une fenêtre de 11,6 ms. C'est au sein du Quantificateur Spectral que le modèle psychoacoustique de l'algorithme est présent, il détermine le seuil de niveau de bruit pour chaque BFU, ce qui permet de n'enregistrer que la partie du signal réellement entendue. La longueur finale du BFU est établie grâce à l'Assignation de bits.

L'Assignation de bits :

C'est ici que le système attribue le nombre de bits nécessaire à chaque BFU. Sur 1024 octets de données audio PCM, l'algorithme en inscrira 212 sur le disque quelle que soit la version ATRAC. Dans l'évolution des versions ATRAC, c'est évidemment l'interprétation des données spectrales qui subit des améliorations, c'est-à-dire la manière de quantifier au mieux les 212 octets pour un résultat identique aux 1024 d'entrée.

L'algorithme d'allocation de bits fait un rapide récapitulatif des bits disponibles dans les différents BFU's et répartit ses propres bits de paramètres à l'intérieur de ceux-ci. Grâce au facteur d'échelle et selon la taille des BFU's, il est seul juge de l'importance de leur contenu; si le signal est trop faible, il choisira de lui inscrire un code de moindre importance qui sera pas reproduit à la lecture, étant traduit comme un échantillon élémentaire contenant du bruit de quantification.

En conséquence, pour chaque groupe de sons élémentaires de 11, 6 ms (soundgroup), le système grave les données suivantes sur le disque :

Longueur du mot de bande critique (donnée spectrale) de chaque BFU

Mode court ou mode long du MDCT pour chaque BFU

Facteur d'échelle pour chaque BFU

Paramètres de l'Assignation de bits.

Pour une garantie de précision à la restitution du signal, les données importantes tel que le mode, la longueur de mot et le facteur d'échelle sont stockées de manière redondante, c'est-à-dire que chaque soundgroup est stocké sans tenir compte de l'éventuelle similitude de ses voisins. Cependant, dans la dernière version ATRAC, l'algorithme tient compte de la redondance de certains signaux pour obtenir plus de précision dans le spectre des fréquences aiguës.

En conséquence, on a pour chaque BFU (k) (k Î { 0, 51} , k Î N ), un nombre fixe b_fix(k) de bits (données spectrales MDCT) et un nombre variable b_var(k) de bits de facteur d'échelle et de paramètres pour un nombre total b_tot de bits du BFU, ainsi que la relation suivante :

b_tot(k) = Tb_var + (1-T)b_fix

où T est représentatif de la complexité du signal : T @ 1 pour des sons purs et T @ 0 pour un bruit blanc. De ce fait, des sons purs seront regroupés dans un petit nombre de BFU's tandis que pour des sons plus complexes, l'algorithme augmentera le nombre de bits fixes dans le but de réduire le nombre de bits de paramètres assignés à certaines hautes fréquences masquées.

L'équation ci-dessus explique partiellement l'encodage car en réalité, l'algorithme assure un débit de données constant dans le système en envoyant les données octet par octet; dans l'exemple ci-dessous, les facteurs d'échelles, paramètres de spectre audio et les différentes longueurs de mots sont triés et envoyés vers la modulation EFM / ACIRC avant d'être gravées sur le disque (voir Structure des Données sur le Disque).

Propriétés Psychoacoustiques de l'Oreille

L'Encodeur ATRAC

Le Décodeur ATRAC

Structure des Données sur le Disque

Le Bloc Optique du MiniDisc

Le Bloc de Détection

Les Asservissements

Les Tables des Matières TOC et UTOC

La Modulation à Champ Magnétique (MFM)

Gestion de l'Espace sur le Disque

Les Types de MiniDiscs et leurs Structures

Copies de MiniDiscs et Système SCMS

Les Algorithmes ATRAC2 LSI et ATRAC 3 LSI

Le Convertisseur de Fréquence d'Echantillonnage

La Mémoire Tampon