Pour bien comprendre le fonctionnement du MiniDisc, il est nécessaire d'aborder certaines notions théoriques de notre organe auditif, en particulier le comportement de notre oreille en fonction de la fréquence et du niveau sonore. En effet, l'algorithme de compression de données présent dans le système du MiniDisc quantifie et comprime les données audio en fonction de ce que perçoit ou non notre ouïe; cet algorithme est un outil de calcul doublé d'une base de données appelée
modèle psychoacoustique comprenant une multitudes de schémas de quantifications différents en fonction du contenu sonore. Les explications qui suivent restent pour le moins succinctes et peu approfondies mais tentent de résumer au mieux les notions fondamentales de psychoacoustique nécessaires à la compréhension de ce qui suit.La sensibilité de notre organe auditif n'est pas linéaire, elle varie en fonction de la fréquence (20-20 000 Hz) et du niveau sonore. L'oreille possède un maximum de sensibilité pour des fréquences comprises entre 2 et 5 kHz (pointe à 4 kHz). De ce fait, deux sons de fréquence différentes et de même intensité peuvent provoquer une sensation de force sonore différente (ou une sonie différente). L'expression de la sonie se définit en
sones, où un sone représente une sensation de force sonore équivalente de 40 dB à 1 kHz. En fonction de la sonie et de la fréquence, le comportement de notre oreille varie et des phénomènes de masquage apparaissent.Dans la figure ci-dessous, la courbe "1 sone" exprime l'étendue en fréquence d'une sensation de force sonore équivalente de sonie 1, la courbe isosonique "10 sones" représente une sensation de force sonore 10 fois supérieure à 1 sone, enfin la courbe en pointillés exprime elle le seuil absolu d'audibilité.
Nous pouvons donc constater qu'il y a une discrimination faite par l'oreille: celle-ci semble plus sensible aux médiums qu'aux graves et aux aigus.
L'Effet de "masque"
:
On parle de masquage quand un son est rendu inaudible par un autre
. Il existe plusieurs sortes d'effets de masque. Tout d'abord le plus connu, celui que l'on peut expérimenter tous les jours en discutant avec une personne pendant qu'un train passe à proximité, c'est-à-dire le masquage simultané. Il existe également un masquage appelé "effet de précédence" (ou effet de Haas) qui apparaît lorsque le signal masqué est émis après le signal masquant. Enfin, un son masqué émis avant le signal masquant est un masquage de postériorité. Sur le graphique ci-dessous, on peut observer une représentation de ce phénomène (valable pour des sons de type impulsionnels).
Le masquage de postériorité et l'effet de précédence sont des
masquages temporels. Sur ce graphe on peut constater que l'effet de Haas est beaucoup plus "tolérant" que le masquage de postériorité. Un son théoriquement masqué étant émis plus de 2 ou 3 ms avant le son soit disant masquant, devient un pré-écho audible et gênant tandis que dans le cas du masquage par précédence, une fois le son masquant émis, le son masqué le reste tant qu'il survient dans les 20 ms (environ) qui suivent l'émission du masquant. Ces valeurs ne sont cependant valables que pour des impulsions très brèves, du type transitoires. Pour des durées supérieures, le phénomène n'est plus le même. Le graphique ci-dessous met en évidence les phénomènes psychoacoustiques dans le cas du masquage simultané.Un sujet est soumis à un son pur
(dans ce cas 1 kHz à 60 dB) et doit se manifester lorsqu'il perçoit un autre son pur ‚ de fréquence différente ou voisine. On constate que le seuil d'audition absolu est alors "relevé". En effet, au voisinage de 1 kHz, il faut augmenter de façon considérable le niveau de ‚ pour que le sujet l'entende. Il est important de noter que le phénomène est d'autant plus perceptible lorsqu'on dépasse la fréquence du son masquant, à savoir 1 kHz. Ceci souligne en fait le comportement de notre oreille interne, notamment la membrane basilaire, à l'intérieur de laquelle les sons graves ont tendance à masquer les sons aigus, ce qui explique la dissymétrie du parcours de ‚ autour de . Grâce à ce test, nous avons pu constater qu'il y a une grande partie du spectre qui n'est pas perçue par l'oreille. En découvrant ces phénomènes, les ingénieurs de chez Sony comme de chez Philips ont pensé qu'il serait peut-être possible de restituer les mêmes caractéristiques audio que le CD sur un support comportant cinq fois moins de données.
Malgré que les études de l'oreille de Fletcher et Munson soient très significatives, il est important de préciser qu'elles sont établies avec des sons purs; l'expérience avec des sons complexes donnerait d'autres résultats. Je veux dire par là que le seuil d'audibilité n'est ici valable que pour des sons purs, si l'on émettait par exemple un son complexe dont les composantes spectrales sont toutes en dessous de ce seuil, l'oreille percevrait tout de même quelque chose.
Pour cette raison, je tient également à préciser que mon explication des phénomènes psychoacoustiques dans le cadre du système ATRAC reste l'arbre qui cache la forêt, il va de soi que l'algorithme est sans nul doute d'une complexité bien plus grande mais je m'efforce de rendre celle-ci compréhensible en simplifiant le contexte.
Cette théorie peut paraître rébarbative mais elle est très importante à saisir s'il on veut bien comprendre le fonctionnement du système ATRAC.
Les Bandes Critiques
:
La théorie des bandes critiques est née de la découverte du phénomène décrit ci-dessus. Elle vient de l'idée que notre oreille intègre les sons par tranches de fréquences appelées sous-bandes. Nous avons en effet pu constater que pour entendre le son
‚ au voisinage de , il fallait fournir beaucoup plus de niveau chez ‚ par rapport au seuil d'audition. Le phénomène observé n'est pas linéaire: selon la fréquence mise en cause, la largeur de ces bandes critiques varie.
Bande Critique |
Fréquence (Hz) |
Bande Critique |
Fréquence (Hz) |
||||
Basse |
Haute |
Largeur |
Basse |
Haute |
Largeur |
||
0 |
0 |
100 |
100 |
13 |
2000 |
2320 |
320 |
1 |
100 |
200 |
100 |
14 |
2320 |
2700 |
380 |
2 |
200 |
300 |
100 |
15 |
2700 |
3150 |
450 |
3 |
300 |
400 |
100 |
16 |
3150 |
3700 |
550 |
4 |
400 |
510 |
110 |
17 |
3700 |
4400 |
700 |
5 |
510 |
630 |
120 |
18 |
4400 |
5300 |
900 |
6 |
630 |
770 |
140 |
19 |
5300 |
6400 |
1100 |
7 |
770 |
920 |
150 |
20 |
6400 |
7700 |
1300 |
8 |
920 |
1080 |
160 |
21 |
7700 |
9500 |
1800 |
9 |
1080 |
1270 |
190 |
22 |
9500 |
12000 |
2500 |
10 |
1270 |
1480 |
210 |
23 |
12000 |
15500 |
3500 |
11 |
1480 |
1720 |
240 |
24 |
15500 |
22050 |
6550 |
12 |
1720 |
2000 |
280 |
|
|
|
|
Le tableau ci-dessus représente les 24 bandes critiques les plus significatives mais le système ATRAC en utilise en réalité 52.