La dynamique - et si on la recréait ?
- TheDecline01
- TN m'a tuer
- Messages : 5751
- Inscription : 24 janv. 2011 10:46
- Localisation : Achères
- Contact :
La dynamique - et si on la recréait ?
J'ai eu une réflexion durant cette période de fêtes au sujet de la plage dynamique, et notamment de la fameuse loudness war ou compression excessive de la dynamique des enregistrements récents (années 90 on va dire) et grands publics (en gros tous les styles sauf le jazz et le classique non ?).
Je me disais avec toutes les grandes déclarations sur les logiciels, on fait du DSP, ont passe du DSD au PCM et autres... ne serait-il pas possible, et au-delà, pertinent, de re-créer au niveau logiciel de la dynamique sur un OS ou lecteur audiophile ? Je m'explique le concept :
Le logiciel charge la piste voulue. Il évalue sa plage dynamique. Disons qu'elle est bonne (niveau à déterminer évidemment, genre > 10-15dB), il ne fait rien. Mais on passe à la piste suivante, et là, cata, c'est ultra compressé, y'a 2 dB de dynamique. Et là, magie logicielle, un traitement passerait pour "retrouver" de la dynamique, en augmentant les pics et diminuant les creux. Je me doute que tout n'est pas aussi simple et qu'il faudrait réfléchir un peu plus pour obtenir un résultat cohérent et agréable, mais vu tout ce qu'on est capable de faire maintenant, je me dis pourquoi pas ? Est-ce que ça aurait un intérêt quelconque ? Et n'est-ce pas déjà pratiqué aussi... ?
Je me disais avec toutes les grandes déclarations sur les logiciels, on fait du DSP, ont passe du DSD au PCM et autres... ne serait-il pas possible, et au-delà, pertinent, de re-créer au niveau logiciel de la dynamique sur un OS ou lecteur audiophile ? Je m'explique le concept :
Le logiciel charge la piste voulue. Il évalue sa plage dynamique. Disons qu'elle est bonne (niveau à déterminer évidemment, genre > 10-15dB), il ne fait rien. Mais on passe à la piste suivante, et là, cata, c'est ultra compressé, y'a 2 dB de dynamique. Et là, magie logicielle, un traitement passerait pour "retrouver" de la dynamique, en augmentant les pics et diminuant les creux. Je me doute que tout n'est pas aussi simple et qu'il faudrait réfléchir un peu plus pour obtenir un résultat cohérent et agréable, mais vu tout ce qu'on est capable de faire maintenant, je me dis pourquoi pas ? Est-ce que ça aurait un intérêt quelconque ? Et n'est-ce pas déjà pratiqué aussi... ?
En nomade : Hiby R8 > Final Audio A8000/Spiral Ear SE-6 Edge
En sédentaire : Hiby R8 > Quloos QH1 > Hufiman Susvara (!!)
Je crois qu'on peut dire que je suis bien là.
En sédentaire : Hiby R8 > Quloos QH1 > Hufiman Susvara (!!)
Je crois qu'on peut dire que je suis bien là.
A mon avis ce concept serait faisable avec de l'intelligence artificielle et du deep learning.
Avec nos logiciels "actuels" ça ne serait pas possible. Car dans le spectre audio d'une musique, un creux et un pic n'indique que l'intensité du message sonore à un instant T.
Cela n'indique pas quel(s) instrument(s) est à l'origine du pic (ou du creux) ni comment la musique a été mixée. Du coup en augmentant la différence entre pic et creux il y a de grande chance pour que ça donne n'importe quoi.
Par contre, avec de l'IA, qui serait capable de détecter l'instrument (son type, sa plage fréquentielle), sa position et son intensité relative par rapport aux autres instruments, alors du coup on peut imaginer une sorte "d'upsampling du mixage" et donc de générer de la dynamique. Et tout cela en temps réel.
Il ne reste plus qu'à rapprocher Rob Watts de Google ^^
Avec nos logiciels "actuels" ça ne serait pas possible. Car dans le spectre audio d'une musique, un creux et un pic n'indique que l'intensité du message sonore à un instant T.
Cela n'indique pas quel(s) instrument(s) est à l'origine du pic (ou du creux) ni comment la musique a été mixée. Du coup en augmentant la différence entre pic et creux il y a de grande chance pour que ça donne n'importe quoi.
Par contre, avec de l'IA, qui serait capable de détecter l'instrument (son type, sa plage fréquentielle), sa position et son intensité relative par rapport aux autres instruments, alors du coup on peut imaginer une sorte "d'upsampling du mixage" et donc de générer de la dynamique. Et tout cela en temps réel.
Il ne reste plus qu'à rapprocher Rob Watts de Google ^^
Et comment le logiciel il va faire pour savoir quelle fréquence il faut atténuer ?
Sorry, but no can do. Une fois perdue, la dynamique est foutue !
Sorry, but no can do. Une fois perdue, la dynamique est foutue !
Mon passé, mon présent, mon futur ?
- TheDecline01
- TN m'a tuer
- Messages : 5751
- Inscription : 24 janv. 2011 10:46
- Localisation : Achères
- Contact :
Ah zut, dire que je pensais avoir une idée à 1 milliard d'€...
En nomade : Hiby R8 > Final Audio A8000/Spiral Ear SE-6 Edge
En sédentaire : Hiby R8 > Quloos QH1 > Hufiman Susvara (!!)
Je crois qu'on peut dire que je suis bien là.
En sédentaire : Hiby R8 > Quloos QH1 > Hufiman Susvara (!!)
Je crois qu'on peut dire que je suis bien là.
Faut se rendre à l'évidence, c'est l'avenir ^^alphatak a écrit :Il nous a déjà fait le coup en photo, le kiras ! AI et deep learning, c'est le lapin dans le chapeau... ;-/
Je pense que de belles choses vont arriver dans les 10 prochaines années.
- alphatak
- 1 euros par message, Stax me voilà!
- Messages : 9339
- Inscription : 13 oct. 2014 13:07
- Localisation : Toulouse
- Contact :
C'est la même discussion qu'en photo : tu peux recréer du signal là où il a été détruit, mais en aucun cas tu ne retrouveras l'original avant compression. Ce sera peut-être mieux, peut-être moins bien, mais pas la même chose. C'est ça qu'il faut éviter de faire croire (ou de croire soi-même)... 
Mais oui, de belles choses vont arriver dans les 10 prochaines années, et certaines sont déjà là !

Mais oui, de belles choses vont arriver dans les 10 prochaines années, et certaines sont déjà là !

@kiras - alpha est scientifique IRL dans un job où, crois-moi, l’IA il y pense.
Moi je suis conseil en PI spécialisé en brevets, et en particulier sur tout ce qui est info. Ca fait deux ans que je bosse tous les jours sur l’IA.
Alors quand on te dit ce qu’on te dit, c’est pas pour te faire chier, c’est parce que ce que tu suggères n’a pas de sens.
Pour reprendre ta suggestion, quand bien même un algo détecterait un instrument particulier, pas moyen de savoir quel était son niveau particulier sur ce morceau là originellement, quelle que soit ta base d’entraînement.
Du coup, comme te dit alpha, au mieux tu auras un truc joli mais différent de manière certaine, au pire du gloubiboulga.
Y a rien de plus désolant que de faire passer de la science pour de la fiction, ou que croire qu’un laconique « vous verrez bien » tient lieu d’argumentation...
Moi je suis conseil en PI spécialisé en brevets, et en particulier sur tout ce qui est info. Ca fait deux ans que je bosse tous les jours sur l’IA.
Alors quand on te dit ce qu’on te dit, c’est pas pour te faire chier, c’est parce que ce que tu suggères n’a pas de sens.
Pour reprendre ta suggestion, quand bien même un algo détecterait un instrument particulier, pas moyen de savoir quel était son niveau particulier sur ce morceau là originellement, quelle que soit ta base d’entraînement.
Du coup, comme te dit alpha, au mieux tu auras un truc joli mais différent de manière certaine, au pire du gloubiboulga.
Y a rien de plus désolant que de faire passer de la science pour de la fiction, ou que croire qu’un laconique « vous verrez bien » tient lieu d’argumentation...
Mon passé, mon présent, mon futur ?
Avec un DSP on doit pouvoir reconstruire un peu de dynamique en haut. Typiquement sur les albums de métal giga clippés ça ramènerait de la vie.
Par contre pour les albums où il y a besoin de ramener du détail le deep learning ne changera pas grand chose. Un détail masqué par du bruit ça ne se voit pas ça ne s’invente pas même avec la magie noir du deep learning neuronal disruptif.
Par contre pour les albums où il y a besoin de ramener du détail le deep learning ne changera pas grand chose. Un détail masqué par du bruit ça ne se voit pas ça ne s’invente pas même avec la magie noir du deep learning neuronal disruptif.
Waveio/Meier DACCORD/ModWright SWE 9.0SE/Flying Mole & Audeze LCD2 - SRM 323II & Sennheiser HE60
C'est un sujet intéressant.
Dans le même genre, j'ai découvert récemment qu'un service proposait le fait de restaurer des fichiers lossy en fichiers lossless. Comme l'ont précisé alpha & Butchi, on ne retrouvera pas le fichier original mais c'est la première fois que je vois cela...
J'ai passé des heures sur l'internet franco/anglophone pour comprendre comment ils faisaient, en vain. Si un ingé son, ou quelqu'un de calé en analyse spectral me lit et qu'il a une idée, je peux envoyer tous les éléments que j'ai en ma disposition par PM.
Le résultat, à l'oeil, est stupéfiant, tout simplement impossible de repérer le faux fichier lossless, même si la source était un vulgaire mp3 128 : pas de cutshelf, pas de blocs en zoomant, rien... J'ai longuement tenté de reproduire ce résultat via des exciter, mais le résultat n'est pas à la hauteur.
Je pense qu'ils utilisent un script permettant dans un premier temps de scanner les fréquences, puis de les étendre jusqu'à 22khz.
Par contre, en écoutant, on se rend immédiatement compte que cette restauration n'est que de la poudre aux yeux, oui le son change légèrement, mais rien à voir avec un fichier lossless original, évidemment.
En haut la source (320), en bas le fake flac.

zoomed

Dans le même genre, j'ai découvert récemment qu'un service proposait le fait de restaurer des fichiers lossy en fichiers lossless. Comme l'ont précisé alpha & Butchi, on ne retrouvera pas le fichier original mais c'est la première fois que je vois cela...
J'ai passé des heures sur l'internet franco/anglophone pour comprendre comment ils faisaient, en vain. Si un ingé son, ou quelqu'un de calé en analyse spectral me lit et qu'il a une idée, je peux envoyer tous les éléments que j'ai en ma disposition par PM.
Le résultat, à l'oeil, est stupéfiant, tout simplement impossible de repérer le faux fichier lossless, même si la source était un vulgaire mp3 128 : pas de cutshelf, pas de blocs en zoomant, rien... J'ai longuement tenté de reproduire ce résultat via des exciter, mais le résultat n'est pas à la hauteur.
Je pense qu'ils utilisent un script permettant dans un premier temps de scanner les fréquences, puis de les étendre jusqu'à 22khz.
Par contre, en écoutant, on se rend immédiatement compte que cette restauration n'est que de la poudre aux yeux, oui le son change légèrement, mais rien à voir avec un fichier lossless original, évidemment.
En haut la source (320), en bas le fake flac.

zoomed

Live as if you were to die tomorrow. Learn as if you were to live forever.
Audio Engineering Society
HydrogenAudio
AudioScienceReview
diyAudio
Audio Engineering Society
HydrogenAudio
AudioScienceReview
diyAudio
@Alphatak et MrButchi
Je n'ai pas dit que le but était de recréer "l'original". Ça restera une interprétation selon l'algo.
Mais c'est exactement ce qu'on fait en photo par exemple. le logiciel recréé des conditions similaires à un couple objectifs / capteur, mais ne pourra jamais "créer" ce qui n'existe pas.
C'est juste de la manipulation de l'existant. Et c'est ce que je suggère dans mon post initial. Une sorte de "super DSP". Cela restera de la trituration du signal original. Mais est-ce forcément une mauvaise chose ? Je ne pense pas.
D'ailleurs le travail que je suggère faite par l'IA on pourrait le faire nous même actuellement, à la main. Ça prendrait juste énormément de temps. C'est comme coloriser un film en noir et blanc. On ne connaîtra jamais les couleurs originales, mais rien ne nous empêche de faire quelque chose de crédible.
Je n'ai pas dit que le but était de recréer "l'original". Ça restera une interprétation selon l'algo.
Mais c'est exactement ce qu'on fait en photo par exemple. le logiciel recréé des conditions similaires à un couple objectifs / capteur, mais ne pourra jamais "créer" ce qui n'existe pas.
C'est juste de la manipulation de l'existant. Et c'est ce que je suggère dans mon post initial. Une sorte de "super DSP". Cela restera de la trituration du signal original. Mais est-ce forcément une mauvaise chose ? Je ne pense pas.
D'ailleurs le travail que je suggère faite par l'IA on pourrait le faire nous même actuellement, à la main. Ça prendrait juste énormément de temps. C'est comme coloriser un film en noir et blanc. On ne connaîtra jamais les couleurs originales, mais rien ne nous empêche de faire quelque chose de crédible.
Un modèle ne pourra pas prédire sans faille la dynamique perdue mais on doit arriver à des choses correctes avec TensorFlow (Deep Neural Network) et le module de Signal Processing si les données d'apprentissage sont bonnes ( ce qui doit être gérable : fichier original / fichier compressé).
Bon faudra juste avoir/payer pour du GPU (TPU) pour entraîner tout ce beau monde :D
Bon faudra juste avoir/payer pour du GPU (TPU) pour entraîner tout ce beau monde :D
DAP Hibty R6/ PAW S1 / Qudelix
Intras Oriolus Szalayi / Sony XBA3-NP / CA Supermoon
Intras Oriolus Szalayi / Sony XBA3-NP / CA Supermoon
@murloc : faudrait faire des essais de stabilité. Conversion losseless vers lossy, reconstruction ssy -> less, plusieurs fois, et voir comment évolue la version losseless après quelques aller-retour niveau distance de signal. Ça donnerait une idée de la qualité réelle de la construction
Waveio/Meier DACCORD/ModWright SWE 9.0SE/Flying Mole & Audeze LCD2 - SRM 323II & Sennheiser HE60
Les DSP actuels flattent l'oreille. Le cerveau humain aiment ce qui flatte l'oreille. Les gens aiment déjà les DSP car le rendu est agréable, de toute façon, on le voit au quotidien sur le forum avec les appareils ayant un DSP bien conçu. Donc oui, c'est possible ce que tu dis.kirasd69 a écrit : C'est juste de la manipulation de l'existant. Et c'est ce que je suggère dans mon post initial. Une sorte de "super DSP". Cela restera de la trituration du signal original. Mais est-ce forcément une mauvaise chose ? Je ne pense pas.