Audio Decomposition Meinard Mller International Audio Laboratories - PowerPoint PPT Presentation

Lecture Music Processing Audio Decomposition Meinard Müller International Audio Laboratories Erlangen meinard.mueller@audiolabs-erlangen.de

Book: Fundamentals of Music Processing Meinard Müller Fundamentals of Music Processing Audio, Analysis, Algorithms, Applications 483 p., 249 illus., hardcover ISBN: 978-3-319-21944-8 Springer, 2015 Accompanying website: www.music-processing.de

Chapter 8: Audio Decomposition 8.1 Harmonic-Percussive Separation 8.2 Melody Extraction 8.3 NMF-Based Audio Decomposition 8.4 Further Notes In the final Chapter 8 on audio decomposition, we present a challenging research direction that is closely related to source separation. Within this wide research area, we consider three subproblems: harmonic–percussive separation, main melody extraction, and score-informed audio decomposition. Within these scenarios, we discuss a number of key techniques including instantaneous frequency estimation, fundamental frequency (F0) estimation, spectrogram inversion, and nonnegative matrix factorization (NMF). Furthermore, we encounter a number of acoustic and musical properties of audio recordings that have been introduced and discussed in previous chapters, which rounds off the book.

Why is Music Processing Challenging? Example: Chopin, Mazurka Op. 63 No. 3

Why is Music Processing Challenging? Example: Chopin, Mazurka Op. 63 No. 3  Waveform Amplitude Time (seconds)

Why is Music Processing Challenging? Example: Chopin, Mazurka Op. 63 No. 3  Waveform / Spectrogram Frequency (Hz) Time (seconds)

Why is Music Processing Challenging? Example: Chopin, Mazurka Op. 63 No. 3  Waveform / Spectrogram  Performance – Tempo – Dynamics – Note deviations – Sustain pedal

Why is Music Processing Challenging? Example: Chopin, Mazurka Op. 63 No. 3  Waveform / Spectrogram  Performance – Tempo – Dynamics – Note deviations – Sustain pedal  Polyphony Main Melody Additional melody line Accompaniment

Source Separation  Decomposition of audio stream into different sound sources  Central task in digital signal processing  “Cocktail party effect”

Source Separation  Decomposition of audio stream into different sound sources  Central task in digital signal processing  “Cocktail party effect”  Several input signals  Sources are assumed to be statistically independent

Source Separation (Music)  Main melody, accompaniment, drum track  Instrumental voices  Individual note events  Only mono or stereo Time  Sources are often highly dependent Time

Harmonic-Percussive Decomposition Mixture:

Harmonic-Percussive Decomposition Mixture: Clearly harmonic sounds Clearly percussive sounds Harmonic Percussive component component

Harmonic-Percussive Decomposition Mixture: Clearly harmonic sounds Clearly percussive sounds Harmonic Percussive Residual component component component

Harmonic-Percussive Decomposition Mixture: • Clearly harmonic • Drum hits • Noise-like sounds sounds of singing • Fricatives & • Vibrato/glissando voice and plosives in singing sounds accompaniment voice Harmonic Percussive Residual component component component Literature: [Driedger/Müller/Disch, ISMIR 2014] Demo: https://www.audiolabs-erlangen.de/resources/2014-ISMIR-ExtHPSep/

Singing Voice Extraction Original Recording Accompaniment Singing voice

Singing Voice Extraction Frequency Time Original recording HPR F0 annotation Percussive component Harmonic component Residual component MR TR SL Harmonic portion Harmonic portion Fricatives Instrument onsets Vibrato & formants Diffuse instruments sounds singing voice accompaniment singing voice accompaniment singing voice accompaniment + + Estimate Estimate singing voice accompaniment

Score-Informed Source Separation Exploit musical score to support separation process Pitch Pitch Pitch Time Time Time

Parametric Model Approach Rebuild spectrogram information Parameters Estimate Render Frequency (Hz) Frequency (Hz) ≈ Time (seconds) Time (seconds)

NMF (Nonnegative Matrix Factorization) M K M ≈ ≥ 0 ≥ 0 ≥ 0 N K

NMF (Nonnegative Matrix Factorization) M K M ≈ N K Activations Magnitude Spectrogram Templates Templates: Pitch + Timbre “How does it sound” Activations: Onset time + Duration “When does it sound”

NMF-Decomposition Initialized template Initialized activations Frequency Note number Time Note number Random initialization

NMF-Decomposition Initialized template Initialized activations Frequency Note number Learnt templates Learnt activations Note number Frequency Time Note number Random initialization → No semantic meaning

NMF-Decomposition Initialized template Initialized activations Frequency Note number Time Note number Constrained initialization

NMF-Decomposition Initialized template Initialized activations Frequency Note number Time Note number Template constraint for p=55 Activation constraints for p=55 Constrained initialization

NMF-Decomposition Initialized template Initialized activations Frequency Note number Learnt templates Learnt activations Note number Frequency Org Model Time Note number Constrained initialization → NMF as refinement

Score-Informed Audio Decomposition Application: Audio editing 1600 1600 1200 1200 800 800 400 400 6 7 8 9 6 7 8 9 Frequency (Hertz) Frequency (Hertz) 580 580 554 523 500 500 0 0.5 1 0 0.5 1 Time (seconds) Time (seconds)

Informed Drum-Sound Decomposition Remix: Literature: [Dittmar/Müller, IEEE/ACM-TASLP 2016] Demo: https://www.audiolabs-erlangen.de/resources/MIR/2016-IEEE-TASLP-DrumSeparation

Audio Mosaicing Target signal: Beatles–Let it be Source signal: Bees Mosaic signal: Let it Bee Literature: [Driedger/Müller, ISMIR 2015] Demo: https://www.audiolabs-erlangen.de/resources/MIR/2015-ISMIR-LetItBee

NMF-Inspired Audio Mosaicing Non-negative matrix factorization (NMF) Non-negative matrix Components Activations . ≈ = fixed learned learned Proposed audio mosaicing approach Target’s spectrogram Source’s spectrogram Activations Mosaic’s spectrogram Time source . Frequency Frequency = ≈ Time target Time target Time source fixed fixed learned

NMF-Inspired Audio Mosaicing Spectrogram Spectrogram Spectrogram Activation matrix target source mosaic Time source Frequency Frequency Frequency . ≈ = Time source Time target Time target Time target

NMF-Inspired Audio Mosaicing Das Bild kann nicht angezeigt werden. Das Bild kann nicht angezeigt werden. Iterative updates Spectrogram Spectrogram Spectrogram Activation matrix Activation matrix target source mosaic Time source Frequency Frequency Frequency . ≈ = Time source Time target Time target Time target Preserve temporal context Core idea: support the development of sparse diagonal activation structures

NMF-Inspired Audio Mosaicing Spectrogram Spectrogram Spectrogram Activation matrix target source mosaic Time source Frequency Frequency Frequency . ≈ = Time source Time target Time target Time target

Audio Mosaicing Target signal: Chic–Good times Source signal: Whales Mosaic signal

Audio Mosaicing Target signal: Adele–Rolling in the Deep Source signal: Race car Mosaic signal

Links  SiSEC: Signal Separation Evaluation Campaign https://www.sisec17.audiolabs-erlangen.de/  MedleyDB: A Dataset of Multitrack Audio http://steinhardt.nyu.edu/marl/research/medleydb  LibROSA (Python) https://librosa.github.io/librosa/

Audio Decomposition Meinard Mller International Audio Laboratories - PowerPoint PPT Presentation

Lecture Music Processing Audio Decomposition Meinard Mller International Audio Laboratories Erlangen meinard.mueller@audiolabs-erlangen.de Book: Fundamentals of Music Processing Meinard Mller Fundamentals of Music Processing Audio,

Audio Device Client Better and Faster Audio I/O on Web Hongchan Choi Google Chrome Web Audio

Thermal decomposition of the Thermal decomposition of the Thermal decomposition of the Thermal

Polar Decomposition of a Matrix Garrett Buffington May 4, 2014 The Polar Decomposition SVD and

Cirrus Audio Solutions Cirrus Audio Solutions Home Audio Portable Audio Personal CD Player

Create PowerPoint Audio and Video V0B August 2020 V0B V0B Schield: 2020 PPTX Create Audio-Video

Audio and Speech August 13, 2001 Audio 2 Digital sound anti-aliasing amplifier codec filter

Game Audio Coding vs. Aesthetics Leonard Paul of Lotus Audio Vancouver, Canada Game Audio :

[11] The Singular Value Decomposition The Singular Value Decomposition Gene Golubs license

CORE DECOMPOSITION AND DENSEST SUBGRAPH IN MULTILAYER NETWORKS CORE DECOMPOSITION AND DENSEST

ARREL AUDIO ML-118 Mid-Side Unit Livio Argentini, Marco Re ARREL AUDIO Rome Via Arnoldo

Audio Indexing and Retrieval IT6902; Semester B, 2004/2005; Leung Audio Indexing and Retrieval

CobraNet CobraNet Audio Network Audio Network Overview Overview Developed by Peak Audio

CS378 - Mobile Computing Audio Android Audio Use the MediaPlayer class Common Audio

Interactive Design Audio and Design Leonard Paul of Lotus Audio Vancouver, Canada Interactive

The Dynamic Audio of Vessel The Dynamic Audio of Vessel Leonard J. Paul Leonard J. Paul

Federal EdTech Legislation and Regulations that You Need to Follow Audio Setup Test Your Audio

Design Patterns Credits: Xiaochuan Yi, U of Georgia Nenad Medvidovi Sommerville, Chapter 18

R. Avakian R.H. Avakian JLAB, November 1, 2004 R.H. Avakian JLAB, November 1, 2004 Coherent

Slides: alturl.com/pxo7e Epistemic Network Analysis of students longer written assignments as

Finite flag-transitive affine planes with a solvable automorphism group Tao Feng School of

Pixel & Voxel Representations of Graphs Md. Jawaherul Alam Tiomas Blsius Ignaz Rutuer

Development of immersion gratings and grisms at LLNL Dispersing elements for astronomy: New

Ali Kamandi Spring 2007 kamandi@sharif.edu Sharif University of Technology Internet History

Communication Optimal and Tiled Algorithm for 2D Linear Algebra Fr. Feb 20 2009 NSF

Audio Decomposition Meinard Mller International Audio Laboratories - PowerPoint PPT Presentation

Lecture Music Processing Audio Decomposition Meinard Mller International Audio Laboratories Erlangen meinard.mueller@audiolabs-erlangen.de Book: Fundamentals of Music Processing Meinard Mller Fundamentals of Music Processing Audio,

Audio Device Client Better and Faster Audio I/O on Web Hongchan Choi Google Chrome Web Audio

Thermal decomposition of the Thermal decomposition of the Thermal decomposition of the Thermal

Polar Decomposition of a Matrix Garrett Buffington May 4, 2014 The Polar Decomposition SVD and

Cirrus Audio Solutions Cirrus Audio Solutions Home Audio Portable Audio Personal CD Player

Create PowerPoint Audio and Video V0B August 2020 V0B V0B Schield: 2020 PPTX Create Audio-Video

Audio and Speech August 13, 2001 Audio 2 Digital sound anti-aliasing amplifier codec filter

Game Audio Coding vs. Aesthetics Leonard Paul of Lotus Audio Vancouver, Canada Game Audio :

[11] The Singular Value Decomposition The Singular Value Decomposition Gene Golubs license

CORE DECOMPOSITION AND DENSEST SUBGRAPH IN MULTILAYER NETWORKS CORE DECOMPOSITION AND DENSEST

ARREL AUDIO ML-118 Mid-Side Unit Livio Argentini, Marco Re ARREL AUDIO Rome Via Arnoldo

Audio Indexing and Retrieval IT6902; Semester B, 2004/2005; Leung Audio Indexing and Retrieval

CobraNet CobraNet Audio Network Audio Network Overview Overview Developed by Peak Audio

CS378 - Mobile Computing Audio Android Audio Use the MediaPlayer class Common Audio

Interactive Design Audio and Design Leonard Paul of Lotus Audio Vancouver, Canada Interactive

The Dynamic Audio of Vessel The Dynamic Audio of Vessel Leonard J. Paul Leonard J. Paul

Federal EdTech Legislation and Regulations that You Need to Follow Audio Setup Test Your Audio

Design Patterns Credits: Xiaochuan Yi, U of Georgia Nenad Medvidovi Sommerville, Chapter 18

R. Avakian R.H. Avakian JLAB, November 1, 2004 R.H. Avakian JLAB, November 1, 2004 Coherent

Slides: alturl.com/pxo7e Epistemic Network Analysis of students longer written assignments as

Finite flag-transitive affine planes with a solvable automorphism group Tao Feng School of

Pixel &amp; Voxel Representations of Graphs Md. Jawaherul Alam Tiomas Blsius Ignaz Rutuer

Development of immersion gratings and grisms at LLNL Dispersing elements for astronomy: New

Ali Kamandi Spring 2007 kamandi@sharif.edu Sharif University of Technology Internet History

Communication Optimal and Tiled Algorithm for 2D Linear Algebra Fr. Feb 20 2009 NSF

Pixel & Voxel Representations of Graphs Md. Jawaherul Alam Tiomas Blsius Ignaz Rutuer