LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Proclamati 7 nuovi ingegneri musicali e acustici

Mercoledì 05 Ottobre 2022 | Scritto da Redazione

LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Ieri martedì 4 ottobre sessione di laurea magistrale nel Campus di Cremona del Politecnico di Milano. La proclamazione dei 7 laureati, che hanno brillantemente completato oggi il loro percorso con la discussione di laurea, si è svolta alle ore 16.30.

Cinque di loro hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, mentre due si sono concentrati sull’acustica.

Tutte le tesi sono state molto apprezzate dalla commissione di laurea che le ha definite dello stesso livello dei lavori presentati nei convegni internazionali e che hanno permesso ai laureti di conseguire il titolo con voti eccellenti: in questa sessione di laurea “solo” 110 e 110 e lode.

Tutti indipendentemente dal percorso scelto, hanno raggiunto un ambito traguardo: la Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.

Nata nella Città di Stradivari grazie al sostegno del territorio, in particolare della Fondazione Arvedi Buschini e del Comune di Cremona, questa Laurea Magistrale è attrattiva non solo per gli universitari italiani ma anche per i laureati internazionali provenienti da diversi Paesi Extra Ue, con una formazione sia ingegneristica che musicale.

Il Campus di Cremona può vantare infatti un percorso estremamente innovativo che prevede la collaborazione con la Facoltà di Musicologia dell’Università degli Studi di Pavia e del Conservatorio di Milano e la presenza di un Laboratorio di Acustica Musicale, dotato di una camera anecoica, dedicato allo sviluppo di tecnologie avanzate per il miglioramento della tradizione liutaria e di metodologie sistematiche per la valutazione quantitativa delle caratteristiche fisiche e acustiche degli strumenti di liuteria. Due sono gli orientamenti tra cui gli interessati possono scegliere: Acoustic Engineering per chi vuole approfondire il tema dell’acustica musicale e Music Engineering per chi invece vuole focalizzarsi sullo studio dell’informatica musicale e l’elaborazione del suono.

Inoltre il Campus di Cremona supporta questo percorso accademico con 3 borse di studio riservate agli immatricolati al Corso di Laurea Magistrale in Music and Acoustic Engineering orientamento Acoustic.

Requisito per accedere al bando: i candidati devono aver conseguito un titolo di studio italiano valido per l’ammissione alla Laurea Magistrale con una votazione minima uguale o equivalente a 100/110.

Scadenza presentazione domanda: 28 ottobre.

Per maggiori informazioni è possibile consultare il sito: www.polo-cremona.polimi.it

Segue l’elenco dei laureati con il titolo della tesi e l’abstract:

AMERENA MATTEO

Titolo tesi: Packet loss concealment for networked music performances using an hybrid signal processing and deep learning method

Abstract

Le performance musicali distribuite richiedono sistemi capaci di operare in tempo reale, fornendo dati audio di alta qualità. Ogni qual volta si presentino problemi di connessione, tecniche di ricostruzione del pacchetto audio dovrebbero essere implementate per mascherare errori generati dall'informazione mancante. In questa tesi proponiamo un approccio misto tra apprendimento automatico e processamento digitale del segnale al ripristino dei pacchetti persi in un contesto di performance musicale distribuita. Il metodo è stato testato attraverso un test percettivo, e comparato con metriche oggettive. Nonostante la mancanza di un benchmark esplicitamente pensato per la musica, i risultati confermano l'importanza di una corretta transizione tra pacchetti per ottenere ricostruzioni percettivamente gradevoli. Inoltre, osserviamo che per perdite isolate, nell'ordine della lunghezza di buffer audio, i modelli lineari autoregressivi possono essere utilizzati non solo per ottenere una corretta transizione ma anche per facilitare il processo di allenamento di una rete neurale attraverso una funzione obiettivo mirata a ricostruire il residuo del modello lineare anziché il segnale in sé. Questo permette di diminuire il numero di parametri dell'architettura e perciò effettuare l'inferenza in tempo reale su una CPU, obiettivo fondamentale nel contesto di performance musicali distribuite. I risultati ottenuti dal confronto tra metriche oggettive e soggettive confermano che questo metodo migliora la ricostruzione rispetto ai modelli di riferimento ed effettua un passo ulteriore per la definizione di tecniche di ricostruzione di pacchetti nel campo di ricerca sotto esame.

GRECO GIOELE

Titolo tesi: Diffusion-Based Sound Source Localization with Distributed Networks of Linear Arrays

Abstract

Questa tesi introduce un nuovo metodo distribuito per localizzare e tracciare una sorgente sonora in 3D. Ciò avviene tramite una rete di array lineari di microfoni, ognuno dei quali stima la direzione di arrivo del suono in 2D. Il metodo proposto è computazionalmente distribuito, eliminando così la necessità di un nodo dedicato a raccogliere e processare tutte le informazioni della rete. Il problema di localizzazione viene ricondotto ad un problema di ottimizzazione distribuito risolto con strategie cooperative di diffusione. Inoltre, l’uso di strategie di diffusione permette di sfruttare la cooperazione tra i nodi della rete, ovvero array di microfoni, per migliorare l’accuratezza della localizzazione. A tal fine, vengono proposte cinque diverse strategie di cooperazione che mirano a ridurre il contributo dei sensori più rumorosi. Tra queste, alcune strategie si basano sulle statistiche di errore di ciascun sensore penalizzando gli array più rumorosi, altre su considerazioni geometriche del problema in questione. In aggiunta, vengono analizzate diverse condizioni di lavoro, tenendo conto della frequenza con cui le misure di DOA sono fruibili dai nodi per l’elaborazione. Questo permette di avere una maggiore scelta della strategia di cooperazione da utilizzare, adattandola ad ogni condizione d’impiego. I risultati mostrano che il metodo proposto è più accurato di tecniche di localizzazione 3D allo stato dell’arte.

POLIUTI EUGENIO

Titolo tesi: Cover Song Identification system based on audio and multilingual sentece embeddings

Abstract

Una cover è generalmente una resa alternativa di una canzone precedentemente registrata, eseguita dall'autore originale o da un artista diverso. Il nuovo brano può subire diverse variazioni rispetto all'originale, in termini di tonalità, tempo, ritmo, struttura. Il compito dell'identificazione di cover consiste nel riconoscere automaticamente le diverse versioni di uno stesso brano musicale. Negli ultimi anni la crescente popolarità del mercato discografico e dei servizi di streaming musicale ha richiesto l'amministrazione di enormi quantità di canzoni. Un sistema di riconoscimento automatico delle nuove uscite è quindi essenziale nel campo del copyright e della gestione dei diritti delle opere. In questa tesi, dopo aver fornito una panoramica di alcune tecniche e metodi esistenti, descriviamo il nostro modello, che combina un approccio basato sull'audio con un confronto sui testi. Data una canzone su cui indagare, il sistema la confronta con i brani contenuti in un database e identifica eventuali versioni alternative. Il metodo proposto prende in input un segnale audio e, attraverso un punteggio di somiglianza, recupera la relativa cover utilizzando un approccio basato sugli embedding. Sfruttando un sistema di riconoscimento vocale automatico, il brano viene trascritto e il testo risultante viene vettorizzato tramite il modello di Sentence BERT. Questa architettura fornisce una rappresentazione multilingua della trascrizione, consentendo il confronto anche tra testi in lingue diverse. Il modello è valutato su un dataset di benchmark sia utilizzando le metriche tradizionali del riconoscimento di cover sia in un contesto applicativo, tramite punteggi da noi sviluppati per valutarne l'efficacia. I risultati mostrano una buona performance nell'identificazione di versioni alternative, considerando i sistemi di riconoscimento della tonalità e del testo separatamente o combinando i due. In particolare, per quanto ne sappiamo, si tratta del primo sistema multimodale che esegue riconoscimento di cover in uno scenario cross-language. Gli embedding multilingua di frasi, già ampiamente utilizzati per la ricerca semantica, consentono di rappresentare i testi in modo più robusto e significativo rispetto ai metodi tradizionali, rendendo il sistema scalabile e invariante ai cambiamenti di linguaggio.

SANI PAOLO

Titolo tesi: Automatic Genre Classification of TV Programs Using L3-Based Deep Audio Features

Abstract

Le trasmissioni televisive possono spesso essere differenziate in un modo esaustivo tramite il loro genere. Ricavare questo tipo di attributo in modo automatico è particolarmente utile per i grandi cataloghi multimediali, dove è necessaria una gestione efficiente dei contenuti. Tipicamente, i generi televisivi sono caratterizzati da definizioni articolate e soggettive e alcuni di essi si dimostrano essere simili tra loro. Per questo motivo gli strumenti di annotazione richiedono un livello di informazione ricco e dettagliato per svolgere il loro compito correttamente. Tra le differenti modalità, l’audio è probabilmente quella più semplice da trattare e rispetto alla modalità visiva e al testo, risulta essere una delle meno studiate per questo problema. Per questo motivo, questo manoscritto investiga gli strumenti di Classificazione Automatica del Genere basata sul solo audio. Dal momento che i dataset disponibili per lo studio di questo problema non sono pubblicamente accessibili, inizialmente abbiamo creato uno nuovo dataset di trasmissioni televisive italiane, chiamato ITTV Dataset, che comprende circa 700 ore di contenuti. Successivamente, abbiamo studiato la performance di reti neurali endto- end, che al meglio delle nostre conoscenze non sono mai state studiate per questo problema. I risultati ottenuti hanno motivato la necessità di architetture più complesse, come quella proposta da (Pham et al., 2021), che attualmente è lo stato dell’arte per questo task. Tuttavia abbiamo notato che questa architettura non è sicura nel caso di generi televisivi che mostrano una impronta acustica simile. Per questo motivo, abbiamo progettato una nuova architettura che sfrutta feature audio contenenti informazione visiva, grazie all’estrattore di feature denominato Look, Listen and Learn, introdotto da (Arandjelovic et al., 2017). Questa nuova architettura supera i limiti di quella proposta da (Pham et al. 2021) e ottiene risultati allo stato dell’arte sul nostro dataset.

STUCCHI GABRIELE

Titolo tesi: A Deep Learning based approach to Anomalous Sound Detection for Industrial Machine Monitoring

Abstract

Il rilevamento automatico di guasti ai macchinari è una tecnologia essenziale nella quarta rivoluzione industriale, perché consente alle industrie di garantire un'elevata produttività riducendo i tempi di fermo non pianificati e di organizzare tempestivamente gli interventi di manutenzione, evitando danni maggiori. Il suono rappresenta il più delle volte uno degli indicatori più comuni ed evidenti di un comportamento anomalo e può dunque essere utilizzato come parametro per il monitoraggio delle condizioni di un macchinario. Per questo motivo, in letteratura sono state proposte diverse soluzioni per risolvere il problema del Rilevamento di Suoni Anomali, sia utilizzando metodi classici di Machine Learning che più recentemente metodi di Deep Learning. Uno svantaggio dei metodi di Deep Learning è che i modelli utilizzati sono normalmente caratterizzati da un elevato numero di parametri, che li rende inadatti all'implementazione su dispositivi con risorse limitate. In questa tesi, dopo aver fornito una panoramica dei metodi proposti in letteratura, ne adottiamo uno ibrido che sfrutta la potenza delle Reti Neurali Convoluzionali nell'estrazione di caratteristiche significative di alto livello combinato con le elevate capacità dei Gaussian Mixture Models nella stima della densità per modellare il comportamento normale della macchina e rilevare le anomalie misurando la probabilità di appartenenza alla distribuzione appresa. Inoltre, siamo in grado di ridurre di un ampio margine il numero di parametri della rete di Deep Learning grazie all'uso delle Convoluzioni Separabili in Profondità, rendendola più adatta a future implementazioni su dispositivi integrati. Il metodo viene validato su dati reali provenienti da una fabbrica e i risultati ne confermano l'efficacia anche in ambienti meno controllati, mostrando prestazioni comparabili a quelle ottenute su dataset pubblici. Inoltre, valutiamo il sistema alleggerito sia sui datatset pubblici che sui dati di fabbrica e mostriamo che il calo delle prestazioni è trascurabile rispetto alla riduzione dei parametri ottenuta.

VOLTOLINI EMANUELE

Titolo tesi: AI Powered Pick-up

Abstract

Con l'avvento del digitale nell'industria musicale, la modellazione virtuale di strumenti analogici come amplificatori, pedali di distorsione e altra effettistica ha assunto un ruolo centrale. Questo ha permesso di rendere le costose attrezzature analogiche più facilmente accessibili, garantendo una qualità sonora comparabile con l'originale. Negli ultimi anni, nella modellazione virtuale si è sempre più affermato l'utilizzo del deep learning come valida alternativa ai classici metodi DSP (Digital Signal Processing). Nello specifico i risultati migliori sono stati ottenuti da reti neurali quali RNN (Recurrent Neural Network) e Wavenet. La modellazione in questo campo si concentra prevalentemente su suoni legati alla chitarra elettrica. Il lavoro di questa tesi punta a modellizzare con un approccio scatola-nera la relazione tra il suono registrato dal pick-up di una chitarra acustica e quello di un microfono professionale, utilizzando una RNN con un'unità LSTM (Long-Short Term Memory). Abbiamo quindi creato un dataset composto da coppie di audio ottenute registrando simultaneamente la chitarra acustica dal pick-up e dal microfono. Inoltre è stata studiata una funzione di perdita che fosse consona al nostro scopo. Infine, abbiamo valutato i risultati ottenuti in termini di ESR (Error to Signal Ratio), fornendone una valutazione percettiva personale. Abbiamo concluso che il modello proposto è in grado di seguire l'andamento del segnale del microfono (target) nel dominio temporale usando come input il segnale del pick-up. Dal punto di vista spettrale la rete neurale proposta non è in grado di catturare le componenti ad alta frequenza del segnale, che risultano attenuate per frequenze maggiori di 3 kHz. Abbiamo quindi proposto una soluzione basata sulla somma di due audio ottenuti da due modelli differenti, in questo modo l'output finale presenta più energia nelle alte frequenze. Con questo detto, il timbro ottenuto nell'audio finale non può essere considerato indistinguibile da quello del microfono. Ci auspichiamo questa tesi possa essere un primo passo in questa nuova area di ricerca, portando innovazione in ambito musicale.

ZOBOLI ENRICO

Titolo tesi: Design, construction and test of three-dimensional microphone arrays employing MEMS and A2B technologies

Abstract

Le tecnologie audio spaziali emergenti richiedono una qualità audio e acustica immersiva. Gli array microfonici giocano un ruolo chiave nell'ecosistema audio spaziale, catturando le caratteristiche spaziali dei campi sonori. Nel corso degli anni, le soluzioni proposte sono risultate essere limitate nelle prestazioni di spazialità per le applicazioni future. Tecnologie avanzate ed economicamente convenienti, come Micro Electrical Mechanical System (MEMS) e Automotive Audio Bus (A2B), rappresentano una soluzione promettente per i futuri array microfonici. Le armoniche sferiche e Ambisonics sono adottati come una struttura funzionale per rappresentare campi sonori e valutare le tecnologie ed i dispositivi audio spaziali. I progressi nel campo degli array microfonici hanno permesso di trovare la mappatura tra segnali microfonici e armoniche sferiche senza l'impiego di equazioni analitiche. La tecnica derivata si basa sulla caratterizzazione avanzata dell'array microfonico attraverso misure di risposta all'impulso, portando ad una matrice di filtri Finite Impulse Response (FIR) per eseguire la mappatura. Questa procedura ha permesso l'utilizzo di array microfonici tri-dimensionali non sferici. In questa tesi viene presentato lo sviluppo e la realizzazione di un nuovo array microfonico MEMS tri-dimensionale basato su tecnologia A2B. Il quint'ordine Ambisonics ha definito il numero minimo di sensori microfonici necessari per il progetto. L'intero sistema si basa su array microfonici planari di forma triangolare, i quali hanno ispirato due possibili geometrie di disposizione: il dodecaedro e l'ottaedro troncato. Le due disposizioni sono state studiate attraverso simulazioni Finite Element Method (FEM), valutando le loro prestazioni spaziali. L'ottaedro troncato ha dimostrato i migliori risultati ed è stato realizzato tramite stampa 3D. L'array microfonico realizzato è stato caratterizzato acusticamente attraverso una tecnica di misura avanzata. I dati relativi alla misura sono stati utilizzati per ottenere i filtri FIR necessari per mappare i segnali microfonici in armoniche sferiche. Infine, le prestazioni spaziali sono state valutate, portando alla definizione di range di frequenza accettabili del dispositivo realizzato.

1575 visite

LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Proclamati 7 nuovi ingegneri musicali e acustici