Poli Campus Cremona LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING
22 DICEMBRE APPELLO DI LAUREA IN PRESENZA
Mercoledì 22 dicembre giornata di lauree nel Campus Cremonese del Politecnico di Milano. Alle ore 14:00 inizieranno le discussioni delle tesi di laurea e alle ore 16:00 avrà luogo la proclamazione di nove laureandi del Corso di Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.
La cerimonia avverrà interamente in presenza con un aumento del numero dei familiari che, muniti di Green pass, potranno assistere perché, in questa sessione, saranno otto per ogni laureando.
Dei nove studenti, che il 22 completeranno il loro percorso, due si sono concentrati sull’acustica, mentre sette hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, tra di loro ci sarà Jameau Clément Jean-Bernard Michel, studente internazionale, che raggiungerà un doppio traguardo perché grazie all’accordo tra CentraleSupelec di Parigi e Politecnico di Milano conseguirà una doppia laurea.
Segue l’elenco dei laureandi con titolo tesi e abstract:
AGOSTI GIOVANNI
Titolo tesi: Transformer Networks for the modelling of Jazz Harmony
Abstract
La musica è una forma d'arte che si esprime su vari livelli e rappresenta un linguaggio a sé stante. Infatti, può essere considerata una delle più antiche forme di comunicazione tra essere umani e può quindi essere studiata con gli stessi strumenti con cui si approcciano i linguaggi naturali. Per definire un chiaro approccio di studio linguistico alla musica, è necessario separarla nei suoi aspetti fondamentali, che possiamo considerare come melodia, armonia e ritmo, e studiare le rispettive interazioni. In questo lavoro ci concentriamo principalmente sull'armonia e sul suo legame con il ritmo. Le regole e le prassi dell'armonia sono universalmente riconosciute come essere in gran parte dipendenti dalla cultura di appartenenza. E' infatti risaputo che la stessa sequenza di accordi possa suonare come assolutamente banale per un individuo e contemporaneamente come completamente imprevista per un altro appartenente a una diversa cultura. In questa trattazione ci siamo concentrati sull'armonia Jazz, una prassi armonica che può a grandi linee essere inscritta all'interno dell'insieme della cultura musicale occidentale, ma che presenta comunque alcune caratteristiche molte specifiche e peculiari. In particolare, abbiamo investigato come definire il concetto di complessità armonica associata a una sequenza di accordi e abbiamo cercato di legarlo alla sua imprevedibilità. Infatti, sequenze prevedibili dovrebbero essere percepite come poco complesse, mentre sequenze molto improbabili dovrebbero essere percepite come estremamente complesse. Inoltre, abbiamo investigato la presenza di una correlazione tra la complessità percepita di una sequenza e l'abilità di un modello informatico di predirla. Per la scrittura di questa tesi abbiamo implementato un modello basato sull'architettura GPT-2 proposta da OpenAI nel 2019. Questo modello rappresenta una delle ultime proposte nel campo del NLP, una branca dell'informatica che studia i linguaggi naturali. Durante il presente lavoro abbiamo allenato il modello con un database originale di nostra proposta trascritto dall'applicazione iRealBook creata da Massimo Biolcati nel 2010. Il database utilizzato contiene più di 100 000 sequenze di accordi in tutte le tonalità tratte dai vari volumi del noto Real Book, uno storico archivio di trascrizioni dei cosiddetti Standards della musica Jazz. Inoltre abbiamo valutato la capacità del modello di predire la complessità percepita delle sequenze di accordi tramite un test di ascolto. Anche se una forte correlazione negativa tra capacità predittiva del modello e complessità percepita era stata dimostrata da Di Giorgi et al., non abbiamo trovato la suddetta correlazione all'interno dei nostri dati. Questo può essere dovuto a varie ragioni, tra cui il più alto grado di sofisticazione del repertorio incluso nel database usato e la minore diffusione del Jazz rispetto ad altri generi come il Pop o il Rock. Per quanto invece riguarda l'obiettivo di modellare le regole e le prassi dell'armonia jazz possiamo confermare che il modello GPT-2 produce sequenze di accordi coerenti con il database con cui è stato allenato. Inoltre abbiamo evidenziato come il modello abbia efficacemente imparato anche il concetto di ritmo armonico, caratteristica che potrebbe essere efficacemente sfruttata come strumento di composizione assistita.
BRUNDO NICOLETTA
Titolo tesi: A Music Similarity Metric Space to study the Evolution of Music Trends
Abstract
L’avvento del digitale nel mondo della musica sta spostando lentamene il baricentro della produzione musicale dai grandi studi di registrazione alle case di nuovi piccoli artisti emergenti. La principale conseguenza di questo fenomeno è la nascita di sempre più numerose nuove ’sonorità’ musicali, difficilmente incorniciabili in un certo genere musicale, che rendono faticosa, ed in un qualche modo inutile, la definizione di altrettanti nuovi ’sottogeneri’. Sotto questa prospettiva nasce l’esigenza di rompere i confini di genere ed esplorare spazi più liberi nel campo della classificazione musicale: il concetto di similarità risponde naturalmente a questa esigenza, evitando di ’etichettare’ un certo brano musicale, ma piuttosto di collocarlo in uno spazio metrico in cui brani vicini presentano una qualche somiglianza. Il concetto di similarità risponde naturalmente a questa necessità essendo idealmente distaccata dal concetto di genere. In questo studio diamo uno panoramica dell'evoluzione della musica negli anni, evidenziando come alcuni generi musicali siano fortemente influenzabili da altri generi, nonché da nuovi artisti emergenti, dando origine a nuove ’tendenze musicali. L’architettura proposta in questo studio è un Transformer, che tramite la funzione di costo triplet loss e l'utilizzo di descrittori percettivi del suono, è impiegato allo scopo di creare uno spazio metrico Euclideo di similarità musicale. Uno spazio grafico 2D ci permette di visualizzare l’evoluzione della musica negli anni e di capire come un certo genere sia influenzato da altri generi o da artisti emergenti, dando dunque vita alla scia di nuovi trend musicali. Altri lavori precedenti hanno focalizzato la loro attenzione sulla similarità musicale, ma nessuno di questi sull’evoluzione della musica nel tempo con i Transformer.
DE LUCIA DARIO
Titolo tesi: Implementation of a low-cost acoustic camera using arrays of MEMS microphones
Abstract
Negli ultimi anni la visualizzazione di una sorgente audio è diventata uno strumento ampiamente utilizzato non solo in teleconferenza, miglioramento e riconoscimento vocale, videogiochi ecc., ma anche in campo acustico, in particolare per quanto riguarda la localizzazione del rumore e l'isolamento acustico. Nonostante le sue potenzialità, un'immagine acustica è difficile da ottenere in ambienti con una grande quantità di rumore e riverbero. Un approccio efficace per ottenere una registrazione pulita del segnale acustico desiderato viene dalla teoria del Beamforming abbinata all'array di microfoni. Quest'ultima insieme ad una telecamera è solitamente indicata come fonocamera, un dispositivo utilizzato per localizzare le sorgenti sonore e per caratterizzarle. In questa tesi abbiamo progettato una telecamera acustica utilizzando un mini-DSP UMA 16 di array di microfoni e il software MATLAB per determinare le prestazioni di stima della potenza sonora e la capacità di separazione della sorgente sonora. Lo abbiamo implementato in due step: un setup statico in cui i segnali audio sono stati acquisiti da un array di microfoni e sono stati elaborati in un secondo momento, mentre in un secondo step lo abbiamo esteso in un'applicazione real time. Dopo un'indagine sulle tecniche utilizzate per l'applicazione di una telecamera acustica, abbiamo esplorato gli usi dell'array e del beamformer al fine di ottenere una mappa di intensità sonora e ricostruire la scena acustica. I risultati ottenuti presentati in questa tesi mostrano che un'applicazione affidabile delle tecniche di beamforming può generare una mappa di intensità sonora con una discreta accuratezza sia in configurazione statica che in modalità tempo reale.
FASCELLA CARMELO
Titolo tesi: Forensic Detection of Deepfakes Generated Through Video-to-Video Translation
Abstract
La creazione di video che coinvolgono persone reali ha raggiunto negli ultimi anni un realismo senza precedenti. La diffusione di contenuti alterati può portare a gravi conseguenze se essi contengono informazioni fuorvianti. Per questo motivo, è sempre più necessario sviluppare tecniche forensi che consentono di verificare se un certo video è stato sintetizzato digitalmente o meno. Il problema affrontato in questa tesi è capire se una sequenza video è originale o falsa. I video sintetizzati su cui focalizziamo la nostra attenzione sono generati da un algoritmo di traduzione da video a video che utilizza la posa come rappresentazione intermedia, dove l'intero corpo del soggetto umano coinvolto è sintetizzato da un software di ultima generazione. Proponiamo due metodologie per affrontare questo problema. Il primo metodo, che è considerato come riferimento di base, si basa sull'uso di una Convolutional Neural Network (CNN). Il secondo metodo si basa sull'estrazione di descrittori spazio-temporali dalle sequenze video e sulla classificazione di tali caratteristiche utilizzando un Multi-Layer Perceptron (MLP). I descrittori sono estratti da cinque parti del corpo dei soggetti umani, considerando due diverse versioni pre-elaborate dei video. Le soluzioni proposte sono testate su un insieme di dati che abbiamo generato e progettato appositamente per questo lavoro. L'insieme di dati comprende 50 video sintetizzati con una lunghezza minima di 2 minuti, raffiguranti 10 soggetti diversi. Entrambe le metodologie da noi proposte raggiungono un'alta accuratezza di classificazione. Inoltre, dimostriamo che il nostro metodo basato sull'estrazione dei descrittori è robusto rispetto alla compressione e al ridimensionamento, e supera il metodo basato su CNN in diversi scenari.
GUARNIERI FABIO
Titolo tesi: Improvement and testing of a low-cost platform for vibrometric analysis
Abstract
Lo scopo principale dei liutai è raggiungere la perfetta risposta acustica per i loro strumenti musicali. Quando realizzano un nuovo violino, devono confrontarsi con due operazioni principali: la scelta del legno di risonanza con le proprietà elastiche desiderate e il monitoraggio delle variazioni delle proprietà vibrometriche causate dalle alterazioni geometriche del pezzo durante il processo. Le informazioni ottenute possono supportare il liutaio per la messa a punto dello strumento fino a quando la risposta acustica desiderata non è raggiunta. Lo stato dell’arte presenta una piattaforma economica e multiuso specificamente progettata per essere a supporto dei liutai in queste fasi, in grado di effettuare una Experimental Modal Analysis (EMA) sul pezzo di legno da cui poter stimare i suoi parametri meccanici e modali. La piattaforma consiste in un insieme di sensori analogici (accelerometri e microfoni), una scheda e un software integrato. Sebbene gli accelerometri siano economici, la ridotta larghezza di banda e un alto rumore di fondo compromettono le letture, limitando le prestazioni della piattaforma. Lo scopo della tesi è identificare degli accelerometri più performanti e riprogettare la piattaforma affinchè risulti compatibile con i nuovi sensori. La scelta è ricaduta sul sensore digitale IIS3DWB, che fornisce un segnale più chiaro, permettendo così stime migliori. Diversamente dalla precedente tipologia di sensori adottati, quest’ultimo utilizza un protocollo di comunicazione digitale per interagire con la scheda. La scheda utilizzata precedentemente è ottimizzata per la lettura di valori analogici, ma è caratterizzata da una ridotta efficienza nel campo dell’acquisizione digitale dei segnali. Con lo scopo di ottenere una lettura in tempo reale a una frequenza di campionamento alta e costante, è stata aggiunta una scheda intermedia, che permette di leggere i sensori e inviare le letture alla scheda principale, dove viene effettuato il resto del processamento. Una serie di test è stata eseguita per testare le prestazioni del kit di misurazione proposto; la stessa analisi è stata effettuata su 10 pezzi differenti di legno e metallo, utilizzando prima la piattaforma riprogettata, poi la vecchia piattaforma e un set di sensori professionali come riferimento. La nuova piattaforma mostra delle performances complessivamente migliori, un minore rumore di fondo ed una maggiore comprensione del comportamento dell’oggetto in analisi in un intervallo di frequenze più ampio.
JAMEAU CLÉMENT JEAN-BERNARD MICHEL
Titolo tesi: Modeling Rhythm Complexity Using Regularized Variational Autoencoders for Automatic Generation of Polyphonic Drum Patterns
Abstract
La complessità della musica è un argomento di interesse sia per la musicologia che per l'ingegneria, eppure sfugge a una definizione precisa. Non solo è un attributo spiccatamente percettivo, ma la complessità si lega anche alla cultura, all'esperienza e all'educazione dell'ascoltatore. Sebbene in letteratura siano stati proposti diversi metodi per misurare la complessità musicale in modo oggettivo, nessuno è in grado di descriverne tutti gli aspetti. Negli ultimi anni, tuttavia, metodi data-driven hanno offerto un'opportunità senza precedenti per modellare implicitamente attributi musicali complessi. Recenti sviluppi nell'ambito del deep learning hanno infatti dimostrato come sia possibile apprendere una rappresentazione trattabile direttamente dai dati musicali. In questa tesi ci siamo concentrati sulla complessità ritmica. Il modello proposto si basa quindi su un'architettura variazionale all'avanguardia progettata per modellare lunghe sequenze musicali, aumentata al fine di consentire il controllo esplicito di una misura di complessità del ritmo. A tal fine, proponiamo un nuovo metodo di regolarizzazione e adottiamo una funzione di costo avversaria che favorisce il disentanglement nello spazio latente. Addestrato su campioni polifonici di batteria, il modello proposto si è dimostrato in grado di generare dati realistici e caratterizzati dal valore di complessità desiderato. Nei nostri esperimenti, la complessità degli esempi generati e quella di riferimento hanno mostrato un'elevata correlazione e lo spazio latente risulta essere interpretabile e continuamente navigabile. Da un lato, un tale modello può quindi trovare spazio in un'ampia gamma di applicazioni creative, tra cui, ad esempio, la composizione musicale assistita e la generazione automatica di musica. D'altro canto, costituisce un ulteriore passo avanti verso lo sviluppo di macchine capaci di comprendere gli aspetti percettivi della musica.
MINNECI LORENZO
Titolo tesi: Deep learning methods for sound-matching in semi-modular synthesizer environments
Abstract
I sintetizzatori (abbreviato synth) sono degli strumenti musicali in grado di produrre e manipolare timbri elettronici. Negli ultimi decenni sono stati in grado di portare alla luce generi musicali ed estetiche innovative in tutto il mondo. Tuttavia, il livello di complessità richiesto per governarli è spesso alto e dipende dal gran numero di parametri utilizzati per controllarli. Saper configurarli manualmente per riprodurre uno specifico suono o target è un compito certamente complesso e costoso in termini di tempo per moltissimi utenti, amatoriali e non. Questa tesi indaga su un problema chiamato sound-matching attraverso l’utilizzo di Reti Neurali Artificiali, ed in particolare con tecniche di Deep Learning. Per risolverlo abbiamo impiegato i transformers, una nuova architettura recentemente introdotta da Vaswani et al. [1], ed altri modelli di Deep Learning come il Multi-Layer Perceptron, Long-Short Term Memory, Bidirectional Long-Short Term Memory ed i Convolutional Neural Networks.\r\nIl problema di sound-matching, nell’ambito del Automatic Synthesizer Programming (ASP), mira a predire la configurazione dei parametri del sintetizzatore necessaria per generare un determinato suono target. Nella letteratura tutte le ricerche che hanno impiegato metodi di Deep Learning per il problema del sound-matching lo hanno fatto in sistemi di sintetizzatori non modulari, bensì tradizionali. Inoltre, introduciamo per la prima volta i transformers per risolvere la suddetta problematica. I sistemi semi-modulari sono considerati al giorno d’oggi alcuni degli strumenti elettronici più complessi e versatili dal punto di vista timbrico. I transformers, inoltre, rappresentano oggi l’avanguardia nell’ambito dei modelli sequenziali. Infatti, essi sono riusciti in molti casi ad avere migliori prestazioni dei Recurrent Neural Networks (RNNs) nell’ambito dell’Elaborazione del Linguaggio Naturale o in quello della Visione Artificiale. Nella nostra ricerca abbiamo scoperto che i transformers sono uno strumento potente ma talvolta instabile, le cui prestazioni migliorano aumentando la dimensione del dataset oppure aggiustando accuratamente i loro iperparametri. L’accuratezza dei risultati è stata valutata sia in termini di precisione dei parametri predetti rispetto al target, sia relativamente alla vicinanza spettrale del suono generato rispetto quello desiderato. Nella nostra ricerca, LSTM è stato il modello più performante per la ricostruzione spettrale. È stato anche il miglior modello rispetto alla predizione dei parametri sul dataset più complesso. I transformers sono stati nella nostra ricerca il secondo migliore modello per risolvere il problema del sound-matching nello stesso dataset più complesso. Riassumendo, questa ricerca ha introdotto un nuovo standard nell’ambito dell’Automatic Synthesizer Programming. In primo luogo, abbiamo presentato un nuovo dataset generato unicamente da un sintetizzatore semi-modulare. Poi, abbiamo mostrato i risultati di diverse reti, tra cui i transformers, per risolvere il problema di sound-matching. Pensiamo che alcuni dei possibili sviluppi di questa ricerca nel futuro potrebbero andare nella direzione di modelli differenziabili utilizzati per la sintesi. In questo modo la rete neurale sarebbe in grado di tenere conto nel processo di backpropagation non solo dei parametri, ma anche dell’informazione spettrale. Inoltre, pensiamo che un test uditivo dei segnali predetti rispetto al target possa essere un’ulteriore metrica su cui poter validare o migliorare i risultati fin’ora registrati. Intendiamo inoltre incorporare questo lavoro di tesi all’interno di una DAW, permettendo così a più utenti di sperimentare modelli di deep learning e di aprire la strada a direzioni innovative per il sound design e l’esplorazione sonora.
SURRICCHIO MATTIA
Titolo tesi: Accelerating object obstacle simulation in 3D audio on embedded systems
Abstract
L'audio 3D (noto anche come spazializzazione audio) mira a riprodurre, nei comuni sistemi audio come cuffie e altoparlanti, l'esperienza di percepire sorgenti sonore che si muovono e interagiscono con l'ambiente circostante. L'audio 3D ha acquisito un'importanza rilevante in molti settori, dalla musica al cinema, dai videogiochi agli apparecchi acustici per ipovedenti. La spazializzazione dell'audio è un processo complesso: affonda le sue radici sia nel campo ingegneristico, sia in quello artistico e psicologico. A causa della natura multiforme del problema, la progettazione e la valutazione di un sistema audio 3D dovrebbe tenere conto sia le componenti oggettive (errori numerici e precisione) che soggettive (ascolto/esperienza dell'utente) del problema. Inoltre, la spazializzazione dell'audio è solo una parte dello scenario acustico del mondo reale; gli esseri umani, infatti, si affidano ampiamente all'interazione sonora con oggetti passivi, che fungono da ostacolo fra la sorgente sonora e l'ascoltatore (es. porte, muri). L'introduzione della simulazione di oggetti (in tempo reale) oltre alla spazializzazione dell'audio è un processo computazionalmente molto complesso. A causa di tale complessità, la maggior parte dei sistemi audio 3D attualmente disponibili si basa su potenti computer centralizzati e ore di pre-calcolo per ottenere una buona qualità del suono, prestazioni in tempo reale e interazione delle sorgenti sonore con oggetti. Per affrontare questo problema, questo lavoro propone un coprocessore hardware per accelerare la simulazione e la spazializzazione di oggetti passivi (in tempo reale) direttamente su dispositivi edge embedded, eliminando la necessità di pre-rendering dell'audio per simulare ostacoli sonori. La metodologia proposta affronta tre diversi problemi: primo, simulare oggetti in sistemi con risorse limitate; secondo, spazializzare le sorgenti audio in tempo reale; terzo, dividere le attività di elaborazione tra CPU e coprocessore al fine di massimizzare le prestazioni. Il nostro approccio è stato testato sia numericamente che psicoacusticamente. In primo luogo, vengono valutati i limiti operativi del co-processore; in secondo luogo, vengono condotti approfonditi test di ascolto per valutare la qualità audio percepita del sistema proposto. La nostra soluzione raggiunge una latenza comparabile a quella delle workstation, consumando un decimo della potenza, rendendola adatta per applicazioni embedded.
TALONE LORENZO
Titolo tesi: Multichannel Signal Reproduction Optimization by means of Dipole Steering Technique in a Domestic Non-Treated Environment
Abstract
La riproduzione sonora multicanale è stata e continua ad essere proposta attraverso molteplici approcci, ci sono per esempio sistemi in cui gli altoparlanti sono posizionati tutti intorno agli ascoltatori, sistemi basati solo su un paio di cuffie che si affidano totalmente sul processamento e il filtraggio del segnale, e sistemi che puntano a dare l’impressione che le sorgenti sonore siano poste tutte intorno all’ascoltatore, che si sentirà immerso. Ma una cosa è chiara quando si parla di prodotti per consumatori, che devono trovare spazio in ambienti domestici: la semplicità e la compattezza sono caratteristiche importanti, ecco perché ad esempio le soundbar sono così popolari al giorno d’oggi. Lo scopo di questa tesi è trovare la miglior configurazione per trasmettere una convincente esperienza di surround ma col numero minore possibile di altoparlanti, e senza la necessità di posizionare gli altoparlanti per tutto l’ambiente. Ciò è fatto esplorando possibili usi innovativi della tecnica dello steering del dipolo, che consiste nel riprodurre dei canali sonori attraverso coppie di altoparlanti usati in configurazione a dipolo, cosicché uno suoni a fase opposta rispetto all’altro, e in aggiunta il polo invertito è ritardato di qualche frazione di millisecondo per virare la direzione di massima interferenza distruttiva (lo zero del dipolo) di un angolo controllabile. La ricerca è svolta attraverso simulazioni teoriche fatte in MATLAB, attraverso simulazioni ibride fatte con EASE SpeakerLab, in cui le sorgenti sono misurazioni di veri altoparlanti, e con effettive misurazioni sulle performance di un prototipo in un ambiente riflettente controllabile. Gli approcci sondati sono la possibilità di creare sorgenti virtuali sui muri laterali creando riflessioni che possano essere percepite come prevalenti rispetto al suono diretto, o l’arricchimento della sensazione di spazializzazione attraverso l’aumento della differenza tra i livelli dei segnali percepiti dalle due orecchie, che è l’attuazione della crosstalk cancellation in un approccio transaurale. La soluzione ottima unirà i due approcci in un’innovativa configurazione a doppio dipolo, in cui sono applicati due diversi valori di delay.