SESSIONE DI LAUREA MAGISTRALE AL CAMPUS DI CREMONA DEL POLITECNICO DI MILANO
10 dicembre 2024: saranno 19 i nuovi laureati in Music and Acoustic Engineering!
Martedì 10 dicembre 19 giovani raggiungeranno un ambito traguardo e conseguiranno il titolo di Laurea Magistrale in Music and Acoustic Engineering.
Sessione di laurea in Music and Acoustic Engineering: 19 laureandi, inizio discussioni ore 13:45; proclamazione ore 16:30.
Dei 19 laureandi iscritti alla prima ed unica Laurea Magistrale in Italia interamente dedicata all’ingegneria della musica e dell’acustica, 13 hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, mentre gli altri 6 si sono concentrati sull’acustica. Le discussioni delle loro tesi inizieranno alle ore 13:45 e la proclamazione è prevista per le ore 16.30.
La peculiarità di questo Corso di Laurea Magistrale è sicuramente la capacità di coniugare le conoscenze scientifiche con la passione per la musica come ci racconta Gabriele, laureando in Music and Acoustic Engineering – track Acoustic, che dice “ho scelto l’opportunità di sposare la precisione e la metodicità dell’ingegneria con l’aspetto artistico della musica e in generale del suono che mi ha sempre affascinato molto.”.
Non bisogna dimenticare però che è un corso di Ingegneria e bisogna quindi affrontare alcuni esami in ambito tecnico e scientifico ma la passione sicuramente è il segreto per superare brillantemente gli esami come conferma Stefano, laureando in Music and Acoustic Engineering – track Music, “studiare una materia che appassiona è la chiave per ridurre le difficoltà al minimo, sebbene una grande dose di impegno debba essere sempre profusa durante un corso di studi di livello universitario.”.
E se Gabriele consiglia a chi deve scegliere oggi una Laurea Magistrale di “lasciarsi affascinare e trasportare dal percorso che più ti affascina, e di non dare troppo peso al lato puramente razionale che inevitabilmente contraddistingue questo tipo di scelte.”, Stefano sottolinea che consiglierebbe questo corso “a qualunque studente desideroso di sviluppare le abilità nel campo dell’informatica e al contempo mantenere viva la propria vena creativa, rimanendo in connessione con il mondo dell’audio nell’ambito di installazioni creative.”.
Tante le applicazioni pratiche delle conoscenze che si acquisiscono studiando Music and Acoustic Engineering, come traspare dalle tesi di Laurea.
In particolare Gabriele, che ha affrontato il tema del campo sonoro generato all'interno dell'abitacolo di un'autovettura e ha condotto misure all’interno di una Ferrari nella sede di Maranello, afferma “Al giorno d’oggi, se un’azienda automobilistica è intenzionata a capire che effetti ha sul passeggero il riposizionamento di un altoparlante all’interno dell’abitacolo è inevitabilmente costretta a fare un prototipo, ingegnerizzare il progetto e compiere delle misure a valle della produzione. Nello svolgere la mia tesi ho affrontato il problema di individuare una metodologia completa in grado di predire il campo sonoro generato dall’impianto audio del veicolo, così da potersi affidare alle simulazioni numeriche, sapendo che forniscono risultati sufficientemente attendibili da permettere di evitare la fase produttiva, molto più onerosa in termini di costo, tempo e risorse.”.
Noemi, laureanda in Music and Acoustic Engineering – track Music, ha sviluppato un’applicazione destinata ad aumentare l’inclusione sociale perché integra il feedback visivo e tattile alla riproduzione di brani audio, al fine di facilitare la percezione musicale per individui sordi o con disabilità uditive e per migliorare l'esperienza musicale anche per persone normoudenti.
Stefano, laureando in Music and Acoustic Engineering – track Acoustic, ha approfondito le problematiche acustiche nelle strutture sanitarie, evidenziando che le unità di trattamento aria e refrigerazione producono livelli sonori potenzialmente disturbanti e proponendo come strategie di mitigazione, l’installazione di barriere fonoassorbenti e attenuatori che si sono dimostrati efficaci nel ridurre le emissioni sonore entro i limiti normativi, migliorando il comfort acustico per i residenti nelle vicinanze.
Gabriele e Stefano hanno le idee già abbastanza chiare per il loro futuro e se il primo dichiara che “sarebbe entusiasmante poter lavorare in un settore che combini l’aspetto acustico e musicale con quello elettronico, come nella progettazione di impianti audio o altoparlanti, ma anche microfoni e outboard da studio di registrazione in generale.”, Stefano invece confessa “Ho sempre sognato di diventare un musicista, perciò credo che nei prossimi anni concentrerò le mie energie nel cercare di realizzare questo desiderio. Ritengo comunque che il percorso universitario che ho affrontato mi abbia fornito numerosi strumenti per arricchire le mie competenze e abilità anche nel campo artistico, che spero di frequentare per il resto della vita. Credo che combinare competenze scientifiche e artistiche rappresenti un valore aggiunto, offrendo un vantaggio significativo nello sviluppo di una carriera nell’industria musicale.”.
Questo percorso universitario è descritto da Gabriele con questi tre aggettivi:
- “Propedeutico perché è un percorso che ti dà le basi necessarie e sufficienti per approfondire anche autonomamente tantissimi aspetti legati all’acustica, sia dal punto di vista fisico matematico in termini di vibrazioni, sia dal punto di vista progettuale, parlando quindi di musical acoustics, room acoustics, ecc. Fornisce però anche le basi per approfondire tematiche molto più artistiche legate alla produzione musicale (penso per esempio a Music Production Technologies) e alla programmazione musicale (Computer Music: Languages and Systems o Advanced Coding Tools and Methodologies).
- Affascinanteperché, partendo da concetti e trattazioni puramente fisico-matematici, porta a comprendere comportamenti acustici che tutti conosciamo e con cui abbiamo quotidianamente a che fare, inerenti ad esempio agli strumenti musicali o all’acustica di un teatro.
- Inclusivoperché il percorso è completamente erogato in inglese e permette così anche a persone straniere di poter seguire le lezioni. Oltre tutto, avendo un’offerta formativa rara, soprattutto in Italia, vede un’affluenza molto variopinta, con ragazzi provenienti da molte regioni diverse e con background anche molto differenti.”
Gli interessati a questo stimolante percorso, in possesso di un titolo di studi triennale italiano, potranno richiedere l’ammissione per il secondo semestre di quest’anno accademico dal 7 gennaio al 15 febbraio 2025.
Per chi si iscrive alle Lauree Magistrali, presso il Campus di Cremona, sono previste 2 borse di studio (1 borsa per immatricolati in Music and Acoustic Engineering e 1 borsa per immatricolati in Agricultural Engineering), dell’importo di € 2.000 ciascuna, che riconoscono e valorizzano il merito. Il bando di ammissione per l'a.a. 2024/25 è disponibile sul sito del Polo.
Segue l’elenco dei laureandi, che hanno dato il consenso all’invio, con il titolo della tesi e l’abstract:
- AMICO STEFANO ANTONIO
Titolo tesi: Voice-spoofing detection via low-level acoustic features and anti-fraud ML methods
Abstract
I recenti progressi nei sistemi di sintesi vocale hanno incrementato significativamente le vulnerabilità nei meccanismi di autenticazione biometrica, rendendo possibili sofisticati attacchi di voice spoofing. Sebbene i sistemi di rilevamento attuali utilizzino frequentemente architetture di deep learning end-to-end, questi approcci spesso operano come modelli a scatola nera con limitata interpretabilità e generalizzazione incoerente in diverse condizioni acustiche. Questa tesi presenta un framework sistematico per il rilevamento del parlato sintetico attraverso l’analisi di marker vocalici interpretabili. La proposta metodologia si discosta dagli approcci convenzionali di deep learning concentrandosi su caratteristiche spettro temporali quantificabili che caratterizzano la distinzione tra segnali vocali autentici e sintetici. Sono stati sviluppati ed implementati estrattori di caratteristiche vocali che identificano gli artefatti nel parlato, concentrandosi in particolare sulle discontinuità spettro-temporali che l’analisi spettrale convenzionale non riesce a catturare. La ricerca apporta significativi contributi scientifici attraverso diverse prospettive complementari. I parametri vocali implementati hanno mostrato la loro affidabilità per l’identificazione dello spoofing vocale e sono stati in grado di rilevare efficacemente manipolazioni complete e parziali. I risultati sperimentali confermano l’efficacia dell’approccio proposto, dove la fase di clustering identifica raggruppamenti naturali nello spazio delle caratteristiche estratte, seguita da un’etichettatura selettiva che ottimizza i confini decisionali. Questa strategia ibrida raggiunge prestazioni di rilevamento superiori, mantenendo la piena interpretabilità dei confini decisionali nel dominio acustico. Questa ricerca affronta efficacemente le limitazioni fondamentali dei sistemi di rilevamento dello spoofing contemporanei, stabilendo un framework che assicura sia l’interpretabilità del modello che la generalizzazione cross-domain.
- BRUSCA ALFREDO
Titolo tesi: Exploring Signal Purification against Adversarial Attacks for Speech Deepfake Detection
Abstract
I recenti miglioramenti nei campi del deep learning e dei modelli generativi hanno reso possibile la creazione di contenuti sintetici sempre più realistici. Con l'aumento dell'accessibilità di queste tecnologie, il loro potenziale abuso crea dei rischi significativi, rendendo imperativo avere la possibilità di distinguere tra contenuto reale e sintetico. Nel campo dell'audio, le tecniche di generazione di speech deepfake consentono la sintesi di segnali che possono imitare la voce di un bersaglio e far sì che pronunci frasi arbitrarie. Le tecniche di rilevamento di speech deepfake si concentrano nell'identificazione di segnali sintetici attraverso l'analisi di artefatti tipicamente assenti nei segnali audio che rappresentano un parlato reale. Tuttavia, questo è un campo in continua evoluzione: i rilevatori devono adattarsi costantemente per contrastare minacce sempre più sofisticate. Con l’adozione diffusa dei metodi di rilevamento, gli utenti malintenzionati hanno iniziato a utilizzare i cosiddetti adversarial attacks, progettati per eludere anche i sistemi più avanzati. Introducendo del rumore quasi impercettibile nei sample considerati, questi attacchi possono far sì che i rilevatori falliscano nel processo di identificazione, classsificando il parlato sintetico come genuino e viceversa. Per contrastare l'uso degli adversarial attacks, sono stati presentati nella letteratura dei meccanismi di difesa. Quest'ultimi hanno lo scopo di processare i segnali audio in input allo scopo di mitigare gli effetti degli adversarial attacks. In questa tesi, contribuiremo a questo campo di ricerca e proporremo multiple strategie di difesa. Il nostro approccio sarà incrementale, cominciando con un semplice riaddestramento del modello, usando modelli di enfatizzazione del parlato allo stato dell'arte, ed infine adottando una tecnica di refactoring dell'input originariamente sviluppata per l'uso nel campo dell'analisi forense delle immagini. L'analisi di queste tecniche fornirà informazioni preziose, con un potenziale di aumento dell'accuratezza nella classificazione dei rilevatori considerati fino al 45% usando come metrica la balanced accuracy.
- CASALE LELIO
Titolo tesi: Data-Driven Parameter Estimation of a Piezoelectric MEMS Loudspeaker using Lumped-Element Models
Abstract
Gli altoparlanti MEMS (microsistemi elettromeccanici) offrono soluzioni promettenti per la richiesta del mercato audio di dispositivi compatti e portatili con sistemi integrati di riproduzione del suono, grazie alle loro dimensioni significativamente più piccole, al minor consumo di energia e alla possibilità di integrazione su chip rispetto ai microaltoparlanti tradizionali. Tuttavia, ottenere alti livelli di pressione sonora (SPL), una risposta in frequenza piatta e bassi livelli di distorsione rimane una sfida a causa dello spazio limitato per l'attuazione nelle strutture MEMS. In questo contesto, la disponibilità di modelli ad elementi concentrati (LEM) accurati ed efficienti dal punto di vista computazionale può accelerare significativamente il prototipaggio del design degli altoparlanti MEMS e permettere lo sviluppo di tecniche di elaborazione digitale del segnale per la precompensazione delle loro non idealità. Sfortunatamente, la stima dei valori dei parametri del modello tramite formule in forma chiusa basate su una descrizione fisica a parametri concentrati spesso porta a stime che non corrispondono al comportamento reale del dispositivo. In questo testo, colmiamo questa lacuna applicando una tecnica recentemente sviluppata per allenare i parametri di LEM differenziabili con un approccio completamente basato sui dati, utilizzando metodi standard di ottimizzazione basati sul gradiente. In particolare, stimiamo i valori dei parametri di un modello lineare equivalente definito in modo adeguato per un altoparlante MEMS commerciale destinato a applicazioni in campo libero. Tali parametri vengono ottimizzati per minimizzare un'adeguata funzione di costo che quantifica la differenza tra i valori di SPL previsti dal modello e i valori di SPL misurati sperimentalmente. I risultati dimostrano una forte corrispondenza tra i valori di SPL previsti e quelli misurati per il dispositivo considerato, evidenziando il potenziale di questo approccio per la stima dei parametri di modelli fisici.
- COLOMBO MARCO FURIO
Titolo tesi: MambaFoley: Time-Controllable Foley Sound Generation using Selective State-Space Models
Abstract
Il recente avanzamento nella ricerca nel campo del deep learning e gli sviluppi riguardanti i Denoising Diffusion Probabilistic Models (DDPM) hanno offerto la possibilità di sintetizzare audio tramite modelli generativi, con una qualità senza precedenti. La creazione di suoni ambientali (Foley) è di particolare interesse per il suo ampio utilizzo nell’ambito della creazione di contenuti multimediali e per la sfida intrinseca di ottenere un controllo preciso sugli eventi audio generati, specialmente in termini di qualità e accuratezza temporale. Considerata la natura temporale del suono, è fondamentale progettare modelli generativi in grado di gestire efficacemente la modellazione sequenziale dei sample che compongono i campioni audio digitali. I Selective State Space Models (SSMs) sono stati recentemente proposti come una valida alternativa alle tecniche precedentemente sviluppate per la modellazione di sequenze, dimostrando prestazioni competitive e una minore complessità computazionale. In questo contesto introduciamo MambaFoley, un Denoising Diffusion Model che, per quanto a nostra conoscenza, è il primo a sfruttare Mamba, un modello basato su SSM, per la generazione di suoni ambientali. Inoltre, MambaFoley impiega blocchi di condizionamento che utilizzano trasformazioni affini e architetture specializzate per controllare le caratteristiche dell’audio sintetizzato, permettendo la scelta all’interno di una lista di diverse fonti sonore e l’allineamento temporale rispetto ad una forma d’onda di riferimento. Il metodo proposto viene confrontato con recenti modelli generativi di rumori ambientali, utilizzando sia metriche oggettive che un sondaggio soggettivo. I risultati ottenuti superano le prestazioni dei modelli presenti in letteratura, mostrando miglioramenti significativi in termini di qualità complessiva e capaci di sintetizzare sample fedelmente allineati al condizionamento temporale.
- COSTA GABRIELE
Titolo tesi: High-Frequency Model Analysis for Car Cabin Sound Prediction
Abstract
Al giorno d'oggi, lo sviluppo di tecniche in grado di predire numericamente il campo sonoro generato all'interno dell'abitacolo di un'autovettura prodotto dall'impianto audio è diventato fondamentale per la progettazione e l'innovazione automobilistica. In questo contesto, l'affidabilità di tali modelli è fondamentale per garantirne il corretto utilizzo. L'uso di modelli numerici sufficientemente affidabili da non richiedere prototipi sperimentali (almeno in parte) semplifica notevolmente la catena di produzione automobilistica e accelera la progettazione. La procedura implementata in questa tesi non terrà conto dei rumori provenienti dall'esterno dell'abitacolo o di quelli che non dipendono dalle vibrazioni degli altoparlanti dell'impianto. Oltretutto, in questo contesto verrà approfondita solo una parte dell'intera procedura necessaria per lo sviluppo del modello predittivo completo, ovvero quella relativa all'emissione ad alta frequenza. Verranno discussi i diversi approcci proposti in letteratura, con i relativi vantaggi e svantaggi. Individuato il ray tracing come metodo principale di analisi, verranno discussi in dettaglio gli input e le condizioni al contorno necessarie, nonché gli output che è possibile ottenere, con particolare attenzione alla caratterizzazione delle superfici interne dell'abitacolo e al loro effetto sui risultati della simulazione. A completamento della tesi, verrà impostata una campagna sperimentale che fornirà i dati per validare i modelli numerici sviluppati in Comsol Multiphysics sulla base delle trattazioni teoriche. L'analisi di questi dati e le relative discussioni costituiranno la conclusione della tesi e il punto di partenza per ulteriori indagini e sviluppi futuri in questo campo.
- DOIMO ALBERTO
Titolo tesi: RO-BAT: A bat-inspired approach on mobile robot navigation using Direction of Arrival estimation
Abstract
Questa tesi presenta lo sviluppo di una soluzione di ecolocalizzazione passiva per la robotica autonoma in sciami, come contributo iniziale al progetto RO-BAT. Questo progetto ha l'obiettivo di studiare come gli animali o i robot possono usare l'ecolocalizzazione quando l'ambiente è popolato da numerosi segnali sovrapposti, un problem chiamato “Cocktail Party Problem”. Da un lato, i biologi stanno ancora studiando come i pipistrelli ecolocalizzino in modo efficace all'interno di sciami densi, distinguendo tra segnali ambientali e segnali dei conspecifici. Dall'altro, un sistema di ecolocalizzazione efficace potrebbe aiutare la robotica a migliorare il rilevamento attivo, poiché le tecnologie attuali come il RADAR e l'infrarosso (IR) risultano inadeguate in ambienti densi. Questa prima fase del progetto RO-BAT corrisponde allo studio condotto in questa tesi. L'attenzione è focalizzata sull'aspetto passivo della localizzazione basata sul suono, che fornisce una base per futuri sviluppi nell’ecolocalizzazione attiva. L’ecolocalizzazione passiva consente a un robot di individuare sorgenti sonore esterne nello spazio senza emettere segnali propri. In questa tesi, ho progettato, assemblato e testato una piccola piattaforma robotica bio-ispirata chiamata “ro-bat”, ottimizzata per la stima della Direction of Arrival (DOA) in tempo reale, per evitare gli ostacoli in ambienti multi-agente. Il ro-bat è dotato di microfoni Micro-Electro-Mechanical Systems (MEMS) disposti in un array microfonico costruito ad-hoc, collegato alla scheda audio MCHStreamer e a un Raspberry Pi per l'elaborazione del segnale. Ho sviluppato e testato tre algoritmi DOA Generalised Cross-Correlation with Phase Transform (GCC-PHAT), Steered Response Power with Phase Transform (SRP-PHAT) e Multiple Signal Classification (MUSIC) e li ho integrati con il controllo di navigazione del ro-bat, bilanciando accuratezza, efficienza computazionale e reattività su una piattaforma con risorse limitate. Gli esperimenti sono stati condotti in condizioni di laboratorio controllate utilizzando il robot Thymio II come piattaforma mobile, con ognuno degli algoritmi testato in varie configurazioni di ostacoli per valutare l'accuratezza della localizzazione e la distribuzione dell'errore. I risultati hanno mostrato una efficace capacità di evitare gli ostacoli con due algoritmi (GCC-PHAT e SRP-PHAT), mentre il MUSIC ha avuto prestazioni scarse sull'hardware testato a causa delle elevate esigenze computazionali. Complessivamente, il GCC-PHAT ha mostrato prestazioni migliori rispetto agli altri algoritmi, risultando il più veloce e reattivo. Tuttavia, la configurazione testata, pur essendo affidabile, presentava una precisione limitata nella risoluzione laterale dell'angolo a causa di scelte costruttive e dell'array microfonico. Il mio ro-bat è diventato una piattaforma rappresentativa per la ricerca in robotica bio-ispirata condotta presso il Centre for the Advanced Study of Collective Behaviour (CASCB), portandomi a realizzare numerose dimostrazioni della piattaforma in vari eventi, inclusa la mia partecipazione a ICRA@40.
- FOLEY HARRY DENIS
Titolo tesi: SoundShaping: A music and visual art therapy activity in Augmented Reality for people with Neurodevelopmental Disorders
Abstract
Questa tesi presenta SoundShaping, un’applicazione di arteterapia in Realtà Aumentata (AR) progettata per supportare individui con disturbi del neurosviluppo (NDD), in particolare quelli con Disturbo dello Spettro Autistico. SoundShaping combina il disegno e la creazione musicale in AR, consentendo agli utenti di impegnarsi in attività creative che migliorano la regolazione emotiva, l’attenzione e il coinvolgimento. Sviluppato attraverso un processo di co-design con un centro clinico a Milano, il progetto incorpora feedback da parte di professionisti e individui con NDD per garantire accessibilità e inclusività in una vasta gamma di abilità cognitive e motorie. I risultati indicano che SoundShaping contribuisce positivamente alla regolazione emotiva e alle abilità attentive, con alti livelli di coinvolgimento e soddisfazione degli utenti osservati durante le sessioni. Inoltre, un adattamento preliminare del Trail Making Test in AR suggerisce che l’AR ha potenzialità per valutazioni cognitive basate su compiti, particolarmente per individui che potrebbero beneficiare di attività mediate dalla tecnologia. I contributi chiave di questa tesi includono la progettazione e l'implementazione di uno strumento di terapia AR inclusivo e multisensoriale, evidenze dell’efficacia della AR nei contesti terapeutici creativi e approfondimenti sull’adattabilità delle valutazioni cognitive negli ambienti AR. Le ricerche future potrebbero estendere SoundShaping alla riabilitazione fisica, migliorare la sua interattività musicale e indagare ulteriormente il ruolo della AR nelle valutazioni cognitive.
- LOSI ANDREA EUGENIO
Titolo tesi: Analysis and Classification of EEG Signals during Rhythm Imagery
- MAURI NOEMI
Titolo tesi: Beyond Sound: Expanding Music Accessibility Through Visual and Haptic Feedback with MusicTanvas
Abstract
Questa tesi presenta il prototipo di un'applicazione chiamata MusicTanvas, che integra del feedback visivo e tattile alla riproduzione di brani audio, al fine di facilitare la percezione musicale per individui sordi e con disabilità uditive, e per migliorare l'esperienza musicale anche per persone normoudenti. L'applicazione utilizza il dispositivo Tanvas, basato sulla tecnologia tattile elettroadesiva, che non solo offre un feedback visivo, ma fornisce agli utenti anche una sensazione tattile mentre scorrono le dita sulla superficie del Tanvas. MusicTanvas estrae diverse proprietà audio dai brani caricati dagli utenti e le mappa su rappresentazioni visive e tattili che cambiano in modo dinamico durante la riproduzione dei brani.
- MESSANA SILVIA
Titolo tesi: CNN-Based Estimation of Dereverberated Relative Harmonics Coefficients for Localization of Acoustic Sources
Abstract
La localizzazione delle sorgenti sonore è un requisito fondamentale per molte tecnologie moderne, come i sistemi di teleconferenza e di sorveglianza, il rendering audio spaziale e gli assistenti vocali. Di particolare interesse sono i metodi di stima della Direction of Arrival (DOA) basati sulla decomposizione del campo sonoro nel dominio degli Armonici Sferici. In particolare, le registrazioni derivanti da Spherical Microphones Arrays (SMAs) possono essere combinate per ottenere gli Spherical Harmonics Coefficients (SHCs). Studi recenti hanno derivato dagli SHCs un nuovo descrittore audio, noto come Relative Harmonics Coefficients (RHCs). Questi coefficienti teoricamente dipendono solo dalla DOA, e perciò sono stati sfruttati ampliamente nel campo della localizzazione delle fonti sonore. Tuttavia, questa proprietà si indebolisce in condizioni riverberanti e rumorose. Per affrontare questo problema, proponiamo RH-CED (Relative Harmonics - Convolutional Encoder Decoder), un'architettura neurale capace di rendere gli RHCs estratti in condizioni rumorose e riverberanti più simili ai corrispondenti coefficienti provenienti da ambienti acustici ideali. Grazie all'uso di Convolutional Neural Networks (CNN) consecutivi, RH-CED è in grado di comprimere l'informazione, eliminando il contributo della riverberazione e del rumore. Il risultato viene quindi esteso applicando il processo inverso, per ottenere una ricostruzione completa dei RHCs in condizioni ideali. Questo studio dimostra che diversi metodi di localizzazione diventano più accurati quando utilizzano RHCs processati da RH-CED. Per valutare le capacità di denoising e dereverberation di RH-CED, si considerano RHCs estratti da ambienti acustici con diversi Signal-to-Noise Ratio (SNR) e T60. A tal proposito, vengono mostrati i risultati del Mean Absolute Estiamation Error (MAEE°) e dell'Angular Distance (AD°) per due diversi metodi di stima di DOA. Gli esperimenti confermano l'influenza positiva di RH-CED sui risultati dei due metodi di localizzazione considerati. Infine, viene discusso il confronto con una recente tecnica basata sul deep learning, considerata allo stato dell'arte per la stima della DOA.
- PIZZASEGOLA VIRGINIA
Titolo tesi: Self-Supervised Multi-Task Learning Using Pre-Trained Audio Event Tagging Models for Acoustic Scene Classification
Abstract
Gli esseri umani sperimentano e apprendono dall’ambiente intorno a loro attraverso una combinazione di stimoli che vengono percepiti sia con la vista che con l’udito; creare dispositivi e sistemi elettronici in grado di replicare come percepiamo la realtà con i nostri sensi è un punto di partenza per sviluppare diverse soluzioni funzionali ed utili nella vita di tutti i giorni, come, per esempio, migliorare i sistemi di sicurezza o trovare nuovi metodi per aiutare persone con disabilità. Inizialmente, la ricerca si è focalizzata sui segnali visivi, ma negli ultimi anni, è cresciuto il numero di articoli riguardanti tracce audio ambientali. Questo aumento di interesse si deve soprattutto a DCASE, una challenge proposta dall’IEEE che sin dal 2013 ha unito i ricercatori attorno all'analisi computazionale di scena uditive, promuovendo la creazione di modelli per la classificazione di scene acustiche (ASC), l'individuazione degli eventi acustici (SED ed AET) e altri argomenti attinenti. Il principale obiettivo di DCASE è fornire ai partecipanti dataset e architetture di base in modo da poter confrontare i sistemi proposti e trovare così il modello in grado di fornire la performance migliore. Anche se abitualmente SED ed ASC sono state viste come due quesiti separati, è facile vedere come in realtà siano due aspetti strettamente correlati, dato che gli esseri umani ottengono informazioni dai suoni che ascoltano nell’ambiente intorno a loro considerando contemporaneamente gli eventi sonori e i suoni sullo sfondo. Questo legame tra eventi e scene sonore può essere sfruttato per migliorare la performance delle due task che mirano a classificarli. Il può grande ostacolo per poter raggiungere questo traguardo è la mancanza di un dataset su ampia scala annotato per entrambi i problemi di classificazione. La nostra ricerca propone un’architettura multi-task con l’obiettivo di migliorare la performance della rete che esegue ASC, sfruttando una rete neurale pre-allenata per estrapolare le annotazioni sugli eventi sonori e creare un dataset personalizzato con annotazioni per entrambi i problemi di classificazione. La rete neurale pre-allenata svolge anche il ruolo di ramo teacher per il nostro sistema di AET, basato su un'architettura teacher-student. Ci aspettiamo che questo modello non solo migliori l’accuratezza nelle predizioni di ASC rispetto ad una baseline senza il ramo AET, ma produca anche buoni risultati per AET e che aumenti la robustezza dell’architettura. Tutto questo è ottenuto con un dataset annotato solo per ASC (TAU Urban Acoustic Scenes 2020 Mobile Development dataset) e considerando oltre 300 possibili eventi sonori. Il nostro modello ha migliorato il valore dell'F1-score della classificazione di scene sonore dell'1.75% rispetto ad un'architettura che considera solo ASC.
- RAVASI STEFANO
Titolo tesi: An Automatic Audio VST Generator Based on Wave Digital Filters
Abstract
Effetti Virtual Analog (VA) è il nome dato a quegli effetti audio digitali che mirano a ricreare il suono di apparecchiature audio analogiche nel dominio digitale. Nel corso degli anni, sono state proposte molteplici tecniche per raggiungere questo obiettivo. Tra queste, i Filtri Digitali a Onda (WDF) si distinguono per le loro interessanti proprietà, come la maggiore stabilità ed efficienza, che recentemente hanno permesso di ampliare la classe di circuiti che possono essere emulati in tempo reale. In questa tesi, proponiamo e presentiamo un framework innovativo per la generazione automatica di VST audio a partire da schemi circuitali, sfruttando le più recenti scoperte della teoria WDF. Per raggiungere questo obiettivo, definiamo dapprima la classe di circuiti che intendiamo considerare, quindi proponiamo e costruiamo un simulatore WDF, e infine, sfruttando quest'ultimo, sviluppiamo il generatore di plugin audio. Partendo da una netlist SPICE, il metodo è in grado di generare un VST audio caratterizzato da un basso consumo di CPU che può essere poi impiegato in Digital Audio Workstation (DAW) per il processamento dell'audio. L'approccio proposto viene impiegato con successo per l'emulazione in tempo reale di due circuiti complessi, caratterizzati da molteplici elementi non lineari a singola porta, aprendo la strada all'implementazione automatica e rapida di effetti audio digitali per applicazioni VA.
- SECHI SIMONE
Titolo tesi: Evaluation of Lumped-Elements Acoustic model of vocal tract in Acoustic-to-Articulatory Inversion framework through Automatic Differentiation
Abstract
L'Acoustic-to-Articulatory Inversion (AAI) si riferisce alla conversione delle caratteristiche acustiche di un parlato in variabili di un modello articolatorio di un tratto vocale. Questo tipo di problema è generalmente affrontato nella letteratura con metodi di tipo black-box che si basano su una grande mole di dati. In questo lavoro, introduciamo e valutiamo un approccio white-box per l'AAI. Il nostro metodo sfrutta un modello acustico a elementi concentrati (Lumped Element Model, LEM) del tratto vocale 1D, fisicamente interpretabile, combinato con un framework di differenziazione automatica (Automatic Differentiation, AD), che consente l'ottimizzazione dei suoi parametri tramite discesa del gradiente (Gradient Descent). Il LEM è interamente definito dalla funzione dell'area della sezione trasversale del tratto vocale, controllata da un metodo specifico di parametrizzazione. Nel nostro framework esploriamo due diverse parametrizzazioni del tratto vocale, ciascuna caratterizzata da un proprio set di parametri di controllo, inclusa la lunghezza del tratto vocale. Il framework è stato validato in diverse configurazioni: innanzitutto, verifichiamo se il modello è in grado di prevedere con successo dati di riferimento generati parzialmente o completamente dallo stesso modello. Infine, applichiamo l'AAI su vocali prodotte da speaker reali utilizzando una tecnica basata su Linear Predictive Coding per estrarre caratteristiche acustiche da utilizzare come dati di riferimento. Questi esperimenti mettono in evidenza il potenziale di questo approccio, evidenziandone al contempo i limiti.
- STAGNO STEFANO
Titolo tesi: Acoustic impact of systems serving hospital facilities on sensitive receptors
Abstract
Questa tesi esplora l'impatto acustico causato dai sistemi di climatizzazione e refrigerazione in strutture ospedaliere, concentrandosi sul caso dell'Ospedale Antero Micone di Genova. L’obiettivo principale è identificare le fonti di rumore, valutare il loro impatto sui recettori sensibili e sviluppare soluzioni per mitigare l’inquinamento acustico nelle aree circostanti. Il lavoro combina analisi teoriche, misurazioni fonometriche sul campo e simulazioni con software acustici, utilizzando normative quali UNI EN ISO 3746 e UNI ISO 9613. I risultati evidenziano che le unità di trattamento aria e refrigerazione producono livelli sonori potenzialmente disturbanti, soprattutto durante le ore notturne, quando il rumore di fondo è inferiore. Tra le strategie di mitigazione analizzate, l’installazione di barriere fonoassorbenti e attenuatori si è dimostrata efficace nel ridurre le emissioni sonore entro i limiti normativi, migliorando il comfort acustico per i residenti nelle vicinanze. Lo studio contribuisce a una comprensione più approfondita delle problematiche acustiche nelle strutture sanitarie, proponendo un approccio che può essere replicato in contesti simili per minimizzare l'impatto ambientale del rumore. L’adozione di tali tecnologie di mitigazione è fondamentale non solo per conformarsi alle normative vigenti, ma anche per favorire il benessere delle comunità adiacenti e migliorare la qualità della vita.
- WANG WENDY EDDA
Titolo tesi: Adversarial Attacks against Speech Deepfake Detectors
Abstract
L'autenticazione biometrica basata sulla voce viene sempre più utilizzata per proteggere l'accesso a una vasta gamma di servizi e strutture. Tuttavia, i rapidi progressi nelle tecnologie di generazione di deepfake vocali, come il Text-to-Speech (TTS) e il Voice-Conversion (VC), rappresentano rischi significativi per i sistemi di Automatic Speaker Verification (ASV). Questi modelli generativi sono in grado di produrre audio sintetico usando la voce di parlanti target e producendo frasi arbitrariamente scelte. Queste possono essere sfruttate per ingannare i sistemi ASV e ottenere accessi non autorizzati ai sistemi protetti. Per contrastare questa minaccia, vengono sviluppati metodi basati sul deep learning (DL) per rilevare i segnali vocali sintetici. Sebbene questi modelli mostrino risultati promettenti, sono vulnerabili agli adversarial attacks. Nel contesto dell'audio forense, gli adversarial attacks consistono nell'introduzione di lievi perturbazioni nei segnali vocali, rendendo il modello classificatore incapace di classificare correttamente gli audio. In questa tesi, analizziamo vari aspetti delle perturbazioni adversarial nei segnali vocali. Iniziamo esaminando le differenze tra l'esecuzione di attacchi nel dominio temporale e nel dominio delle frequenze, affrontando le sfide legate all'inversione dello spettrogramma. Successivamente, studiamo la trasferibilità di attacchi white-box su diversi modelli. Infine, proponiamo un approccio innovativo basato su ensemble, in grado di attaccare simultaneamente più modelli, e discutiamo la sua trasferibilità a modelli non visti.
- YANG SHIJIE
Titolo tesi: Explicit Vector Wave Digital Filter Modeling of Time-Varying Circuits with a Single Bipolar Junction Transistor
Abstract
I Wave Digital Filters (WDF) sono diventati una potente tecnica per la modellazione analogica virtuale, offrendo modularità, stabilità numerica e proprietà di conservazione della passività nell'implementazioni di diverse classi di circuiti, inclusi i circuiti tempo-varianti. Tuttavia, la presenza di elementi non lineari o multiporta nei circuiti pone sfide alla modellazione WDF tradizionale a causa del verificarsi di loop senza ritardo. Questa tesi esplora l'applicazione dei Vector Wave Digital Filters (VWDF) per modellare circuiti tempo-varianti contenenti un singolo transistor a giunzione bipolare (BJT), che funge da elemento non lineare a due porte. Il framework VWDF viene impiegato per scomporre il circuito in elementi lineari a una porta, un elemento BJT a due porte e adattatori di tipo R che rappresentano la topologia del circuito. Una rete neurale addestrata nel dominio delle onde viene utilizzata per modellare esplicitamente il comportamento non lineare del BJT, eliminando la necessità di risolutori iterativi computazionalmente onerosi. L'approccio proposto è validato attraverso un caso di studio di un circuito fuzz pedal con controlli potenziometrici. I risultati delle simulazioni dimostrano che il modello BJT basato su rete neurale VWDF raggiunge un'accuratezza paragonabile alle simulazioni SPICE, esibendo al contempo un'efficienza computazionale superiore, rendendolo adatto per applicazioni in tempo reale. Questo lavoro evidenzia il potenziale della combinazione di VWDF con tecniche di apprendimento automatico per un'efficiente modellazione analogica virtuale di circuiti non lineari variabili nel tempo.
- ZANETTI FILIPPO
Titolo tesi: Analysis of Different Modeling Techniques Applied to a Rotating Fan
Abstract
La tesi esamina il problema del rumore generato dalle ventole di raffreddamento nei veicoli elettrici (VE). Con il passaggio dell'industria automobilistica dai veicoli a combustione a quelli elettrici, sono emerse nuove sfide, una delle quali è il rumore prodotto da queste ventole di raffreddamento. Questo rumore può causare disagio, soprattutto quando il veicolo è fermo. L'obiettivo di questo studio è l'analisi aeroacustica delle ventole assiali a bassa pressione, che sono comunemente utilizzate nei VE. Le prestazioni dei VE dipendono fortemente dalle loro batterie, che generano una notevole quantità di calore durante i processi di ricarica rapida. Una gestione efficace del calore è fondamentale per prevenire il degrado delle batterie e mantenere le prestazioni ottimali. I sistemi di raffreddamento a ventola, che operano sul principio della convezione forzata, sono ampiamente impiegati perché sono semplici, economici e facili da integrare, ma contribuiscono al problema del rumore. La metodologia utilizzata per l'analisi è la Aeroacustica Computazionale (CAA), un campo di studio che si concentra sulla previsione e l'analisi del suono generato dal flusso di fluido. Verranno mostrati una serie di risultati generati da due tecniche di modellazione: LES (Large Eddy Simulation) e PANS (Partially-Averaged Navier-Stokes). L'obiettivo della tesi è confrontare questi risultati e validare, infine, i risultati delle simulazioni PANS. Questa tesi è una collaborazione tra il Politecnico di Milano e l'AVL LIST GmbH (AVL). Tutte le simulazioni sono state effettuate presso le strutture AVL. AVL (Anstalt für Verbrennungskraftmaschinen List) è una delle più grandi aziende indipendenti specializzate nello sviluppo, nella simulazione e nei test nel settore automobilistico. Il software utilizzato per le simulazioni è FIRE TM, un software basato su CFD, progettato principalmente per modellare e simulare il flusso di fluido e i processi di combustione, sviluppato da AVL. I risultati della tesi contribuiranno alla ricerca e allo sviluppo in corso in questo campo e faranno parte della International FAN 2025 Conference ad Antibes, in Francia, dal 9 all'11 aprile 2025.
- ZESE FRANCESCO
Titolo tesi: Physics-Informed Neural Networks for the Reconstruction of Modal Displacement in Thin Plates
Abstract
Nell’analisi strutturale e nelle scienze dei materiali, prevedere con precisione le forme modali in strutture vibranti è fondamentale per molteplici applicazioni ingegneristiche e scientifiche. Nel campo della liuteria, comprendere il comportamento vibratorio delle tavole di legno favorisce la progettazione e la regolazione delle tavole armoniche negli strumenti a corda. In questo contesto, a causa di limitazioni pratiche, le misurazioni dei modi di vibrazione delle tavole armoniche vengono effettuate in un numero ridotto di punti e risultano incomplete. Un metodo per interpolare questi dati è necessario al fine di ricostruire un campo di spostamento continuo. Ciò consentirebbe previsioni più accurate del comportamento vibratorio, e quindi una migliore comprensione delle proprietà acustiche dello strumento. In questo lavoro ci proponiamo di esplorare un approccio basato sul deep learning. Nello specifico, un nuovo tipo di rete neurale conosciuta come Physics-Informed Neural Networks (PINNs) ha recentemente attirato notevole attenzione. L’idea è quella di sfruttare questo approccio per integrare i principi fisici direttamente nel processo di apprendimento della rete, consentendo al modello di prevedere i modi di vibrazione e i campi di spostamento in modo che rispettino la fisica sottostante del problema. Proponiamo quindi l’uso di una PINN per l’interpolazione dei dati vibrazionali ottenuti da un numero limitato di punti di misura. I risultati ottenuti con questo approccio sono confrontati con due metodi di riferimento: le tecniche di interpolazione tradizionali e un modello di rete neurale data-driven. I risultati mostrano che la PINN supera i metodi di riferimento, fornendo una maggiore accuratezza e garantendo che le forme modali predette siano in linea con i principi fisici che governano il comportamento vibrazionale della piastra.