(CR) CAMPUS POLI LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Lo scorso 10 aprile sessione di Laurea Magistrale nel Campus di Cremona del Politecnico di Milano

Domenica 14 Aprile 2024 | Scritto da Redazione

(CR) CAMPUS POLI LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

SESSIONE DI LAUREA

Lo scorso 10 aprile sessione di Laurea Magistrale nel Campus di Cremona del Politecnico di Milano.

Sono 23 gli studenti che hanno completato il loro percorso con la discussione di laurea e raggiunto un ambito traguardo: la Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.

Dei laureati di questa sessione, 14 hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, mentre gli altri 9 si sono concentrati sull’acustica.

Due sono, infatti, gli orientamenti tra cui gli interessati possono scegliere: Acoustic Engineering per chi vuole approfondire il tema dell’acustica musicale e Music Engineering per chi invece vuole focalizzarsi sullo studio dell’informatica musicale e l’elaborazione del suono.

Nata nella Città di Stradivari grazie al sostegno del territorio, in particolare della Fondazione Arvedi Buschini e del Comune di Cremona, questa Laurea Magistrale è particolarmente attrattiva perché consente di unire le conoscenze ingegneristiche con quelle musicali, come ci racconta Riccardo, “mi piace considerarmi prima di tutto un musicista, più che un ingegnere o un informatico, essendo la musica la mia passione principale. Detto ciò, sono sempre stato attratto dalle discipline scientifiche, ed è ciò che mi ha portato a conseguire inizialmente una laurea triennale in informatica. Per un po' ho ritenuto infatti che non fosse possibile mettere insieme questi due interessi anche nel mio percorso accademico, finché non ho scoperto l'esistenza di questo corso di laurea. Con queste premesse, non avevo dubbi che questo sarebbe stata la naturale continuazione dei miei studi.”. Ed è proprio questo mix tra discipline ingegneristiche e studio della musica il motivo per cui Riccardo consiglierebbe questo corso di laurea magistrale, “mi sentirei di consigliarlo, soprattutto a chiunque altro sia alla ricerca di un percorso in grado di conciliare l’interesse per la musica o gli strumenti musicali e quello per le discipline scientifiche ed ingegneristiche. Al momento non è facile trovare un altro percorso che affronti così dettagliatamente gli argomenti trattati, essendo anche molto specifici.”

Il Politecnico però non fornisce solo conoscenze tecniche e proprio i rapporti e le relazioni tra colleghi hanno dato luogo ai momenti più significativi del percorso universitario secondo Stefano, che ci racconta come “I banchi del Poli hanno creato un legame incredibile tra diversi di noi, inutile negare che trovare altre persone che condividono le tue stesse passioni, ma vengono dai contesti più disparati, non può portare altro che un enorme ampliamento del proprio bagaglio culturale. Insieme abbiamo ascoltato un sacco di musica, suonato insieme ("B2.1 Sessions" su youtube) e sfruttato al meglio la città in cui ci trovavamo. Spero vivamente di portare avanti il rapporto che ho con questi ragazzi perché sono davvero speciali.” E aggiunge “Se dovessi scegliere 3 aggettivi per descrivere questo percorso universitario sceglierei "stimolante" perché non ha mai agito in negativo sui nostri interessi ma ha permesso di metterli a frutto. "Coinvolgente" perché promuove molto il lavoro di gruppo, ma anche perché l'ambiente di Cremona, poco dispersivo, ci ha permesso di creare maggiormente un bel gruppo. Il terzo e ultimo è "intenso" perché il costante lavoro accademico unito alla compagnia hanno fatto sì che questi due anni siano volati via come niente.”

Tutti i dettagli di questo innovativo Corso di Laurea Magistrale verranno presentati martedì 16 aprile dalle ore 14:00 durante l’Open Day del Campus di Cremona. Gli appuntamenti, oltre che in presenza, saranno disponibili anche on line. Il programma completo è disponibile sul sito del Polo di Cremona. Iscrizioni entro domenica 14 aprile.

Segue l’elenco dei laureati che hanno dato il consenso all’invio con il titolo della tesi e l’abstract per chi ha dato il consenso anche all’invio di questi dati:

BERNASCONI MARCO

Titolo tesi: An analysis of the development of audio transmission technology in the broadcasting industry and its impact in the context of working in an OB Van

Abstract

Dal 3 Gennaio 1954, quando RAI ha trasmesso il primo programma televisivo in Italia, la televisione è diventata un elemento della nostra vita quotidiana. Questo sviluppo è stato reso possibile solo attraverso gli avanzamenti tecnologici che hanno consentito la crescita dell’industria televisiva e, di conseguenza, un’evoluzione delle tecniche e metodologie con cui questo tipo di contenuto viene prodotto e consumato. Negli anni successivi al 1954 la necessità di trasmettere eventi fuori studio ha portato alla creazione e al successivo sviluppo degli OB Van. Questa tesi tratterà gli ultimi 20 anni di sviluppo della tecnologia audio in uso sugli OB Van attraverso due studi di progetti realizzati presso Aret Video and Audio Engineering, un’azienda Milanese che vanta una lunga esperienza nell’industria broadcast. Inoltre verrà data una panoramica sulla ricerca in corso di nuove tecniche per lo sviluppo della tecnologia audio nell’ ambiente broadcast.

BOEMIO ARMANDO

Titolo tesi: Wave Digital Models of Nonlinear Piezoelectric Loudspeakers

Abstract

Nel corso degli ultimi anni l’interesse della ricerca e del mercato si è orientato verso lo studio di trasduttori piezoelettrici con l'obiettivo di integrarli nei dispositivi di elettronica di consumo come altoparlanti flat-panel. Grazie alle loro dimensioni contenute, questi trasduttori si adattano bene al processo di miniaturizzazione che sta caratterizzando il mercato. Ad oggi, tuttavia, i dispositivi piezoelettrici sono trattati principalmente come oggetti lineari, ignorando le non-linearità che caratterizzano il processo di trasduzione o la struttura meccanica. In questa tesi, vengono proposti diversi modelli non-lineari di altoparlanti piezoelettrici con l'obiettivo di integrarli in algoritmi per la linearizzazione e compensazione della loro risposta acustica. Avendo mostrato ottimi risultati nel campo dell'elaborazione del suono, il framework scelto per la modellazione è quello dei Wave Digital Filters. Sono studiate ed analizzate le non-linearità sia di natura elettrica che meccanica e sono proposti dei modelli elettrici da integrare in noti circuiti di riferimento. La precisione delle implementazioni in Wave Digital è verificata attraverso un confronto con le simulazioni dei circuiti in Mathworks Simscape. I modelli proposti aprono la strada ad una modellazione sempre più precisa degli altoparlanti piezoelettrici e possono essere inoltre utilizzati in algoritmi che sfruttano la fisica dei dispositivi come, ad esempio, gli algoritmi di inversione circuit-based.

BONIZZI GIORGIO

Titolo tesi: Assessing vocal rhythmic patterns: a novel tool for early detection of Developmental Language Disorders in children

Abstract

Nel contesto medico dei bambini con sviluppo atipico, l'acquisizione del linguaggio presenta sfide significative, mostrando differenze notevoli rispetto ai bambini che si sviluppano tipicamente (TD). Le scoperte della ricerca suggeriscono che quasi il 7% dei bambini piccoli incontri un disturbo del linguaggio in qualche momento della loro vita. Purtroppo, le valutazioni standard attuali si basano spesso su compiti verbali e per questo motivo non tengono conto di importanti fattori nell'acquisizione del linguaggio come la variabilità nello sviluppo, il bilinguismo e il contesto etnoculturale. Lo scopo di questa tesi è esplorare il potenziale di un approccio innovativo \indiretto\ per valutare i Disturbi dello Sviluppo del Linguaggio (DLD). Raggiungere una valutazione più equa e inclusiva richiede la progettazione di strumenti che possano valutare abilità necessarie per l'elaborazione del linguaggio ma che siano allo stesso tempo indipendenti dal linguaggio stesso. Le evidenze suggeriscono che la misura di abilità indipendenti dalla competenza linguistica, come la capacità di anticipazione ritmica, potrebbero facilitare lo screening precoce per i DLD, già dai 3-4 anni di età. Lo scopo dell'identificazione precoce è quello di implementare interventi di supporto prima della fase scolastica, assistendo i bambini con DLD in modo più efficace. La presente tesi ruota attorno all'applicazione MARS, progettata in uno sforzo congiunto del Dipartimento di Psicologia dell'Università degli Studi di Milano-Bicocca e quello di Elettronica, Informazione e Bioingegneria del Politecnico di Milano. Il primo capitolo fornisce un background teorico dei disturbi del linguaggio, analizzando in particolare gli attuali strumenti di valutazione con le loro limitazioni. Un'introduzione al concetto di ritmo e alla correlazione tra abilità anticipatorie e linguaggio è necessaria per fornire al lettore le basi scientifiche per l'intero progetto MARS. Il secondo capitolo approfondisce i dettagli della piattaforma MARS: un'applicazione web che facilita esercizi di sillabazione ritmica, supportando la registrazione, l'archiviazione e l'analisi delle produzioni vocali dei bambini in un'esperienza utente simile a un gioco che favorisce il coinvolgimento. Il terzo capitolo si concentra sulle diverse scelte riguardanti la modellizzazione acustica del problema. Per estrarre il contenuto informativo riguardante la nostra research question, abbiamo scelto gli 88 parametri acustici presenti nel set di parametri acustici eGeMAPS e abbiamo progettato 5 features ritmiche specifiche per la nostra analisi. Nel quarto e ultimo capitolo sono discussi gli algoritmi di machine learning addestrati con le features sopracitate per prevedere la diagnosi. I risultati della previsione comprendono il primo studio preliminare, un secondo studio basato su un gruppo più ampio di bambini e una terza analisi per valutare l'importanza relativa delle features ritmiche rispetto alle altre. In conclusione, la nostra ricerca indica che MARS ha il potenziale per diventare uno strumento prezioso nel condurre valutazioni precoci dei bambini. Questo studio contribuisce anche dal punto di vista tecnologico, sviluppando un'applicazione che somministra esercizi di anticipazione ritmica e utilizza il machine learning per stimare le abilità linguistiche. I risultati ci portano ad un nuovo punto di vista sull'interconnessione tra musica, linguaggio e capacità di anticipazione, aprendo la strada a ulteriori indagini interdisciplinari.

CICOGNANI ROBERTO LEONE

Titolo tesi: Nesterov Acceleration of the Griffin-Lim Algorithm for Phase Recovery

Abstract

Il problema della ricostruzione di fase consiste nella ricostruzione di un segnale ignoto dalla sola ampiezza della sua trasformata di Fourier ed è un punto cruciale nelle applicazioni di elaborazione dei segnali, comprese la sintesi audio, la sintesi vocale, la separazione di sorgenti e il trasferimento del timbro. L'algoritmo di Griffin-Lim, pubblicato nel 1984, è tuttora quello di riferimento in questo contesto. Nella presente tesi si dimostra che questo celebre metodo, noto come di doppia proiezione, è l'algoritmo di discesa del gradiente di una misura di distanza spettrale con gradiente lipschitziano e, seguendo il fondamentale risultato matematico di Nesterov, ne viene proposto un metodo accelerato convergente che chiamiamo Nesterov accelerated Griffin-Lim algorithm. Esso fa uso di una successione di momenti inerziali variabile col numero i delle iterazioni. Come corollario del risultato teorico principale, applicando la teoria della convessità locale, si dimostra che la velocità di convergenza dell'algoritmo di Griffin-Lim ad un minimo locale della misura di distanza spettrale è O(1/i) mentre quella del metodo proposto si dimostra essere O(1/i^2). La valutazione dell'algoritmo qui introdotto avviene attraverso il confronto con quello inerziale a momento costante di Fast Griffin-Lim che è l'accelerazione più usata del metodo originale. I risultati sperimentali mostrano che nei casi esaminati il metodo proposto è più performante in termini di rapporto segnale rumore spettrale in dB. Questo vale sia inizializzando gli algoritmi con fasi random che attraverso fasi con informazioni a priori sul segnale, portando a divari piu' grandi nel secondo caso.

CURCIO LORENZO

Titolo tesi: HANPS methodology applied to the aeroacoustic study of a vehicle's side mirror

Abstract

Nell'industria vi è un crescente interesse verso lo studio dell'acustica dei veicoli, sia per garantire il comfort all'interno dell'abitacolo, sia per ridurre l'inquinamento acustico ambientale. Alcune delle fonti di rumore dal maggiore impatto in un veicolo in movimento ad alte velocità sono di natura aerodinamica, ed in particolare associate alla generazione di flussi turbolenti. Elementi più critici nella produzione di questi effetti sono ad esempio lo specchietto laterale o l'A-pillar. In questo studio è stata sviluppata una metodologia chiamata HANPS (Hybrid Aeroacoustic Noise Prediction System) per studiare l'interazione dell'aria con alcuni elementi strutturali e valutare la radiazione sonora. HANPS è in grado di simulare il modo in cui l'aria interagisce con qualsiasi oggetto solido in movimento arbitrario, di prevedere con precisione i campi aerodinamici responsabili della generazione del rumore, nonché il rumore stesso, percepito in una regione lontana dall'oggetto. Gli aspetti innovativi includono la combinazione di una tecnica ibrida di modellazione matematica della turbolenza chiamata Improved Delayed Detached Eddy Simulation (IDDES) con l'uso di funzioni di parete, nonché l'uso di una formulazione e di un'implementazione computazionalmente efficiente e personalizzabile dell'analogia acustica di Ffowcs Williams e Hawkings. Il punto di forza di HANPS è l'elevato rapporto tra accuratezza e costi. La metodologia è stata convalidata utilizzando un cilindro a base quadrata come caso di prova e confrontando le previsioni con delle misure sperimentali condotte in una galleria del vento adeguata per prove acustiche. La metodologia è stata poi applicata per caratterizzare e valutare l'aeroacustica di uno specchietto laterale geometricamente semplificato. Infine, è stata studiata una possibile strategia di controllo passivo del rumore, utilizzando delle varianti geometriche basate su superfici irregolari. In questo studio è stata sviluppata una metodologia chiamata HANPS (Hybrid Aeroacoustic Noise Prediction System) per studiare l'interazione dell'aria con lo specchietto laterale. HANPS è in grado di simulare il modo in cui l'aria interagisce con qualsiasi oggetto solido in movimento arbitrario, di prevedere con precisione i campi aerodinamici responsabili della generazione del rumore, nonché il rumore stesso, percepito in una regione lontana dall'oggetto. Gli aspetti innovativi includono la combinazione di una tecnica ibrida di modellazione matematica della turbolenza chiamata Improved Delayed Detached Eddy Simulation (IDDES) con l'uso di funzioni di parete, nonché l'uso di una formulazione e di un'implementazione computazionalmente efficiente e personalizzabile dell'analogia acustica di Ffowcs Williams e Hawkings. Il punto di forza di HANPS è l'elevato rapporto tra accuratezza e costi. La metodologia è stata convalidata utilizzando un cilindro a base quadrata come caso di prova e confrontando le previsioni con delle misure sperimentali condotte in galleria del vento. La metodologia è stata applicata a uno specchietto laterale geometricamente semplificato, per caratterizzarne e valutarne l'aeroacustica. Successivamente, è stata studiata una possibile strategia di controllo passivo del rumore, utilizzando delle geometrie diverse che prevedono l'uso di superfici irregolari.

DONA' STEFANO

Titolo tesi: Loudspeaker Suspensions Quasi-Static Characterization and Modelling: an Experimental Study on Low Frequency Nonlinear Viscoelastic Effects

Del MORO SAMUELE

Titolo tesi: Study and Implementation of Room Acoustic Behaviour for Immersive Audio Production

Abstract

La ricerca e l'utilizzo di soluzioni per creare una percezione spaziale reale e ben definita sono da sempre fondamentali per produttori ed ingegneri nel settore audio. L'introduzione dell'audio immersivo nell'ascolto quotidiano ha portato a significativi cambiamenti nel panorama della produzione musicale e cinematografica, evidenziando l'importanza di adottare approcci avanzati per conferire una percezione di spazialità alle sorgenti sonore. L'obiettivo principale di questa tesi è l'analisi e la creazione di una soluzione in tempo reale per simulare il comportamento acustico di una stanza all'interno di un ambiente immersivo, con l'intento di integrarla efficacemente nel workflow di chi si occupa della produzione audio. L'implementazione in tempo reale del software, chiamato Multi-Channel-Room, è stata sviluppata sotto forma di un plugin audio utilizzando il framework JUCE. Parallelamente, è stata sviluppata una piccola applicazione standalone responsabile della gestione dei messaggi MIDI provenienti dalla Digital Audio Workstation (DAW), offrendo la possibilità di utilizzare il panner integrato della DAW per determinare la posizione della sorgente audio nel Multi-Channel-Room. La validazione del sistema è stata condotta confrontando le Risposte all'Impulso (IRs) ottenute tramite l'implementazione Real-Time con quelle provenienti da una simulazione in Python utilizzando la libreria \pyroomacoustics\.

Di BELLA RICCARDO

Titolo tesi: Parameterizing a Complete Guitar Model for Vibroacoustic Analysis

Abstract

Quali caratteristiche geometriche o materiali determinino la qualità di uno strumento è forse la questione più dibattuta tra i liutai, ma anche una che raramente viene affrontata con un approccio scientifico. Le simulazioni numeriche si sono dimostrate uno strumento efficace per fornire risposte rigorose a tali domande, in quanto facilitano l'analisi di diversi modelli in breve tempo, pur fornendo risultati altamente accurati. Tuttavia, questi approcci sono limitati dalla disponibilità di modelli geometrici modificabili rapidamente senza eccessivo sforzo, possibilmente anche in maniera automatizzata. In quest'ottica appare quindi evidente il vantaggio offerto dall'utilizzo di modelli parametrici, a cui la ricerca ha dato ultimamente particolare attenzione. In questo lavoro sviluppiamo un modello parametrico e CAD nativo di una chitarra completa, che consenta facilmente il controllo sulle caratteristiche geometriche tipicamente modificate durante un vero processo di costruzione. In particolare, ci concentriamo sulla parametrizzazione della forma e delle barre di rinforzo della tavola armonica. Inoltre, utilizziamo questo nuovo modello parametrico per condurre una serie di simulazioni basate sul Metodo degli Elementi Finiti. In questo modo analizziamo l'effetto di alcune comuni variazioni geometriche, quando queste vengono applicate su un modello di chitarra completo, includendo anche l'effetto dell'aria circostante. L'effetto è valutato sia osservando le variazioni delle frequenze naturali che la risposta in frequenza dello strumento, in forma di ammettenza meccanica del ponte e suono irradiato. Le nostre conclusioni sono in linea con gli studi precedenti, dimostrando la validità del nostro approccio, ma presentano anche alcuni risultati inediti. In particolare, dimostriamo che le barre trasversali della tavola armonica sottostanti alla tastiera non svolgono alcun ruolo significativo né nel determinare il timbro dello strumento né nel migliorarne l'efficienza di radiazione. Nel fare ciò, mostriamo anche come il nostro modello può essere utilizzato per facilitare future ricerche sulla fisica della chitarra.

EUTIZI CLAUDIO

Titolo tesi: Recording Device Model Identification: an Experimental Analysis of Forensic and Anti-forensic Techniques

Abstract

Negli ultimi anni, i rapidi progressi tecnologici e la crescente disponibilità di potenza computazionale hanno reso la generazione e la condivisione di dati multimediali più facili che mai. Con un semplice smartphone, ognuno può ora creare immagini, video e registrazioni audio e condividerle online in pochi secondi. Questa rivoluzione ha senza dubbio semplificato e democratizzato il processo di creazione e diffusione dei dati, consentendo alle persone di esprimersi creativamente e condividere le loro esperienze con un pubblico globale a una velocità e scala senza precedenti. Tuttavia, questa rivoluzione ha anche reso più facile la produzione di dati falsi e la manipolazione di contenuti esistenti, anche a fini illegali. In questo contesto, le registrazioni audio sono una delle forme di contenuto multimediale più manomesse e manipolate. Per prevenire l’insorgere di situazioni spiacevoli legate all’uso malintenzionato di dati manipolati, è necessario lo sviluppo di metodi in grado di eseguire indagini forensi su registrazioni audio, consentendo l’identificazione di fattori come la loro fonte o autenticità. Un problema rilevante in questo ambito è l’associazione di una registrazione audio al suo dispositivo di registrazione, sia per confermare la proprietà della registrazione audio che per il suo eventuale utilizzo come prova in procedimenti legali. In questa tesi, affrontiamo il problema di identificazione del modello del dispositivo di registrazione e proponiamo diversi approcci per affrontarlo sia dal punto di vista forense che antiforense. Consideriamo un classificatore proposto per il problema in questione basato su una rete neurale convoluzionale che prende in input spettrogrammi logaritmici ed analizziamo le sue prestazioni su un dataset composto da registrazioni vocali e non vocali provenienti da 20 diversi modelli di smartphones moderni. I risultati promettenti ottenuti dimostrano l’adattabilità del metodo ai diversi scenari presentati e forniscono ispirazione per numerosi sviluppi futuri di questo lavoro.

FIDAN UMUT

Titolo tesi: The Acoustics of Zeyrek Mosque (The Pantokrator Monastery) from Its Past to Present

Abstract

In questo studio, le configurazioni attuali e passate di un edificio religioso storico bizantino-ottomano sono state valutate acusticamente utilizzando misure acustiche in-situ effettuate in conformità con lo standard ISO-3382, e simulazioni acustiche. Dei parametri acustici sono stati ricavati dalle risposte all’impulso acquisite e utilizzati per calibrare un nuovo modello di moschea in ODEON. Sono stati simulati e analizzati i parametri di riverberazione (EDT, T30) e frazionali (C80, D50) delle combinazioni ricevitore-sorgente definite nella moschea. Sulla base di relazioni storiche e di restauro, è stata creata la configurazione del monastero bizantino storico, che è stata confrontata con la configurazione della moschea mediante simulazioni acustiche. La moschea presenta tendenze T30 simili a quelle di altri esempi di moschee con volumi acustici simili, ma i ricevitori più lontani dalle sorgenti mostrano valori considerevolmente più alti poiché la moschea è composta da 3 edifici separati debolmente collegati da corridoi e archi. Ognuno dei 3 edifici presenta valori di T30 omogenei, con variazioni significative nei punti di transizione da un edificio all’altro, che indicano un effetto di accoppiamento acustico tra gli edifici complessivamente debole ma dipendente dalla posizione. I parametri di intelligibilità D50 e C80 risultano accettabili all’interno di un edificio, ma non adeguati nell’intero spazio a causa del debole accoppiamento tra gli edifici. La complessa geometria del soffitto a più cupole ha un impatto minimo sull’acustica. La configurazione del monastero indicata valori di T30 più elevati rispetto alla configurazione della moschea, a causa dei cambiamenti dei materiali interni. I valori T30 risultano molto coerenti in tutto il monastero per quanto riguarda le frequenze più basse, a causa del basso assorbimento acustico e degli elevati coefficienti di dispersione che distribuiscono il suono in modo più uniforme. Entrambe le configurazioni presentano una tendenza alla diminuzione dei valori T30 con la frequenza, ma il monastero presenta un aumento iniziale nella seconda banda di frequenza più bassa.

ORSATTI ALESSANDRO

Titolo tesi: DeepMetric: Enhancing Synthetic Speech Detection through Support Tracks Generation

Abstract

Al giorno d’oggi, i nuovi progressi tecnologici nella generazione del parlato hanno portato alla possibilità di creare un parlato sintetico con relativa facilità utilizzando dispositivi di livello consumer. Questo fenomeno ha aperto le porte a nuovi scenari e possibilità interessanti, come lo sviluppo di nuovi assistenti vocali, dispositivi per persone con condizioni patologiche, didattica, ecc. Tuttavia, quando queste tecnologie vengono utilizzate da utenti malintenzionati, possono portare a conseguenze illegali ed a scenari pericolosi per la popolazione. Ad esempio, è possibile clonare la voce di una persona utilizzando solo pochi secondi di audio di riferimento e farle pronunciare frasi arbitrarie. Questi nuovi falsi generati vengono chiamati deepfake. Questo può portare a problemi di credibilità, problemi di privacy, audio minacciosi, furto di identità e altri pericoli. Per affrontare l’uso malevolo del parlato sintetico e dei dati audio contraffatti, la comunità forense orienta la ricerca verso nuovi metodi per lo spoofing e il rilevamento di questi nuovi falsi generati. In questo lavoro ci concentriamo sul problema del rilevamento del parlato sintetico, che consiste nel prendere in input un segnale audio e determinarne l’autenticità. Le moderne architetture di rilevamento presentano risultati incoraggianti, ma sono ben lontane dall’essere perfette a causa dei rapidi progressi delle tecniche di generazione di deepfake. In questa tesi, proponiamo un sistema per migliorare le prestazioni di un rilevatore di parlato sintetico facendo uso di tracce di supporto. Dato un segnale audio vocale, generiamo un insieme di tracce di supporto che contengono lo stesso contenuto testuale e vocale della traccia in analisi e le utilizziamo per migliorare l’accuratezza del rilevamento del sistema. Il metodo si basa sul calcolo delle distanze tra la traccia di riferimento e queste tracce di supporto, che portano a previsioni più stabili e affidabili. Le tracce di supporto sono implementate utilizzando diversi metodi di conversione vocale e Text-to-Speech esistenti. I risultati forniti dalla pipeline completa proposta in questo lavoro mostrano una nuova ed entusiasmante possibilità di migliorare il rilevamento dei deepfake attraverso un metodo modulare, svincolato da modelli specifici.

OSTAN PAOLO

Titolo tesi: Real-time binaural rendering and spatial calibration framework for multiple higher order microphones

Abstract

L'utilizzo di tecnologie legate all'audio spaziale è diventato essenziale in diversi contesti, quali l’intrattenimento e la teleconferenza per migliorare la qualità dell'esperienza utente. L'accurata riproduzione del campo sonoro risulta sempre più importante per l'elaborazione di ambienti virtuali in applicazioni come audio navigabile, realtà virtuale e realtà aumentata. Durante l’acquisizione del campo acustico, il microfono è uno strumento essenziale. A questo fine, gli array microfonici di ordine superiore sono dispositivi versatili progettati per l’acquisizione delle caratteristiche spaziali della scena sonora. Il preciso posizionamento degli array è un aspetto rilevante durante il processo di acquisizione. Per fare ciò, la calibrazione spaziale tramite misure acustiche offre una valida alternativa a metodi tradizionali nella maggior parte delle applicazioni legate all'audio spaziale. Inizialmente, i segnali grezzi provenienti dai microfoni sono codificati attraverso una rappresentazione del campo acustico, come la Decomposizione in Armoniche Sferiche (DAS). Essa è poi riprodotta per restituire alle orecchie dell'ascoltatore un'esperienza immersiva, tramite tecniche di rendering binaurale. Questa tesi presenta un framework per la calibrazione spaziale e il rendering binaurale di una serie di array microfonici in tempo reale. L'algoritmo di calibrazione utilizza la geometria degli array microfonici come vincolo. Successivamente la geometria è utilizzata come fonte per il calcolo dei coefficienti per la DAS del campo sonoro acquisito. I segnali codificati sono processati nel dominio delle armoniche sferiche tramite Head Related Transfer Function per ottenere il segnale binaurale desiderato. Il framework consente una configurazione flessibile degli strumenti di elaborazione parallela dei segnali e il controllo in tempo reale dei parametri di processazione. Le funzionalità sviluppate sono state valutate in una sessione di test, effettuando prima un test dell'algoritmo di calibrazione, comparando le misure acustiche con quelle geometriche. Successivamente è stata condotta una valutazione percettiva del framework di rendering.

PARRINELLI SOFIA

Titolo tesi: Characterization of an Ambisonics Reproduction Room

Abstract

La complessità di un campo sonoro presenta molte sfide matematiche e ingegneristiche per una sua ricostruzione accurata e soddisfacente. Ambisonics è un metodo di registrazione e riproduzione in grado di rappresentare i campi sonori attraverso la decomposizione in armoniche sferiche. La riproduzione accurata del campo sonoro è limitata ad uno sweet spot, area che si trova in posizione centrale all’interno di un ambiente acusticamente trattato. Il sistema di riproduzione ottimale deve possedere una configurazione che possa circondare lo sweet spot in modo da immergerlo il più possibile nel campo sonoro riprodotto. Tuttavia, l’evidenza empirica mette in discussione questo limite, suggerendo che anche in ambienti d’ascolto dal comportamento non anecoico e con una disposizione delle casse diversa da quella ideale, la rappresentazione del campo sonoro potrebbe essere piuttosto valida. Questo lavoro di tesi indaga sulla qualità della riproduzione delle armoniche sferiche all’interno di una configurazione spaziale dedicata, la quale è compatibile per l’ascolto e la rappresentazione audio tramite sistema Ambisonics. L’obiettivo è mostrare un metodo per la valutazione della qualità complessiva del sito studiato e proporre una metrica per la valutazione degli armonici sferici ricostruiti. Diversi sono i fattori analizzati, come l’influenza delle caratteristiche della stanza, della quantità di altoparlanti, della posizione di ascolto e dell’utilizzo di un’equalizzazione sulla riproduzione di un campo diffuso. I parametri acustici della stanza sono stati rica- vati e le armoniche sferiche misurate sono state confrontate con le armoniche sferiche ideali tramite metriche assodate per la valutazione dell’encoding microfonico ma sperimentali per quanto riguarda la valutazione della riproduzione audio. Confermate le ottime propri- età acustiche della stanza, le metriche proposte sono risultate efficaci per la valutazione della performance di riproduzione degli armonici sferici all’interno del sito.

PEREGO GABRIELE

Titolo tesi: P.A.G.U.R.I. : Prompt Audio Generator User Research Investigation

Abstract

Il crescente impiego di strumenti di intelligenza artificiale ha semplificato e migliorato numerose attività umane, soprattutto nei processi creativi all’interno dell’ambito musicale. In particolare, la capacità di trasformare semplici descrizioni testuali in complesse composizioni musicali sta diventando un potente strumento di supporto sempre più accessibile a tutti, poiché stanno emergendo nuove possibilità per consentire agli utenti che usufruiscono di questi mezzi di creare suoni altamente specifici soddisfacendo le proprie esigenze personali. Tuttavia, l’adozione di tali strumenti rimane ancora limitata, a causa della mancanza di chiari esempi di esigenze degli utenti e dei requisiti necessari per soddisfare le loro richieste all’interno del processo della creazione musicale. Il lavoro di PAGURI, acronimo di Prompt Audio Generator User Research Investigation, si concentra sull’analisi del comportamento dell’utente nel contesto della musica e degli strumenti di intelligenza artificiale per la generazione audio, con particolare attenzione al text-to-music. Questo studio delinea le motivazioni alla base della ricerca, gli strumenti utilizzati per l’indagine, e descrive l’esperimento condotto in cui un campione di individui ha avuto l’opportunità di utilizzare uno strumento text-to-music per generare audio da input testuali e creare modelli personalizzati con la propria musica. Verranno infine presentati i risultati pertinenti all’interazione tra gli utenti e il modello text-to-music, insieme ai relativi commenti e suggerimenti su come e dove questi strumenti di generazione musicale possono trovare spazio di utilizzo ed essere impiegati al massimo delle loro potenzialità.

PIFERI FRANCESCO

Titolo tesi: CHATCARE: an emotional-aware conversational agent for assisted therapy

Abstract

Gli agenti conversazionali emotion-aware sono software capaci di identificare gli stati emotivi degli utenti e di offrire supporto tramite conversazioni in linguaggio naturale. I disturbi del neurosviluppo (NDD), che includono varie condizioni caratterizzate da sfide nelle capacità cognitive e comunicative, sono spesso associati all'alessitimia, ovvero una difficoltà nel riconoscere e comprendere le emozioni in se stessi e negli altri. I supporti terapeutici tradizionali si dimostrano efficaci ma richiedono un grande sforzo per produrre un gran numero di esercizi, che per le persone con NDD devono essere personalizzati. Tuttavia, l'emergere di tecnologie generative e i progressi nel campo dei Large Language Models (LLM) come GPT-4 hanno aperto nuove possibilità per lo sviluppo di strategie terapeutiche personalizzate e interattive. Gli LLM si distinguono per la loro eccezionale capacità di comprendere e generare testi che simulano la comunicazione umana, fornendo così una base flessibile per la creazione di interventi personalizzati attraverso il prompt engineering. Presentiamo ChatCare, Conversational Helper for Assisted Therapy, Caregiver Assistance, and Recreational Education. ChatCare è la nostra risposta ai problemi delle terapie tradizionali, utilizzando questi progressi tecnologici per assistere le persone con NDD migliorando la comunicazione, i risultati educativi e la comprensione emotiva. Una caratteristica fondamentale di ChatCare è l'integrazione di un sistema di riconoscimento delle emozioni che sfrutta l'analisi acustica della voce, permettendo al sistema di rilevare variazioni emotive attraverso audio features quantificabili e, di conseguenza, di modulare le risposte in base agli stati emotivi rilevati. Durante il nostro studio, abbiamo esaminato l'applicabilità della tecnologia LLM per soggetti con NDD attraverso un evento organizzato in un centro educativo a Milano. Successivamente, in seguito al rilascio del primo prototipo di ChatCare, abbiamo condotto un focus group con sette esperti nel campo degli NDD allo scopo di validare ulteriormente l'applicazione.

PLANDOLIT PASTOR SALVATERRA RICARD GUILLEM

RENZI ANNAFELICIA

Titolo tesi: Design of a virtual anechoic chamber for low-frequency response loudspeaker measurements

Abstract

In questo progetto di tesi abbiamo analizzato lo sviluppo di un metodo per ricavare risposte in frequenza di altoparlanti con alta risoluzione alle basse frequenze, partendo da misurazioni in ambienti non anecoici presenti nella sede dell’azienda Outline. Un primo approccio per eliminare le riflessioni indesiderate della stanza è quello di ricavare la risposta in frequenza del loudspeaker in esame, finestrando la risposta all’impulso e prendendone solo una porzione priva di riflessioni. La lunghezza della finestra temporale, però, influenza molto la risposta in frequenza da esso derivata: più dati andiamo a togliere dalla prima e più la frequenza di campionamento si sposterà in avanti, dando valori non certi al di sotto di essa. Il metodo sviluppato cerca, appunto, di contrastare questa relazione di reciproca incertezza che c’è tra risposta all’impulso e risposta in frequenza, utilizzando le simulazioni ricavate dal software di predizione acustica AKABAK. Grazie ai dati validi ricavati dal software, è stato possibile risolvere le problematiche delle risposte in frequenza iniziali, sostituendo le porzioni di segnale incerte, alle basse frequenze, con le simulazioni. Due diversi sistemi, prodotti dall’azienda Outline, sono stati sottoposti a questo studio, utilizzando diversi setup di misura. Il metodo sviluppato sembra funzionare, con un grado diverso di accuratezza, per ogni sistema utilizzato.

ROSSI RICCARDO

Titolo tesi: SCHuBERT: a real-time end-to-end model for piano music emotion recognition

Abstract

Recenti sviluppi e nuove tecnologie hanno reso possibile analizzare e prevedere le emozioni da una performance musicale in modo completamente automatico, in un settore in rapida crescita chiamato Music Emotion Recognition. Questo lavoro contribuisce significativamente al mondo dell'analisi dei sentimenti nella musica, concentrandosi sullo strumento per antonomasia, il pianoforte. Introduce SCHuBERT: Sentiment Classifier Hidden-unit BERT, un modello di Deep Learning progettato per estrapolare il contenuto emotivo di performance musicali al pianoforte in tempo reale. Questa ricerca esamina le basi teoriche utili a comprendere come la musica sia capace di indurre emozioni, e presenta un nuovo sistema per il riconoscimento delle emozioni dal pianoforte che può essere usato per diversi fini, tra cui l'arricchimento di performance musicali e sistemi di visualizzazione basati sulle emozioni. Nell'ampio campo di Music Emotion Recognition, questo lavoro cerca di colmare il divario nella ricerca riguardo i sistemi di riconoscimento automatico dell'emozione in tempo reale per il pianoforte. In questa tesi esaminiamo la letteratura relativa al riconoscimento automatico di emozioni dalla musica e forniamo una spiegazione approfondita del processo di progettazione e sviluppo di SCHuBERT, insieme ad una panoramica dei metodi e dei sistemi impiegati per elaborare dati audio e musicali. Inoltre, attraverso numerosi esperimenti, dimostriamo l'efficacia del nostro modello nel riconoscere l'emozione scaturita da una performance di pianoforte in tempo reale e la sua superiorità rispetto ai sistemi preesistenti nello stesso campo. Infine, analizziamo gli studi esistenti nel campo dell'analisi emotiva multimodale e progettiamo un nuovo protocollo per la costruzione di dataset multimodali nel campo del Piano Music Emotion Recognition, portando un approccio innovativo nel settore. Di conseguenza, siamo fiduciosi che questo lavoro e la metodologia proposta rappresentino una preziosa aggiunta al settore, aprendo un'ampia gamma di possibilità per tecniche avanguardistiche per l'analisi automatica dei sentimenti.

SOLTANPOURKHAZAEI HAMIDREZA

Titolo tesi: Immersive Audio: Professional Design and Applications

Abstract

L'Audio Immersivo impiega varie tecniche per trasmettere il suono attraverso altoparlanti e cuffie in modo tale che l'esperienza di ascolto sia simile a ciò che l'udito umano può ascoltare negli ambienti naturali. Perciò è necessario conoscere le principali tecnologie e gli algoritmi utilizzati per fornire questa esperienza reale e vivida, che rappresenta, il futuro del mondo audio. Questo studio contiene anche una semplice implementazione di uno dei metodi studiati, dimostrando che l'audio immersivo è alla nostra portata; tuttavia, ci teniamo a precisare che strutture ed esperienza richieste per una qualità di spazializzazione e riproduzione del suono accettabile, sono ovviamente al di fuori della portata di questo progetto. Questo viene dimostrato dal confronto tra il Binaural Junior, lo spazializzatore sviluppato in questo studio, e uno spazializzatore commerciale esistente denominato SPAT SPATIAL. Nonostante sia una semplice implementazione limitata da tempo e mezzi, e presenti carenze in termini di qualità audio in uscita, ed una perdita lieve ma percettibile di basse frequenze, il Binaural Junior riesce a simulare in modo accurato l'effetto del suono proveniente da diversi angoli verticali e orizzontali. Anche l'effetto di localizzazione della fonte sonora in termini di distanza dimostra una qualità accettabile. Futuri studi ed esperimenti in questo campo e su questa implementazione potrebbero con successo migliorare questi elementi ed aggiungere ulteriori controlli all'implementazione dell'algoritmo.

SUPERBO REBECCA

Titolo tesi: The Influence of Scale Length and String Pre-stress in the Vibrational and Radiative Properties of Classical Guitars

Abstract

La chitarra può essere considerata uno degli strumenti musicali più iconici e versatili, apprezzato in vari generi e culture in tutto il mondo. Il suo design complesso ha affascinato liutai e scienziati per secoli. Tra tutte le sue caratteristiche, la \lunghezza di scala\, definita come la distanza tra il capotasto e il ponte, fornisce un contributo fondamentale alla suonabilità della chitarra. Nel lavoro del famoso liutaio spagnolo Antonio de Torres, possiamo apprezzare una grande varietà di chitarre classiche, che differiscono in molti aspetti, tra cui proprio la lunghezza di scala. Facendo riferimento ai suoi modelli, questo lavoro mira a comprendere una possibile correlazione tra le dimensioni della lunghezza di scala e le proprietà vibrazionali e radiative della chitarra classica. Utilizzando un modello 3D parametrizzato del manico e integrandolo con un modello preesistente del corpo, concentriamo la nostra ricerca su un modello di chitarra classica variando la lunghezza della scala. Gli studi sono condotti mediante l'analisi ad elementi finiti e consistono nel valutare l'effetto della variazione della lunghezza di scala sul comportamento modale e sulla risposta in frequenza dello strumento, nonché sulla sua interazione con il carico esercitato dalla tensione delle corde. I nostri risultati mostrano che è possibile stabilire una correlazione tra le variazioni della lunghezza della tastiera e il comportamento modale dello strumento. Attraverso dati empirici e modelli computazionali, forniamo degli approfondimenti che possono potenzialmente guidare la presa di decisioni sia nella produzione su larga scala che nella produzione altamente personalizzata di strumenti. In ultima analisi, le nostre scoperte possono essere utilizzate per migliorare la qualità e la coerenza della liuteria delle chitarre, offrendo preziose indicazioni a liutai e costruttori di strumenti in tutto il mondo.

di CLERICO LETIZIA

Titolo tesi: Detection of Anomalies in Railway Switches by using Deep Learning Sound Classification

Abstract

Questo studio presenta un nuovo approccio al monitoraggio delle condizioni degli scambi ferroviari, utilizzando un'analisi delle loro caratteristiche acustiche. Dato il ruolo critico di questi componenti nella sicurezza ferroviaria e gli elevati costi di manutenzione, è necessario disporre di strumenti diagnostici efficienti. La metodologia proposta utilizza un set di dati limitato, composto da circa 60 campioni per ciascuna delle due categorie di interesse, ovvero \deviatoio malmesso\ e \deviatoio in buono stato\. Sono stati registrati i suoni prodotti al passare dei treni sui deviatoi con dei microfoni. I dati sono stati raccolti durante tre campagne di misurazione e gli audio da esse risultanti sono stati convertiti in spettrogrammi. Questi sono stati in seguito usati come input per un modello di deep learning, che adotta un'architettura di tipo Siamese, spesso utilizzata in contesti con dati limitati. Come feature extractor è stata usata la rete neurale convoluzionale VGG16, pre-addestrata sul dataset ImageNet, a cui sono stati aggiunti dei layers personalizzati per permettere il fine-tuning sul task specifico . L'allenamento di questi componenti tramite la Triplet Loss si è rivelata la strategia vincente per ottenere i risultati attesi, che dimostrano il potenziale dell'utilizzo dell'analisi acustica combinata con tecniche di deep learning per la diagnostica sullo stato dei deviatoi ferroviari, offrendo una soluzione vantaggiosa per la manutenzione.

di PALMA RICCARDO

Titolo tesi: Development of a real-time artistic installation for enhancing music performances by generating evolving visuals from audio input

Abstract

Al giorno d’oggi, le live performances dominano diversi aspetti dell’industria musicale. Per i musicisti è cruciale promuovere e condividere la propria arte con un pubblico. L’evoluzione di live shows è determinata dall’avvento di nuovi strumenti musicali e tecnologie che permettono agli artisti di espandere le proprie possibilità creative. In particolare, l’introduzione di sistemi digitali ha aperto la strada all’utilizzo di nuove forme d’arte all’interno di performance musicali, come effetti di luce o video content. Questo lavoro di tesi ha lo scopo di rappresentare visivamente una canzone performata in un concerto dal vivo o di un’installazione artistica nella quale è presente una performance musicale. Il metodo proposto opera in real-time, partendo da due input, il microfono e la strumentale, e restituendo un contenuto visual che evolve basandosi sulla canzone performata. Il contenuto dell’artwork è guidato dal testo cantato, la palette colori è determinata dalla strumentale. Il risultato è raggiunto attraverso l’utilizzo di diverse tecniche di Machine Learning. Il metodo proposto è composto da una serie di componenti progettati per assolvere diversi compiti come Automatic Speech Recognition, Music Genre Classification e Real-Time Image Synthesis. Il sistema è composto da due sotto processi che lavorano in parallelo. L’input del microfono è trascritto in real-time da un componente basato sull’ architettura del modello Whisper. L’audio della strumentale è dato in input ad un classifcatore basato su Discogs-EffNet, il quale restituisce i 5 generi più associabili all’audio sotto analisi. Successivamente, ogni genere è mappato ad un colore, per ottenere una palette. Il testo trascritto e la colour palette sono concatenati all’interno di un prompt, per la generazione delle immagini in real-time, con modelli allenati attraverso Adversarial Diffusion Distillation. Per ottenere correlazioni tra le immagini, il testo è codificato e i risultanti embeddings sono interpolati. La valutazione del metodo proposto è stata fatta presentando e confrontando diverse tecniche d’inferenza e di ottimizzazione, per arrivare alla miglior soluzione possibile. Infine, un prototipo del sistema è stato presentato ad un pubblico e i risultati dei feedback sono discussi.

1214 visite

(CR) CAMPUS POLI LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Lo scorso 10 aprile sessione di Laurea Magistrale nel Campus di Cremona del Politecnico di Milano

Campus Cremona Poli 10 APRILE 2024 I PRIMI LAUREATI IN AGRICULTURAL ENGINEERING

Campus Poli Cremona OPEN DAY 16 APRILE: IL TUO FUTURO A PORTATA DI MANO!

Cremona Campus Poli CAMMINARE SU UN FILO DI SETA

SESSIONE DI LAUREA AL CAMPUS DI CREMONA DEL POLITECNICO DI MILANO

(CR) Campus Politecnico Intervista a KarminaBebawy

Firma Appello per la nomina Soprintendente Belle Arti di CR-LO-MN

(CR) Il sindaco Virgilio rimuove manifesto pro vita davanti ospedale. Sei d'accordo SI-NO-NON SO

SUONO, TECNOLOGIA E CREATIVITÀ: 21 LAUREANDI PROTAGONISTI A CREMONA

Campus Poli CREMONA SUMMER CAMP

Fondi di Coesione europei, CNA Lombardia

Generazione UP di Pandino: nuovo Direttivo e futuro dell'associazione

AccaddeOggi #7luglio 1960 I morti di Reggio Emilia (Canzone e Video)

Sciopero del 17/11/ 2023 Cgil CR Tanti oggi a Milano | Luca Dell’Asta (FP-Cgil Cr)