Martedì, 28 settembre 2021 - ore 01.10

Campus Cremona LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Domani giovedì 22 luglio si terrà l’appello di laurea del Corso di Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia

| Scritto da Redazione
Campus Cremona LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Campus Cremona LAUREA MAGISTRALE IN MUSIC AND ACOUSTIC ENGINEERING

Si avvicina un’altra sessione di laurea nel Campus di Cremona del Politecnico di Milano. Domani giovedì 22 luglio si terrà l’appello di laurea del Corso di Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.

 Dei quattro studenti, che domani completeranno il loro percorso con la discussione di laurea e raggiungeranno un ambito traguardo, tre hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, mentre uno si è concentrato sull’acustica.

 Nata nella Città di Stradivari grazie al sostegno del territorio, in particolare della Fondazione Arvedi Buschini e del Comune di Cremona, questa nuova Laurea Magistrale è attrattiva non solo per gli universitari italiani ma anche per i laureati internazionali provenienti da diversi Paesi Extra Ue, con una formazione sia ingegneristica che musicale.

 Il Campus di Cremona può vantare infatti un percorso estremamente innovativo che prevede la collaborazione con la Facoltà di Musicologia dell’Università degli Studi di Pavia e del Conservatorio di Milano e la presenza di un Laboratorio di Acustica Musicale, dotato di una camera anecoica, dedicato allo sviluppo di tecnologie avanzate per il miglioramento della tradizione liutaria e di metodologie sistematiche per la valutazione quantitativa delle caratteristiche fisiche e acustiche degli strumenti di liuteria. Due sono gli orientamenti tra cui gli interessati possono scegliere: Acoustic Engineering per chi vuole approfondire il tema dell’acustica musicale e Music Engineering per chi invece vuole focalizzarsi sullo studio dell’informatica musicale e l’elaborazione del suono.

 A chi in questi giorni sta scegliendo a quale corso di Laurea Magistrale iscriversi ricordiamo che il Polo di Cremona supporterà gli studenti meritevoli con 3 borse di studio riservate agli immatricolati al Corso di Laurea Magistrale in Music and Acoustic Engineering orientamento Acoustic.

Requisito per accedere al bando: i candidati devono aver conseguito un titolo di studio italiano valido per l’ammissione alla Laurea Magistrale con una votazione minima uguale o equivalente a 100/110.

Gli interessati dovranno presentare una domanda di ammissione compilando il form di adesione disponibile dall’ 1 settembre 2021 fino al 29 ottobre 2021 sul sito del Polo di Cremona.

Per maggiori informazioni è possibile consultare il sito: www.polo-cremona.polimi.it

 Segue l’elenco dei laureandi con titolo tesi e abstract:

 CONTI EMANUELE

Titolo tesi: Synthetic Speech Detection through Emotion Recognition: a Semantic Approach

Abstract

Gli anni recenti sono stati caratterizzati da grandi progressi nello sviluppo delle tecniche basate sull'intelligenza artificiale. Tali progressi hanno reso possibile generare video, audio o immagini sintetiche così realistiche da essere difficilmente distinguibili da quelle reali per l'occhio o l'orecchio umano. E' il fenomeno dei deepfakes, ovvero media sintetici in cui una persona in un'immagine, video o audio esistente è rimpiazzata con qualcun altro. Sebbene questi nuovi media artefatti siano stati impiegati per lo più per usi artistici e di intrattenimento, è diventato presto chiaro come il cattivo uso di questo tipo di contenuti potesse portare a conseguenze gravi, soprattutto quando si manifesta un furto di identità. In effetti, diversi problemi sono sorti riguardo a questi contenuti multimediali sintetici, come la diffusione di fake news, casi di frode e danneggiamento della reputazione, e addirittura falsificazione di prove davanti al giudice. Per questa ragione, sta diventando sempre più urgente sviluppare tecniche che siano capaci di discriminare i contenuti reali da quelli sintetici ed evitare la diffusione incontrollata di deepfakes. Poiché la maggioranza dei deepfakes è costituita da video, contenenti dunque sia la componente visiva che quella audio, la generazione di parlato realistico è fondamentale per ottenere un contenuto sintetico verosimile. Oltretutto, in alcuni casi rilevanti, l'audio è l'unica componente falsificata. Alcuni esempi sono registrazioni di parlato falso usate come prova davanti ad una corte di giustizia o per raggirare un'interfaccia vocale. Il problema di riconoscere il parlato sintetico è assolutamente delicato: le tecniche di sintesi stanno diventando sempre più sofisticate a causa della complessità crescente dei modelli di apprendimento profondo, o deep learning, su cui sono basate. In questo lavoro, affrontiamo il problema della rilevazione di parlato sintetico attraverso l'uso di caratteristiche semantiche di alto livello della voce. In particolare, estraiamo embeddings da un sistema di riconoscimento delle emozioni basato su una rete neurale, ed utilizziamo questi embeddings come input per il rilevatore di parlato sintetico, con un originale approccio transfer-learning. Siamo infatti convinti che gli algoritmi di sintesi vocale, sebbene capaci di riprodurre le caratteristiche di basso livello di una particolare voce umana, falliscano nel ricreare aspetti più complessi, come ad esempio quello emozionale, che sono invece naturali in una voce reale. Per valutare in profondità le prestazioni del sistema proposto, abbiamo costruito un dataset ad-hoc mettendo insieme diversi datasets contenenti parlato reale e/o sintetico. Il numero totale di tracce utilizzate è ingente, così come la varietà degli algoritmi di sintesi utilizzati. Inoltre, abbiamo usato dataset diversi durante la fase di allenamento e quella di test, al fine di avere due set indipendenti e, perciò, di condurre una valutazione delle prestazioni più robusta. Abbiamo progettato e realizzato 4 esperimenti, con gli obiettivi principali di valutare le prestazioni del modello in generale, la sua resistenza al rumore, la qualità delle caratteristiche semantiche che abbiamo estratto e la loro compatibilità con l'operazione di rilevamento del parlato sintetico. I risultati della valutazione del sistema sono promettenti, e conducono ad alcune osservazioni ed a suggerimenti per possibili sviluppi futuri.

 

NATOLI ANTONINO

Titolo tesi: Parallel Wave Digital Implementations of Nonlinear Audio Circuits

Abstract

Negli ultimi vent'anni, l'avvento e la diffusione dei computer multi-core hanno comportato un'imponente innovazione tecnologica. Infatti, essi consentono di eseguire lo stesso carico computazionale dei computer single-core tradizionali, ma con una maggiore efficienza computazionale. Per sfruttare al meglio le architetture multi-core, un algoritmo deve essere progettato in modo da poter essere eseguito su molteplici processori. I moderni algoritmi di “Virtual Analog”, usati per emulare digitalmente i circuiti audio analogici vintage contenenti molteplici elementi non lineari, sono spesso esigenti dal punto di vista del costo computazionale poiché si basano sulla risoluzione di grandi sistemi contenenti equazioni non lineari implicite. I metodi “Wave Digital” (WD) sono una classe dei suddetti algoritmi che sta guadagnando popolarità nell'ambito del Virtual Analog. In particolare, un metodo WD sviluppato recentemente, chiamato “Scattering Iterative Method” (SIM), e la sua generalizzazione, nota come “Hierarchical Scattering Iterative Method” (HSIM), hanno dimostrato prestazioni equiparabili allo stato dell'arte quando eseguiti su un singolo core, sia in termini di efficienza che di robustezza. Inoltre, SIM ed HSIM sono strutturati in modo tale che molti passaggi della loro computazione possono essere parallelizzati. Per questa ragione, in questa tesi si analizza in che modo i metodi SIM ed HSIM possano essere implementati nei computer multi-core: vengono analizzate differenti strategie di esecuzione che sfruttano la possibilità di parallelizzazione di tali metodi. Vengono poi proposte le implementazioni parallele di due circuiti differenti (lo stadio di uscita di un applicatore valvolare per chitarra e un moltiplicatore di tensione di tipo Cockcroft-Walton) le quali risultano essere più efficienti delle corrispettive implementazioni seriali tradizionali.

 

SEGATO FABIO

Titolo tesi: A real-time solution for speech enhancement using dilated convolutional neural networks

Abstract

Nell'ultimo anno, il mondo ha vissuto un profondo cambiamento nell'uso di piattaforme di teleconferenza e le tecnologie di attivazione vocale. Questi tipi di applicazione beneficiano di una riduzione dell'impatto del rumore ambientale sulla qualità del segnale vocale tramite l'uso di algoritmi di Speech Enhancement. Sono stati sviluppati diversi approcci per eseguire questa operazione. Recentemente, i risultati migliori sono stati ottenuti utilizzando tecniche di Deep Learning, grazie alla loro capacità di generalizzare sui vari scenari di rumore. Lo svantaggio principale riscontrato nelle applicazioni basate sulle reti neurali è la loro elevata complessità computazionale e di memoria. Queste caratteristiche rappresentano un ostacolo all'implementazione di queste tecniche su dispositivi con risorse limitate. In questo lavoro proponiamo una soluzione per speech enhancement basata su Deep Neural Networks che sia in grado di rispettare i requisiti stringenti imposti dai sistemi integrati in termini di memoria e potenza di calcolo. L'approccio proposto opera in tempo reale senza look-ahead, estraendo in modo efficiente le caratteristiche con maggiore rilevanza percettiva del segnale vocale. La soluzione proposta in questo lavoro è implementata utilizzando una rete neurale convoluzionale. Questa rete sfrutta una rappresentazione ad alta rilevanza percettiva dell'audio che si è dimostrata più vantaggiosa rispetto alla scala Mel. La tecnica sfrutta l'aumento del campo recettivo dovuto ai layer convoluzionali dilatati nel tempo che compongono la rete. Questa soluzione soddisfa il requisito del processamento in tempo reale elaborando l'input in modo causale. La Deep Neural Network impiegata nel nostro approccio è concepita per essere compatibile con i comuni framework di deep learning per microcontrollori. Testiamo il nostro approccio su vari scenari di rumore confrontando i risultati con alcune delle tecniche di cancellazione del rumore d'avanguardia. I risultati ottenuti sono paragonabili a quelli delle tecniche più avanzate incluse nel confronto, considerando anche i severi vincoli cui il nostro approccio deve sottostare. L'efficacia della nostra soluzione raggiunge livelli da stato dell'arte con un modello considerevolmente più piccolo, richiedendo quindi una frazione della complessità computazionale.

 

VASSENA MATTIA

Titolo tesi: Modal analysis of classical guitar soundboard with parametric shape and fan bracing

Abstract

I liutai modificano gli strumenti per migliorarne le qualità sonore, per incontrare necessità e preferenze dei musicisti e per adattarne le caratteristiche per gli ambienti di esecuzione comtemporanei. Le affermazioni su tali migliorie sono spesso basate sul semplice ascolto, prive di risultati misurabili ed oggettivi. Il suono di uno strumento è influenzato dalle scelte fatte in fase di progetto e costruzione, è dunque importante conoscere le conseguenze sul comportamento vibrazionale dovute a questi fattori. In questa tesi analizziamo gli effetti delle caratteristiche del contorno e della catenatura della tavola armonica sui suoi modi di vibrazione. Per questa analisi abbiamo costruito un modello virtuale di una tavola di chitarra Torres e abbiamo parametrizzato la sua forma; successivamente abbiamo aggiunto la catenatura e parametrizzato la disposizione e le dimensioni dei rinforzi nella parte inferiore del corpo. Attraverso la variazione di tali parametri, abbiamo generato molteplici campioni di tavole. Abbiamo eseguito un' analisi modale su modelli a elementi finiti di tutti i campioni generati, ottenendo i loro modi di vibrazione e le relative frequenze naturali, e controllando la presenza di inversioni nell' ordinamento per frequenza dei modi di vibrazione rispetto al modello di riferimento. Infine abbiamo eseguito un' analisi di regressione sui risultati delle simulazioni. I coefficienti di regressione costituiscono un modello attraverso il quale possiamo predire le frequenze naturali di una tavola armonica conoscendo solo i parametri geometrici che la descrivono. Abbiamo usato i coefficienti di regressione anche per misurare il peso dei diversi parametri sulla variazione delle autofrequenze, verificando che i contributi principali corrispondesero con correlazioni più alte. I nostri risultati indicano che le catene contribuiscono meno alla modifica delle autofrequenze rispetto alle variazioni della forma della tavola, ma hanno un grado di influenza differente nei diversi modi di vibrazione. Il modello di regressione proposto può essere d'aiuto per i liutai nella predizione del comportamento vibratorio di una tavola armonica con catenatura a ventaglio e dà una misura tangibile dell'impatto delle varie scelte costruttive. Con questo tipo di studio, stiamo procedendo verso una migliore caratterizzazione del suono della chitarra e di molti altri strumenti musicali.

 

 

 

566 visite

Articoli correlati

Petizioni online
Sondaggi online