Mercoledì 4 ottobre sessione di laurea magistrale nel Campus di Cremona del Politecnico di Milano.
Saranno 12 gli studenti che completeranno il loro percorso con la discussione di laurea e raggiungeranno un ambito traguardo: la Laurea Magistrale in Music and Acoustic Engineering, prima ed unica in Italia interamente dedicata all’ingegneria della musica e dell’acustica.
Dei laureandi di questa sessione, sei hanno scelto di approfondire la loro preparazione in tema di informatica musicale ed elaborazione del suono, mentre gli altri sei si sono concentrati sull’acustica.
Due sono, infatti, gli orientamenti tra cui gli interessati possono scegliere: Acoustic Engineering per chi vuole approfondire il tema dell’acustica musicale e Music Engineering per chi invece vuole focalizzarsi sullo studio dell’informatica musicale e l’elaborazione del suono.
Nata nella Città di Stradivari grazie al sostegno del territorio, in particolare della Fondazione Arvedi Buschini e del Comune di Cremona, questa Laurea Magistrale è particolarmente attrattiva perché consente di unire le conoscenze ingegneristiche con quelle musicali, come ci racconta Lorenzo Brugioni, laureando dell’orientamento Music, “La scelta del Corso di Laurea Magistrale in Music and Acoustic Engineering è stata una di quelle decisioni che si prendono con il cuore oltre che con la mente. Appena ne ho avuto conoscenza, ho subito percepito l'opportunità unica di fondere insieme le mie abilità tecniche e ingegneristiche con una passione profonda e personale, quella per la musica. L'orientamento Music, con il suo particolare focus sull'informatica musicale e l'elaborazione del suono, mi è apparso come un percorso ideale per arricchire e consolidare le mie competenze, mettendomi nelle condizioni migliori per dare un contributo significativo nel campo delle applicazioni audio e musicali. Sentivo che in questo modo avrei potuto non solo lavorare in un settore che amo, ma anche acquisire strumenti e conoscenze fondamentali per fare la differenza.”
Il Campus di Cremona può vantare infatti un percorso estremamente innovativo che prevede la collaborazione con la Facoltà di Musicologia dell’Università degli Studi di Pavia e la presenza di un Laboratorio di Acustica Musicale, dotato di una camera anecoica, dedicato allo sviluppo di tecnologie avanzate per il miglioramento della tradizione liutaria e di metodologie sistematiche per la valutazione quantitativa delle caratteristiche fisiche e acustiche degli strumenti di liuteria.
È per questo che ritroviamo “Innovativo” come uno dei tre aggettivi attraverso i quali Umberto Derme, laureando dell’orientamento Acoustic, descrive questo percorso: “Innovativo, Poliedrico e Tecnologico.”
Sempre più studenti poi scelgono di arricchire il proprio percorso di studi con un’esperienza di stage in azienda, come ci ha detto Lorenzo: “Ho avuto l'opportunità di svolgere uno stage presso l'azienda MusixMatch, situata a Bologna, nota per essere una delle piattaforme di ricerca testi di canzoni più grandi al mondo. L'esperienza è stata incredibile sotto diversi aspetti. L'ambiente lavorativo è stato stimolante e caratterizzato da un team di persone appassionate e competenti. Questo mi ha permesso non solo di affinare le mie competenze tecniche, ma anche di acquisire una comprensione più profonda del funzionamento globale di un'azienda. Ho imparato molto sia dal punto di vista tecnico sia in termini di dinamiche lavorative, elementi che considero essenziali per il mio percorso professionale futuro.”
Altri studenti, invece, mettono già al servizio della collettività le loro conoscenze come ha fatto Umberto che ha raccontato di aver sviluppato la propria tesi studiando l’acustica del Teatro dell’Opera di Roma: “La mia tesi si focalizza sull'acustica applicata ai teatri dell'Opera. Attualmente, la progettazione di spazi per spettacoli come questi implica un’approfondita analisi acustica iniziale sostenuta da complessi software di previsione. Tuttavia, la modellazione tridimensionale dei teatri rappresenta uno step cruciale in questa fase iniziale di progettazione e potrebbe comportare notevoli complessità computazionali e richiedere diverse assunzioni che possono generare incertezze nei risultati. Ecco perché all’interno della tesi viene proposta una procedura semplificata che consente agli ingegneri acustici di valutare le qualità acustiche di un teatro senza la necessità di modellarne ogni dettaglio. Nello specifico, la procedura semplificata esclude dalle simulazioni la modellazione e analisi della torre scenica, semplificando il processo senza comprometterne la validità. Grazie a questo approccio si cerca di consentire una valutazione più rapida ed efficiente delle prestazioni acustiche dei teatri dell'Opera.”
La tesi di Lorenzo, invece, tocca un argomento di grande attualità quale quello dell’intelligenza artificiale, infatti, la presenta così: “La mia tesi si è focalizzata sull'intersezione tra audio e intelligenza artificiale, in particolare sul campo emergente e all'avanguardia della sintesi vocale, noto come Text-To -Speech (TTS). Ho lavorato allo sviluppo di un sistema TTS in grado di imitare le voci di persone italiane. Questa tecnologia avanzata consente di convertire un testo scritto in parlato, replicando con precisione timbro e tonalità della voce umana, e permettendo di generare qualsiasi dichiarazione attraverso uno script testuale.”
Segue l’elenco dei laureandi con il titolo della tesi e l’abstract:
BRUGIONI LORENZO
Titolo tesi: Advancing Italian TTS: Crafting a Spontaneous Speech Dataset and Leveraging Transfer Learning for Language Adaptation and Voice Cloning
Abstract
Nel settore del Text-To-Speech (TTS), il deep learning ha reso possibile il voice cloning, una tecnologia che genera voci sintetiche simili a quelle dei parlanti di riferimento. Nonostante i notevoli progressi nelle lingue predominanti, l'adattamento di queste metodologie a lingue meno rappresentate, come l'italiano, rimane una sfida a causa della mancanza di dataset di alta qualità. Con l'obiettivo di ridefinire gli standard del voice cloning italiano, introduciamo una metodologia che ruota attorno all'uso di dataset di discorso spontaneo e di transfer learning cross-linguistico per la lingua italiana. Questo dataset di discorso spontaneo, a differenza dei dataset tradizionali, cattura la diversità e l'espressività del discorso reale, permettendo di generare risultati più autentici. Per affrontare le sfide del discorso spontaneo, abbiamo ideato una pipeline che combina architetture neurali con metodologie di pre-elaborazione, ottimizzando il dataset per TTS training. Abbiamo poi utilizzato il nostro dataset per adattare un modello TTS inglese al dominio italiano attraverso l'uso transfer learning cross-linguistico. Inaspettatamente, mentre l'adattamento linguistico è stato fruttuoso, la capacità di controllo dello speaker è stata compromessa. Per affrontare questa limitazione e raggiungere il nostro obiettivo di voice cloning, abbiamo adottato un'altra strategia di transfer learning. I nostri risultati sono stati valutati sia attraverso metriche oggettive che valutazioni soggettive, confermando con forza l'efficacia del nostro approccio. In particolare, i punteggi MOS che abbiamo ottenuto hanno superato notevolmente i sistemi TTS italiani open-source esistenti in tutti i criteri misurati. Questa ricerca rappresenta un'innovazione nell'uso di dataset di discorso spontaneo e transfer learning cross-linguistico per il TTS italiano. Abbiamo stabilito nuovi benchmark per voice cloning italiano, superando le soluzioni attuali. Il successo del nostro approccio suggerisce la sua applicabilità ad altre lingue e pone la nostra pipeline come guida per coloro interessati a utilizzare il discorso spontaneo nello sviluppo di modelli TTS.
CASTELLI ELISA
Titolo tesi: Hit Song Prediction system based on audio and lyrics embeddings
Abstract
Grazie alle piattaforme web una grande quantità di nuove canzoni vengono rilasciate ogni giorno. Hit Song Prediction (HSP) è un campo di Music Information Retrieval che ha lo scopo di indagare se una canzone ha il potenziale per diventare popolare o meno, al fine di aiutare talent scout e produttori a fare una prima selezione automatica di canzoni che possono risultare accattivanti, in una prospettiva artistica o di mercato. Dopo aver studiato modelli e tecniche attualmente utilizzati in HSP, partendo dagli aspetti su cui esiste un margine di miglioramento, si descrivono le scelte che ci hanno portato a progettare il nostro modello. Con l’architettura proposta vogliamo impiegare, per la prima volta in HSP, un approccio multi-modale basato su embeddings audio e di testo. Il sistema proposto prende in input audio, testo e anno di uscita di una canzone per produrre come risultato il punteggio o la classe di popolarità a cui la canzone appartiene. Per fare questo, si utilizza un Multi-Layer Perceptron che riceve come feature di ingresso la concatenazione di tre dati: l’audio embedding estratto dal melspectrogram utilizzando una rete Resnet-50, l’embedding calcolato da un transformer Sentence-BERT a partire dai lyrics e l’anno di uscita. Prima di condurre gli esperimenti, due nuove versioni del dataset SpotGenTrack Popularity sono state create: una inglese e una multilingua. Per valutare l’effettiva applicabilità del nostro metodo nell’HSP lo sottoponiamo a tre test. Il primo esamina l’impatto dell’utilizzo degli embeddings testuali confrontandolo con l’utilizzo di soli embeddings audio, per svolgere un problema di classificazione. Gli altri invece mirano a confrontare le prestazioni della nostra soluzione con i sistemi dello stato dell’arte. I risultati ottenuti dimostrano che il contributo del testo ha un ruolo chiave in HSP. Inoltre, le performance complessive del nostro sistema risultano comparabili con quelle ottenute dai modelli di riferimento, portandoci ad affermare l’effettiva applicabilità del metodo proposto. In particolare, il dataset multilingua porta a risultati migliori rispetto al dataset inglese, sottolineando l’importanza di avere una quantità significativa di dati per modellare la complessità del problema di HSP.
CAUCIG JACOPO
Titolo tesi: Simulation for Pass-by noise synthesis based on Transfer Path Analysis
Abstract
Il settore automobilistico sta attualmente affrontando nuove sfide a seguito dell’introduzione di restrizioni più severe sul rumore, veicoli elettrici e di cambiamenti nel comportamento e nelle esigenze dei clienti. Milioni di persone nelle aree metropolitane sono influenzate dal rumore prodotto dagli autoveicoli in movimento, il che causa problemi di salute per la popolazione generale. Nel tempo, leggi sempre più rigide sono state istituite per limitare il rumore che gli autoveicoli possono produrre al fine di ridurre l’inquinamento acustico. Da ciò nasce la necessità di incorporare criteri orientati all’acustica aggiuntivi fin dalle fasi iniziali del processo di design. È quindi cruciale che i produttori di veicoli e i loro fornitori trovino soluzioni innovative in termini di metodi di sviluppo del prodotto. Sin dalle prime fasi dello sviluppo di un veicolo, la simulazione acustica può contribuire ad affrontare questo problema, garantendo che il veicolo supererà l’ispezione durante i test. Inoltre, la modellazione può fornire ulteriori informazioni sui componenti che contribuiscono al rumore e suggerire possibili rimedi per le difficoltà legate al rumore. Questa tesi si concentra sul problema cruciale della simulazione del rumore di passby e sull’identificazione delle sorgenti di rumore equivalenti in sistemi complessi, come l’interazione tra ruote e strada. Il rumore di pass-by è un parametro significativo per i produttori di veicoli che mirano a rispettare rigorose normative sul rumore e migliorare la soddisfazione del cliente. Questa ricerca combina la tecnica TPA con algoritmi di ottimizzazione per sviluppare una metodologia efficiente per affrontare questa sfida. Lo studio inizia con una revisione generale della letteratura scientifica e stabilendo una metodologia completa per l’identificazione delle fonti di rumore. Al fine di convalidare il metodo proposto, sono state condotte analisi su modelli preliminari in diverse condizioni e vincoli. I risultati dimostrano l’efficacia dell’approccio proposto nel catturare i complessi pattern di propagazione del rumore all’interno della struttura del veicolo. La combinazione della TPA e algoritmi di ottimizzazione offre un mezzo versatile ed efficiente per comprendere la radiazione del rumore nei veicoli, facilitando lo sviluppo di mezzi più silenziosi e competitivi, nel rispetto delle rigorose normative.
DERME UMBERTO
Titolo tesi: Simplified acoustic prediction procedure for Opera Houses
Abstract
Al giorno d'oggi, grazie all'utilizzo algoritmi avanzati utilizzati nei software di simulazione acustica come ODEON o CATT-acustics, la costruzione di un teatro è sempre preceduta da una vasta analisi acustica eseguita tramite un modello digitale 3D. La modellazione di un teatro, eseguita utilizzando un computer-aided design (CAD) software come AutoCad o software di progettazione 3D come SketchUp, è un processo lungo che richiede particolare attenzione nella definizione dei volumi e delle geometrie del teatro prima delle simulazioni acustiche. Per questo motivo, si è deciso di definire una procedura per rivolta ai teatri dell'Opera, che permetta al progettista acustico di escludere lo spazio collocato dietro l'apertura del proscenio dalle simulazioni. Questo volume, noto anche come Fly Tower, richiede una procedura di modellazione molto complessa che si basa su numerose ipotesi sulle proprietà acustiche, attrezzature, oggetti di scena e caratteristiche del volume stesso (responsabile dell'aumento del tempo di riverbero e dell'incertezza nel calcolo predittivo). Attraverso l'esame di due configurazioni limite, la prima delle quali prevede la chiusura dell'apertura del proscenio con una parete antincendio (collegata al limite superiore del tempo di riverbero) mentre la seconda impiega il sipario tradizionale completamente chiuso (legata al limite inferiore RT), questa procedura mira a indagare il loro tempo di riverbero in relazione agli intervalli ottimali raccomandati nella letteratura esistente. L'obiettivo primario è quello di valutare se il teatro sotto studio, accogliendo varie configurazioni sceniche il cui tempo di riverbero rientra in questi due valori limite, possa essere considerato acusticamente ben progettato. Il caso studio condotto per questo lavoro è stato il Teatro dell'Opera di Roma. Pertanto, l'attuale validità della procedura è limitata a teatri con caratteristiche architettoniche simili a quelle dei teatri barocchi italiani, caratterizzati da una pianta a ferro di cavallo e più livelli di palchetti disposti lungo il perimetro.
De BORTOLI GIAN MARCO
Titolo tesi: Reverberation Enhancement using Phase Cancelling Modal Reverberator
Abstract
I sistemi per il controllo del riverbero sono sistemi attivi utilizzati per controllare elettronicamente il riverbero del campo sonoro in una stanza, ad esempio in eventi di musica dal vivo. In conseguenza alla presenza di retroazione tra altoparlanti e microfoni, questi sistemi soffrono tipicamente di forti componenti spettrali. Queste componenti risultano da un eccessivo guadagno in retroazione e possono portare il sistema ad instabilità. Il controllo della retroazione è quindi uno dei principali obiettivi nella maggior parte delle applicazioni. In letteratura sono presenti vari metodi mirati a migliorare la stabilità del sistema, quali equalizzazione, filtri adattivi, filtri temporalmente variabili, riverberi artificiali e matrici di missaggio temporalmente variabili. Tecniche attualmente in uso possono raggiungere un buon miglioramento del guadagno-pre-instabilità, ma presentano limitazioni dovute ad artefatti sonori, quali modulazione e colorazione, o ad implementazioni complesse non adatte a sistemi con alto numero di canali audio. Questa tesi descrive un metodo temporalmente invariabile per il controllo della retroazione alle basse frequenze basato su una matrice di missaggio composta da riverberi artificiali. Ogni elemento della matrice è realizzato tramite composizione modale. Le risposte in fase dei riverberi sono sottoposte ad ottimizzazione allo scopo di generare interferenza acustica distruttiva nelle funzioni di trasferimento del ciclo di retroazione. Le simulazioni dimostrano che, per un riverbero modale composto da un solo modo in un sistema a quattro canali audio, un incremento del guadagno-pre-instabilità di almeno 15 dB e in media 27 dB è raggiunto. I risultati mostrato una decrescita nell'aumento del guadagno-pre-instabilità in caso di molteplici modi all'interno del riverbero modale. Il metodo è validato da simulazioni condotte con molteplici numeri di trasduttori e molteplici posizionamenti dei trasduttori all'interno della stanza. Un incremento del guadagno-pre-instabilità si registra all'aumentare del numero di trasduttori, mentre il loro posizionamento non influenza notevolmente le prestazioni. L'effetto della variabilità temporale delle funzioni di trasferimento tra trasduttori sull'efficacia del metodo è considerata.
EL ACHAK HAKIM
Titolo tesi: A FEM based study on wooden mechanical metamaterials
Abstract
L'impiego del legno nella costruzione di strumenti musicali a corda è imperante. La sua lavorabilità, l'estetica e le sue proprietà meccano-acustiche ne fanno una scelta ideale. Come molte risorse naturali, il legno è soggetto a variazioni anche tra campioni prelevati dallo stesso albero, il che rende difficile mantenere costante la qualità del suono tra strumenti diversi dello stesso costruttore. Inoltre, per via delle loro proprietà uniche, l'impiego eccessivo di alcune specie arboree ha messo in pericolo la sopravvivenza delle stesse. Questa tesi affronta questi problemi proponendo l'uso di metamateriali meccanici in legno. Infatti, studi precedenti hanno dimostrato che i parametri meccanici di una tavola lignea tipicamente utilizzata per la costruzione di tavole armoniche possono essere regolati attraverso la sua perforazione con pattern periodici di fori. Finora sono stati studiati a questo scopo solo metamateriali con fori di dimensioni omogenee, utilizzando le formule di Caldersmith per stimare le loro effettive costanti elastiche. Il nostro obiettivo è studiare come dimensioni eterogenee dei fori possano influenzare il comportamento vibrazionale e meccanico delle tavole lignee. A tal fine, sono state studiate diverse configurazioni con fori di dimensioni eterogenee e il loro impatto sulle proprietà elastiche della tavola è stato misurato studiando delle tavole equivalenti senza fori. Queste ultime sono state utilizzate per individuare i parametri del materiale che possano far coincidere il comportamento vibrazionale delle due tavole. In particolare, è stato implementato il metodo di ottimizzazione chiamato Finite Element Model Updating per l'identificazione di detti parametri. I risultati mostrano che i metamateriali lignei studiati presentano notevoli differenze tra la distribuzione omogenee e quella eterogenea delle dimensioni dei fori. Infatti, si osserva che la rigidità della tavola è correlata a come i fori di diverse dimensioni sono distribuiti, e si riscontra un comportamento diverso anche nel loro studio in condizioni dinamiche o statiche. Questo prova che c'è ancora molto da scoprire sui metamateriali, ma anche che si tratta di un potente strumento da utilizzare nell'acustica musicale e non solo.
SAID AHMED HESHAM
Titolo tesi: Acoustic Load from Impedance Observation: Exploring the Loudspeaker's Equivalent Acoustic Model
Abstract
ALFIO (Acoustic Load From Impedance Observation) è un metodo per determinare il carico acustico di un sistema di altoparlanti a radiazione diretta, confrontando l'impedenza elettrica di ingresso dell'altoparlante misurata in aria libera e all'interno del sistema. Modellando l'impedenza elettrica della bobina mobile con le tecniche standard di Thiele-Small e rimuovendo gli elementi meccanici comuni per sottrazione, si ottiene l'impedenza elettrica equivalente del carico acustico aggiunto all'altoparlante. Adattando i parametri concentrati del circuito equivalente a questa impedenza, si possono calcolare quantità fisiche come il volume della cassa, la lunghezza effettiva del condotto reflex o la massa e la cedevolezza dell'altoparlante ausiliario (nel caso di sistemi con radiatore passivo). L’efficacia del metodo viene dimostrata attraverso la modellazione, la simulazione e la verifica sperimentale. Alcune discrepanze tra i parametri calcolati e le dimensioni misurate delle casse di riferimento hanno portato a un'analisi di sensibilità volta a individuare le possibili fonti di imprecisione nei modelli di altoparlanti esistenti; ad esempio, la stima della superficie radiante del cono (SD). L'aggiunta di parametri relativi alle perdite e all'impedenza di radiazione ha migliorato l'adattamento della curva di carico acustico e l'accuratezza dei parametri fisici calcolati. È stata sviluppata un'applicazione MATLAB per automatizzare la procedura e visualizzare ogni fase sia visivamente che numericamente.
SARTORI MATTEO
Titolo tesi: Augmented Reality technologies to relieve stress and anxiety in hospitalized children
Abstract
La sottoposizione a procedure mediche e ospedalizzazione è spesso fonte di significative esperienze stressanti per i pazienti pediatrici, con conseguenti sentimenti quali ansia, isolamento sociale e incertezza. In alcuni casi, l'ambiente ospedaliero può riscrivere la vita quotidiana dei bambini, privandoli dei metodi e degli approcci che normalmente impiegano per affrontare rischi, paure ed eventi sgraditi. Questi elementi hanno un impatto sfavorevole sulla qualità dell'esperienza terapeutica dei pazienti e aumentano la probabilità dell'insorgenza di ulteriori complicanze. Inoltre, inducono comportamenti di evitamento da parte del paziente nei confronti delle terapie e del personale medico, con conseguenti possibili ritardi nell'adesione alle procedure ospedaliere stabilite. Considerando tutto ciò, l’uso delle tecnologie di realtà aumentata (AR) o di realtà virtuale (VR) potrebbe alleviare questi stati di ansia e stress nei bambini ospedalizzati e facilitarne il recupero. Questa tesi analizza l'implementazione di un gioco interattivo di realtà aumentata per pazienti pediatrici pre-operatori.
SONG HAOKUN
Titolo tesi: A novel approach for Camera and laser line calibration
Abstract
La calibrazione accurata dei sistemi fotocamera-laser è essenziale per varie applicazioni di visione artificiale, come la ricostruzione 3D, il riconoscimento di oggetti e la robotica. Questa tesi presenta un'indagine completa sulla calibrazione estrinseca dei sistemi fotocamera-laser, con l'obiettivo di migliorare l'accuratezza e l'efficienza del processo di calibrazione. La ricerca inizia con una revisione completa della letteratura, esaminando i metodi di calibrazione estrinseca esistenti ei modelli matematici sia per i sensori a fotocamera che laser. Vengono esplorate e classificate varie tecniche per stabilire le corrispondenze tra i dati della fotocamera e del laser, stabilendo una solida base teorica per le successive metodologie di calibrazione. La prima fase della ricerca si concentra sulla modellazione della telecamera e dei sistemi laser. Vengono derivate formulazioni matematiche per descrivere la relazione geometrica tra le coordinate del mondo 3D e l'immagine o i punti laser corrispondenti. Il modello della fotocamera si basa sul classico modello della fotocamera stenopeica, mentre il modello laser incorpora i parametri per le misurazioni della portata e dell'intensità. Successivamente, la tesi approfondisce la procedura di calibrazione estrinseca. Il processo prevede la stima della matrice di rotazione e del vettore di traslazione che definisce la trasformazione rigida tra la telecamera e i sistemi di coordinate laser. Vari modelli di calibrazione, tra cui scacchiere e linee laser, vengono utilizzati per stabilire corrispondenze tra i due sensori. La tesi presenta un nuovo framework di calibrazione che combina analisi delle corrispondenze basate su caratteristiche e algoritmi di ottimizzazione. Questo framework sfrutta le ricche informazioni geometriche acquisite dalla fotocamera e dal sensore laser lineare per stimare con precisione i parametri di trasformazione. Le valutazioni sperimentali vengono condotte utilizzando un'impostazione di calibrazione personalizzata, convalidando l'efficacia e l'accuratezza del framework proposto. Inoltre, la tesi esplora l'impatto di diversi fattori sull'accuratezza della calibrazione, inclusi rumore, distorsione e condizioni ambientali. Vengono eseguiti analisi di robustezza e studi di sensibilità per valutare la resilienza dei metodi di calibrazione in scenari difficili. I risultati di questa ricerca contribuiscono al progresso delle tecniche di calibrazione estrinseca laser-fotocamera, offrendo spunti pratici e raccomandazioni per ottenere un allineamento preciso nelle applicazioni del mondo reale. Le metodologie proposte fungono da base affidabile per compiti di percezione e misurazione accurati.
SPREAFICO FABIO
Titolo tesi: On the use of Fundamental Frequency Estimation for Virtual Bass Enhancement
Abstract
A causa delle loro dimensioni limitate, gli altoparlanti di piccole dimensioni, come quelli utilizzati nei computer portatili e nei dispositivi mobili, non sono in grado di riprodurre accuratamente le basse frequenze. Sono stati quindi proposti sistemi di Virtual Bass Enhancement (VBE) con l’obiettivo di aumentare la percezione dei bassi sfruttando l’effetto psicoacustico della fondamentale mancante. Grazie a tale effetto, il cervello umano può percepire una tonalità non solo se è realmente presente nella traccia audio, ma anche grazie alla periodicità delle sue armoniche superiori. Gli algoritmi VBE sono tipicamente implementati nel dominio del tempo, della frequenza o in sistemi ibridi tempo/frequenza e non fanno uso di metodi basati sul deep learning. Questo lavoro, invece, propone un approccio innovativo per realizzare il Virtual Bass Enhancement utilizzando una rete neurale convoluzionale pre-addestrata per la stima della frequenza fondamentale. Quindi, mostra come sfruttare tali informazioni, proponendo tre diverse pipeline di elaborazione. Infine, le prestazioni di tali algoritmi vengono valutate e confrontate con altre tecniche disponibili in letteratura mediante un test percettivo, evidenziando le promettenti caratteristiche dell’approccio proposto.
VALENTE ENRICO FRANCESCO
Titolo tesi: Outside Broadcasting: study and implementation of digital video and audio over IP infrastructures inside a live production Van
Abstract
I mezzi per riprese televisive, detti OB Van, rappresentano un elemento essenziale per consentire la realizzazione di contenuti broadcast in esterna. Tipicamente si tratta della produzione di eventi sportivi, concerti, avvenimenti di costume, attualità e cronaca. Un OB Van rappresenta un concentrato di tecnologia la cui progettazione e realizzazione abbraccia numerosi rami dell'Ingegneria: elettronica, telecomunicazioni, idraulica, elettrica, automatica, meccanica, materiali. La sfida progettuale principale consiste nell’integrare tutti gli impianti e le tecnologie in spazi estremamente densi e ristretti, massimizzando le performance complessive. L’obiettivo della Tesi è stato quello di collaborare, all’interno di un ambiente di progettazione molto stimolante, alla realizzazione di un progetto esecutivo e alla configurazione degli impianti broadcast di un mezzo per riprese televisive, approfondendo gli standard e i componenti utilizzati. Gli impianti comprendono svariate tecnologie differenti, alla base delle quali è d’uopo analizzare il mondo del video e dei suoi standard (SD-HD-3G-SDI, UHD, SMPTE ST 2110-20/22), dell’audio e dei suoi standard (analogico, digitale, bilanciato e sbilanciato, SMPTE ST 2110-30/31, Dante, Ravenna, MADI), i sincronismi e le reti di gestione LAN. Le componenti principali in cui tali tecnologie sono messe in pratica all’interno degli OB Van sono il mixer video, il mixer audio, le telecamere e le corrispondenti unità di controllo, il sistema di matrici e il sistema interfonico (Intercom). La Tesi, inoltre, approfondisce le tematiche di insonorizzazione e trattamento acustico dedicate all’ambiente di mixing audio, con le specificità e le criticità tipiche di un OB Van rispetto a studi di registrazione all’interno di buildings: pesi e spazi limitati con presenza di intercapedini e cavedi per il passaggio cavi. Vengono anche trattate le tecnologie di audio digitale su IP, insieme alle peculiarità delle stesse nel processo di migrazione a IP, nel quale video, audio e metadati sono astratti dal meccanismo hardware sottostante, con i conseguenti problemi relativi alla sincronizzazione del segnale. Infine, il progetto si conclude con la configurazione degli apparati tecnologici installati nella regia, con un focus di dettaglio relativo al mixer audio e all’esecuzione della check list di collaudo prima della consegna al cliente finale.
ZUMERLE FRANCESCO
Titolo tesi: Procedural music generation for video games conditioned through video emotion recognition
Abstract
I videogiochi ad oggi costituiscono una delle forme di intrattenimento di maggior successo. Dietro alla loro realizzazione vi è spesso il lavoro minuzioso di un gran numero di artisti e programmatori, che si occupano di game design, narrazione, composizione musicale, computer grafica, e molto altro. Di conseguenza, la crescente popolarità del medium unita alla sua multidisciplinarietà sta suscitando sempre maggior interesse nella ricerca in vari ambiti scientifici. In particolare, tra i generi di maggior successo vi sono i giochi open-world, in cui ciascun giocatore è libero di esplorare vasti mondi, incontrando un gran numero di sfide e di eventi casuali. In tali giochi, la creazione di musiche che si adattino a questo enorme numero di possibili variazioni rappresenta una sfida considerevole, poiché un singolo compositore difficilmente è in grado di comporre una colonna sonora per ogni combinazione di situazioni. A tal proposito, negli ultimi anni alcuni sviluppatori indipendenti hanno iniziato a proporre brevi esperienze artistiche e coinvolgenti, caratterizzate da suoni e immagini che puntano a reagire costantemente alle diverse azioni del giocatore. Di conseguenza, sfruttando gli ultimi progressi nel deep learning, presentiamo un nuovo metodo per la generazione di musica procedurale per videogiochi, pensato in particolare per le esperienze open-world. Innanzitutto, il nostro approccio è composto da un primo modello che determina costantemente le emozioni suscitate dal video di gioco, modellandole secondo Valence e Arousal e assumendo che questi valori effettivamente rappresentino le emozioni del giocatore. Successivamente, i due valori ottenuti vengono utilizzati per condizionare un music transformer, un'architettura che genera tracce musicali MIDI, che comporrà quindi una colonna sonora coerente con l'impatto emotivo delle immagini di gioco. Per dimostrare l'efficacia della tecnica proposta, abbiamo condotto un test percettivo coinvolgendo dal vivo i diversi partecipanti. Questo lavoro non solo valuta l'efficacia del nostro metodo, ma esplora anche la sua effettiva applicabilità nell'ambito della generazione di musica per videogiochi, fornendo utili spunti per ricerche future in questo campo.