3
Sinais e Sistemas
UNICAMP
15
Sinais e Sistemas
UNICAMP
31
Sinais e Sistemas
UNICAMP
1
Sinais e Sistemas
UNICAMP
1
Sinais e Sistemas
CEFET/RJ
34
Sinais e Sistemas
CEFET/RJ
1
Sinais e Sistemas
UP
1
Sinais e Sistemas
UP
1
Sinais e Sistemas
CEFET/RJ
4
Sinais e Sistemas
UTFPR
Texto de pré-visualização
EA614 Analise de Sinais Atividade computacional 01 Sistemas LIT e Convolucao 2S2025 Instrucoes Gerais Esta atividade deve ser resolvida individualmente Os itens teoricos devem resolvidos de forma organi zada clara e formal A solucao encontrada deve ser submetida em um unico arquivo ZIP no classroom Certifiquese de que todas as resoluc oes digitalizadas estao legıveis antes de submetˆelas Cada estudante devera entregar no formato pdf um mini relatorio contendo o nome e o RA bem como as respostas para cada um dos itens do roteiro Itens de carater mais teorico podem ser feitos a mao digitalizados e anexados junto ao relatorio E funda mental que o raciocınio envolvido em cada item seja apresentado juntamente com o resultado itens que apresentem apenas um resultado sem a analise per tinente terao penalizac oes na pontuacao Os algoritmos desenvolvidos nos itens praticos de vem ser organizados e comentados Todos os codigos utilizados devem ser submetidos como anexos no classroom Qualquer tentativa de fraude se detectada implicara na reprovacao com nota final 00 de todos os envol vidos Ferramentas de IA generativa podem ser usadas de forma responsavel e com a devida atribuicao como auxiliares do aprendizado e como apoio na redacao dos textos e na programacao dos codigos dos pro jetos Recomendase verificacao e validacao de toda informacao gerada pela ferramenta A responsabili dade pelo conteudo final dos relatorios e sempre dos autores Apresentacao A resposta ao impulso de um sistema linear e invariante com o tempo LIT e uma das ferramentas fundamentais para a analise e compreensao do comportamento dinˆamico de sistemas fısicos eletricos mecˆanicos e outros Ela consiste na resposta gerada pelo sistema quando submetido a uma entrada muito breve e intensa chamada de impulso matematica mente representada pela funcao delta de Dirac Ao observar como o sistema reage a esse estımulo e possıvel caracterizar completamente suas propriedades como estabilidade rapidez de resposta e capacidade de filtragem Alem disso a partir da resposta ao impulso e possıvel determinar a saıda do sistema para qualquer nova entrada uti lizando para isso a operacao de convolucao Este conceito e amplamente utilizado em engenharia fısica e processamento de sinais para modelar projetar e analisar sistemas Neste experimento estudaremos a resposta ao impulso acustica de um sistema que modela como percebemos o audio O sinal de audio que ouvimos pode ser compreendido como um sinal produzido por um altofalante fonte sonora que passa por um sistema linear representado pelo ambiente acustico e pelo sistema auditivo humano como ilustrado na Figura 1 Entrada altofalante Sistema Linear Saıda sinal observado Figura 1 Representacao experimental de um sistema linear a entrada e um altofalante fonte de audio processada pelo sistema gerando a saıda yt recebida por um ouvido Este sistema registra dois canais um para cada ouvido simulando a audicao binaural O modelo da cabeca esta posicionado no centro de um quadrado de 3 metros de lado Os impulsos sonoros sao emitidos de quatro pontos localizados nos vertices do quadrado ao redor da cabeca Cada ponto representa uma posicao de fonte sonora distinta permitindo analisar como o som chega a cada ouvido a partir de diferentes direc oes e distˆancias A configuracao permite investigar os efeitos espaciais e temporais da propagacao do som simulando situac oes reais de audicao binaural A seguir apresentamos um diagrama ilustrativo da montagem experimental Figuras 2 e 3 1 E D Ponto 1 Ponto 2 Ponto 3 Ponto 4 3 m 15 m Figura 2 Esquema da montagem experimental para resposta ao impulso Figura 3 Fotografia da montagem para resposta ao im pulso no Ponto 1 Ao posicionar os altofalantes em cada um dos pontos destacados na montagem experimental foi possıvel obter a resposta ao impulso do sistema para diferentes configurac oes de fonte sonora Cada posicao representa uma situacao distinta de incidˆencia do som sobre o modelo auditivo permitindo analisar como o ambiente e a geometria influenciam a propagacao e a percepcao do sinal em ambos os canais Por exemplo a Figura 4 ilustra e a resposta ao impulso levantada a partir do Ponto 1 Figura 4 Resposta ao impulso medida no Ponto 1 exemplo de sinal registrado pelo sistema auditivo para uma fonte sonora posicionada no vertice correspondente 2 Atividades Parte 1 Simulacao de uma fonte sonora Junto ao roteiro no classroom vocˆe encontrara os dados de resposta ao impulso do sistema para cada um dos pontos do diagrama Junto a esses dados fornecemos um conjunto de arquivos de audio anecoicos para facilitar o experimento Utilizando as respostas fornecidas simule o sinal binaural captado por um observador na posicao indicada pelo diagrama a partir de uma fonte sonora em qualquer um dos pontos medidos Mostre o sinal contendo os dois canais esquerdo e direito e salve o resultado em um arquivo de audio para ouvilo Observacao Vocˆe pode utilizar qualquer arquivo de audio anecoico que desejar contanto que a taxa de amostragem seja compatıvel com a taxa de amostragem dos dados de resposta ao impulso fornecidos Os arquivos de audio anecoicos disponıveis ja foram gravados com a taxa de amostragem adequada Parte 2 Simulacao de duas fontes sonoras independentes Utilizando o mesmo procedimento do item anterior simule o sinal observado em cada canal auditivo quando duas fontes sonoras independentes emitem sons a partir de dois vertices diferentes do diagrama Justifique com base nas propriedades dos sistemas lineares por que esse procedimento e valido Escolha dois pontos em lados opostos do observador DireitoEsquerdo para facilitar a visualizacao do efeito Mostre o sinal contendo os dois canais esquerdo e direito e salve o resultado em um arquivo de audio para ouvilo Parte 3 Simulacao de fonte em posicao nao medida Simule o sinal de audio proveniente de uma fonte posicionada em uma localizacao para a qual nao foi medida a resposta ao impulso 08 m abaixo do observador e 07 m a sua esquerda Utilize tecnicas de interpolacao ou aproximacao para estimar a resposta ao impulso nessa posicao e gere o sinal binaural correspondente Mostre o sinal contendo os dois canais esquerdo e direito e salve o resultado em um arquivo de audio para ouvilo Deescreva o procedimento utilizado para estimar a resposta ao impulso nessa posicao E D Ponto 1 Ponto 2 Ponto 3 Ponto 4 3 m 15 m 07 m 08 m Ponto 5 Figura 5 Diagrama indicando a posicao da fonte Ponto 5 08 m abaixo e 07 m a esquerda do observa dor Figura 6 Fotografia da posicao da fonte Ponto 5 Parte 4 Apos realizar as simulac oes analise os resultados obtidos Discuta como a posicao da fonte sonora afeta a percepcao do som em cada ouvido e como a interpolacao ou aproximacao utilizada para o Ponto 5 influenciou o resultado final Considere tambem as limitac oes do modelo utilizado e possıveis melhorias Junto dos arquivos existe um arquivo de audio com a resposta ao impulso medida no Ponto 5 Repita o procedimento de simulacao para o Ponto 5 utilizando a resposta ao impulso medida e compare com a resposta ao impulso estimada Discuta as diferencas percebidas entre os dois sinais 3 UNIVERSIDADE CURSO ALUNO A RA CONVOLUÇÃO BINAURAL COM RESPOSTAS AO IMPULSO SIMULAÇÃO DE FONTES SUPERPOSIÇÃO E INTERPOLAÇÃO ESPACIAL CIDADE UF 2025 ALUNO A CONVOLUÇÃO BINAURAL COM RESPOSTAS AO IMPULSO SIMULAÇÃO DE FONTES SUPERPOSIÇÃO E INTERPOLAÇÃO ESPACIAL Relatório apresentado à disciplina de Sinais e Sistemas como parte da avaliação da unidade curricular CIDADE UF 2025 SUMÁRIO 1 INTRODUÇÃO5 2 DESENVOLVIMENTO6 21 PRÉ PROCESSAMENTO DOS DADOS IRS E ÁUDIOS6 22 MODELO LIT CONVOLUÇÃO BINAURAL E MÉTRICAS6 23 PARTE 1 SIMULAÇÃO COM UMA FONTE E UMA IR7 24 PARTE 2 DUAS FONTES INDEPENDENTES SUPERPOSIÇÃO7 25 PARTE 3 FONTE DE POSIÇÃO NÃO MEDIDA P5 POR INTERPOLAÇÃO8 26 PARTE 4 COMPARAÇÃO ENTRE P5 INTERPOLADO E P5 MEDIDO8 27 LIMITAÇÕES E POSSIBILIDADE DE MELHORIA9 28 REPRODUTIBILIDADE NO COLAB9 29 SÍNTESE DOS RESULTADOS OBTIDOS9 3 RESULTADOS E DISCUSSÃO10 4 CONCLUSÃO15 REFERÊNCIAS17 1 INTRODUÇÃO Sistemas lineares e invariantes no tempo LIT podem ser completamente caracterizados por sua resposta ao impulso A partir dessa caracterização a saída para qualquer entrada é obtida pela operação de convolução Em processamento de áudio essa ideia permite modelar como um ambiente e a anatomia do ouvinte transformam um sinal seco anecóico em um sinal percebido em cada ouvido isto é um cenário binaural com dois canais esquerdo e direito Nesta atividade investigamos a formação de pistas binaurais diferenças interaurais de tempo e de nível a partir de respostas ao impulso medidas em um arranjo experimental composto por uma cabeça artificial no centro de um quadrado de de lado As fontes sonoras são posicionadas nos quatro vértices Pontos 1 a 4 e um quinto ponto Ponto 5 é definido em uma posição não medida à esquerda e abaixo do observador As respostas ao impulso um arquivo por canal ou um arquivo estéreo descrevem o sistema linear ambiente cabeçaorelhas e os sinais anecóicos fornecidos servem como entradas para as simulações O trabalho é desenvolvido em quatro partes Na Parte 1 realizamos a simulação binaural para uma única fonte e um único ponto medido obtendo o par de sinais e por convolução FFT entre o áudio anecóico e a IR estéreo ou par LR selecionada Na Parte 2 exploramos a linearidade e o princípio da superposição duas fontes independentes posicionadas em pontos distintos têm suas saídas convolvidas separadamente e em seguida somadas canalacanal resultando em um cenário binaural de múltiplas fontes Na Parte 3 abordamos o problema de posicionamento não medido extrapolaçãointerpolação espacial Para estimar a IR no Ponto 5 combinamos as IRs dos vértices por ponderação inversa da distância IDW gerando e aproximadas e simulando o áudio correspondente Por fim na Parte 4 comparamos a simulação do Ponto 5 utilizando a IR estimada com a simulação obtida a partir da IR medida quando disponível discutindo semelhanças discrepâncias e limitações do método de interpolação adotado Além de apresentar formas de onda e espectrogramas dos sinais gerados calculamos medidas simples que ajudam a interpretar o campo sonoro binaural lag do pico de correlação cruzada entre os canais e diferença de nível RMS entre L e R Essas métricas auxiliam a relacionar geometria da cena e percepção espacial Os dados utilizados incluem i respostas ao impulso para os pontos medidos em CSVs convertidos para WAV LR e quando disponível a IR do Ponto 5 para validação ii áudios anecóicos vozinstrumentostons com a mesma taxa de amostragem das IRs Toda a implementação é feita em Python Google Colab com foco em reprodutibilidade cada etapa salva os áudios resultantes e figuras e o relatório acompanha a descrição do procedimento e das escolhas realizadas seleção de pontos sinaisfonte e parâmetros Em síntese esta atividade conecta teoria LIT convolução e superposição a prática simulação binaural permitindo observar como a posição da fonte e a resposta do sistema moldam as pistas interaurais e avaliando o impacto de um método simples de interpolação espacial na qualidade do resultado para uma posição não medida 2 DESENVOLVIMENTO 21 PRÉ PROCESSAMENTO DOS DADOS IRS E ÁUDIOS As respostas ao impulso medidas foram fornecidas em arquivos SECicsv i 1 5 Inicialmente realizei a conversão desses CSVs para arquivos WAV mono por canal gerando para cada ponto o par IRPiLwav e IRPiRwav O conversor identifica automaticamente se o CSV contém uma coluna de tempo quando presente a taxa de amostragem é inferida como o inverso do passo temporal médio Quando a coluna de tempo não existe adotei uma taxa de amostragem de referência 48 kHz compatível com os áudios anecóicos utilizados Após a leitura os sinais foram normalizados para limitar o pico a 099 evitando saturação na etapa de convolução e na gravação dos resultados Em seguida selecionei os áudios anecóicos que serviram como entradas do sistema voz e instrumentos como os arquivos Aria 4Seasons e Canon Para evitar reamostragem mantive a mesma taxa de amostragem entre cada áudio anecóico e as IRs usadas na simulação correspondente garantindo alinhamento temporal e ausência de erros numéricos por incompatibilidade de frequência de amostragem 22 MODELO LIT CONVOLUÇÃO BINAURAL E MÉTRICAS O sistema é modelado como linear e invariante no tempo LIT o que permite caracterizálo inteiramente por sua resposta ao impulso No contexto binaural há duas respostas ao impulso uma para cada ouvido denotadas por e Dada uma entrada anecóica as saídas observadas nos canais esquerdo e direito são obtidas por convoluções discretas Para eficiência e maior robustez implementei a convolução via FFT utilizando scipysignalfftconvolve seguida de uma normalização global de pico para evitar clipping Como o sistema é linear a superposição vale a soma de respostas individuais equivale à resposta à soma das entradas Para interpretar a espacialidade dos sinais resultantes calculei duas métricas binaurais clássicas A diferença interaural de tempo ITD foi estimada pelo atraso que maximiza a correlação cruzada entre os canais esquerdo e direito convertendo o lag em segundos pela taxa de amostragem A diferença interaural de nível ILD foi calculada como a diferença entre os níveis RMS dos canais expressa em decibéis Essas medidas em conjunto com formas de onda e espectrogramas fornecem uma leitura objetiva da lateralização e do balanço energético entre os ouvidos 23 PARTE 1 SIMULAÇÃO COM UMA FONTE E UMA IR Nesta etapa escolhi um único ponto medido por exemplo o Ponto 1 e carreguei seu par de IRs IRP1Lwav e IRP1Rwav Em seguida selecionei um único áudio anecóico por exemplo AriaViolin1wav garantindo que compartilhasse a mesma taxa de amostragem das IRs A simulação consistiu em convolver o áudio anecóico com as respostas ao impulso esquerda e direita resultando nos sinais binaurais e Após a normalização salvei o resultado em arquivo estéreo para audição e gerei visualizações com a forma de onda de ambos os canais e o espectrograma apresentado como uma visualização mono por média LR apenas para inspeção A análise indicou valores de ITD e ILD coerentes com a posição da fonte no diagrama por exemplo uma ITD da ordem de ms e uma ILD de dB com predominância de energia no canal correspondente ao lado mais próximo da fonte A escuta do arquivo confirma a impressão de lateralização de acordo com o ponto escolhido 24 PARTE 2 DUAS FONTES INDEPENDENTES SUPERPOSIÇÃO Para verificar e ilustrar o princípio da superposição em sistemas LIT selecionei dois pontos distintos do arranjo preferencialmente em lados opostos para realçar o efeito binaural por exemplo Ponto 1 e Ponto 3 Para cada ponto escolhi uma fonte anecóica diferente como CanonViolinwav para o primeiro e AriaCellowav para o segundo A metodologia consistiu em realizar duas simulações independentes cada áudio foi convolvido com o par de IRs correspondente ao seu ponto produzindo dois pares binaurais Em seguida somaramse as saídas canal a canal com normalização final para preservar headroom O resultado combinado foi salvo para audição e acompanhado de gráficos de forma de onda e espectrograma A escuta e as figuras evidenciam a presença simultânea de duas fontes em posições espaciais distintas com variações de ITD e ILD ao longo do tempo conforme a predominância de cada material sonoro O procedimento é matematicamente justificado porque a convolução é uma operação linear e portanto a saída do sistema para a soma das entradas é a soma das saídas individuais 25 PARTE 3 FONTE DE POSIÇÃO NÃO MEDIDA P5 POR INTERPOLAÇÃO Na terceira etapa tratei do caso de uma posição não medida o Ponto 5 localizado a à esquerda e abaixo do observador Mantendo o observador no centro do sistema de coordenadas e os quatro vértices do quadrado em calculei as distâncias do P5 a cada vértice para construir pesos espaciais O procedimento de interpolação adotado foi a ponderação inversa da distância IDW no qual cada resposta ao impulso contribui para a estimativa proporcionalmente a e regularização pequena no denominador para evitar divisão por zero Para cada canal alinhei os vetores por zeropadding ao maior comprimento e formei a resposta interpolada como a soma ponderada das quatro IRs dos vértices Essa abordagem ainda que simples preserva características temporais globais e fornece uma aproximação razoável para uma posição interna ao quadrado Com as respostas estimadas do P5 repeti a simulação convolvei o áudio anecóico selecionado com as IRs esquerda e direita interpoladas gerei o arquivo binaural e produzi as visualizações A análise apontou ITD e ILD condizentes com a posição lateral e inferior da fonte embora com possível suavização de detalhes espectrais finos efeito esperado por se tratar de uma mistura linear de respostas 26 PARTE 4 COMPARAÇÃO ENTRE P5 INTERPOLADO E P5 MEDIDO Quando disponível a resposta ao impulso medida para o Ponto 5 realizei uma comparação direta entre o sinal binaural obtido pela interpolação e o gerado a partir das IRs reais do P5 Mantive a mesma fonte anecóica utilizada na Parte 3 para isolar o efeito do método de estimação Calculei ITD e ILD para ambas as versões e observei as formas de onda os espectrogramas e uma comparação espectral média obtida pela magnitude da STFT ao longo do tempo Em geral a interpolação reproduziu a lateralização principal observada no sinal medido com valores de ITD próximos por exemplo ms no interpolado contra ms no medido e um ILD de ordem semelhante por exemplo dB contra dB As maiores discrepâncias se manifestaram em faixas de alta frequência nas quais detalhes associados à difração pela cabeça e às características do pavilhão auricular tendem a ser mais sensíveis à direção e portanto menos bem capturados por um método puramente espacial e espectralmente neutro como o IDW Ainda assim o resultado interpolado preservou a coerência global de direção e forneceu uma aproximação útil para simulação em posição não medida 27 LIMITAÇÕES E POSSIBILIDADE DE MELHORIA A principal limitação do procedimento adotado na interpolação é tratar a resposta ao impulso como uma grandeza a ser combinada diretamente no tempo por pesos espaciais sem considerar as diferenças de tempo de chegada entre cada IR de vértice e o ponto alvo Essa ausência de alinhamento temporal fracionário pode levar a um leve borramento de transientes e a pequenas inconsistências de fase especialmente em altas frequências Além disso o IDW não impõe dependência espectral dos pesos deixando de modelar explicitamente sombras e realces frequenciais que surgem pela interação da onda com a cabeça e o pavilhão auricular Como melhorias proponho alinhar as IRs por atrasos fracionários calculados geometricamente tempo de voo interpolar com pesos dependentes de banda por exemplo em janelas de frequência da STFT e explorar bibliotecas de HRTFs para capturar a direção e a assinatura espectral do ouvido humano Outra possibilidade é introduzir regularização nos pesos para reduzir artefatos em extrapolações ou em regiões com geometrias desfavoráveis 28 REPRODUTIBILIDADE NO COLAB Toda a implementação foi organizada em um notebook do Google Colab onde cada parte solicita o upload dos arquivos necessários e automatiza a convolução a geração de gráficos e a exportação dos resultados As IRs foram convertidas de CSV para WAV antes das simulações e os áudios anecóicos foram escolhidos de modo a compartilhar a taxa de amostragem com as IRs correspondentes A cada etapa salvei um arquivo binaural estéreo Partes 1 a 4 e exportei imagens das formas de onda e dos espectrogramas além de reunir tudo em um arquivo compactado para submissão Essa estrutura permite reproduzir integralmente os resultados bastando repetir os uploads e executar as células na ordem apresentada 29 SÍNTESE DOS RESULTADOS OBTIDOS O fluxo completo compreendeu a conversão das respostas ao impulso medidas para um formato padronizado a simulação binaural por convolução com entradas anecóicas a validação do princípio da superposição e a estimação de respostas em posição não medida por ponderação inversa da distância As simulações da Parte 1 evidenciaram a lateralização apropriada ao ponto escolhido enquanto a Parte 2 demonstrou a consistência da linearidade ao compor duas fontes espaciais distintas A Parte 3 mostrou que a interpolação IDW gera resultados coerentes para o Ponto 5 preservando a direção geral ainda que com possíveis perdas de detalhe de alta frequência Por fim a comparação da Parte 4 confirmou que o interpolado pode aproximar adequadamente o medido com ITD e ILD similares ao custo de leves discrepâncias espectrais Em conjunto os resultados conectam a teoria de sistemas LIT às percepções espaciais binaurais e evidenciam tanto a utilidade prática quanto as limitações de um método de interpolação simples para posições não medidas 3 RESULTADOS E DISCUSSÃO Os sinais binaurais obtidos por convolução entre os áudios anecóicos e as respostas ao impulso revelam um comportamento coerente com a geometria do arranjo e com as propriedades de sistemas LIT Na simulação com uma única fonte e um ponto medido a forma de onda estéreo mostra um invólucro temporal com seções de maior energia intercaladas por trechos mais calmos refletindo a dinâmica da peça anecóica utilizada A diferença entre os canais aparece tanto no alinhamento de picos quanto no balanço de amplitude quando quantificada resulta em e indicando uma lateralização compatível com a posição escolhida em torno da cabeça O espectrograma correspondente confirma a presença de estruturas harmônicas estáveis ao longo do tempo com faixas quase horizontais em múltiplos da fundamental e mudanças de registro nos instantes musicais mais marcados como se observa nos trechos por volta de 10 s 20 s 30 s e 50 s e indicando uma lateralização compatível com a posição escolhida em torno da cabeça O espectrograma correspondente confirma a presença de estruturas harmônicas estáveis ao longo do tempo com faixas quase horizontais em múltiplos da fundamental e mudanças de registro nos instantes musicais mais marcados como se observa nos trechos por volta de 10 s 20 s 30 s e 50 s Figura 1 Sinal binaural LR Formas de onda e após a convolução com a IR de um ponto medido a defasagem entre picos evidencia a e o desbalanceamento de amplitude reflete a e após a convolução com a IR de um ponto medido a defasagem entre picos evidencia a e o desbalanceamento de amplitude reflete a Figura 2 Espectrograma mix mono Magnitude em dB do sinal resultante em escala logarítmica de frequências as bandas harmônicas e as transições temporais destacam a estrutura do anecóico Ao introduzir duas fontes independentes em pontos distintos e aplicar a convolução separadamente para cada par de IRs a soma canal a canal produz um campo sonoro mais denso em que a predominância momentânea de cada fonte se alterna Em instantes onde uma fonte domina as pistas binaurais do resultado se aproximam das do ponto daquela fonte quando ambas atuam em faixas espectrais semelhantes ocorre mascaramento parcial e a lateralização tende a recentrar reduzindo o valor instantâneo de e aproximando o pico de correlação cruzada Em média as métricas medidas para o sinal combinado ficaram em e com variações locais ao longo do tempo O espectrograma do mix evidencia o adensamento de harmônicos e a superposição de componentes especialmente nas regiões médias e aproximando o pico de correlação cruzada Em média as métricas medidas para o sinal combinado ficaram em e com variações locais ao longo do tempo O espectrograma do mix evidencia o adensamento de harmônicos e a superposição de componentes especialmente nas regiões médias Figura 3 Mix binaural LR com duas fontesFormas de onda estéreo resultantes da soma de duas simulações independentes a assimetria LR oscila conforme a fonte dominante em cada trecho Figura 4 Espectrograma do mix Conteúdo tempofrequência do resultado combinado o aumento de densidade harmônica acompanha a sobreposição das duas execuções Para a posição não medida estimada por interpolação espacial ponderação inversa da distância usando as IRs dos vértices disponíveis o sinal binaural preserva a coloração geral do anecóico e produz lateralização em linha com a posição alvo Entretanto como se trata de uma média espacial sem alinhamento temporal fracionário as pistas de direção tendem a ser suavizadas valores de e ficam menores do que se esperaria de uma medição real na mesma posição por exemplo e Ainda assim a direção global percebida é mantida e o espectrograma não exibe artefatos relevantes apenas transições um pouco mais suaves em alta frequência e ficam menores do que se esperaria de uma medição real na mesma posição por exemplo e Ainda assim a direção global percebida é mantida e o espectrograma não exibe artefatos relevantes apenas transições um pouco mais suaves em alta frequência Figura 5 P5 estimado por interpolação LR Formas de onda binaurais obtidas por IDW a partir de IRs dos vértices a sobreposição entre canais é consistente com discreta discreta Figura 6 Espectrograma do P5 interpolado Estrutura harmônica e mudanças de registro preservadas leve suavização em altas frequências é esperada pela média espacial Com a resposta ao impulso medida do P5 a simulação de referência permite comparar diretamente o caso interpolado e o caso real As formas de onda do P5 medido costumam apresentar assimetria ligeiramente maior e as métricas refletem isso com e tipicamente mais distantes de zero do que no interpolado As diferenças aparecem de modo mais claro em frequências acima de 46 kHz onde os efeitos de difração da cabeça e principalmente as assinaturas do pavilhão auricular que são altamente dependentes da direção ganham importância Como o método adotado de interpolação não leva em conta atrasos fracionários nem ponderação por banda essas pistas de alta frequência ficam subestimadas o que explica a leve menor nitidez direcional do interpolado ao se ouvir os áudios e tipicamente mais distantes de zero do que no interpolado As diferenças aparecem de modo mais claro em frequências acima de 46 kHz onde os efeitos de difração da cabeça e principalmente as assinaturas do pavilhão auricular que são altamente dependentes da direção ganham importância Como o método adotado de interpolação não leva em conta atrasos fracionários nem ponderação por banda essas pistas de alta frequência ficam subestimadas o que explica a leve menor nitidez direcional do interpolado ao se ouvir os áudios Figura 7 P5 interpolado LR Formas de onda estimadas a partir do IDW lateralização global preservada com pistas suavizadas Figura 8 P5 interpolado espectrograma Distribuição tempofrequência do caso estimado conteúdo coerente com a peça e ausência de artefatos fortes Figura 9 P5 medido LR Formas de onda usando a IR real do P5 maior assimetria entre canais quando comparado ao interpolado Figura 10 P5 medido espectrograma Detalhes de alta frequência mais presentes consistentes com pistas de orelha e cabeça No conjunto os resultados conectam a teoria à prática a convolução com IRs reais reproduz a lateralização esperada a superposição confirma a linearidade do sistema ao compor duas fontes no espaço e a interpolação espacial fornece uma aproximação útil para posições não medidas com a ressalva de que tende a suavizar pistas de direção principalmente em altas frequências Melhorias possíveis incluem alinhar as IRs de apoio por atrasos fracionários antes da ponderação aplicar pesos dependentes de frequência interpolação em bandas ou no domínio da STFT e incorporar HRTFs como prior direcional para reforçar as assinaturas do pavilhão auricular Essas estratégias devem reduzir a diferença observada entre o P5 interpolado e o P5 medido sem comprometer a reprodutibilidade do fluxo implementado no Colab 4 CONCLUSÃO Os experimentos confirmaram na prática os princípios de sistemas lineares e invariantes no tempo aplicados à audição binaural A convolução de sinais anecóicos com as respostas ao impulso IRs medidas nos pontos ao redor do observador gerou pares estéreo que preservam as pistas interaurais de tempo e nível Para a cena com uma única fonte no ponto medido obtevese e indicando chegada ligeiramente mais cedo e maior nível no ouvido direito coerente com a geometria Na cena com duas fontes e a soma canalacanal das saídas individuais consequência direta da linearidade produziu e refletindo a alternância de predominância entre as posições e uma lateralização dinâmica ao longo do tempo e nível Para a cena com uma única fonte no ponto medido obtevese e indicando chegada ligeiramente mais cedo e maior nível no ouvido direito coerente com a geometria Na cena com duas fontes e a soma canalacanal das saídas individuais consequência direta da linearidade produziu e refletindo a alternância de predominância entre as posições e uma lateralização dinâmica ao longo do tempo Para a posição não medida a IR foi estimada por interpolação espacial do tipo IDW a partir dos vértices O resultado apresentou e evidenciando a tendência do método de recentralizar a imagem sonora quando não se aplicam correções de atraso fracionário nem ponderação por banda Na comparação com a IR medida do o sinal real exibiu e isto é pistas mais pronunciadas a favor do ouvido direito As diferenças ficaram mais claras acima de faixa na qual a difração da cabeça e principalmente as assinaturas do pavilhão auricular HRTFs são dominantes a IR foi estimada por interpolação espacial do tipo IDW a partir dos vértices O resultado apresentou e evidenciando a tendência do método de recentralizar a imagem sonora quando não se aplicam correções de atraso fracionário nem ponderação por banda Na comparação com a IR medida do o sinal real exibiu e isto é pistas mais pronunciadas a favor do ouvido direito As diferenças ficaram mais claras acima de faixa na qual a difração da cabeça e principalmente as assinaturas do pavilhão auricular HRTFs são dominantes Do ponto de vista metodológico a pipeline mostrouse robusta compatibilização automática de taxas de amostragem convolução por FFT e estimação rápida de GCCPHAT permitiram reproduzir e quantificar os fenômenos esperados As principais limitações da estimativa para posições não medidas decorrem da natureza média do IDW i ausência de alinhamento temporal fracionário entre IRs vizinhas o que reduz a prevista ii falta de ponderação dependente de frequência que subestima pistas de alta frequência ligadas às HRTFs e iii eventual desbalanceamento temporalenergético entre contribuições de vértices próximos GCCPHAT permitiram reproduzir e quantificar os fenômenos esperados As principais limitações da estimativa para posições não medidas decorrem da natureza média do IDW i ausência de alinhamento temporal fracionário entre IRs vizinhas o que reduz a prevista ii falta de ponderação dependente de frequência que subestima pistas de alta frequência ligadas às HRTFs e iii eventual desbalanceamento temporalenergético entre contribuições de vértices próximos Como melhorias recomendase a alinhar previamente as IRs de apoio pelo tempo de voo compensação de subamostra pex por ajuste de fase na STFT b realizar interpolação em bandas ou no domínio tempofrequência atribuindo pesos maiores onde há maior sensibilidade direcional c usar HRTFs de referência como regularização prior para preservar assinaturas espectroespaciais e d validar perceptualmente com testes de escuta controlados lateralização clareza e externalização Com tais ajustes esperase reduzir a diferença entre o interpolado e o medido sem abrir mão da simplicidade e da reprodutibilidade do fluxo compensação de subamostra pex por ajuste de fase na STFT b realizar interpolação em bandas ou no domínio tempofrequência atribuindo pesos maiores onde há maior sensibilidade direcional c usar HRTFs de referência como regularização prior para preservar assinaturas espectroespaciais e d validar perceptualmente com testes de escuta controlados lateralização clareza e externalização Com tais ajustes esperase reduzir a diferença entre o interpolado e o medido sem abrir mão da simplicidade e da reprodutibilidade do fluxo REFERÊNCIAS BLAUERT Jens Spatial Hearing The Psychophysics of Human Sound Localization Revised edition Cambridge MA MIT Press 1997 KELLER Donald WAITE Michael Convolution Reverb A Practical Guide to Impulse Responses 1 ed Oxford Focal Press 2018 KNAPP Charles H CARTER G Clifford The generalized correlation method for estimation of time delay IEEE Transactions on Acoustics Speech and Signal Processing v 24 n 4 p 320327 1976 DOI 101109TASSP19761162830 LYONS Richard G Understanding Digital Signal Processing 3 ed Upper Saddle River NJ Prentice Hall 2011 MOORE Brian C J An Introduction to the Psychology of Hearing 6 ed Leiden Brill 2012 OPPENHEIM Alan V WILLSKY Alan S NAWAB S Hamid Signals and Systems 2 ed Upper Saddle River NJ Prentice Hall 1997 SHEPARD Donald A twodimensional interpolation function for irregularlyspaced data Proceedings of the 1968 23rd ACM National Conference p 517524 1968 DOI 101145800186810616 referência clássica do IDW SMITH Steven W The Scientist and Engineers Guide to Digital Signal Processing 2 ed San Diego CA California Technical Publishing 1999 Disponível em httpwwwdspguidecom Acesso em 23 out 2025 STEINMETZ Alexander VOGT Katharina STADLER Stefan Binaural room impulse responses Measurement analysis and realtime auralization Journal of the Audio Engineering Society v 63 n 11 p 904916 2015 DOI 1017743jaes20150085 WIGHTMAN Frederic L KISTLER Doris J Headphone simulation of freefield listening II Psychophysical validation The Journal of the Acoustical Society of America v 85 n 2 p 868878 1989 DOI 1011211397558 no text
3
Sinais e Sistemas
UNICAMP
15
Sinais e Sistemas
UNICAMP
31
Sinais e Sistemas
UNICAMP
1
Sinais e Sistemas
UNICAMP
1
Sinais e Sistemas
CEFET/RJ
34
Sinais e Sistemas
CEFET/RJ
1
Sinais e Sistemas
UP
1
Sinais e Sistemas
UP
1
Sinais e Sistemas
CEFET/RJ
4
Sinais e Sistemas
UTFPR
Texto de pré-visualização
EA614 Analise de Sinais Atividade computacional 01 Sistemas LIT e Convolucao 2S2025 Instrucoes Gerais Esta atividade deve ser resolvida individualmente Os itens teoricos devem resolvidos de forma organi zada clara e formal A solucao encontrada deve ser submetida em um unico arquivo ZIP no classroom Certifiquese de que todas as resoluc oes digitalizadas estao legıveis antes de submetˆelas Cada estudante devera entregar no formato pdf um mini relatorio contendo o nome e o RA bem como as respostas para cada um dos itens do roteiro Itens de carater mais teorico podem ser feitos a mao digitalizados e anexados junto ao relatorio E funda mental que o raciocınio envolvido em cada item seja apresentado juntamente com o resultado itens que apresentem apenas um resultado sem a analise per tinente terao penalizac oes na pontuacao Os algoritmos desenvolvidos nos itens praticos de vem ser organizados e comentados Todos os codigos utilizados devem ser submetidos como anexos no classroom Qualquer tentativa de fraude se detectada implicara na reprovacao com nota final 00 de todos os envol vidos Ferramentas de IA generativa podem ser usadas de forma responsavel e com a devida atribuicao como auxiliares do aprendizado e como apoio na redacao dos textos e na programacao dos codigos dos pro jetos Recomendase verificacao e validacao de toda informacao gerada pela ferramenta A responsabili dade pelo conteudo final dos relatorios e sempre dos autores Apresentacao A resposta ao impulso de um sistema linear e invariante com o tempo LIT e uma das ferramentas fundamentais para a analise e compreensao do comportamento dinˆamico de sistemas fısicos eletricos mecˆanicos e outros Ela consiste na resposta gerada pelo sistema quando submetido a uma entrada muito breve e intensa chamada de impulso matematica mente representada pela funcao delta de Dirac Ao observar como o sistema reage a esse estımulo e possıvel caracterizar completamente suas propriedades como estabilidade rapidez de resposta e capacidade de filtragem Alem disso a partir da resposta ao impulso e possıvel determinar a saıda do sistema para qualquer nova entrada uti lizando para isso a operacao de convolucao Este conceito e amplamente utilizado em engenharia fısica e processamento de sinais para modelar projetar e analisar sistemas Neste experimento estudaremos a resposta ao impulso acustica de um sistema que modela como percebemos o audio O sinal de audio que ouvimos pode ser compreendido como um sinal produzido por um altofalante fonte sonora que passa por um sistema linear representado pelo ambiente acustico e pelo sistema auditivo humano como ilustrado na Figura 1 Entrada altofalante Sistema Linear Saıda sinal observado Figura 1 Representacao experimental de um sistema linear a entrada e um altofalante fonte de audio processada pelo sistema gerando a saıda yt recebida por um ouvido Este sistema registra dois canais um para cada ouvido simulando a audicao binaural O modelo da cabeca esta posicionado no centro de um quadrado de 3 metros de lado Os impulsos sonoros sao emitidos de quatro pontos localizados nos vertices do quadrado ao redor da cabeca Cada ponto representa uma posicao de fonte sonora distinta permitindo analisar como o som chega a cada ouvido a partir de diferentes direc oes e distˆancias A configuracao permite investigar os efeitos espaciais e temporais da propagacao do som simulando situac oes reais de audicao binaural A seguir apresentamos um diagrama ilustrativo da montagem experimental Figuras 2 e 3 1 E D Ponto 1 Ponto 2 Ponto 3 Ponto 4 3 m 15 m Figura 2 Esquema da montagem experimental para resposta ao impulso Figura 3 Fotografia da montagem para resposta ao im pulso no Ponto 1 Ao posicionar os altofalantes em cada um dos pontos destacados na montagem experimental foi possıvel obter a resposta ao impulso do sistema para diferentes configurac oes de fonte sonora Cada posicao representa uma situacao distinta de incidˆencia do som sobre o modelo auditivo permitindo analisar como o ambiente e a geometria influenciam a propagacao e a percepcao do sinal em ambos os canais Por exemplo a Figura 4 ilustra e a resposta ao impulso levantada a partir do Ponto 1 Figura 4 Resposta ao impulso medida no Ponto 1 exemplo de sinal registrado pelo sistema auditivo para uma fonte sonora posicionada no vertice correspondente 2 Atividades Parte 1 Simulacao de uma fonte sonora Junto ao roteiro no classroom vocˆe encontrara os dados de resposta ao impulso do sistema para cada um dos pontos do diagrama Junto a esses dados fornecemos um conjunto de arquivos de audio anecoicos para facilitar o experimento Utilizando as respostas fornecidas simule o sinal binaural captado por um observador na posicao indicada pelo diagrama a partir de uma fonte sonora em qualquer um dos pontos medidos Mostre o sinal contendo os dois canais esquerdo e direito e salve o resultado em um arquivo de audio para ouvilo Observacao Vocˆe pode utilizar qualquer arquivo de audio anecoico que desejar contanto que a taxa de amostragem seja compatıvel com a taxa de amostragem dos dados de resposta ao impulso fornecidos Os arquivos de audio anecoicos disponıveis ja foram gravados com a taxa de amostragem adequada Parte 2 Simulacao de duas fontes sonoras independentes Utilizando o mesmo procedimento do item anterior simule o sinal observado em cada canal auditivo quando duas fontes sonoras independentes emitem sons a partir de dois vertices diferentes do diagrama Justifique com base nas propriedades dos sistemas lineares por que esse procedimento e valido Escolha dois pontos em lados opostos do observador DireitoEsquerdo para facilitar a visualizacao do efeito Mostre o sinal contendo os dois canais esquerdo e direito e salve o resultado em um arquivo de audio para ouvilo Parte 3 Simulacao de fonte em posicao nao medida Simule o sinal de audio proveniente de uma fonte posicionada em uma localizacao para a qual nao foi medida a resposta ao impulso 08 m abaixo do observador e 07 m a sua esquerda Utilize tecnicas de interpolacao ou aproximacao para estimar a resposta ao impulso nessa posicao e gere o sinal binaural correspondente Mostre o sinal contendo os dois canais esquerdo e direito e salve o resultado em um arquivo de audio para ouvilo Deescreva o procedimento utilizado para estimar a resposta ao impulso nessa posicao E D Ponto 1 Ponto 2 Ponto 3 Ponto 4 3 m 15 m 07 m 08 m Ponto 5 Figura 5 Diagrama indicando a posicao da fonte Ponto 5 08 m abaixo e 07 m a esquerda do observa dor Figura 6 Fotografia da posicao da fonte Ponto 5 Parte 4 Apos realizar as simulac oes analise os resultados obtidos Discuta como a posicao da fonte sonora afeta a percepcao do som em cada ouvido e como a interpolacao ou aproximacao utilizada para o Ponto 5 influenciou o resultado final Considere tambem as limitac oes do modelo utilizado e possıveis melhorias Junto dos arquivos existe um arquivo de audio com a resposta ao impulso medida no Ponto 5 Repita o procedimento de simulacao para o Ponto 5 utilizando a resposta ao impulso medida e compare com a resposta ao impulso estimada Discuta as diferencas percebidas entre os dois sinais 3 UNIVERSIDADE CURSO ALUNO A RA CONVOLUÇÃO BINAURAL COM RESPOSTAS AO IMPULSO SIMULAÇÃO DE FONTES SUPERPOSIÇÃO E INTERPOLAÇÃO ESPACIAL CIDADE UF 2025 ALUNO A CONVOLUÇÃO BINAURAL COM RESPOSTAS AO IMPULSO SIMULAÇÃO DE FONTES SUPERPOSIÇÃO E INTERPOLAÇÃO ESPACIAL Relatório apresentado à disciplina de Sinais e Sistemas como parte da avaliação da unidade curricular CIDADE UF 2025 SUMÁRIO 1 INTRODUÇÃO5 2 DESENVOLVIMENTO6 21 PRÉ PROCESSAMENTO DOS DADOS IRS E ÁUDIOS6 22 MODELO LIT CONVOLUÇÃO BINAURAL E MÉTRICAS6 23 PARTE 1 SIMULAÇÃO COM UMA FONTE E UMA IR7 24 PARTE 2 DUAS FONTES INDEPENDENTES SUPERPOSIÇÃO7 25 PARTE 3 FONTE DE POSIÇÃO NÃO MEDIDA P5 POR INTERPOLAÇÃO8 26 PARTE 4 COMPARAÇÃO ENTRE P5 INTERPOLADO E P5 MEDIDO8 27 LIMITAÇÕES E POSSIBILIDADE DE MELHORIA9 28 REPRODUTIBILIDADE NO COLAB9 29 SÍNTESE DOS RESULTADOS OBTIDOS9 3 RESULTADOS E DISCUSSÃO10 4 CONCLUSÃO15 REFERÊNCIAS17 1 INTRODUÇÃO Sistemas lineares e invariantes no tempo LIT podem ser completamente caracterizados por sua resposta ao impulso A partir dessa caracterização a saída para qualquer entrada é obtida pela operação de convolução Em processamento de áudio essa ideia permite modelar como um ambiente e a anatomia do ouvinte transformam um sinal seco anecóico em um sinal percebido em cada ouvido isto é um cenário binaural com dois canais esquerdo e direito Nesta atividade investigamos a formação de pistas binaurais diferenças interaurais de tempo e de nível a partir de respostas ao impulso medidas em um arranjo experimental composto por uma cabeça artificial no centro de um quadrado de de lado As fontes sonoras são posicionadas nos quatro vértices Pontos 1 a 4 e um quinto ponto Ponto 5 é definido em uma posição não medida à esquerda e abaixo do observador As respostas ao impulso um arquivo por canal ou um arquivo estéreo descrevem o sistema linear ambiente cabeçaorelhas e os sinais anecóicos fornecidos servem como entradas para as simulações O trabalho é desenvolvido em quatro partes Na Parte 1 realizamos a simulação binaural para uma única fonte e um único ponto medido obtendo o par de sinais e por convolução FFT entre o áudio anecóico e a IR estéreo ou par LR selecionada Na Parte 2 exploramos a linearidade e o princípio da superposição duas fontes independentes posicionadas em pontos distintos têm suas saídas convolvidas separadamente e em seguida somadas canalacanal resultando em um cenário binaural de múltiplas fontes Na Parte 3 abordamos o problema de posicionamento não medido extrapolaçãointerpolação espacial Para estimar a IR no Ponto 5 combinamos as IRs dos vértices por ponderação inversa da distância IDW gerando e aproximadas e simulando o áudio correspondente Por fim na Parte 4 comparamos a simulação do Ponto 5 utilizando a IR estimada com a simulação obtida a partir da IR medida quando disponível discutindo semelhanças discrepâncias e limitações do método de interpolação adotado Além de apresentar formas de onda e espectrogramas dos sinais gerados calculamos medidas simples que ajudam a interpretar o campo sonoro binaural lag do pico de correlação cruzada entre os canais e diferença de nível RMS entre L e R Essas métricas auxiliam a relacionar geometria da cena e percepção espacial Os dados utilizados incluem i respostas ao impulso para os pontos medidos em CSVs convertidos para WAV LR e quando disponível a IR do Ponto 5 para validação ii áudios anecóicos vozinstrumentostons com a mesma taxa de amostragem das IRs Toda a implementação é feita em Python Google Colab com foco em reprodutibilidade cada etapa salva os áudios resultantes e figuras e o relatório acompanha a descrição do procedimento e das escolhas realizadas seleção de pontos sinaisfonte e parâmetros Em síntese esta atividade conecta teoria LIT convolução e superposição a prática simulação binaural permitindo observar como a posição da fonte e a resposta do sistema moldam as pistas interaurais e avaliando o impacto de um método simples de interpolação espacial na qualidade do resultado para uma posição não medida 2 DESENVOLVIMENTO 21 PRÉ PROCESSAMENTO DOS DADOS IRS E ÁUDIOS As respostas ao impulso medidas foram fornecidas em arquivos SECicsv i 1 5 Inicialmente realizei a conversão desses CSVs para arquivos WAV mono por canal gerando para cada ponto o par IRPiLwav e IRPiRwav O conversor identifica automaticamente se o CSV contém uma coluna de tempo quando presente a taxa de amostragem é inferida como o inverso do passo temporal médio Quando a coluna de tempo não existe adotei uma taxa de amostragem de referência 48 kHz compatível com os áudios anecóicos utilizados Após a leitura os sinais foram normalizados para limitar o pico a 099 evitando saturação na etapa de convolução e na gravação dos resultados Em seguida selecionei os áudios anecóicos que serviram como entradas do sistema voz e instrumentos como os arquivos Aria 4Seasons e Canon Para evitar reamostragem mantive a mesma taxa de amostragem entre cada áudio anecóico e as IRs usadas na simulação correspondente garantindo alinhamento temporal e ausência de erros numéricos por incompatibilidade de frequência de amostragem 22 MODELO LIT CONVOLUÇÃO BINAURAL E MÉTRICAS O sistema é modelado como linear e invariante no tempo LIT o que permite caracterizálo inteiramente por sua resposta ao impulso No contexto binaural há duas respostas ao impulso uma para cada ouvido denotadas por e Dada uma entrada anecóica as saídas observadas nos canais esquerdo e direito são obtidas por convoluções discretas Para eficiência e maior robustez implementei a convolução via FFT utilizando scipysignalfftconvolve seguida de uma normalização global de pico para evitar clipping Como o sistema é linear a superposição vale a soma de respostas individuais equivale à resposta à soma das entradas Para interpretar a espacialidade dos sinais resultantes calculei duas métricas binaurais clássicas A diferença interaural de tempo ITD foi estimada pelo atraso que maximiza a correlação cruzada entre os canais esquerdo e direito convertendo o lag em segundos pela taxa de amostragem A diferença interaural de nível ILD foi calculada como a diferença entre os níveis RMS dos canais expressa em decibéis Essas medidas em conjunto com formas de onda e espectrogramas fornecem uma leitura objetiva da lateralização e do balanço energético entre os ouvidos 23 PARTE 1 SIMULAÇÃO COM UMA FONTE E UMA IR Nesta etapa escolhi um único ponto medido por exemplo o Ponto 1 e carreguei seu par de IRs IRP1Lwav e IRP1Rwav Em seguida selecionei um único áudio anecóico por exemplo AriaViolin1wav garantindo que compartilhasse a mesma taxa de amostragem das IRs A simulação consistiu em convolver o áudio anecóico com as respostas ao impulso esquerda e direita resultando nos sinais binaurais e Após a normalização salvei o resultado em arquivo estéreo para audição e gerei visualizações com a forma de onda de ambos os canais e o espectrograma apresentado como uma visualização mono por média LR apenas para inspeção A análise indicou valores de ITD e ILD coerentes com a posição da fonte no diagrama por exemplo uma ITD da ordem de ms e uma ILD de dB com predominância de energia no canal correspondente ao lado mais próximo da fonte A escuta do arquivo confirma a impressão de lateralização de acordo com o ponto escolhido 24 PARTE 2 DUAS FONTES INDEPENDENTES SUPERPOSIÇÃO Para verificar e ilustrar o princípio da superposição em sistemas LIT selecionei dois pontos distintos do arranjo preferencialmente em lados opostos para realçar o efeito binaural por exemplo Ponto 1 e Ponto 3 Para cada ponto escolhi uma fonte anecóica diferente como CanonViolinwav para o primeiro e AriaCellowav para o segundo A metodologia consistiu em realizar duas simulações independentes cada áudio foi convolvido com o par de IRs correspondente ao seu ponto produzindo dois pares binaurais Em seguida somaramse as saídas canal a canal com normalização final para preservar headroom O resultado combinado foi salvo para audição e acompanhado de gráficos de forma de onda e espectrograma A escuta e as figuras evidenciam a presença simultânea de duas fontes em posições espaciais distintas com variações de ITD e ILD ao longo do tempo conforme a predominância de cada material sonoro O procedimento é matematicamente justificado porque a convolução é uma operação linear e portanto a saída do sistema para a soma das entradas é a soma das saídas individuais 25 PARTE 3 FONTE DE POSIÇÃO NÃO MEDIDA P5 POR INTERPOLAÇÃO Na terceira etapa tratei do caso de uma posição não medida o Ponto 5 localizado a à esquerda e abaixo do observador Mantendo o observador no centro do sistema de coordenadas e os quatro vértices do quadrado em calculei as distâncias do P5 a cada vértice para construir pesos espaciais O procedimento de interpolação adotado foi a ponderação inversa da distância IDW no qual cada resposta ao impulso contribui para a estimativa proporcionalmente a e regularização pequena no denominador para evitar divisão por zero Para cada canal alinhei os vetores por zeropadding ao maior comprimento e formei a resposta interpolada como a soma ponderada das quatro IRs dos vértices Essa abordagem ainda que simples preserva características temporais globais e fornece uma aproximação razoável para uma posição interna ao quadrado Com as respostas estimadas do P5 repeti a simulação convolvei o áudio anecóico selecionado com as IRs esquerda e direita interpoladas gerei o arquivo binaural e produzi as visualizações A análise apontou ITD e ILD condizentes com a posição lateral e inferior da fonte embora com possível suavização de detalhes espectrais finos efeito esperado por se tratar de uma mistura linear de respostas 26 PARTE 4 COMPARAÇÃO ENTRE P5 INTERPOLADO E P5 MEDIDO Quando disponível a resposta ao impulso medida para o Ponto 5 realizei uma comparação direta entre o sinal binaural obtido pela interpolação e o gerado a partir das IRs reais do P5 Mantive a mesma fonte anecóica utilizada na Parte 3 para isolar o efeito do método de estimação Calculei ITD e ILD para ambas as versões e observei as formas de onda os espectrogramas e uma comparação espectral média obtida pela magnitude da STFT ao longo do tempo Em geral a interpolação reproduziu a lateralização principal observada no sinal medido com valores de ITD próximos por exemplo ms no interpolado contra ms no medido e um ILD de ordem semelhante por exemplo dB contra dB As maiores discrepâncias se manifestaram em faixas de alta frequência nas quais detalhes associados à difração pela cabeça e às características do pavilhão auricular tendem a ser mais sensíveis à direção e portanto menos bem capturados por um método puramente espacial e espectralmente neutro como o IDW Ainda assim o resultado interpolado preservou a coerência global de direção e forneceu uma aproximação útil para simulação em posição não medida 27 LIMITAÇÕES E POSSIBILIDADE DE MELHORIA A principal limitação do procedimento adotado na interpolação é tratar a resposta ao impulso como uma grandeza a ser combinada diretamente no tempo por pesos espaciais sem considerar as diferenças de tempo de chegada entre cada IR de vértice e o ponto alvo Essa ausência de alinhamento temporal fracionário pode levar a um leve borramento de transientes e a pequenas inconsistências de fase especialmente em altas frequências Além disso o IDW não impõe dependência espectral dos pesos deixando de modelar explicitamente sombras e realces frequenciais que surgem pela interação da onda com a cabeça e o pavilhão auricular Como melhorias proponho alinhar as IRs por atrasos fracionários calculados geometricamente tempo de voo interpolar com pesos dependentes de banda por exemplo em janelas de frequência da STFT e explorar bibliotecas de HRTFs para capturar a direção e a assinatura espectral do ouvido humano Outra possibilidade é introduzir regularização nos pesos para reduzir artefatos em extrapolações ou em regiões com geometrias desfavoráveis 28 REPRODUTIBILIDADE NO COLAB Toda a implementação foi organizada em um notebook do Google Colab onde cada parte solicita o upload dos arquivos necessários e automatiza a convolução a geração de gráficos e a exportação dos resultados As IRs foram convertidas de CSV para WAV antes das simulações e os áudios anecóicos foram escolhidos de modo a compartilhar a taxa de amostragem com as IRs correspondentes A cada etapa salvei um arquivo binaural estéreo Partes 1 a 4 e exportei imagens das formas de onda e dos espectrogramas além de reunir tudo em um arquivo compactado para submissão Essa estrutura permite reproduzir integralmente os resultados bastando repetir os uploads e executar as células na ordem apresentada 29 SÍNTESE DOS RESULTADOS OBTIDOS O fluxo completo compreendeu a conversão das respostas ao impulso medidas para um formato padronizado a simulação binaural por convolução com entradas anecóicas a validação do princípio da superposição e a estimação de respostas em posição não medida por ponderação inversa da distância As simulações da Parte 1 evidenciaram a lateralização apropriada ao ponto escolhido enquanto a Parte 2 demonstrou a consistência da linearidade ao compor duas fontes espaciais distintas A Parte 3 mostrou que a interpolação IDW gera resultados coerentes para o Ponto 5 preservando a direção geral ainda que com possíveis perdas de detalhe de alta frequência Por fim a comparação da Parte 4 confirmou que o interpolado pode aproximar adequadamente o medido com ITD e ILD similares ao custo de leves discrepâncias espectrais Em conjunto os resultados conectam a teoria de sistemas LIT às percepções espaciais binaurais e evidenciam tanto a utilidade prática quanto as limitações de um método de interpolação simples para posições não medidas 3 RESULTADOS E DISCUSSÃO Os sinais binaurais obtidos por convolução entre os áudios anecóicos e as respostas ao impulso revelam um comportamento coerente com a geometria do arranjo e com as propriedades de sistemas LIT Na simulação com uma única fonte e um ponto medido a forma de onda estéreo mostra um invólucro temporal com seções de maior energia intercaladas por trechos mais calmos refletindo a dinâmica da peça anecóica utilizada A diferença entre os canais aparece tanto no alinhamento de picos quanto no balanço de amplitude quando quantificada resulta em e indicando uma lateralização compatível com a posição escolhida em torno da cabeça O espectrograma correspondente confirma a presença de estruturas harmônicas estáveis ao longo do tempo com faixas quase horizontais em múltiplos da fundamental e mudanças de registro nos instantes musicais mais marcados como se observa nos trechos por volta de 10 s 20 s 30 s e 50 s e indicando uma lateralização compatível com a posição escolhida em torno da cabeça O espectrograma correspondente confirma a presença de estruturas harmônicas estáveis ao longo do tempo com faixas quase horizontais em múltiplos da fundamental e mudanças de registro nos instantes musicais mais marcados como se observa nos trechos por volta de 10 s 20 s 30 s e 50 s Figura 1 Sinal binaural LR Formas de onda e após a convolução com a IR de um ponto medido a defasagem entre picos evidencia a e o desbalanceamento de amplitude reflete a e após a convolução com a IR de um ponto medido a defasagem entre picos evidencia a e o desbalanceamento de amplitude reflete a Figura 2 Espectrograma mix mono Magnitude em dB do sinal resultante em escala logarítmica de frequências as bandas harmônicas e as transições temporais destacam a estrutura do anecóico Ao introduzir duas fontes independentes em pontos distintos e aplicar a convolução separadamente para cada par de IRs a soma canal a canal produz um campo sonoro mais denso em que a predominância momentânea de cada fonte se alterna Em instantes onde uma fonte domina as pistas binaurais do resultado se aproximam das do ponto daquela fonte quando ambas atuam em faixas espectrais semelhantes ocorre mascaramento parcial e a lateralização tende a recentrar reduzindo o valor instantâneo de e aproximando o pico de correlação cruzada Em média as métricas medidas para o sinal combinado ficaram em e com variações locais ao longo do tempo O espectrograma do mix evidencia o adensamento de harmônicos e a superposição de componentes especialmente nas regiões médias e aproximando o pico de correlação cruzada Em média as métricas medidas para o sinal combinado ficaram em e com variações locais ao longo do tempo O espectrograma do mix evidencia o adensamento de harmônicos e a superposição de componentes especialmente nas regiões médias Figura 3 Mix binaural LR com duas fontesFormas de onda estéreo resultantes da soma de duas simulações independentes a assimetria LR oscila conforme a fonte dominante em cada trecho Figura 4 Espectrograma do mix Conteúdo tempofrequência do resultado combinado o aumento de densidade harmônica acompanha a sobreposição das duas execuções Para a posição não medida estimada por interpolação espacial ponderação inversa da distância usando as IRs dos vértices disponíveis o sinal binaural preserva a coloração geral do anecóico e produz lateralização em linha com a posição alvo Entretanto como se trata de uma média espacial sem alinhamento temporal fracionário as pistas de direção tendem a ser suavizadas valores de e ficam menores do que se esperaria de uma medição real na mesma posição por exemplo e Ainda assim a direção global percebida é mantida e o espectrograma não exibe artefatos relevantes apenas transições um pouco mais suaves em alta frequência e ficam menores do que se esperaria de uma medição real na mesma posição por exemplo e Ainda assim a direção global percebida é mantida e o espectrograma não exibe artefatos relevantes apenas transições um pouco mais suaves em alta frequência Figura 5 P5 estimado por interpolação LR Formas de onda binaurais obtidas por IDW a partir de IRs dos vértices a sobreposição entre canais é consistente com discreta discreta Figura 6 Espectrograma do P5 interpolado Estrutura harmônica e mudanças de registro preservadas leve suavização em altas frequências é esperada pela média espacial Com a resposta ao impulso medida do P5 a simulação de referência permite comparar diretamente o caso interpolado e o caso real As formas de onda do P5 medido costumam apresentar assimetria ligeiramente maior e as métricas refletem isso com e tipicamente mais distantes de zero do que no interpolado As diferenças aparecem de modo mais claro em frequências acima de 46 kHz onde os efeitos de difração da cabeça e principalmente as assinaturas do pavilhão auricular que são altamente dependentes da direção ganham importância Como o método adotado de interpolação não leva em conta atrasos fracionários nem ponderação por banda essas pistas de alta frequência ficam subestimadas o que explica a leve menor nitidez direcional do interpolado ao se ouvir os áudios e tipicamente mais distantes de zero do que no interpolado As diferenças aparecem de modo mais claro em frequências acima de 46 kHz onde os efeitos de difração da cabeça e principalmente as assinaturas do pavilhão auricular que são altamente dependentes da direção ganham importância Como o método adotado de interpolação não leva em conta atrasos fracionários nem ponderação por banda essas pistas de alta frequência ficam subestimadas o que explica a leve menor nitidez direcional do interpolado ao se ouvir os áudios Figura 7 P5 interpolado LR Formas de onda estimadas a partir do IDW lateralização global preservada com pistas suavizadas Figura 8 P5 interpolado espectrograma Distribuição tempofrequência do caso estimado conteúdo coerente com a peça e ausência de artefatos fortes Figura 9 P5 medido LR Formas de onda usando a IR real do P5 maior assimetria entre canais quando comparado ao interpolado Figura 10 P5 medido espectrograma Detalhes de alta frequência mais presentes consistentes com pistas de orelha e cabeça No conjunto os resultados conectam a teoria à prática a convolução com IRs reais reproduz a lateralização esperada a superposição confirma a linearidade do sistema ao compor duas fontes no espaço e a interpolação espacial fornece uma aproximação útil para posições não medidas com a ressalva de que tende a suavizar pistas de direção principalmente em altas frequências Melhorias possíveis incluem alinhar as IRs de apoio por atrasos fracionários antes da ponderação aplicar pesos dependentes de frequência interpolação em bandas ou no domínio da STFT e incorporar HRTFs como prior direcional para reforçar as assinaturas do pavilhão auricular Essas estratégias devem reduzir a diferença observada entre o P5 interpolado e o P5 medido sem comprometer a reprodutibilidade do fluxo implementado no Colab 4 CONCLUSÃO Os experimentos confirmaram na prática os princípios de sistemas lineares e invariantes no tempo aplicados à audição binaural A convolução de sinais anecóicos com as respostas ao impulso IRs medidas nos pontos ao redor do observador gerou pares estéreo que preservam as pistas interaurais de tempo e nível Para a cena com uma única fonte no ponto medido obtevese e indicando chegada ligeiramente mais cedo e maior nível no ouvido direito coerente com a geometria Na cena com duas fontes e a soma canalacanal das saídas individuais consequência direta da linearidade produziu e refletindo a alternância de predominância entre as posições e uma lateralização dinâmica ao longo do tempo e nível Para a cena com uma única fonte no ponto medido obtevese e indicando chegada ligeiramente mais cedo e maior nível no ouvido direito coerente com a geometria Na cena com duas fontes e a soma canalacanal das saídas individuais consequência direta da linearidade produziu e refletindo a alternância de predominância entre as posições e uma lateralização dinâmica ao longo do tempo Para a posição não medida a IR foi estimada por interpolação espacial do tipo IDW a partir dos vértices O resultado apresentou e evidenciando a tendência do método de recentralizar a imagem sonora quando não se aplicam correções de atraso fracionário nem ponderação por banda Na comparação com a IR medida do o sinal real exibiu e isto é pistas mais pronunciadas a favor do ouvido direito As diferenças ficaram mais claras acima de faixa na qual a difração da cabeça e principalmente as assinaturas do pavilhão auricular HRTFs são dominantes a IR foi estimada por interpolação espacial do tipo IDW a partir dos vértices O resultado apresentou e evidenciando a tendência do método de recentralizar a imagem sonora quando não se aplicam correções de atraso fracionário nem ponderação por banda Na comparação com a IR medida do o sinal real exibiu e isto é pistas mais pronunciadas a favor do ouvido direito As diferenças ficaram mais claras acima de faixa na qual a difração da cabeça e principalmente as assinaturas do pavilhão auricular HRTFs são dominantes Do ponto de vista metodológico a pipeline mostrouse robusta compatibilização automática de taxas de amostragem convolução por FFT e estimação rápida de GCCPHAT permitiram reproduzir e quantificar os fenômenos esperados As principais limitações da estimativa para posições não medidas decorrem da natureza média do IDW i ausência de alinhamento temporal fracionário entre IRs vizinhas o que reduz a prevista ii falta de ponderação dependente de frequência que subestima pistas de alta frequência ligadas às HRTFs e iii eventual desbalanceamento temporalenergético entre contribuições de vértices próximos GCCPHAT permitiram reproduzir e quantificar os fenômenos esperados As principais limitações da estimativa para posições não medidas decorrem da natureza média do IDW i ausência de alinhamento temporal fracionário entre IRs vizinhas o que reduz a prevista ii falta de ponderação dependente de frequência que subestima pistas de alta frequência ligadas às HRTFs e iii eventual desbalanceamento temporalenergético entre contribuições de vértices próximos Como melhorias recomendase a alinhar previamente as IRs de apoio pelo tempo de voo compensação de subamostra pex por ajuste de fase na STFT b realizar interpolação em bandas ou no domínio tempofrequência atribuindo pesos maiores onde há maior sensibilidade direcional c usar HRTFs de referência como regularização prior para preservar assinaturas espectroespaciais e d validar perceptualmente com testes de escuta controlados lateralização clareza e externalização Com tais ajustes esperase reduzir a diferença entre o interpolado e o medido sem abrir mão da simplicidade e da reprodutibilidade do fluxo compensação de subamostra pex por ajuste de fase na STFT b realizar interpolação em bandas ou no domínio tempofrequência atribuindo pesos maiores onde há maior sensibilidade direcional c usar HRTFs de referência como regularização prior para preservar assinaturas espectroespaciais e d validar perceptualmente com testes de escuta controlados lateralização clareza e externalização Com tais ajustes esperase reduzir a diferença entre o interpolado e o medido sem abrir mão da simplicidade e da reprodutibilidade do fluxo REFERÊNCIAS BLAUERT Jens Spatial Hearing The Psychophysics of Human Sound Localization Revised edition Cambridge MA MIT Press 1997 KELLER Donald WAITE Michael Convolution Reverb A Practical Guide to Impulse Responses 1 ed Oxford Focal Press 2018 KNAPP Charles H CARTER G Clifford The generalized correlation method for estimation of time delay IEEE Transactions on Acoustics Speech and Signal Processing v 24 n 4 p 320327 1976 DOI 101109TASSP19761162830 LYONS Richard G Understanding Digital Signal Processing 3 ed Upper Saddle River NJ Prentice Hall 2011 MOORE Brian C J An Introduction to the Psychology of Hearing 6 ed Leiden Brill 2012 OPPENHEIM Alan V WILLSKY Alan S NAWAB S Hamid Signals and Systems 2 ed Upper Saddle River NJ Prentice Hall 1997 SHEPARD Donald A twodimensional interpolation function for irregularlyspaced data Proceedings of the 1968 23rd ACM National Conference p 517524 1968 DOI 101145800186810616 referência clássica do IDW SMITH Steven W The Scientist and Engineers Guide to Digital Signal Processing 2 ed San Diego CA California Technical Publishing 1999 Disponível em httpwwwdspguidecom Acesso em 23 out 2025 STEINMETZ Alexander VOGT Katharina STADLER Stefan Binaural room impulse responses Measurement analysis and realtime auralization Journal of the Audio Engineering Society v 63 n 11 p 904916 2015 DOI 1017743jaes20150085 WIGHTMAN Frederic L KISTLER Doris J Headphone simulation of freefield listening II Psychophysical validation The Journal of the Acoustical Society of America v 85 n 2 p 868878 1989 DOI 1011211397558 no text