Мне больше не нравится сам сигнал NAM, обычно в валидационной части он с NNM ерунду показывает почему-то, возможно из-за пауз.
там в файле 2_0_0 в конце тишина с одиночными импульсами для дополнительной проверки определения delay. Если валидацией отделять последнюю часть всего файла, то она дико бреше именно из-за этого куска с тишиной(в v1_0_0 эта тишина короче, но все равно достаточно длинная). Но нам никто не мешает валидацию нарезать так, чтобы выделить последний участок значимого сигнала, а эту тишину обрезать)
Отвлекаяь к предыдущей мысли, что в обучении не должно быть тишины. Вообще, думаю, что наличие небольших участков тишины в обучающей выборке не обязательно зло, т.е. да, на этих участках сетка видит шум исходного тракта, но при этом появляется информация, что на тишине входа должно быть тише и на выходе. И структура шума повторяется на тихих участках сигнала, т.е. в том числе появляется информация, которая поможет сетке обобщить полезнй сигнал и отдельно понять шум, влияние которого должно проявляться только на достаточно тихих участках и полностью исчезать на достаточно громких.
Вот сюда положил модельки NNM и NAM, обученные на одном и том же wav (v2_0_0 от NAM, при этом есть конвертация с 48kHz в 44.1kHz для NNM). Здесь несколько вариантов NNM (разные виды LOSS-функций) и несколько модифицированных NAM (WaveNet, сравнимые по нагрузке на CPU с моделями NNM. Само по себе сравнение нагрузки немного нечестное, т.к. нагрузку замерял просто в рипере на соответсвующих VST):
https://dropmefiles.com/DAuXk