Попробую подкинуть гипотезу.

Наш слух, это достаточно точный прибор, позволяющий нам ориентироваться в пространстве. На "железном" уровне он меряет задержки достаточно точно для того, чтоб определять направление на источник звука, например. Да, там при расчётах учитывается так же разница в громкости и спектре, но и этот параметр, насколько я знаю, имеет значение.
Теперь, следите за руками: никто не играет в безэховой камере, при игре в аналог в реальный каб мы получаем достаточно много информации - прямой сигнал, отражения и переотражения от пола, в стен и потолка (если они есть) и окружающих предметов. Из этих данных мозг лепит непротиворечивую картину окружающего пространства, и сравнивает её с сигналами от остальных датчиков - зрение, ощущение вибрации, обратный контроль от пальцев. И тут дополнительная задержка от цифры - это данные, которые "ломают" целостность восприятия, и согласованность с остальными сенсорными каналами. Т.е. это не "я ударил, а оно прозвучало позже", а именно "что-то не так в картине реальности". И вот это "что-то не так" проявляется раньше, чем реальное ощущение рассинхрона.