ASA - oder wie wir hören

ASA …oder wie wir hören.

ASA oder Auditory Scene Analysis nennt sich die Wissenschaft die versucht zu ergründen, wie wir es schaffen eine „auditive Szene“ - also eine Umgebung mit mehreren Schallquellen (z. B. ein Konzert oder Menschen im Wohnzimmer, in der Straßenbahn oder eine Industriehalle oder wo auch immer) - akustisch zu „analysieren“.

Das Problem an sich – das Separieren der einzelnen Schallquellen aus dem an den Ohren ankommenden Schall – ist ja das Kernproblem des Hörens und betrifft letztendlich 95% dessen was wir hören – auch bei der Wiedergabe von Musik über eine HiFi-Anlage zu Hause.

Bevor wir Stimmen, Instrumente oder was auch immer an Schallquellen erkennen, lokalisieren oder gar analysieren können, müssen wir diese erstmal aus den beiden Summensignalen die an beiden Ohren ankommen, voneinander trennen – sie separieren.
Erst dann haben wir ja die nur zu einer Schallquelle gehörenden Informationen, aus denen wir dann den Ort, die Art, die Tonalität, den Klang und vieles mehr für diese eine Schallquelle analysieren können.
In meinem Audioclub-Artikel „Stereo = Separation“ habe ich das ja bereits ausführlicher erläutert und auch dessen Bedeutung für das Verständnis fast aller Höreindrücke.

Hier mal eine grafische Beispiel-Darstellung des "Problems" mit Spektrogrammen (Frequenzverteilung über der Zeit mit den Amplitudenwerten als Farben). Vögel auf einem Baum und eine Katze unten am Baum, die alle gleichzeitig Schall erzeugen und dem was dann an unsere Ohren gelangt - der audititiven Scene:

Aus dem was da an unsere Ohren gelangt - der auditiven Scene als Überlagerung der Schallverläufe der Vögel und der Katze - muss das Gehör also "analysieren" wieviele verschiedene Schallquellen enthalten sind, welche das sind, wo sie sind und sie dann weiter auswerten - also der umgekehrte Weg:

ASA beschäftigt sich jetzt mit den „Prinzipien“ mit denen das Gehör/Gehirn aus dem an den Ohren ankommenden Summensignalen (einer auditiven Szene) die Schallanteile jeder darin enthaltenen Schallquelle erkennt, sie separiert und sie fortlaufend „richtig“ zusammenfügt …oder eben auch nicht.

Die ASA Forschung hat anhand von Versuchen die Prinzipien ermittelt und es wurde versucht daraus Regeln abzuleiten. Vom Auditory Research Laboratory der McGill University gibt es auch eine sehr schöne CD mit ASA-Beispielen (und einem Booklet in dem alles ausführlich erläutert wird). Damit kann man einige der Versuche sehr schön selbst „erhören“ - sehr „lehrreich“.

Die Stücke und das Booklet findet man zum Download hier: http://webpages.mcgill.ca/staff/Group2/abregm1/web/downloadsdl.htm

Auf der Webseite Auditory Neuroscience gibt es auch einen sehr guten Teil über ASA, bei dem auch viel erklärt wird und mit guten Demo-Beispielen:

Scene Analysis | Auditory Neuroscience (https://auditoryneuroscience.com/scene-analysis)

Auf der Webseite von Al Bregman (http://webpages.mcgill.ca/staff/Group2/abregm1/web/index.htm) findet man auch jede Menge an Texten, Studien und Wissenschaftlichen Abhandlungen zu ASA.

Einen davon - 2004_Bregman_Woszczyk.pdf (http://webpages.mcgill.ca/staff/Group2/abregm1/web/pdf/2004_Bregman_Woszczyk.pdf) - habe ich in Auszügen mit Hilfe von Google Translations übersetzt.
Dieser Text gibt einen guten Überblick über die ASA-Prinzipien und damit zu dem wie wir „hören“.

Zum besseren Verständnis habe ich einige Begriffe und Sätze „modifiziert“ und nicht wort-wörtlich übernommen. Wissenschaftliche Texte und Begriffe sind – speziell im Englischen - nicht immer „einfach“ und wenden sich ja meist an andere Wissenschaftler die die entsprechenden Fachbegriffe, Termini und Zusammenhänge „kennen“.

Glossary:
Komponente = Bestandteile (im weitesten Sinne) des Schalls oder Schallanteils (auch einzelne mathematische/technische Merkmale z. B. Frequenzen, Harmonische, Spektrum, Onsets, Offsets, Hüllkurven, etc.).
Schallanteil = Der Anteil des an den Ohren ankommenden Schalls der zu einer Schallquelle gehört (oder als solcher definiert wird).

Kontrolle der Wahrnehmungsorganisation von Schall:
Leitlinien aus den Prinzipien der auditiven Szenenanalyse (ASA)

Albert S. Bregman und Wieslaw Woszczyk

Einleitung

In diesem Artikel präsentieren wir eine Theorie der Wahrnehmungsorganisation des Schalls und zeigen, wie dies für eine Vielzahl von praktischen alltäglichen (akustischen) Problemen gilt.
Speziell untersuchen wir die vielen subtilen Faktoren, die dazu beitragen, daß ein Schall anders als anderer Schall oder als Bestandteil eines anderen Schalls wahrgenommen wird.
Wir werden zeigen, wie entscheidend diese grundlegende menschliche Fähigkeit für das Verständnis unserer (akustischen) Umwelt ist.

Was ist Auditory Scene Analysis (ASA)?

In unserem Alltag gibt es in der Regel zu jeder Zeit viele Schallereignisse gleichzeitig. Die Wellenform, die jedes unserer beiden Ohren erreicht, ist tatsächlich die Summe der Wellen, die von den einzelnen Schallereignissen erzeugt wurden.
Dies bedeutet, dass das Trommelfell des Hörers einer komplexen Bewegung unterliegt, bei der die Beiträge der einzelnen Schallereignisse nicht voneinander getrennt (unterschieden) sind.
Doch das Ziel der Wahrnehmung in natürlichen Umgebungen ist es, Darstellungen der einzelnen Schallanteile zu bilden und durch sie Darstellungen der einzelnen (Schall-) Ereignisse - wie Explosionen, Schläge, Rascheln, Blasen, Klingeln, Oszillieren, etc. -, die sie geschaffen haben, zu erhalten.
Solche (Schall-) Ereignisse können wiederum aus natürlichen Schallquellen, wie Maschinen, menschlichen und tierischen Bewegungen und Vokalisationen oder Musikinstrumenten kommen - um nur einige zu nennen.Ziel der Wahrnehmung ist es, die akustischen Eigenschaften jedes einzelnen (Schall-) Ereignisses getrennt darzustellen, damit wir es erkennen (und analysieren) können.
Damit steht das auditive System vor dem Problem, die Druckwellen (den Schall), die unsere beiden Ohren erreichen, irgendwie zu „zerteilen“, um eine Anzahl von getrennten Darstellungen aufzubauen.
„Auditory Scene Analysis "(ASA) ist der Prozess, bei dem das Auditive System alle akustischen Komponenten, die zu jeder einzelnen Schallquelle gehören (können), über Frequenz und Zeit so zusammen zu gliedern, daß die Eigenschaften jeder dieser einzelnen Schallquellen erkannt und analysiert werden können – jede für sich (…unabhängig von den Eigenschaften der gleichzeitig vorhandenen anderen Schallquellen). Stellen Sie sich die Fehler vor, die auftreten können, wenn ASA nicht korrekt ausgeführt wurde.
Zuhörer könnten Silben hören, die von verschiedenen Sprechern gesprochen werden, als wären sie Teile eines einzigen Wortes; und die einzelnen Silben eines einzelnen gesprochenen Wortes könnten verschiedenen Sprechern zugeordnet werden.Außerdem können wir die Stimme einer Person nicht erkennen oder auch nicht ein Musikinstrument durch seine Klangfarbe.
Die Wahrnehmung von Klangfarben ist teilweise das Ergebnis der relativen Stärke der verschiedenen Spektralkomponenten von einem Ton.
Unterschiedlicher Hintergrundschall hat unterschiedliche Sätze von Frequenz-Komponenten. Wenn diese Hintergrundkomponenten mit den Komponenten der Stimme (oder des Instruments) in der Berechnung Ihrer Klangfarbe zusammengeführt wurden, würde sie sich ändern. Also, ohne ASA, würde die Klangfarbe einer Stimme oder eines Instruments vor jedem anderen Hintergrund unterschiedlich wahrgenommen werden. Während der Erfolg im alltäglichen Hören erfordert, dass die verschiedenen Umgebungsgeräusche als solche zu hören sind, gilt das Gleiche nicht immer in der Musik.
Musik ist Gehörfiktion, in der die Klänge von Stimmen oder Instrumenten kombiniert werden, um Klänge zu erzeugen, die so nie in der Natur erscheinen.
Das Ziel in der Musik ist es, (vorübergehend) den Klang und die Kontinuität einzelner Klangquellen zugunsten den sogenannten "Ensemble-Mischqualitäten", und zugunsten globaler Eigenschaften, die für das Ensemble und nicht für die einzelnen Klangerzeuger gelten, zu „verlieren“.
Wenn jeder Gitarrenstring als separater Klangerzeuger betrachtet wird, dann besitzt ein Akkord eine Ensemblequalität. Unterschiedliche Akkorde haben ihre eigenen holistischen Eigenschaften, die nicht die gleichen sind wie die Qualitäten der einzelnen Noten.
Andere Ensembles werden aus getrennten Instrumenten, die zusammen gespielt werden, oder einer Gruppe von Stimmen, die zur selben Zeit singen (eine Chorwirkung), gebildet.
Ein "Ensemble-Klang" kann aus einem Satz von Noten entstehen, die auf verschiedenen Instrumenten zusammengespielt werden, und diese Klangfarbe kann sich von den individuellen Klangfarben der Instrumente unterscheiden. Wenn eine Mischung von Noten zur Erzeugung von Akkorden oder Ensemble-Klangfarben gewünscht wird, kann die Kenntnis der ASA-Prinzipien dazu verwendet werden.
Da diese Prinzipien nicht in einer Alles-oder-Nichts Weise funktionieren, ist es möglich, Mischgrade zu erzielen, von total isoliert bis total vermischt. Man könnte meinen, daß es einfach wäre, die summierte Druckwelle (die unsere beiden Ohren erreicht) zu zerlegen, indem man sie einfach im Frequenzbereich (als einen Satz von Frequenzkomponenten) darstellt.
Als Beispiel ist in Figure 1 eine Mischung von natürlichen Geräuschen als Spektrogramm gezeigt (die gesprochenen Wörter „one, two, three“, der gesungene Text „da, da, da“, ein Pfeifen und das Geräusch eines Computer-Lüfters):

Die Zeit ist auf der x-Achse und die Frequenz ist auf der y-Achse dargestellt, wobei die Dunkelheit an jedem Punkt (xi, yi) die Energiemenge zu dieser Zeit und Frequenz darstellt.
Die Identifizierung einer einzelnen Quelle wird durch die Tatsache erschwert, dass ihre spektralen Komponenten nicht notwendigerweise einen bestimmten Teil des Spektrums einnehmen, sondern über einen breiten Spektralbereich verteilt sein können.Somit können die Komponenten, die von separaten Umgebungsereignissen (Schallquellen) kommen, in der Frequenz überlagert sein.
Aus dem gleichen Grund kann die Gesamtenergie in jedem der engen Frequenzbänder, deren Energie in dem Spektrogramm aufgetragen ist, die Summe der Energie von zwei oder mehr Schallquellen sein.

Die zwei Arten der Wahrnehmungs-Organisation: Simultan oder Sequentiell.

In unserem Alltag ist die Rolle von ASA, (Schall-)Komponenten, die entweder simultan (gleichzeitig) oder sequentiell (zeitlich aufeinanderfolgend) sind, so zu gruppieren daß die Mustererkennungs-Prozesse im Gehirn jede dieser Komponenten leichter erkennen kann.
Wenn zum Beispiel zwei Menschen gleichzeitig sprechen, ist die Gruppierung der zu einem bestimmten Zeitpunkt vorhandenen Komponenten in zwei wahrgenommene Representationen, die jeweils eine einzelne Stimme darstellen mit jeweils ihren eigenen Tonhöhen und Klangfarben, eine Simultane Gruppierung.
Im Gegensatz dazu ist die Gruppierung der Komponenten einer dieser zwei Stimmen über der Zeit eine Sequentielle Gruppierung. Im natürlich vorkommenden Schall gibt es allerdings nicht ausschließlich die reinen Fälle des einen oder des anderen. Die Komponenten in den meisten von dem, was wir hören, überlappen sich teilweise in der Zeit und da auch nicht vollständig.

Simultane Gruppierung und Integration (Fusion) ist der Standard.

Die erste allgemeine Beobachtung über die Segregation (Aufspaltung/Separation) von Schall oder dessen Komponenten ist die, daß die Integration (Fusion) bevorzugt wird.
Ein Beispiel verdeutlicht dies: Wenn Sie solange auf das Spektrogramm von Figure 1 schauen (starren), bis die Details verschwinden, scheint das Bild ein undifferenziertes Ganzes zu werden (Integration der „Details“ zum undifferenzierten Ganzen).

Erst wenn die Einzelheiten des Signals dem Hörsystem einen Grund geben, Teile davon zu trennen, wird dies geschehen.
Daher wird jede Transformation des Signals, das die Einzelheiten verwischt, die Integration des Signals begünstigen.

Simultane Gruppierung

Harmonische Beziehungen (Prinzip der Harmonizität)

Lassen Sie uns zunächst die Organisation der akustischen Komponenten betrachten, die zur gleichen Zeit im Schall sind.

Wir beginnen mit dem Prinzip der Harmonizität.
Eine der wichtigsten Methoden die ASA verwendet, gilt nur für Töne mit periodischen Wellenformen, wie z. B. der menschlichen Stimme oder dem Klang einer Geige.
Bei solchen Tönen sind die Frequenzkomponenten alles Harmonische (ganzzahlige Vielfache) der Grundfrequenz (F0). Es ist diese F0, die die Tonhöhe des Klangs liefert. Daher ist es eine nützliche Strategie für ASA, alle Frequenzkomponenten zu finden die (ganzzahlige) Vielfache einer Frequenz sind, und diese Menge vom Rest des Schalls zu trennen. Dadurch erst verschmelzen die jeweils gefundenen Harmonischen mit dem (zugehörigen) Grundton dann zu einem Klang mit eigener Tonhöhe.

Am Gegenbeispiel wird dies deutlich. Wenn zum Beispiel eine einzelne Harmonische allmählich vom zugehörigen Grundton in der Reihe „verstimmt“ wird, wird sie allmählich als separater (reiner) Ton hörbar.

Audiobeispiel 18 auf der CD-ROM gibt ein Beispiel dafür.
Sie hören die dritte Harmonische eines komplexen Tons. Zuerst wird dieser allein gespielt. Dann, über eine Reihe von Wiederholungen, bleibt der Grundton konstant, während der Rest der Komponenten (seine Harmonischen) als eigene Gruppe allmählich in Schritten von einem Prozent abgesenkt wird. Man kann gut merken ab wann zwei getrennt Töne hörbar werden. Nun, nach zwei weiteren Durchgängen der Komponente alleine, werden die anderen „Teiltöne“ des komplexen Tons in Schritten von einem Prozent erhöht, bis die eine Komponente ihre Identität verliert und wieder Teil des komplexen Tones ist.

Es kann mehr als eine Harmonieserie gleichzeitig vom ASA-System gefunden und vom Rest des ankommenden Schalls isoliert werden. Ansonsten wären wir nicht in der Lage, zwei oder mehr Stimmen zur gleichen Zeit zu hören, jede mit ihrer eigenen momentanen Tonhöhe. Diese Basis für die Gruppierung wird das „Prinzip der Harmonizität“ genannt.

Zusatzlich zur Integration und Segregation (Auftrennung) der Oberschwingungen eines Tons spielen harmonische Verhältnisse eine Rolle, wenn zwei Töne (gleichzeitig) im Schallsignal vorhanden sind (Org.: gleichzeitig gespielt werden).

Wenn die Grund-Harmonischen der zwei Töne in einem einfachen Verhältnis wie 2:1, 3:2 oder 4:3 liegen, gibt es zwei Ergebnisse:
- Die Töne fügen sich zusammen, weil sie viele Harmonische teilen (Integration).
- Das scheint den Prozess der Segregation (Auftrennung) zu stören.
Auch klingen die Töne eher konsonant als dissonant.

Wenn die Grund-Harmonischen nicht in einem einfachen Verhältnis sind, überlagern sich viele Harmonische beider Töne versetzt zueinander, was zu einer wahrgenommenen "Rauheit" oder Dissonanz führt und die beiden Töne stimmen nicht sehr gut überein.

Dieses Beispiel zeigt, wie die von ASA verwendeten Prinzipien (bekannte) Regelmäßigkeiten aus der Natur ausnutzen. Zum Beispiel ist es in der Natur sehr wahrscheinlich, dass ein Satz von Frequenzkomponenten, die alle (geradzahlige) Vielfache einer einzigen Grundfrequenz sind, von einer einzigen Quelle stammen.
Es ist auch äußerst unwahrscheinlich, daß diese harmonische Beziehung ein zufälliges Ereignis in der Natur ist (außer in der Musik).
In ähnlicher Weise, kann man sagen, daß wenn zwei Sätze von Frequenzkomponenten im Schall erkannt werden, die sich jeweils auf getrennte Grund-Harmonischen beziehen, die Chancen ziemlich gut sind, daß zwei periodische Klänge vorhanden sind.

Durch die Gruppierung der Komponenten nach den wahrscheinlichsten Ursachen ihres beobachteten Musters nutzt ASA diese Regelmäßigkeiten der Natur.

In der Tat ist es wahrscheinlich, dass alle ASA-Prinzipien der Gruppierung Vorteile aus Beziehungen nutzen, die dazu neigen, vorhanden zu sein, wenn ein Satz von akustischen Komponenten Teil des gleichen Schallsignals sind. Wir nennen dies das Prinzip der "ökologischen Validität" in ASA.

Andere Faktoren, die die Simultane Gruppierung beeinflussen

Abgesehen von der Harmonizität, gibt es andere akustische Komponenten, die Einfluss auf die Gruppierung oder Integration haben:

Onset und Offset-Asynchronität.
Akustische Komponenten eines Schallanteils neigen dazu zusammen zu starten und zu stoppen. Asynchronitäten von wenigen Millisekunden in den Onsets und Offsets der akustischen Komponenten werden als Indiz dafür genommen, daß diese Komponenten zu verschiedenen Quellen gehören – je größer die Asynchronität, desto stärker die Indizien. Es ist wahrscheinlich, dass diese Asynchronität es dem auditorischen System erlaubt, den Direktschall vom reflektierten Schall der Quelle zu trennen. Raumreflexionen und Nachhall werden mit einer Verzögerung erwartet.

Hüllkurven-Unterschiede.
Wenn die Amplitudenhüllkurven der akustischen Komponenten (D.h. Fluktuationen in der Intensität) nicht synchron sind, ist dies ein Beweis dafür, dass diese akustischen Komponenten von Klängen sind, die durch verschiedene Quellen entstanden.
Wenn die Hüllkurven synchron sind, werden diese akustischen Komponenten als Teile desselben Schallanteils behandelt. (Es ist möglich, dass die Bergriffe "Onset und Offset-Asynchronität" und "Hüllkurven-Unterschiede" sich auf das gleiche Prinzip reduzieren lassen, da ein Onset oder ein Offset einfach auch als Änderung der Amplitudenhüllkurve betrachtet werden kann.)

Räumliche Trennung.
Treffen akustische Komponenten aus unterschiedlicher Raumrichtung ein, begünstigt dies ihre Segregation (Auftrennung) in Schallanteile, die von getrennten Quellen produziert wurden.

Spektrale Trennung.
Die Frequenztrennung und -gruppierung von spektralen Komponenten beeinflusst die Segregation (Auftrennung).
Wenn zum Beispiel zwei spektral begrenzte Rausch-Bänder gleichzeitig gespielt werden, und wenn sie im Spektrum weit auseinander sind, mit einer spektralen Lücke zwischen ihnen (Abwesenheit von Frequenz-Komponenten), werden sie wie zwei gleichzeitig vorhandene aber separate Schallanteile wahrgenommen. Während, wenn es keine spektrale Lücke gibt, werden sie wie ein einziger Schallanteil wahrgenommen.

Eine gewichtete (nicht notwendigerweise lineare) Kombination dieser Merkmale bildet die Wahrnehmungsgrundlage für Simultane Gruppierung und Segregation (Auftrennung) von Schall in Schallanteile. Während mehrere analytische Prozesse gleichzeitig im Einsatz sind, haben nicht alle wahrgenommenen Merkmale (der Schallanteile) dieselbe Gewichtung.
Robuste Merkmale dominieren über weniger „leistungsfähigen“.
Das ist nützlich, weil kein einziges Merkmal absolut (unfehlbar/eindeutig) sein kann.
Hier einige Beispiele:

Unterschiede bei der räumlichen Trennung sind nutzlos, wenn die Schallanteile durch mehrere unabhängige Ereignisse verursacht wurden, deren Quellen z. B. hinter einer Ecke sind.
Die Strategie, eine oder mehrere Harmonische in einem Spektrum zu finden, gilt nur für Klänge, die periodische Wellenformen haben. Viele Klänge, wie jene von Schritten, Maschinen, „kratzende“ Klänge, Türen knallen, Tastaturen klicken etc. sind nicht periodisch.
Feine Details über die Asynchronität von Onsets verschiedener Töne und die Unterschiede ihrer Amplitudenhüllkurven werden in halligen Umgebungen verwaschen.

Sequenzielle Gruppierung (Streaming)

Bestimmte ASA-Prinzipien gruppieren Schallanteile über der Zeit zusammen zu einer Sequenz und andere Schallanteile als zu anderen Sequenzen zugehörig.
Die erkannten Sequenzen, deren Teile eine einzelne Wahrnehmungsinstanz bilden (ein Instrument, eine Stimme etc.), werden als "auditive Streams" bezeichnet.
Neue ankommende Schallanteile werden entweder bestehenden auditiven Streams zugewiesen oder sie bilden einen neuen auditiven Stream.

Jeder auditive Stream hat seine eigenen (globalen) Eigenschaften, wie z. B. Melodie und Rhythmus, abgeleitet aus der Mustererkennung der Schallanteile, die diesem auditiven Stream zugeordnet sind; aber nicht aus Schallanteilen, die anderen auditiven Streams zugewiesen sind.

Beispiel:

Ein Beispiel der Bildung auditiven Streams findet sich im sog. "Streaming"-Phänomen, in dem die wahrgenommene Reihenfolge der Schallereignisse nicht Ihrer tatsächlichen physischen Anordnung entspricht.

Eine schnelle Folge von Tönen kann so klingen als ob es zwei parallele Abläufe wären.

Das Beispiel besteht aus dem Wiederholungs-Zyklus eines hohen Tons (H) und eines tiefen Tons (L), bei dem der hohe und der tiefe Ton alternierend in einem galoppierenden Rhythmus auftreten (z. B. HLH-HLH-HLH -...), wobei der Bindestrich eine Stille darstellt, die gleich lang ist wie ein einzelner Ton.
In Figure 2, Panel A ist der Beispielzyklus grafisch dargestellt.

Bei einem moderaten Frequenzabstand zwischen hohen und tiefen Tönen, und wenn der Zyklus langsam wiedergegeben wird, wird die aktuelle Sequenz als eine zusammengehörige Melodie gehört – alle erkannten Schallanteile werden zu einem auditiven Stream zusammengefasst.
Wird der Zyklus dann immer schneller gespielt, bricht er in zwei verschiedenen Zyklen auf; in einen der hohen Töne (H-H-H-H-H-...) und in einen anderen der tiefen Töne die sich zudem mit einer langsameren Rate wiederholen (L --- L --- L ---). Die erkannten Schallanteile werden auf zwei separate auditive Streams aufgeteilt, die jeweils ihre eigenen Eigenschaften haben (im Beispiel jeweils Melodie und Rythmus unterschiedlich).

Diese Segregation (Auftrennung) in auditive Streams ist "Streaming".
Die Aufmerksamkeit des Hörers wechselt von einem Zyklus zum anderen, kann aber die zeitliche Beziehung zwischen beiden nicht genau erkennen.

Der Streaming-Effekt wird (bezogen auf das o. a. Beipiel) wie folgt erklärt:
Zwischen zwei beliebigen nicht gleichzeitigen Tönen A und B kann der Abstand d (oder die Differenz) einiger ihrer physischen Eigenschaften als gewichtetes (nicht unbedingt lineares) Auswahlkriterium für die Separation angesehen werden.

Niedrige Werte von d favorisieren die Integration (Zusammenfassung) von A und B in eine einzige Sequenz (einen auditiven Stream), während hohe Werte von d ihre Segregation (Auftrennung in zwei auditive Streams) favorisieren.

In dem in Figure 2 gezeigten Beispiel sind zwei physische Eigenschaften beteiligt: Frequenz und Zeit, die jeweils d beeinflussen (Frequenz-Abstand, zeitlicher Abstand zwischen den Tönen gleicher und unterschiedlicher Frequenz – siehe folgendes Bild zur Erklärung von d).

Bei der langsameren Geschwindigkeit (Figure 2, Tafel C), wenn wir die benachbarten hohen und tiefe Töne betrachten, ist d zwischen ihnen - grob proportional zu ihrer räumlichen Trennung im Bild - kleiner als das d zwischen dem nächsten Ton der gleichen Frequenz. Daher werden in der Wahrnehmung die benachbarten hohen und tiefen Töne verbunden, und wir hören die Töne als zusammengehörige Sequenz (als einen auditiven Stream).
Die Beschleunigung der Sequenz (Figure 2, Panel D) verringert die zeitlichen Abstände, während die Frequenztrennung unverändert bleibt. Nun ist der Abstand d mit dem kleinsten Wert, nicht mehr der von einem hohen Ton zum nächsten (tiefen) Ton in der gesamten Folge, sondern der zu dem Ton, der die gleiche Frequenz hat. Daher werden jetzt diese Töne verbunden (hohe mit hohen und tiefe mit tiefen) und es werden zwei getrennte auditive Streams gebildet.

Dieses Beispiel veranschaulicht zwei wichtige Faktoren für die sequentielle Gruppierung:

Frequenztrennung.
Je weiter die Töne in ihrer Frequenz voneinander entfernt sind, desto größer ist ihre Neigung zur Segregation (Auftrennung).
Zeitliche Trennung.
Lange Zeit wurde geglaubt, dass das Beschleunigen einer Sequenz seine Segregation erhöht, indem es die Onset-Abstände der Töne in der Sequenz verringert und der Rhythmus beschleunigt wird.
Es wurde jedoch gezeigt, dass die Geschwindigkeit durch Verkürzung der Zeitlücke zwischen dem Ende eines Tons und dem Beginn des nächsten verkürzt wird. Angenommen, wir haben eine Folge von wechselnden hohen und tiefen Tönen, in denen die Onset-Abstände der Töne (der Rhythmus) konstant gehalten wird, aber die Frequenztrennung von hohen und tiefen Tönen klein genug ist, daß die hohen und tiefen Töne keine getrennten auditive Streams bilden. Wenn wir nun jede Tondauer verlängern, wodurch die Zeitlücke zwischen ihm und dem nächsten Ton verringert wird, ohne den Rhythmus zu verlangsamen, gibt es eine erhöhte Tendenz, die Sequenz in zwei auditive Streams zu trennen, weil die Verlängerung (der Tondauer) die Offset- zu Onset Abstände von Tönen im selben Frequenzbereich verringert, wodurch deren Beitrag des zeitlichen Abstands zu d verringert wird, was zur Folge hat, daß der Anteil der Frequenzabstände an d nicht mehr dominiert.
Dies ist wichtig für das Verständnis der Auswirkungen des Nachhalls.

Während die in Figure 2 gezeigten Unterschiede jene von Zeit und Frequenz sind, gibt es andere akustische Eigenschaften, die zu d beitragen und infolgedessen Einfluss auf die Gruppierung der Schallanteile in einer Sequenz haben.

Unterschiede in der Grundfrequenz (F0).
Komplexe Schallsignale, wie zum Beispiel die menschliche Stimme oder die einer Violine, haben viele Harmonische, die alle Vielfache einer Grundfrequenz sind. Die Grundfrequenz (F0), egal ob sie tatsächlich im Schall vorhanden ist oder fehlt, bestimmt die Tonhöhe. Je weiter die Grundfrequenzen zweier Töne (und folglich ihre Tonhöhen) voneinander entfernt sind, desto mehr werden sie in einer Sequenz getrennt.
Unterschiede in den Formen des Spektrums (z.B. der Anordnung der Peaks im Spektrum).
Unterschiede in den Raumwinkeln aus dem die Schallanteile kommen. Ähnliche Schallanteile werden sich zunehmend voneinander trennen wenn die Richtung aus der sie ankommen größer wird.
Unterschiede in den Mittenfrequenzen; Zum Beispiel, bei Bandpaßgefilterten Geräuschen.

Andere Faktoren, die schwächere, aber durchaus reale Wirkungen erzeugen, sind:

Unterschiede in der Intensität.
Dieser Effekt ist nicht symmetrisch. Wenn Schallanteile von unterschiedlicher Intensität sind, sind die lauteren leicht isoliert zu hören, aber nicht die leiseren. Die lauteren tendieren dazu, die leiseren durch sequenzielle Maskierung zu verdecken (Tendenz daß ein leiserer Schallanteil von einem lauteren verdeckt wird, der entweder direkt vor ihm ("Vorwärtsmaskierung") oder direkt danach ("Rückwärtsmaskierung") kommt.
Unterschiede in den Anstiegszeiten. (Zeit vom Beginn bis zur maximalen Intensität) der Schallanteile.
Unterschiede in der „Reinheit“ der Töne. Reine Töne segregieren von gefilterten Tonbursts, die die gleiche Mittenfrequenz haben.
Die „Plötzlichkeit“ der Änderung zwischen einem Ton und dem nächsten beeinflusst auch Ihre Gruppierung. In einer Sequenz, in der Hoch- und Tief-frequente Töne alternierend wechseln wird die Sequenz als ein auditiver Stream wahrgenommen, wenn aufeinanderfolgende Töne mit Übergängen verbunden sind.
Wir können dieses Prinzip für den allgemeineren Fall definieren: Wobei va der Vektor der Eigenschaften des Schalls A ist und vb der Vektor der Eigenschaften des Schalls B ist. Wenn der Übergang zwischen A und B einen allmählichen Übergang zwischen va und vb beinhaltet (d. H. Interpolation von Werten), wird dies das Hören von A und B als Teile desselben auditiven Streams favorisieren.

11. Ein Wettbewerb in Bezug auf d (der Abstand oder die Differenz einiger physikalischer Eigenschaften des Schallanteils – s. o.) findet in der Bildung von kohärenten auditiven Streams statt. ASA vergleicht alternative Gruppierungen die jedes d innerhalb eines auditiven Streams minimieren und setzt sich mit ihnen auseinander. So ist es möglich, dass Töne A und B in denselben auditiven Stream gruppiert werden, wenn keine bessere Gruppierung zur Verfügung steht.
Allerdings, wenn z. B. Töne C und D zu der Sequenz addiert werden(wobei C sehr ähnlich zu A ist und D sehr ähnlich zu B ist) kann Ton A mit C in einen auditiven Stream und B mit D in einen anderen auditiven Stream gruppiert werden.
Das bedeutet, dass es nicht der absolute "Abstand" (oder Differenz) zwischen A und B bei den physikalischen Eigenschaften ist, die die Bildung eines auditiven Streams bestimmt, sondern die Größe des A-B-Abstandes relativ zu anderen Abständen.

12. Gruppierung zeigt kumulative Effekte: Gruppierung wird dominierend wenn die „Indizien“ im Laufe der Zeit andauern. Zum Beispiel werden die ersten paar Zyklen der Tonfolge von Figure 2 gewöhnlich als ein einzelner auditiver Strom gehört. Dann, mit mehr Wiederholungen, kann der Zyklus in auditive Ströme mit hohen und tiefen Tönen getrennt werden. Die Akkumulation der Indizien, dass es Töne in zwei getrennten Frequenzbereichen sind wird mindestens vier Sekunden dauern. Und nach Ablauf der Sequenz kann es mindestens vier Sekunden dauern bis diese „Voreingenommenheit“ verschwindet (diese Zeitdauern sind grobe Approximationen die zwischen Hörern und Klangarten variieren können).

Es scheint, dass zwei Stufen der Gruppierung stattfinden:
Die erste Stufe ist die Gruppierung der akustischen Merkmale in Klangfarben, Tonhöhen, Ereignis-Dauer und räumliche Position.
Die zweite Stufe ist die Gruppierung dieser Wahrnehmungs-Eigenschaften in zeitlich separate Quellen und eine separate Darstellung ihrer Merkmale.
Diese zweite Gruppierung kann in einem größeren Zeitfenster arbeiten, da einzelne Eigenschaften möglicherweise nicht genug Informationen bieten, um ein „robustes“ Bild der Quelle und ihren Merkmalen zu erzeugen.Es gibt eine ökologische Grundlage für die Gruppierung von Schallanteilen in einer Sequenz entsprechend ihrer relativen Ähnlichkeit und der Form ihrer Veränderungen: Physikalische Gegenstände wechselwirken und erzeugen damit Geräusche (durch Stöße, kratzen, Oszillation, etc.) Die Eigenschaften dieser physischen Objekte neigen meist dazu, sich relativ langsam und kontinuierlich zu verändern. Die bedingt, daß auch der Schall den sie erzeugen sich in gleicher Weise verändern wird (mit "langsam" meinen wir Sekunde).

Anmerkung:
Beachten Sie, dass Faktoren 4, 6, 8 und 9 den „Klang“ (das "Timbre") der Töne beeinflussen. Allerdings bevorzugen wir zu einem Zeitpunkt Stream Segregation auf Basis der spezifischen physischen Ursachen, anstatt auf das allgemeine Konzept der Klangfarben-Gruppierung zu setzten, da Klang ein schlecht definiertes Konzept ist. In jedem Fall ist die Klangfarbe ein Wahrnehmungsergebnis, nicht eine physische Ursache. Es kann einfach ein paralleles Ergebnis von der physischen Ursache sein und nicht eine Ursache der Gruppierung an sich.
Auch Faktor 3 bezieht sich eher auf die physische Ursache Grundfrequenz (F0) als auf das Wahrnehmungsergebnis Tonhöhe als eine der Ursachen der Gruppierung - und das obwohl unterschiedliche Grundfrequenzen unterschiedliche Tonhöhen ergeben. Auch hier gilt, daß das Wahrnehmungsergebnis Tonhöhe nicht eine Ursache der Gruppierung sein kann, sondern nur eine andere Wahrnehmungswirkung der Grundfrequenz (F0).

Wettbewerb zwischen Simultaner und Sequenzieller Gruppierung

Die ASA-Prinzipien der simultanen und sequenziellen Gruppierung wechselwirken beispielsweise dann, wenn ein reiner Ton A schnell mit einem komplexen Ton B der mehrere Harmonische aufweist, wechselt.
Wenn die Frequenz von A der Frequenz von einer der niedrigen Harmonischen (A') des Tons B nahe liegt oder gar übereinstimmt, kann der Zuhörer anstelle eines schnellen Wechsels von A und B eine schnelle Folge von reinen Tönen A hören -A'-A-A'-A-A '... begleitet von einer langsameren Sequenz B'-B'-B', wobei B' der komplexe Ton B mit entferntem A' ist. Der Effekt wird stärker, wenn die Pause (der stille Zwischenraum) zwischen A und B kürzer gemacht wird. Dieser Effekt – mit der Zeitlücke zwischen Tönen ähnlicher Frequenz - ist der gleiche wie derjenige, der bei der sequentiellen Gruppierung auditiver Streams beobachtet wird. Somit kann die Erfassung von A' durch A am besten als Effekt sequentieller Gruppierung angesehen wird.
Dies ist dann ein Fall, in dem die sequentielle und die simultane Gruppierung miteinander konkurrieren. A' wird entweder Teil einer sequentiellen Gruppierung von reinen Tönen A-A'-A-A' oder er wird Teil von Ton B, und beeinflusst den Klang von B.
Welche Zuteilung von A' tatsächlich eintritt, wird durch die relative Stärke der Faktoren bestimmt, die die sequentielle und simultane Gruppierung begünstigen (die wir weiter oben erörtert haben).
Da es sich bei Schall eher um Überlagerungen von Schallanteilen handelt als um rein simultane oder rein sequenzielle Schallanteile, handelt es sich in den meisten Fällen der akustischen Wahrnehmung um eine Konkurrenz um Komponenten: Ist ein Set von Komponenten Bestandteil einer neuen Sequenz oder sind sie nur eine Untermenge der simultanen Komponenten, die einen bereits laufenden auditiven Stream bilden?

Die Alte-Plus-Neue Heuristik.

Es gibt ein interessantes Phänomen in der akustischen Wahrnehmung, das man „scheinbare Kontinuität“ nennt. Auf der CD-ROM ist eine der vielen Formen, die es annehmen kann (Audiobeispiel 3, Demonstration 34): Ein kurzes Rauschen (B) mit Frequenzen von 0 bis 2000Hz, abwechselnd mit einem längeren Rauschen (A), das nur die tiefen Frequenzen von B enthält.
Das Rauschen A wird während des Rauschens B wahrgenommen, da die Frequenzen von A mit den tiefen von B zu einem kontinuierlichen tiefen Rauschen und die hohen Komponenten von B als ein intermittierendes hohes Rauschen gehört werden. Dieses intermittierende hohe Rauschen ist der „Rest“, der gruppiert wird, wenn die unteren Frequenzen von B erfasst werden. In der Wahrnehmung ist B in zwei Teile zerlegt worden: Sein tiefer Teil ist mit A gruppiert worden, um einen ungebrochenen auditiven Stream zu bilden, während sein höherer Teil einen getrennten höheren Schallanteil gebildet hat.
In ähnlicher Weise können die hohen Frequenzen von B durch ein hohes Rauschen erfasst werden, was ein tieferes Rauschen als Rest ergibt. Im Audiobeispiel 3 werden diese beiden Fälle abwechselnd zweimal präsentiert.
Beachten Sie, dass B in beiden Fällen physisch identisch ist.

Ein anderes Beispiel ist der fortlaufende Wechsel eines langen, weichen, Tons mit einem kurzen, lauten Rauschen. Der Ton scheint während des lauten Rauschens fortzufahren, auch wenn er physisch nicht vorhanden ist.
Diese "scheinbare Kontinuität" tritt jedoch nur dann auf, wenn das Rauschen Frequenzkomponenten um die Frequenz des Tons herum enthält. Es wurde festgestellt, dass es ein ASA-Prinzip ist - die so genannte "Alt-plus-Neu Heuristik" -, die für diese Beispiele der „scheinbaren Kontinuität“ verantwortlich ist.
Es läßt sich wie folgt formulieren: Wenn ein Spektrum plötzlich komplexer wird, ist zu bestimmen, ob die der Veränderung vorausgegangenen Komponenten des Schallanteils noch vorhanden sind. Wenn ja, werden diese Komponenten als Fortsetzung des vorherigen Schallanteils behandelt. Der Rest des Spektrums wird als neu hinzugefügter Schallanteil behandelt. Wenn der alte Schallanteil nach der Veränderung wieder auftritt, dient er dazu, die Entscheidung zu bestätigen und damit den Effekt zu verstärken. Diese Heuristik hat ihre ökologische Begründung darin, dass Schallanteile (von einer Quelle) in der Natur selten allein vorkommen, selten einzigartig, nur synchron oder nur aufeinanderfolgend sind. Es sind meist mehrere Schallanteile die sich in der Regel teilweise zeitlich überlappen.
Die Strategie der Alt-plus-Neu Heuristik nutzt den Moment des Einsetzens eines (neuen) Schallanteils, um seine neuen Eigenschaften zu erkennen und um eine neue Entität zur auditiven Darstellung im Gehirn hinzuzufügen, während die konservative Strategie versucht, die alten Entitäten so weit wie möglich zu erhalten.

Kombination der Informationen aus vielen Wahrnehmungsaspekten

Die ASA-Prinzipien ermöglichen robuste Entscheidungen für die Gruppierung durch die Kombination von Informationen aus vielen Merkmalen des Schalls. Der Beitrag, der von jedem ASA-Prinzip zur simultanen oder sequentiellen Gruppierung gemacht wird, ist nicht alles oder nichts, sondern quantitativ.
Zum Beispiel ist der Einfluß der Frequenztrennung auf d proportional zu seiner Größe: Große Frequenz-Abstände haben größeren Einfluß. Da die Ergebnisse unterschiedlicher ASA-Prinzipien miteinander kombiniert werden, können zwei Ergebnisse - zum Beispiel Frequenztrennung und räumliche Trennung - zur Erreichung eines bestimmten Segregationsgrades eingesetzt werden, wobei die Ergebnisse der beiden ASA-Prinzipien gegeneinander abgegriffen werden können: Eine Verminderung der Frequenzabstände in Kombination mit einer größeren räumlichen Trennung kann die Segregation konstant halten. Allerdings sind nicht alle ASA-Prinzipien gleich stark. Zum Beispiel scheint bei der sequentiellen Gruppierung (wie beim Streaming-Effekt gesehen) die Frequenztrennung viel dominierender zu sein als die Unterschiede in der Intensität oder der Plötzlichkeit des Auftretens, so dass es möglicherweise nicht möglich ist, den Einfluß einer großen Frequenzdifferenz auf die Segregation durch Erhöhung der Unterschiede in der Intensität oder der Plötzlichkeit des Auftretens in einer Folge von Schallanteilen zu ändern. Dabei können interessante Situationen auftreten, in denen einige ASA-Prinzipien für die Segregation und andere für die Integration „stimmen“. Dieses, sich möglicherweise ständig wandelnde Gleichgewicht kann den Eindruck von hybriden Schallquellen erzeugen, die zwischen teilweise „verschmolzenen“ und teilweise getrennten Elementen "verwandelt" werden und sowohl die Merkmale des verschmolzenen Ganzen als auch die der Komponentenklänge aufweisen. Die Steuerung dieses Prozesses ist der Kern des Musikmischprozesses, bei dem Schallquellen elektronisch umgeformt werden, um entweder eine Segregation oder Integration oder beides zu fördern.

Nachtrag 26.02.2018: Eine wissenschaftliche Abhandlung die gut zu ASA passt (und einiges wissenschaftlich erklärt) gibt es hier:

http://hauptmikrofon.de/theile/1980-1_Diss._Theile_deutsch.pdf

Die Informationen in diesem Dokument werden ohne Rücksicht auf einen eventuellen Patentschutz veröffentlicht. Warennamen werden ohne Gewährleistung der freien Verwendbarkeit benutzt. Die Zusammenstellung von Texten und Abbildungen erfolgte mit größter Sorgfalt. Trotzdem können Fehler nicht vollständig ausgeschlossen werden. Die Verwendung der Informationen und Angaben in diesem Dokument erfolgt auf eigenes Risiko des Benutzers. Die Herausgeber und Verfasser können weder eine juristische Verantwortung noch irgendeine Haftung übernehmen.

Markennamen, Firmen- und Produktbezeichnungen die in diesem Dokument verwendet werden sind als eingetragene Markenzeichen geschützt. Da es zum Zeitpunkt der Erstellung nicht immer möglich war zeitnah zu ermitteln, ob ein Markenschutz besteht, erfolgt die Nennung ohne Kennzeichnung mit ®, ©, ^TM.

Diskus_GL

alias
Joachim Liepold

im Januar 2017