PhonD2: Eine Datenbank zur Phonotaktik der Dialekte in Deutschland

Die Phonotaktik ist das Teilge­biet der Lingu­is­tik, welches die Prinzi­pi­en analy­siert, nach der eine Sprache einzelne Laute zu überge­ord­ne­ten Einheiten wie Silben oder Wörtern kombi­niert. So ist beispiels­wei­se die Lautfolge /pt/ im Polni­schen wie in ptak „Vogel“ im Wortan­laut möglich, wohin­ge­gen das Deutsche sie nur am Wortende erlaubt, beispiels­wei­se in (es) klappt. Dass solche Regeln zwischen Standard­spra­chen und Dialekten unter­schied­lich ausfallen können, zeigen Beschrei­bun­gen in einzelnen Ortsgram­ma­ti­ken (z. B. Winteler 1876). Jedoch gibt es bislang keine Arbeiten, die regionale Phono­tak­tik verglei­chend beschrei­ben, was auch auf einen Mangel geeig­ne­ter Daten zurück­ge­führt werden kann. Denn obwohl es zahlrei­che Korpora zum (gespro­che­nen) Deutschen gibt (siehe Kupietz & Schmidt 2018), sind diese entweder nicht regional spezi­fi­ziert oder sie sind nicht phono­tak­tisch aufbe­rei­tet. Diese Lücke soll durch das von der Deutschen Forschungs­ge­mein­schaft (DFG) geför­der­te Projekt PhonD2 geschlos­sen werden; eine frei zugäng­li­che Online-Datenbank mit der die phono­tak­ti­schen Struk­tu­ren und Beson­der­hei­ten der Dialekte von 172 Orten in Deutsch­land unter­sucht werden können.

Datengrundlage

Die für das PhonD2-Korpus verwen­de­ten Audio­da­tei­en wurden aus den Beständen des Marburger Phone­ti­schen Archivs (MRPhA) ausge­wählt. Dabei handelt es sich um Aufnahmen der 40 Wenkersätze, die zwischen 1956 und 1996 in ganz Deutsch­land erhoben wurden. Zudem wurden mit denselben Personen auch Inter­views zu verschie­de­nen lebens­re­le­van­ten Themen wie Beruf, Hobbies, Feste etc. durch­ge­führt. Die Wenker­sät­ze, die zum Standard­in­stru­men­ta­ri­um der Deutschen Dialek­to­lo­gie gezählt werden können, erlauben einen direkten Vergleich auf Wortebene, wohin­ge­gen die Inter­views eine breitere Perspek­ti­ve auf die gespro­che­ne Sprache ermög­li­chen. Insgesamt beinhal­tet das PhonD2-Korpus über 20 Stunden Material von 172 Orten in ganz Deutschland.

Datenbearbeitung

Die ausge­wähl­ten Audio­da­tei­en wurden von studen­ti­schen Hilfs­kräf­ten in der Lautschrift SAMPA transkri­biert. Um eine hohe und vergleich­ba­re Qualität des transkri­bier­ten Materials sicher­zu­stel­len, erfolgte auf Grundlage des aktuellen Forschungs­stan­des eine Einar­bei­tung in die den jewei­li­gen Dialekt­raum kennzeich­nen­den sprach­li­chen Beson­der­hei­ten. Zudem wurden für die Inter­views vorab ortho­gra­phi­sche Überset­zun­gen von Dialekt­spre­chern aus den jewei­li­gen Regionen erstellt, die von den Hilfs­kräf­ten als Hilfe­stel­lung genutzt wurden. Zudem wurde jede fertig bearbei­te­te Aufnahme nochmals von den Projekt­mit­ar­bei­te­rin­nen und ‑mitar­bei­tern manuell nachkor­ri­giert. Die Wenker­sät­ze wurden vollstän­dig transkri­biert, jedoch wurde aufgrund der umfang­rei­chen Daten­men­ge der Fokus bei den Inter­views auf die Transkrip­ti­on von Nomen, Verben, Adjek­ti­ven, Adverbien und Numeralia gelegt. Die transkri­bier­ten Wörter wurden mithilfe eines regel­ba­sier­ten Algorith­mus silbi­fi­ziert und mit primärem Wortak­zent versehen. Zusätz­lich zur ursprüng­li­chen SAMPA-Transkription wurden die Wörter in IPA-Lautschrift konver­tiert. So wird beispiels­wei­se aus dem ursprüng­lich transkri­bier­ten Wort [mOId@] (zentral­hes­sisch müde) dann [ˈmɔɪ̯.də]. Im nächsten Schritt werden maschi­nell phono­tak­tisch relevante Infor­ma­tio­nen ermittelt, wie etwa die CV-Strukur ([ˈmɔɪ̯.də] ∼ CVV.CV), eine Katego­ri­sie­rung nach den Lautgruppen Plosive ℗, Affri­ka­ten (A), Frikative (F), Nasale (N), Liquide (L), Gleit­lau­te (G), Kurzvo­ka­le (V), Langvo­ka­le (Vː) und Diphthon­ge (VV) ([ˈmɔɪ̯.də] ∼ NVV.PV), abstei­gen­de Sonoritätswerte ([ˈmɔɪ̯.də] ∼ 51.61) und starke und schwache Silben ([ˈmɔɪ̯.də] ∼ s.w). Dazu kommt die morpho­lo­gi­sche Bearbei­tung, zu der das automa­ti­sche, manuell nachkor­ri­gier­te POS-Tagging mit dem Klassi­fi­ka­ti­ons­werk­zeug TreeTagger (Schmid 1995) und die Klassi­fi­ka­ti­on von Morphemen gehört.

Webseite

Die Wenker-Daten sind bereits online über die Projekt­sei­te https://regionalsprache.de/phond2/ zugäng­lich; die Inter­views werden aktuell noch bearbei­tet und werden nach Überprü­fung und Fertig­stel­lung ebenfalls ergänzt. Die Webseite bietet zweierlei Zugänge auf die Daten: Der geographische Zugang bietet einen Überblick über alle Aufnah­me­or­te. Hier kann entweder per Klick auf die inter­ak­ti­ve Karte oder über eine Suchmaske auf das Daten­ma­te­ri­al der indivi­du­el­len Orte zugegrif­fen werden.


Abb.1: Inter­ak­ti­ve Karte für den geogra­phi­schen Zugang

Der wortbasierte Zugang ermög­licht eine Suche nach spezi­fi­schen Wörtern, erlaubt aber auch das Heraus­grei­fen nach Wortklas­se (Lexem oder Grammem) und Wortart, wobei auch nach POS-Tags gemäß des STTS (Schiller et al. 1999) gesucht werden kann.


Abb. 2: Suchmaske des wortba­sier­ten Zugangs

Der Klick auf ein Lemma, z. B. Affe, führt zu einer Karte die einen Überblick über regionale Unter­schie­de in der CV-Struktur bietet. Jede CV-Struktur ist mit einer eigenen Farbe gekenn­zeich­net, zusätz­lich sind einsil­bi­ge Reali­sie­run­gen durch einen schwarzen Kreis hervor­ge­ho­ben. Dies visua­li­siert bei der unten­ste­hen­den Affe-Karte die Regionen, in denen Schwa-Apokope ([af] vs. [ˈa.fə]) und Einsil­b­ler­deh­nung ([af] vs. [aːp]) auftritt (vgl. Schir­mun­ski 1962 und Lameli 2022).


Abb. 3: Regionale Vertei­lung der CV-Struktur für das Wort Affe

Die Karte wird durch eine weitere Suchmaske ergänzt, die sämtliche Reali­sie­run­gen des Wortes Affe anzeigt. Es kann nach bestimm­ten Lauten gesucht werden, aber auch nach Silben­zahl, CV-Struktur, Silben­sche­ma, Sonorität und starker und schwacher Silbe.


Abb. 4: Suchmaske für das Wort Affe

Neben diesem ort- und wortspe­zi­fi­schen Zugriff bietet die Webseite noch einen Überblick über allgemeine Lauthäufigkeiten im Korpus, aber auch über Lautse­quen­zen in Form von Trigrammen, für die zusätz­lich noch eine Suchfunk­ti­on verfügbar ist.


Abb. 5: Trigramme mit [l] als zweitem Laut

Fazit

Das PhonD2-Korpus bietet eine Vielzahl an Möglich­kei­ten zur Analyse phono­tak­ti­scher Struk­tu­ren der Dialekte des Deutschen. Diese Ressource bietet sich sowohl für die wissen­schaft­li­che Nutzung an, aber auch für dialek­to­lo­gisch inter­es­sier­te Personen jeder Art.

Literatur

Kupietz, Marc / Thomas Schmidt (2018): Korpus­lin­gu­is­tik. Berlin/Boston: De Gruyter. https://library.oapen.org/handle/20.500.12657/59516

Lameli, Alfred (2022): Remarks on the consis­ten­cy of schwa apocope in the geography of German dialects. In: Nevaci, M. / Floarea, I / Farcaş, J‑M (Hg.): Ex Oriente lux. In honorem Nicolae Saramandu. Alessand­ria: Edizioni dell’Orso. 683–702.

Schmid, Helmut (1995): Impro­ve­ments in Part-of-Speech Tagging with an Appli­ca­ti­on to German. Dublin: Procee­dings of the ACL SIGDAT-Workshop.

Schiller, Anne / Simone Teufel / Christine Stöckert (1999): Guide­lines für das Tagging deutscher Textcorpo­ra mit STTS (kleines und großes Tagset). Tübingen: Univer­si­tät Tübingen.

Schir­mun­ski, Viktor M. (1962): Deutsche Mundart­kun­de. Verglei­chen­de Laut- und Formen­leh­re der deutschen Mundarten. Lausanne: Peter Lang.

Winteler, Jost (1876): Die Kerenzer Mundart des Kantons Glarus. In ihren Grund­zü­gen darge­stellt. Leipzig/Heidelberg: Winter.

Diesen Beitrag zitieren als:

Link, Samantha & Bunkov, Valeria. 2023. PhonD2: Eine Datenbank zur Phono­tak­tik der Dialekte in Deutsch­land. In: Sprach­spu­ren: Berichte aus dem Deutschen Sprach­at­las 3(7). https://doi.org/10.57712/2023-07

Samantha Link und Valeria Bunkov
Samantha Link ist wissenschaftliche Mitarbeiterin am Forschungszentrum Deutscher Sprachatlas. Sie hat an der Universität Tübingen Computerlinguistik, Allgemeine Sprachwissenschaft, Germanistik und Evangelische Theologie studiert. Valeria Bunkov ist wissenschaftliche Mitarbeiterin am Lehrstuhl für Deutsche Sprachwissenschaft an der Universität Passau. Sie hat allgemeine Sprachwissenschaft studiert. Beide promovieren im Rahmen des von der DFG geförderten Projekts "Phonotaktik der Dialekte in Deutschland (PhonD2)" (Leitung: Prof. Dr. Alfred Lameli und Prof. Dr. Alexander Werth).