Lawrlwytho – CorCenCC – National Corpus of Contemporary Welsh

Mae ffyrdd gwahanol o gyrchu CorCenCC. Cliciwch y dolenni isod er mwyn:

Cyrchu’r corpws llawn

Archwilio CorCenCC ar-lein

Cyrchu’r corpws llawn

Mae set ddata’r corpws y mae modd ei lawrlwytho yn cynnwys 13,487,210 o docynnau (tua 11 miliwn o eiriau). Tocynnau yw’r uned leiaf i gael ei chynnwys mewn corpws ac maent yn cynnwys geiriau (h.y. eitemau sy’n dechrau gyda llythyren o’r wyddor) a ffugeiriau (h.y. eitemau sy’n dechrau gyda nod nad yw’n llythyren o’r wyddor).

Mae’r data yn CorCenCC yn cynrychioli ystod eang o gyd-destunau, genres a thestunau. Am ddadansoddiad manwl o’i gyfansoddiad, gweler Knight, Morris a Fitzpatrick (2021). Cyn belled ag y bo modd, mae’r data hyn wedi cael eu hanonymeiddio trwy ddefnyddio cyfuniad o dechnegau â llaw ac wedi’u hawtomeiddio, ac maen wedi cael eu tagio’n llawn o ran y categorïau rhan ymadrodd (RhY) a semantig. Cyflawnwyd y tagio RhY a semantig trwy ddefnyddio offer CyTag a SemCyTag, sydd ar gael ar wefan GitHub CorCenCC.

I ofyn am gopi o gorpws CorCenCC, cliciwch yma. Mae set ddata CorCenCC wedi’i thrwyddedu o dan Creative Commons Attribution Non Commercial Share Alike 4.0 International. Yr offer meddalwedd cysylltiedig o dan drwydded Creative Commons CC-BY-SA v4 ac felly maent ar gael yn rhad ac am ddim i’w defnyddio gan gymunedau ac unigolion proffesiynol sydd â diddordeb mewn iaith. Wrth adrodd am wybodaeth sy’n deillio o ddefnyddio data a/neu offer corpws CorCenCC, dylid cydnabod CorCenCC yn briodol. Ceir manylion dyfynnu yma. Gellir dod o hyd i ddogfennaeth lawn ar gyfer y corpws hwn, gan gynnwys manylion confensiynau trawsgrifio CorCenCC, disgrifwyr metadata a thacsonomeg y corpws ar safle GitHub CorCenCC.

Gellir defnyddio offer dadansoddi corpws presennol er mwyn cynnal dadansoddiadau sylfaenol o CorCenCC (er y dylid nodi efallai nad ydynt i gyd yn cynnal yr holl nodweddion ar gyfer data Cymraeg). Mae offer o’r fath yn cynnwys: AntConc,WMatrix, CQPWeb, a #LancsBox, a phob un o’r rhain ar gael yn rhad ac am ddim.

Mae amrywiaeth o wasanaethau Cymraeg gwahanol ar gael – ac mae modd defnyddio llawer ohonynt gyda set ddata CorCenCC – gan Ganolfan Bedwyr ym Mhrifysgol Bangor.

Yn ôl i’r brig

Cyrchu’r rhestri amlder geiriau

Mae amrywiaeth o restri amlder geiriau o gorpws CorCenCC (Yr Amliadur) ar gael yma. Maen nhw’n cynnwys:

100 gair uchaf yn CorCenCC (rhestr yn ôl safle)
1000gair uchaf yn CorCenCC (yn ôl yr wyddor)
100 lema uchaf ynCorCenCC (rhestr yn ôl safle)
1000 lema uchaf yn CorCenCC (yn ôl yr wyddor)
100 lema uchaf ynCorCenCC (geiriau dosbarth agored yn unig)
1000 gair uchaf yn CorCenCC (geiriau dosbarth agored yn unig; yn ôl yr wyddor)
500 enw uchaf ynCorCenCC (rhestr yn ôl safle)
500 berf uchaf yn CorCenCC (rhestr yn ôl safle)
500 ansoddair uchaf yn CorCenCC (rhestr yn ôl safle)
50 adferf uchaf yn CorCenCC (rhestr yn ôl safle)
50 ebychiad uchaf yn CorCenCC (rhestr yn ôl safle)
100gair dosbarth agored uchaf yng nghydran ysgrifenedig CorCenCC (rhestr yn ôl safle)
100gair dosbarth agored uchaf yng nghydran lafar CorCenCC (rhestr yn ôl safle)
100gair dosbarth agored uchaf yng nghydran iaith electronig CorCenCC (rhestr yn ôl safle)

Cliciwch yma i ofyn am gopi o’r rhestri amlder llawn. Mae’r rhestri amlder hyn yn cynnwys y rhai a restrir uchod yn ogystal â’r canlynol:

Yr holl ddata amlder, yn ôl yr wyddor (ffeil excel file)
Yr holl ddata amlder, yn ôl yr amlder(ffeil excel)
Y 5000 gair mwyaf aml, gyda dalennau ar wahân ar gyfer pob band amlder 500-gair(ffeil excel)

Mae’r rhestri amlder geiriau hyn yn dweud wrthym pa eiriau a lemâu sy’n cael eu defnyddio fwyaf aml yn yr iaith Gymraeg (yn gyffredinol ac o fewn/ar draws dulliau cyfathrebu penodol). Mae manylion ynglŷn â sut i ddyfynnu’r rhestri hyn ar gael yma.

Yn ôl i’r brig

Cyrchu Geirfan

Geirfan: rhestr wedi’i chyd-grynhoi o 500 o’r geiriau mwyaf aml yn yr iaith Gymraeg, a gynlluniwyd at ddefnydd dysgwyr ar lefelau hyfedredd A1/A2. Datblygwyd y rhestr geirfa hon gan ddefnyddio symbiosis arloesol o ddulliau wedi’u seilio ar gorpws (gyda data o gorpws CorCenCC) ynghyd â mewnsyllu ac adfyfyrio dan arweiniad arbenigwyr; dull gweithredu y mae modd ei ddyblygu a’i addasu i’w ddefnyddio yng nghyd-destun unrhyw iaith arall. Mae’r ddogfen hon yn rhoi manylion am y dull gweithredu a ddefnyddiwyd i roi’r rhestr geirfa hon at ei gilydd. Cyflwynir y rhestr ei hun yn yr Atodiadau, fel y canlyn:

Atodiad A: y 750 gair mwyaf aml o CorCenCC
Atodiad B: y rhestr 500-gair sylfaenol, heb ychwanegiadau
Atodiad C: rhestr weithredol yr ychwanegiadau, yn nhrefn yr wyddor

Cliciwch yma i ofyn am gopi o’r rhestri Geirfan. Mae manylion ynglŷn â sut i ddyfynnu Geirfan ar gael yma.

Datblywgyd gwefan Geirfan ochr yn ochr â’n rhestr geiriau ar sail amlder, i ddangos potensial y data er mwyn creu deunyddiau dysgu. Seiliwyd targed cychwynnol Geirfan o 500 o eiriau ar ein rhestr geiriau sy’n deillio o CorCenCC, wedi ei hategu a’i mireinio yn sgil adborth tiwtoriaid Cymraeg ac arbenigwyr ieithyddol eraill. Mae’r esiamplau enghreifftiol a ddarperir yng nghofnodion geiriadur Geirfan yn deillio o CorCenCC hefyd, a defnyddir data amlder y prosiect hwn er mwyn sicrhau mai brawddegau enghreifftiol gyda geirfa amlder-uchel sy’n cael eu dewis yn awtomatig, lle bynnag bo modd. Mae’r data amlder hefyd yn cyfrannu at nodi’r cydleoliadau, yr ymadroddion a’r priod-ddulliau aml-eu-defnydd sy’n cael eu rhestru yng nghofnodion y geiriadur, fel bod defnyddwyr yn cael gwybodaeth ddefnyddiol am y ffurfiau ieithyddol y maen nhw fwyaf tebygol o ddod ar eu traws wrth ddefnyddio’r Gymraeg o ddydd i ddydd.

Yn ôl i’r brig

Archwilio CorCenCC ar-lein

Mae fersiwn beta o offer ymholi corpws dwyieithog CorCenCC, ynghyd â chanllaw cyflawn i ddefnyddwyr, ar gael trwy dab Archwilio’r wefan hon. Mae hyn yn cynnwys y nodweddion canlynol:

Ymholiad Syml: er mwyn archwilio unrhyw air a/neu ffurf lema yn y corpws, ac un neu fwy o lawer o dagiau rhan ymadrodd (RhY), mathau o dreiglad, neu dagiau categori semantiggair a/neu lema penodol. Rhoddir detholiad o ganlyniadau ar hap mewn allbwn KWIC (Key Word in Context). Wedyn mae modd hidlo’r canlyniadau yn ôl modd, ardal ddaearyddol, cyd-destun, genre, testun, cynulleidfa darged a ffynhonnell.
Ymholiad Llawn: i’w ddefnyddio i chwilio am ddilyniannau hwy o batrymau (ymadroddion aml-eiriau) wedi’u gwahanu gan fylchau, gan ddefnyddio cystrawen ymholi bwrpasol CorCenCC. Cyflwynir y canlyniadau mewn allbwn KWIC (Key Word in Context) y mae modd ei hidlo yn ôl modd, ardal ddaearyddol, cyd-destun, genre, testun, cynulleidfa darged a ffynhonnell.
Rhestr Amlder: cynhyrchir rhestr o eiriau neu lemâu yn y corpws wedi’u trefnu yn ôl pa mor aml maent yn digwydd.
Dadansoddi N-Gram: rhestrir patrymau n-gramau/clystyrau o 2-7 o eiriau, lemâu neu RhY yn y corpws, wedi’u trefnu yn ôl pa mor aml maent yn digwydd.
Dadansoddi Allweddair: dangosir geiriau sy’n anarferol o aml mewn un is-set o’r corpws o’u cymharu ag is-set ‘cyfeirio’ wahanol o’r corpws.
Collocation Analysis: displaying information on the relationships between word types that appear together within a given context window. [Functionality available soon]

Mae’r offer pedagogaidd sy’n mynd gyda CorCenCC ar gael trwy dab Y Tiwtiadur y wefan hon.

Mae’r holl ddata yn CorCenCC wedi cael eu tagio’n llawn o ran rhan ymadrodd (RhY) a chategori semantig. Mae modd chwilio’r tagiau hyn yn llawn o fewn y corpws ac, yn achos Ymholiadau Syml a Llawn, mae codau lliw gan y tagiau hefyd er mwyn hwyluso archwilio patrymau yng nghanlyniadau’r ymholiadau. Ar ben hynny, mae’r holl ddata wedi’u categoreiddio yn ôl cyd-destun y defnydd, genre, testun ac ati gan alluogi i ddefnyddwyr archwilio patrymau o fewn/ar draws mathau penodol o destun a’r wybodaeth ddemograffig sydd yn y corpws. Ceir manylion y tagiau a’r tacsonemegau a ddefnyddiwyd yng nghanllaw’r defnyddiwr ar brif dudalen yr offer ymholi a thrwy safle GitHub CorCenCC.

Gall canlyniadau o ddadansoddiadau sy’n defnyddio’r offer ymholi gynnwys tagiau lle mae’r data wedi’u hanonymeiddio, neu (ar gyfer data llafar) lle mae confensiynau trawsgrifio wedi cael eu defnyddio. Mae tagiau anonymeiddio yn cynnwys:

Enwau personol <anon> enwg1 </anon> – enw gwrywaidd cyntaf

<anon> enwb1 </anon> – enw benywaidd cyntaf

Rhifau ffôn <anon> Rhif ffôn </anon>

Cyfeiriadau e-bost <anon> cyfeiriad e-bost </anon>

Cyfeiriadau (personol) <anon> cyfeiriad </anon>

Trawsgrifwyd y data llafar gan ddefnyddio confensiynau trawsgrifio pwrpasol CorCenCC. Dyma ambell enghraifft:

<S4> Rydym ni yn defnyddio ein trwyna’ i arogli. <arogli i mewn yn sydyn> Pan ym mae ‘da fi anwyd mae fy nhrwyn i’n mynd yn goch ac <=> mae </=> mae fel yn rhedag trwy’r amser.

Yma, mae <S4> a <S5> yn dynodi siaradwr gwahanol yn y sgwrs, gyda <=> mae </=> yn nodi bod gair wedi’i ailadrodd yn y sgwrs.

<S1> Boeth. A’r hen athrawon ‘na’n mynd fyny ac i lawr yn mynd <griddfan>.

<S2> <Chwerthin>. Gwrando ar y+

<S1> Ti’n cofio hyna <anon>enwb3</anon>?

<S2> +Gwrando ar y cloc yn tician.

Yma, noda’r defnydd o ‘+’ pan fydd siaradwr yn torri ar draws siaradwr arall yn y sgwrs – felly maent yn siarad yr un pryd. Dengys y defnydd o <anon>enwb3</anon> fod enw personol wedi’i anonymeiddio. Yn olaf, wrth reswm, mae <Chwerthin> yn nodi bod y siaradwr yn chwerthin a <griddfan> yn nodi ochenaid.

Er mwyn ymgyfarwyddo â’r confensiynau a’r tagiau a ddefnyddiwyd yn y corpws, darllenwch yr wybodaeth am gonfensiynau trawsgrifio a thacsonomeg sydd ar gael ar safle GitHub CorCenCC.

Yn ôl i’r brig