CorCenCC – National Corpus of Contemporary Welsh

I CorCenCC¹

Rhoddwn ein sgyrsiau’n raddol, ein haraith
A mân eiriau’r heol;
O gadw’r stôr ddigidol
Hawliwn hwy, a’u galw’n ôl.

Croeso i CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes). Mae CorCenCC yn adnodd iaith i siaradwyr Cymraeg, dysgwyr Cymraeg, ymchwilwyr yr iaith Gymraeg ac, yn wir, unrhyw un sydd â diddordeb yn yr iaith Gymraeg. Mae CorCenCC yn gasgliad hygyrch o samplau iaith niferus, wedi’u casglu o gyfathrebu go iawn. Cliciwch ar Archwilio neu Lawrlwytho i fynd at y corpws a dechrau ymchwilio i’r Gymraeg fel mae hi wir yn cael ei defnyddio. I gyd-fynd â’r corpws, mae pecyn cymorth addysgu a dysgu ar-lein – Y Tiwtiadur – sy’n defnyddio data o’r corpws yn uniongyrchol i ddarparu adnoddau ar gyfer dysgu’r Gymraeg ar bob oedran a lefel. Am fwy o wybodaeth am brosiect CorCenCC, y corpws ac Y Tiwtiadur, cliciwch y cwestiyna yma u isod.

Gallwch ddod o hyd i ddisgrifiad byr o CorCenCC a sut y gellir ei ddefnyddio yma. I ddarllen adroddiad prosiect CorCenCC, cliciwch yma.

Datblygwyd offer ymholi CorCenCC fersiwn2.0.0 gan Laurence Anthony. Am fwy o wybodaeth am waith arall Laurence (gan gynnwys amrywiaeth o offer wedi’u seilio ar gorpws) ewch yma.

Beth yw Corpws?	Beth yw CorCenCC?	Pwy adeiladodd CorCenCC?
Beth yw Y Tiwtiadur?	Sut ydw i’n dyfynnu CorCenCC?

Beth yw Corpws?

Cronfa ddata electronig o eiriau yw corpws. Mae’n wahanol i eiriadur, oherwydd pan fydd defnyddiwr yn chwilio am air mewn corpws, yn hytrach na gweld diffiniad, bydd yn gweld enghreifftiau o’r gair mewn dyfyniadau o destunau amrywiol (a all gynnwys sgyrsiau, llyfrau, cofnodion blog ac ati), yn union fel y cawsant eu defnyddio gan yr awdur neu’r siaradwr gwreiddiol. Hefyd, gall defnyddwyr ddarganfod, er enghraifft, pa mor aml mae gair penodol yn cael ei ddefnyddio, neu ba eiriau sy’n cael eu defnyddio’n fwyaf cyffredin mewn mathau penodol o gyfathrebu (neu ar draws y corpws cyfan). Mae hyn yn rhoi tystiolaeth i ymchwilwyr o sut mae iaith yn cael ei defnyddio, mewn gwirionedd (yn hytrach na sut rydym ni’n credu ei bod yn cael ei defnyddio’n reddfol). Mae hefyd yn ei gwneud yn bosibl creu testunau neu ddeunyddiau wedi’u teilwra i helpu â dysgu iaith. Mae pob gair mewn corpws wedi’i dagio, er enghraifft, â gwybodaeth ramadegol (h.y. rhan ymadrodd – enw, berf ac ati) a gwybodaeth semantig (yn ymwneud â themâu a phynciau), ac mae gwybodaeth yn cael ei darparu am darddiad pob dyfyniad (e.e. math o destun, lleoliad y siaradwr). Mae hyn yn sicrhau bod corpws yn offeryn electronig gwerthfawr sy’n ein galluogi i archwilio ein hiaith a’i deall yn well.

Yn ôl i’r brig

Beth yw CorCenCC?

Mae corpws CorCenCC yn cynnwys dros 11 miliwn o eiriau o ffynonellau ysgrifenedig, llafar ac electronig (testunau digidol, ar-lein) a gymerwyd o ystod o ffurfiau, amrywiadau iaith (rhanbarthol a chymdeithasol) a chyd-destunau. Mae cyfranwyr CorCenCC yn cynrychioli’r dros hanner miliwn o siaradwyr Cymraeg yn y wlad.

Roedd creu CorCenCC yn brosiect cymunedol, a oedd yn cynnig cyfle i ddefnyddwyr y Gymraeg gyfrannu’n rhagweithiol at adnodd Cymraeg sy’n adlewyrchu sut mae’r Gymraeg yn cael ei defnyddio ar hyn o bryd.

Er mwyn sicrhau bod CorCenCC mor gynrychioliadol â phosibl, penderfynodd tîm y prosiect ar fframwaith ar gyfer casglu samplau iaith. Casglwyd dyfyniadau o ffynonellau gan gynnwys, er enghraifft, cyfnodolion, negeseuon e-bost, pregethau, arwyddion ffordd, rhaglenni teledu, cyfarfodydd, cylchgronau a llyfrau. Cafodd sgyrsiau eu recordio gan y tîm ymchwil, a galluogodd ap torfoli CorCenCC i siaradwyr Cymraeg yn y gymuned recordio a lanlwytho samplau o’u defnydd iaith eu hunain i’r corpws. Felly, mae’r corpws cyhoeddedig yn cynnwys data gan siaradwyr Cymraeg o bob math o gefndiroedd, galluoedd a chyd-destunau, gan gipio sut mae’r Gymraeg yn cael ei defnyddio ar draws y wlad heddiw, mewn gwirionedd.

Ymgynghorodd tîm CorCenCC â darpar ddefnyddwyr y corpws yn ystod pob cam o’i ddatblygu. Llywiodd hyn gynnwys a dyluniad y corpws, gan fwyhau ei werth i ystod eang o grwpiau o ddefnyddwyr, o athrawon a dysgwyr i ymchwilwyr academaidd, cyfieithwyr, cyhoeddwyr, llunwyr polisïau, datblygwyr technoleg iaith ac eraill.

Yn ôl i’r brig

Pwy adeiladodd CorCenCC?

Prosiect rhyngddisgyblaethol ac amlsefydliadol yw CorCenCC, a ariannwyd gan y Cyngor Ymchwil Economaidd a Chymdeithasol (ESRC) a’r Cyngor Ymchwil i’r Celfyddydau a’r Dyniaethau (AHRC) (Cyf y Grant ES/M011348/1). Roedd prosiect CorCenCC yn cynnwys 4 sefydliad academaidd (Prifysgolion Caerdydd, Abertawe, Caerhirfryn a Bangor), a thîm rhyngwladol o ymchwilwyr, ymgynghorwyr a chynghorwyr yn cynrychioli rhanddeiliaid cymunedol, diwydiannol ac academaidd.

Arweiniwyd y prosiect gan Dawn Knight yn y Ganolfan ar gyfer Ymchwil Iaith a Chyfathrebu, Prifysgol Caerdydd. Roedd tîm llawn y prosiect yn cynnwys:

1 Prif Ymchwilydd (PY – Dawn Knight), 2 Gyd-ymchwilydd (CY – Steve Morris a Tess Fitzpatrick), a oedd, gyda’r PY, yn ffurfio Tîm Rheoli CorCenCC, cyfanswm o 7 o Gyd-ymchwilwyr eraill ac 8 o Gynorthwywyr/Cymdeithion Ymchwil yn ystod y prosiect. Hefyd, roedd 11 o aelodau’r bwrdd cynghori, 6 o ymgynghorwyr (o 4 gwlad ledled y byd), 2 fyfyriwr PhD, 4 o fyfyrwyr lleoliadau haf is-raddedig, 4 o aelodau staff cymorth gwasanaethau proffesiynol, 4 o lysgenhadon a 2 wirfoddolwr prosiect. Am fwy o fanylion, ewch i’r tab Pobl ar y wefan hon.

Yn ôl i’r brig

Beth yw Y Tiwtiadur?

Mae’r Tiwtiadur yn gasgliad o offer dysgu ac addysgu ar sail data sydd wedi’i gynllunio i fod yn gymorth ychwanegol i ddysgu’r Gymraeg ar bob lefel ac oedran. Mae’r Tiwtiadur yn cynnwys pedwar ymarfer gwahanol sydd wedi’u seilio ar y corpws:

ymarfer Llenwi Bylchau (Cloze) sy’n gadael i athrawon ddileu geiriau o destun bob hyn a hyn er mwyn annog neu asesu gallu o ran deall a strategaethau rhagfynegi;
ymarfer Proffiliwr Geirfa sy’n golygu bod modd graddio testunau yn ôl amlder geiriau;
ymarfer Adnabod Geiriau sy’n profi gallu dysgwyr i ddyfalu gair mewn cyd-destun; ac
ymarfer Gair-mewn-Cyd-destun sy’n hwyluso gwaith dwys ar eitem eirfaol benodol.

Mae’r holl offer yn y Tiwtiadur yn defnyddio gwybodaeth o gorpws 11 miliwn o eiriau CorCenCC. Daw’r iaith yn y corpws o gyfathrebu ‘bywyd go iawn’, felly mae’r amlder geiriau a’r samplau iaith yn y Tiwtiadur yn adlewyrchu sut mae’r Gymraeg yn cael ei defnyddio go iawn ar draws ystod o fathau o ddata, o siaradwyr/cyfranwyr gwahanol, mewn sefyllfaoedd gwahanol, ac yn trafod amrywiaeth o bynciau. Mae rhai o’r offer yn cynnig opsiynau i weithio gydag adrannau penodol o’r data, wedi’u seilio ar y math o bwnc neu ddata, er enghraifft.

Yn ôl i’r brig

Sut ydw i’n dyfynnu CorCenCC?

I ddyfynnu corpws CorCenCC:
- Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I., Thomas, E-M., Lovell, A., Morris, J., Evas, J., Stonelake, M., Arman, L., Davies, J., Ezeani, I., Neale, S., Needs, J., Piao, S., Rees, M., Watkins, G., Williams, L., Muralidaran, V., Tovey, B., Anthony, L., Cobb, T., Deuchar, M., Donnelly, K., McCarthy, M. a Scannell, K. (2020). CorCenCC: Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh. Prifysgol Cardiff. http://doi.org/10.17035/d.2020.0119878310

Dyfynnu adroddiad prosiect CorCenCC:
- Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I. a Thomas, E. M. (2020). The National Corpus of Contemporary Welsh: Project Report | Y Corpws Cenedlaethol Cymraeg Cyfoes: Adroddiad y Prosiect. arXiv:2010.05542, Hydref 2020.
Isadeiledd ac ap torfoli CorCenCC:
- Knight, D., Loizides, F., Neale, S., Anthony, L. ac Spasić, I. (2020). Developing computational infrastructure for the CorCenCC corpus – the National Corpus of Contemporary Welsh. Language Resources and Evaluation (LREV).
Tagiwr rhan ymadrodd ‘CyTag’ CorCenCC:
- Neale, S., Donnelly, K., Watkins, G., ac Knight, K. (2018) Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018). Miyazaki, Japan. 7-12 Mai, 2018.
Tagiwr semantig ‘CySemTagger’ CorCenCC:
- Piao, S., Rayson, P., Knight, D. a Watkins, G. (2018). Towards A Welsh Semantic Annotation System. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018), Miyazaki, Japan.
- Piao, S., Rayson, P., Knight, D., Watkins, G. and Donnelly, K. (2017). Towards a Welsh Semantic Tagger: Creating Lexicons for A Resource Poor Language. Yn Nhrafodion y Corpus Linguistics 2017 Conference, a gynhaliwyd o 24-28 Gorffennaf 2017 ym Mhrifysgol Birmingham, Birmingham, DU.
Pecyn cymorth addysgegol ‘Y Tiwtiadur’ CorCenCC:
- Davies, J., Thomas, E-M., Fitzpatrick, T., Needs, J., Anthony, L., Cobb, T. ac Knight, D. (2020). Y Tiwtiadur. [Adnodd Digidol]. Ar gael yn: https://ytiwtiadur.corcencc.org
Rhestri amlder geiriau CorCenCC ‘Yr Amliadur’:
- Knight, D., Morris, S., Tovey-Walsh, B., Fitzpatrick, T. ac Anthony, L. (2020). Yr Amliadur: Rhestri Amlder ar gyfer Cymraeg Cyfoes. Prifysgol Caerdydd, http://doi.org/10.17035/d.2020.0120164107

Yn ôl i’r brig

Ysgrifennwyd yr englyn hwn ar gyfer lansiad CorCenCC ar 24 Chwefror 2017 gan y bardd ac aelod o grŵp ymgynghorol y prosiect, Dr Emyr Davies.