Croeso i CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes). Mae CorCenCC yn adnodd iaith i siaradwyr Cymraeg, dysgwyr Cymraeg, ymchwilwyr yr iaith Gymraeg ac, yn wir, unrhyw un sydd â diddordeb yn yr iaith Gymraeg. Mae CorCenCC yn gasgliad hygyrch o samplau iaith niferus, wedi’u casglu o gyfathrebu go iawn, a’u cyflwyno mewn ‘corpws’ ar-lein CorCenCC, y gellir ei chwilio. Cliciwch archwilio i ddechrau ymchwilio i’r Gymraeg, fel y caiff ei defnyddio mewn gwirionedd. I gyd-fynd â’r corpws, mae pecyn cymorth addysgu a dysgu ar-lein – Y Tiwtiadur – sy’n defnyddio data o’r corpws yn uniongyrchol i ddarparu adnoddau ar gyfer dysgu’r Gymraeg ar bob oedran a lefel. Am fwy o wybodaeth am brosiect CorCenCC, y corpws ac Y Tiwtiadur, cliciwch y cwestiynau isod.

Beth yw Corpws? Beth yw CorCenCC? Pwy adeiladodd CorCenCC?
Beth yw Y Tiwtiadur? Dyfynnu’r prosiect hwn

Beth yw Corpws?

Cronfa ddata electronig o eiriau yw corpws. Mae’n wahanol i eiriadur, oherwydd pan fydd defnyddiwr yn chwilio am air mewn corpws, yn hytrach na gweld diffiniad, bydd yn gweld enghreifftiau o’r gair mewn dyfyniadau o destunau amrywiol (a all gynnwys sgyrsiau, llyfrau, cofnodion blog ac ati), yn union fel y cawsant eu defnyddio gan yr awdur neu’r siaradwr gwreiddiol. Hefyd, gall defnyddwyr ddarganfod, er enghraifft, pa mor aml mae gair penodol yn cael ei ddefnyddio, neu ba eiriau sy’n cael eu defnyddio’n fwyaf cyffredin mewn mathau penodol o gyfathrebu (neu ar draws y corpws cyfan). Mae hyn yn rhoi tystiolaeth i ymchwilwyr o sut mae iaith yn cael ei defnyddio, mewn gwirionedd (yn hytrach na sut rydym ni’n credu ei bod yn cael ei defnyddio’n reddfol). Mae hefyd yn ei gwneud yn bosibl creu testunau neu ddeunyddiau wedi’u teilwra i helpu â dysgu iaith. Mae pob gair mewn corpws wedi’i dagio, er enghraifft, â gwybodaeth ramadegol (h.y. rhan ymadrodd – enw, berf ac ati) a gwybodaeth semantig (yn ymwneud â themâu a phynciau), ac mae gwybodaeth yn cael ei darparu am darddiad pob dyfyniad (e.e. math o destun, lleoliad y siaradwr). Mae hyn yn sicrhau bod corpws yn offeryn electronig gwerthfawr sy’n ein galluogi i archwilio ein hiaith a’i deall yn well.

Yn ôl i’r brig

Beth yw CorCenCC?

Mae corpws CorCenCC yn cynnwys dros 10 miliwn o docynnau (tokens) o ffynonellau ysgrifenedig, llafar ac electronig (testunau digidol, ar-lein) a gymerwyd o ystod o ffurfiau, amrywiadau iaith (rhanbarthol a chymdeithasol) a chyd-destunau. Mae cyfranwyr CorCenCC yn cynrychioli’r dros hanner miliwn o siaradwyr Cymraeg yn y wlad.

Roedd creu CorCenCC yn brosiect cymunedol, a oedd yn cynnig cyfle i ddefnyddwyr y Gymraeg gyfrannu’n rhagweithiol at adnodd Cymraeg sy’n adlewyrchu sut mae’r Gymraeg yn cael ei defnyddio ar hyn o bryd.

Er mwyn sicrhau bod CorCenCC mor gynrychioliadol â phosibl, penderfynodd tîm y prosiect ar fframwaith ar gyfer casglu samplau iaith. Casglwyd dyfyniadau o ffynonellau gan gynnwys, er enghraifft, cyfnodolion, negeseuon e-bost, pregethau, arwyddion ffordd, rhaglenni teledu, cyfarfodydd, cylchgronau a llyfrau. Cafodd sgyrsiau eu recordio gan y tîm ymchwil, a galluogodd ap torfoli CorCenCC i siaradwyr Cymraeg yn y gymuned recordio a lanlwytho samplau o’u defnydd iaith eu hunain i’r corpws. Felly, mae’r corpws cyhoeddedig yn cynnwys data gan siaradwyr Cymraeg o bob math o gefndiroedd, galluoedd a chyd-destunau, gan gipio sut mae’r Gymraeg yn cael ei defnyddio ar draws y wlad heddiw, mewn gwirionedd.

Ymgynghorodd tîm CorCenCC â darpar ddefnyddwyr y corpws yn ystod pob cam o’i ddatblygu. Llywiodd hyn ddyluniad yr offer ar gyfer archwilio’r corpws, gan fwyhau eu gwerth i ystod eang o grwpiau defnyddwyr, o athrawon a dysgwyr i ymchwilwyr academaidd, cyfieithwyr, cyhoeddwyr, llunwyr polisïau, datblygwyr technoleg iaith ac eraill.

Yn ôl i’r brig

Pwy adeiladodd CorCenCC?

Prosiect rhyngddisgyblaethol ac amlsefydliadol yw CorCenCC, a ariannwyd gan y Cyngor Ymchwil Economaidd a Chymdeithasol (ESRC) a’r Cyngor Ymchwil i’r Celfyddydau a’r Dyniaethau (AHRC) (Cyf y Grant ES/M011348/1). Roedd prosiect CorCenCC yn cynnwys 4 sefydliad academaidd (Prifysgolion Caerdydd, Abertawe, Caerhirfryn a Bangor), a thîm rhyngwladol o ymchwilwyr, ymgynghorwyr a chynghorwyr yn cynrychioli rhanddeiliaid cymunedol, diwydiannol ac academaidd.

Arweiniwyd y prosiect gan Dawn Knight yn y Ganolfan ar gyfer Ymchwil Iaith a Chyfathrebu, Prifysgol Caerdydd. Roedd tîm llawn y prosiect yn cynnwys:

1 Prif Ymchwilydd (PY – Dawn Knight), 2 Gyd-ymchwilydd (CY – Steve Morris a Tess Fitzpatrick), a oedd, gyda’r PY, yn ffurfio Tîm Rheoli CorCenCC, cyfanswm o 7 o Gyd-ymchwilwyr eraill ac 8 o Gynorthwywyr/Cymdeithion Ymchwil yn ystod y prosiect. Hefyd, roedd 11 o aelodau’r bwrdd cynghori, 6 o ymgynghorwyr (o 4 gwlad ledled y byd), 2 fyfyriwr PhD, 4 o fyfyrwyr lleoliadau haf is-raddedig, 4 o aelodau staff cymorth gwasanaethau proffesiynol, 4 o lysgenhadon a 2 wirfoddolwr prosiect. Am fwy o fanylion, ewch i’r tab Cysylltiadau ar y wefan hon. 

Yn ôl i’r brig

Beth yw Y Tiwtiadur?

Mae’r Tiwtiadur yn gasgliad o offer dysgu ac addysgu ar sail data sydd wedi’i gynllunio i fod yn gymorth ychwanegol i ddysgu’r Gymraeg ar bob lefel ac oedran.  Mae’r Tiwtiadur yn cynnwys pedwar ymarfer gwahanol sydd wedi’u seilio ar y corpws:

  • ymarfer Llenwi Bylchau (Cloze) sy’n gadael i athrawon ddileu geiriau o destun bob hyn  a hyn er mwyn annog neu asesu gallu o ran deall a strategaethau rhagfynegi;
  • ymarfer Proffiliwr Geirfa sy’n golygu bod modd graddio testunau yn ôl amlder geiriau;
  • ymarfer Adnabod Geiriau sy’n profi gallu dysgwyr i ddyfalu gair mewn cyd-destun; ac
  • ymarfer Gair-mewn-Cyd-destun sy’n hwyluso gwaith dwys ar eitem eirfaol benodol.

Mae’r holl offer yn y Tiwtiadur yn defnyddio gwybodaeth o gorpws 11 miliwn o docyn (token) CorCenCC.  Daw’r iaith yn y corpws o gyfathrebu ‘bywyd go iawn’, felly mae’r amlder geiriau a’r samplau iaith yn y Tiwtiadur yn adlewyrchu sut mae’r Gymraeg yn cael ei defnyddio go iawn ar draws ystod o fathau o ddata, o siaradwyr/cyfranwyr gwahanol, mewn sefyllfaoedd gwahanol, ac yn trafod amrywiaeth o bynciau. Mae rhai o’r offer yn cynnig opsiynau i weithio gydag adrannau penodol o’r data, wedi’u seilio ar y math o bwnc neu ddata, er enghraifft.

Mae canllaw i ddefnyddwyr ar gyfer y pecyn cymorth hwn i’w weld yn y tab Y Tiwtiadur ar y wefan hon.

Yn ôl i’r brig

Dyfynnu’r prosiect hwn

  • I ddyfynnu corpws ac offer chwilio CorCenCC:
    • Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I., Thomas, E-M., Lovell, A., Morris, J., Evas, J., Stonelake, M., Arman, L., Davies, J., Ezeani, I., Neale, S., Needs, J., Piao, S., Rees, M., Watkins, G., Williams, L., Muralidaran, V., Tovey, B., Anthony, L., Cobb, T., Deuchar, M., Donnelly, K., McCarthy, M. a Scannell, K. (2020). CorCenCC: Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh. [Adnodd Digidol]. Ar gael yn: www.corcencc.cymru/archwilio
  • Dyfynnu adroddiad prosiect CorCenCC:
    • Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I. ac Thomas, E-M. (2020). Corpws Cenedlaethol Cymraeg Cyfoes – Corpws Cenedlaethol Cymraeg Cyfoes – Dull cymunedol o adeiladu corpws ieithyddol: Adroddiad Prosiect. Cyhoeddwyd ar-lein yn: [Manylion ar ddod yn fuan]
  • Isadeiledd ac ap torfoli CorCenCC:
    • Knight, D., Loizides, F., Neale, S., Anthony, L. ac Spasić, I. (2020). Developing computational infrastructure for the CorCenCC corpus – the National Corpus of Contemporary Welsh. Language Resources and Evaluation (LREV).
  • Tagiwr rhan ymadrodd ‘CyTag’ CorCenCC:
    • Neale, S., Donnelly, K., Watkins, G., ac Knight, K. (2018) Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018). Miyazaki, Japan. 7-12 Mai, 2018.
  • Tagiwr semantig ‘CySemTagger’ CorCenCC:
    • Piao, S., Rayson, P., Knight, D. a Watkins, G. (2018). Towards A Welsh Semantic Annotation System. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018), Miyazaki, Japan.
    • Piao, S., Rayson, P., Knight, D., Watkins, G. and Donnelly, K. (2017). Towards a Welsh Semantic Tagger: Creating Lexicons for A Resource Poor Language. Yn Nhrafodion y Corpus Linguistics 2017 Conference, a gynhaliwyd o 24-28 Gorffennaf 2017 ym Mhrifysgol Birmingham, Birmingham, DU.
  • Pecyn cymorth addysgegol ‘Y Tiwtiadur’ CorCenCC:
    • Davies, J., Thomas, E-M., Fitzpatrick, T., Needs, J., Anthony, L., Cobb, T. ac Knight, D. (2020). Y Tiwtiadur. [Adnodd Digidol]. Ar gael yn: www.corcencc.cymru/YTiwtiadur

Yn ôl i’r brig