Mae ffyrdd gwahanol o gyrchu CorCenCC. Cliciwch y dolenni isod er mwyn:

Cyrchu’r corpws llawn Cyrchu’r rhestri amlder geiriau Cyrchu Geirfan Archwilio CorCenCC ar-lein

Cyrchu’r corpws llawn

Mae set ddata’r corpws y mae modd ei lawrlwytho yn cynnwys 13,487,210 o docynnau (tua 11 miliwn o eiriau). Tocynnau yw’r uned leiaf i gael ei chynnwys mewn corpws ac maent yn cynnwys geiriau (h.y. eitemau sy’n dechrau gyda llythyren o’r wyddor) a ffugeiriau (h.y. eitemau sy’n dechrau gyda nod nad yw’n llythyren o’r wyddor).

Mae’r data yn CorCenCC yn cynrychioli ystod eang o gyd-destunau, genres a thestunau. Am ddadansoddiad manwl o’i gyfansoddiad, gweler Knight, Morris a Fitzpatrick (2021). Cyn belled ag y bo modd, mae’r data hyn wedi cael eu hanonymeiddio trwy ddefnyddio cyfuniad o dechnegau â llaw ac wedi’u hawtomeiddio, ac maen wedi cael eu tagio’n llawn o ran y categorïau rhan ymadrodd (RhY) a semantig. Cyflawnwyd y tagio RhY a semantig trwy ddefnyddio offer CyTag a SemCyTag, sydd ar gael ar wefan GitHub CorCenCC.

I ofyn am gopi o gorpws CorCenCC, cliciwch yma.

Trwyddedir corpws CorCenCC a’r offer meddalwedd cysylltiedig o dan drwydded Creative Commons CC-BY-SA v4 ac felly maent ar gael yn rhad ac am ddim i’w defnyddio gan gymunedau ac unigolion proffesiynol sydd â diddordeb mewn iaith. Wrth adrodd am wybodaeth sy’n deillio o ddefnyddio data a/neu offer corpws CorCenCC, dylid cydnabod CorCenCC yn briodol. Ceir manylion dyfynnu yma. Gellir dod o hyd i ddogfennaeth lawn ar gyfer y corpws hwn, gan gynnwys manylion confensiynau trawsgrifio CorCenCC, disgrifwyr metadata a thacsonomeg y corpws ar safle GitHub CorCenCC.

Gellir defnyddio offer dadansoddi corpws presennol er mwyn cynnal dadansoddiadau sylfaenol o CorCenCC (er y dylid nodi efallai nad ydynt i gyd yn cynnal yr holl nodweddion ar gyfer data Cymraeg). Mae offer o’r fath yn cynnwys: AntConc,WMatrix, CQPWeb, a #LancsBox, a phob un o’r rhain ar gael yn rhad ac am ddim.

Mae amrywiaeth o wasanaethau Cymraeg gwahanol ar gael – ac mae modd defnyddio llawer ohonynt gyda set ddata CorCenCC – gan Ganolfan Bedwyr ym Mhrifysgol Bangor.

Yn ôl i’r brig

Cyrchu’r rhestri amlder geiriau

Mae amrywiaeth o restri amlder geiriau o gorpws CorCenCC (Yr Amliadur) ar gael yma. Maen nhw’n cynnwys:

  • 100 gair uchaf yn CorCenCC (rhestr yn ôl safle)
  • 1000gair uchaf yn CorCenCC (yn ôl yr wyddor)
  • 100 lema uchaf ynCorCenCC (rhestr yn ôl safle)
  • 1000 lema uchaf yn CorCenCC (yn ôl yr wyddor)
  • 100 lema uchaf ynCorCenCC (geiriau dosbarth agored yn unig)
  • 1000 gair uchaf yn CorCenCC (geiriau dosbarth agored yn unig; yn ôl yr wyddor)
  • 500 enw uchaf ynCorCenCC (rhestr yn ôl safle)
  • 500 berf uchaf yn CorCenCC (rhestr yn ôl safle)
  • 500 ansoddair uchaf yn CorCenCC (rhestr yn ôl safle)
  • 50 adferf uchaf yn CorCenCC (rhestr yn ôl safle)
  • 50 ebychiad uchaf yn CorCenCC (rhestr yn ôl safle)
  • 100gair dosbarth agored uchaf yng nghydran ysgrifenedig CorCenCC (rhestr yn ôl safle)
  • 100gair dosbarth agored uchaf yng nghydran lafar CorCenCC (rhestr yn ôl safle)
  • 100gair dosbarth agored uchaf yng nghydran iaith electronig CorCenCC (rhestr yn ôl safle)

Cliciwch yma i ofyn am gopi o’r rhestri amlder llawn. Mae’r rhestri amlder hyn yn cynnwys y rhai a restrir uchod yn ogystal â’r canlynol:

  • Yr holl ddata amlder, yn ôl yr wyddor (ffeil excel file)
  • Yr holl ddata amlder, yn ôl yr amlder(ffeil excel)
  • Y 5000 gair mwyaf aml, gyda dalennau ar wahân ar gyfer pob band amlder 500-gair(ffeil excel)

Mae’r rhestri amlder geiriau hyn yn dweud wrthym pa eiriau a lemâu sy’n cael eu defnyddio fwyaf aml yn yr iaith Gymraeg (yn gyffredinol ac o fewn/ar draws dulliau cyfathrebu penodol). Mae manylion ynglŷn â sut i ddyfynnu’r rhestri hyn ar gael yma.

Yn ôl i’r brig

Cyrchu Geirfan

Geirfan: rhestr wedi’i chyd-grynhoi o 500 o’r geiriau mwyaf aml yn yr iaith Gymraeg, a gynlluniwyd at ddefnydd dysgwyr ar lefelau hyfedredd A1/A2. Datblygwyd y rhestr geirfa hon gan ddefnyddio symbiosis arloesol o ddulliau wedi’u seilio ar gorpws (gyda data o gorpws CorCenCC) ynghyd â mewnsyllu ac adfyfyrio dan arweiniad arbenigwyr; dull gweithredu y mae modd ei ddyblygu a’i addasu i’w ddefnyddio yng nghyd-destun unrhyw iaith arall. Mae’r ddogfen hon yn rhoi manylion am y dull gweithredu a ddefnyddiwyd i roi’r rhestr geirfa hon at ei gilydd. Cyflwynir y rhestr ei hun yn yr Atodiadau, fel y canlyn:

  • Atodiad A: y 750 gair mwyaf aml o CorCenCC
  • Atodiad B: y rhestr 500-gair sylfaenol, heb ychwanegiadau
  • Atodiad C: rhestr weithredol yr ychwanegiadau, yn nhrefn yr wyddor

Cliciwch yma i ofyn am gopi o’r rhestri Geirfan. Mae manylion ynglŷn â sut i ddyfynnu Geirfan ar gael yma.

Datblywgyd gwefan Geirfan ochr yn ochr â’n rhestr geiriau ar sail amlder, i ddangos potensial y data er mwyn creu deunyddiau dysgu. Seiliwyd targed cychwynnol Geirfan o 500 o eiriau ar ein rhestr geiriau sy’n deillio o CorCenCC, wedi ei hategu a’i mireinio yn sgil adborth tiwtoriaid Cymraeg ac arbenigwyr ieithyddol eraill. Mae’r esiamplau enghreifftiol a ddarperir yng nghofnodion geiriadur Geirfan yn deillio o CorCenCC hefyd, a defnyddir data amlder y prosiect hwn er mwyn sicrhau mai brawddegau enghreifftiol gyda geirfa amlder-uchel sy’n cael eu dewis yn awtomatig, lle bynnag bo modd. Mae’r data amlder hefyd yn cyfrannu at nodi’r cydleoliadau, yr ymadroddion a’r priod-ddulliau aml-eu-defnydd sy’n cael eu rhestru yng nghofnodion y geiriadur, fel bod defnyddwyr yn cael gwybodaeth ddefnyddiol am y ffurfiau ieithyddol y maen nhw fwyaf tebygol o ddod ar eu traws wrth ddefnyddio’r Gymraeg o ddydd i ddydd.

Yn ôl i’r brig

Archwilio CorCenCC ar-lein

Mae fersiwn beta o offer ymholi corpws dwyieithog CorCenCC, ynghyd â chanllaw cyflawn i ddefnyddwyr, ar gael trwy dab Archwilio’r wefan hon. Mae hyn yn cynnwys y nodweddion canlynol:

  • Ymholiad Syml: er mwyn archwilio unrhyw air a/neu ffurf lema yn y corpws, ac un neu fwy o lawer o dagiau rhan ymadrodd (RhY), mathau o dreiglad, neu dagiau categori semantiggair a/neu lema penodol. Rhoddir detholiad o ganlyniadau ar hap mewn allbwn KWIC (Key Word in Context). Wedyn mae modd hidlo’r canlyniadau yn ôl modd, ardal ddaearyddol, cyd-destun, genre, testun, cynulleidfa darged a ffynhonnell.
  • Ymholiad Llawn: i’w ddefnyddio i chwilio am ddilyniannau hwy o batrymau (ymadroddion aml-eiriau) wedi’u gwahanu gan fylchau, gan ddefnyddio cystrawen ymholi bwrpasol CorCenCC. Cyflwynir y canlyniadau mewn allbwn KWIC (Key Word in Context) y mae modd ei hidlo yn ôl modd, ardal ddaearyddol, cyd-destun, genre, testun, cynulleidfa darged a ffynhonnell.
  • Rhestr Amlder: cynhyrchir rhestr o eiriau neu lemâu yn y corpws wedi’u trefnu yn ôl pa mor aml maent yn digwydd.
  • Dadansoddi N-Gram: rhestrir patrymau n-gramau/clystyrau o 2-7 o eiriau, lemâu neu RhY yn y corpws, wedi’u trefnu yn ôl pa mor aml maent yn digwydd.
  • Dadansoddi Allweddair: dangosir geiriau sy’n anarferol o aml mewn un is-set o’r corpws o’u cymharu ag is-set ‘cyfeirio’ wahanol o’r corpws.
  • Collocation Analysis: displaying information on the relationships between word types that appear together within a given context window. [Functionality available soon]

Mae’r offer pedagogaidd sy’n mynd gyda CorCenCC ar gael trwy dab Y Tiwtiadur y wefan hon.

Mae’r holl ddata yn CorCenCC wedi cael eu tagio’n llawn o ran rhan ymadrodd (RhY) a chategori semantig. Mae modd chwilio’r tagiau hyn yn llawn o fewn y corpws ac, yn achos Ymholiadau Syml a Llawn, mae codau lliw gan y tagiau hefyd er mwyn hwyluso archwilio patrymau yng nghanlyniadau’r ymholiadau. Ar ben hynny, mae’r holl ddata wedi’u categoreiddio yn ôl cyd-destun y defnydd, genre, testun ac ati gan alluogi i ddefnyddwyr archwilio patrymau o fewn/ar draws mathau penodol o destun a’r wybodaeth ddemograffig sydd yn y corpws. Ceir manylion y tagiau a’r tacsonemegau a ddefnyddiwyd yng nghanllaw’r defnyddiwr ar brif dudalen yr offer ymholi a thrwy safle GitHub CorCenCC.

Gall canlyniadau o ddadansoddiadau sy’n defnyddio’r offer ymholi gynnwys tagiau lle mae’r data wedi’u hanonymeiddio, neu (ar gyfer data llafar) lle mae confensiynau trawsgrifio wedi cael eu defnyddio. Mae tagiau anonymeiddio yn cynnwys:

Enwau personol                     <anon> enwg1 </anon> – enw gwrywaidd cyntaf

                                                         <anon> enwb1 </anon> – enw benywaidd cyntaf

Rhifau ffôn                                <anon> Rhif ffôn </anon>

Cyfeiriadau e-bost               <anon> cyfeiriad e-bost </anon>

Cyfeiriadau (personol)       <anon> cyfeiriad </anon>

Trawsgrifwyd y data llafar gan ddefnyddio confensiynau trawsgrifio pwrpasol CorCenCC. Dyma ambell enghraifft:

<S4> Rydym ni yn defnyddio ein trwyna’ i arogli. <arogli i mewn yn sydyn> Pan ym mae ‘da fi anwyd mae fy nhrwyn i’n mynd yn goch ac <=> mae </=> mae fel yn rhedag trwy’r amser.

Yma, mae <S4> a <S5> yn dynodi siaradwr gwahanol yn y sgwrs, gyda <=> mae </=> yn nodi bod gair wedi’i ailadrodd yn y sgwrs.

<S1> Boeth. A’r hen athrawon ‘na’n mynd fyny ac i lawr yn mynd <griddfan>.

<S2> <Chwerthin>. Gwrando ar y+

<S1> Ti’n cofio hyna <anon>enwb3</anon>?

<S2> +Gwrando ar y cloc yn tician.

Yma, noda’r defnydd o ‘+’ pan fydd siaradwr yn torri ar draws siaradwr arall yn y sgwrs – felly maent yn siarad yr un pryd. Dengys y defnydd o  <anon>enwb3</anon> fod enw personol wedi’i anonymeiddio. Yn olaf, wrth reswm, mae <Chwerthin> yn nodi bod y siaradwr yn chwerthin a <griddfan> yn nodi ochenaid.

Er mwyn ymgyfarwyddo â’r confensiynau a’r tagiau a ddefnyddiwyd yn y corpws, darllenwch yr wybodaeth am gonfensiynau trawsgrifio a thacsonomeg sydd ar gael ar safle GitHub CorCenCC.

Yn ôl i’r brig