WP1: Mae angen eich help

Mae Corpws Cenedlaethol Cymraeg Cyfoes yn chwilio am gyfraniadau! Cyn y Nadolig, cyhoeddon ni ein map yn dangos bod ein cyfraniadau Cymraeg llafar bron i 100% yn y rhan fwyaf o’r wlad, gyda dim ond llond llaw o ardaloedd heb ddigon o Gymraeg eto. Os ydych chi’n adnabod siaradwyr o Ferthyr Tudful, Conwy, Sir y Fflint neu Ynys Môn, gofynnwch iddynt gyfrannu! Mae modd gyrru recordiadau o’r iaith lafar yn hawdd drwy ein ap torfoli (ar gael ar Android ac iOS).

Cymraeg dros yr ap

Mae ein ap yn galluogi i unrhyw un yrru eu recordiadau Cymraeg naturiol aton ni mewn ffordd ddymunol a syml. Yn gyntaf, mae’r ap yn gofyn am eich caniatâd ac am eich manylion personol (rhag ofn i chi newid eich meddwl yn y dyfodol a gofyn i ni ddileu eich data). Yna, bydd gofyn i chi wneud dau recordiad. Ar yr un cyntaf, mae angen i bawb sy’n bresennol ganiatáu i ni ddefnyddio’r recordiad. Yn yr ail recordiad mae’r hwyl! Efallai eich bod yn hoff o’r ffordd mae un aelod o’r teulu’n siarad ac yn awyddus i rannu eu tafodiaith unigryw â’r Corpws. Neu efallai eich bod yn cael sbort gyda ffrindiau dros ginio ac yn fodlon rhannu’r hwyl gyda ni! Pa bynnag reswm, hoffen ni gynnwys eich Cymraeg naturiol, ‘bob dydd’ yn y Corpws. Mae’r ap yn ffordd hawdd o rannu eich iaith a sbarduno sgwrs ddifyr ar yr un pryd!
Os nad ydych yn hyderus iawn wrth ddefnyddio apiau newydd, mae canllawiau ar gael i’w dilyn: http://www.corcencc.cymru/ap/.

Cymraeg drwy e-bost

Yn ein corpws o 10,000,000 o eiriau, rydym yn ceisio cydbwyso gwahanol ‘fathau’ o iaith. Ar hyn o bryd, rydyn ni wedi rhagori ar ein targed o iaith o flogiau a gwefannau – carreg filltir! Rydyn ni’n dal i chwilio am ragor o gyfranwyr sy’n fodlon rhannu eu negeseuon ac e-byst â ni (p’run bynnag faint o Saesneg sydd ynddynt)! Gall y negeseuon fod o natur broffesiynol neu bersonol – bydd popeth yn ddienw yn y Corpws. Os ydych yn fodlon cyfrannu eich e-byst, gyrrwch nhw ymlaen at CorCenCC@caerdydd.ac.uk (byddwn yn gofyn i chi lofnodi ffurflen ganiatâd cyn y medrwn ni ddefnyddio eich cyfraniadau). A rhannwch ein cais gyda’ch ffrindiau, os gwelwch chi’n dda!

Rydyn ni’n casglu negeseuon testun drwy ein WhatsApp. Ychwanegwch +44 7542 348512 fel cysylltiad ar eich WhatsApp a gyrrwch neges sydyn i ddweud helo! Bydd aelod o’r tîm wedyn yn cysylltu cyn gynted â phosib gyda chanllawiau ar sut i yrru negeseuon ymlaen i ni mewn un swmp sydyn.

Cadwch mewn cyswllt

Os ydych chi â diddordeb mewn cyfrannu i’r project, ond angen mwy o wybodaeth, cysylltwch â’r cyfeiriad e-bost uchod neu hyd yn oed drwy Twitter @CorCenCC neu Facebook CorCenCC. Bydden ni’n falch o glywed gennych!

Os ydych chi’n fodlon cyfrannu mwy o enghreifftiau o’ch iaith i’r corpws, ond heb amser ar hyn o’r bryd, dilynwch ein cyfrifon ar y gwefannau cymdeithasol am atgoffyn ac am ddiweddariadau am y prosiect.

 

 

Arddangos offer ymholi CorCenCC

Ers y flwyddyn newydd gwelwyd peth cynnydd pwysig yng nghyswllt offer holi corpws pen blaen CorCenCC, ac rydym yn falch iawn o’u rhyddhau ar ffurf fersiwn beta y mis yma. Yr offer yw prif ddatblygiad WP5, sy’n canolbwyntio ar y seilwaith sy’n ofynnol i adeiladu a chynnal y data, a sicrhau bod modd i bobl blymio iddo pan fydd yn barod. Nawr bod yr hyn a nodwyd fel prif swyddogaethau ar waith, rydym ni’n gobeithio y bydd rhyddhau’r fersiwn beta hon o’r offer holi yn sicrhau peth adborth hanfodol i ni, y byddwn yn gallu ei ddefnyddio i fireinio ac ehangu nodweddion yr offer rhwng nawr a diwedd y prosiect.

Ar hyn o bryd mae’r offer yn gweithredu trwy ddefnyddio corpws bach iawn o ryw 15,000 o eiriau, yr ydym wedi’u defnyddio ar hyd CorCenCC i werthuso ein hamrywiol offer meddalwedd, ond wrth gwrs byddwn ni’n disodli hynny â’r data a gasglwyd gan dîm WP1 yn ystod y misoedd nesaf.  Fodd bynnag, wrth ddefnyddio’r fersiwn beta, mae’n dal yn bosibl cyrchu’r ystod lawn o swyddogaethau cyfredol ac arbrofi gyda nhw.  Mae hyn yn cynnwys:

  • Llinellau mynegai Keyword-in-context (KWIC):
    • Chwilio am eiriau (neu ddilyniant o eiriau) yn CorCenCC, a gweld y canlyniadau yn eu cyd-destun, gyda’r testun o’u hamgylch i’r chwith a’r dde yn cael ei arddangos. Mae ein hoffer holi yn cynnig dwy ffordd o gynhyrchu llinellau mynegai:
      • Dewis ‘Simple Query’ > sef defnyddio ein ffurflen hwylus i chwilio am eiriau unigol, wedi’u cyfyngu i ffurfiau penodol o ran treigladau, rhannau ymadrodd (POS; categorïau cystrawennol), a/neu gategorïau semantig fel sy’n briodol.
      • Dewis ‘Full Query’ > sef defnyddio ein hiaith holi unigryw i gyfuno ymholiadau mwy cymhleth a chwilio am ddilyniannau o eiriau (mae cyfarwyddiadau llawn ynghylch llunio ymholiadau ar gael ar yr offer eu hunain).

  • Rhestrau amlder:
    • Cynhyrchu rhestrau o’r eitemau geiriol sy’n digwydd amlaf yn y corpws – p’un ai nhw yw’r geiriau mwyaf cyffredin, neu’r ffurfiau lema mwyaf cyffredin.
  • Dewis ‘Frequency List’ > sef dewis a ydych am greu rhestr ‘geiriau’ neu ‘lemas’ > ac yna dewis a ydych am gyfyngu’r rhestr i dagiau POS penodol, ffurfiau penodol o ran treigladau a/neu dagiau cystrawennol.
  • Dadansoddiad N-Gram:
    • Cynhyrchu rhestrau o’r n-gramau sy’n digwydd amlaf (enw arall ar y rhain yw ‘clystyrau’ o eiriau) – er enghraifft, y dilyniannau tri gair a ddefnyddir gyda’i gilydd sy’n digwydd amlaf yn y corpws.
      • Dewis ‘N-Gram Analysis; > sef dewis a ydych am greu clystyrau o dagiau ‘geiriau’, ‘lemas’, neu ‘POS’ > cyn dewis maint gram i gynhyrchu rhestr.
    • Dadansoddi cydleoliad
      • Cynhyrchu rhestrau o gydleoliadau – geiriau y ceir hyd iddynt gan amlaf ochr yn ochr â therm chwilio a roddwyd oddi mewn i ffenestr gyd-destunol a roddwyd (geiriau-n bob ochr i’r term chwilio) – wedi’u rhestru yn ôl cryfder eu cydleoli.
        • Dewis‘Collocation analysis’> sef nodi term chwilio (gair) yr ydych am wybod beth yw ei gydleoliadau> yna dewiswch faint y ffenestr yr ydych am ystyried cydleoliadau oddi mewn iddi (plws neu minws 7 bob ochr) > cyn dewis metrig‘ cryfder’ar gyfer graddio cydleoliadau (disgrifir y metreg sydd ar gael ar yr offer).
      • Dadansoddi geiriau allweddol
        • Cynhyrchu rhestr o eiriau allweddol – rhai y mae eu digwyddiad yn ystadegol arwyddocaol o gymharu â chyfradd eu digwyddiad mewn is-gorpora cymaradwy. Er enghraifft, darganfod pa eiriau sy’n ystadegol gyffredin mewn is-gorpws sy’n cynnwys data corpws llafar yn unig, o gymharu ag is-gorpws sy’n cynnwys data ysgrifenedig ac electronig.
          • Dewis ‘Keyword Analysis’ > sef clicio ar ‘Sub-corpus A’ a dewis opsiynau o ran cynnwys data (neu beidio) ar gyfer eich prif gorpws (is-set i CorCenCC) > cyn clicio ar ‘Sub-corpus B’ a dewis opsiynau o ran cynnwys data (neu beidio) ar gyfer eich corpws cyfeiriadol (is-set i CorCenCC) > ac yna dewis dull ar gyfer graddio pa mor allweddol ‘keyness’ yw’r geiriau (disgrifir hyn yn fanylach ar yr offer) > ac yna dewis lefel yr arwyddocâd sy’n angenrheidiol cyn i air gael ei ystyried yn‘allweddol’.

Cefnogir y prif swyddogaethau hyn gan nodweddion ychwanegol, gan gynnwys gallu gwneud y canlynol:

  • Didoli canlyniadau i’r chwith a’r dde o’r gair/geiriau chwilio, er mwyn medru gweld gwahanol batrymau o ddefnyddio’r iaith Gymraeg;
  • Hidlo’r canlyniadau yn ôl yr amrywiol fetadata rydym wedi bod yn ei gasglu, ynghylch cyfraniadau i’r corpws a’r cyfranwyr a’r siaradwyr sy’n ymwneud â nhw.

Yn llythyr newyddion mis Tachwedd, fe wnaethom ni ddisgrifio sut mae datblygu’r offer holi wedi cael ei lywio gan arolwg a gynhaliwyd gennym ar ddewisiadau defnyddwyr o ran offer presennol sy’n dadansoddi ac yn holi’r corpws. Bu hynny o ddiddordeb o ran ein helpu i benderfynu pa swyddogaethau ddylai gael blaenoriaeth ar hyn o bryd.  Yn yr un ysbryd, rydym ni hefyd yn cynnwys opsiwn gadael adborth yn ein fersiwn beta o’r offer holi – felly mae croeso i chi roi gwybod i ni beth yw eich barn amdanyn nhw!

Rydym ni’n edrych ymlaen at weld sut mae pobl yn defnyddio’r gwahanol nodweddion rydym wedi’u cynnwys, a bydd eich mewnbwn yn werthfawr i’n helpu i benderfynu pa nodweddion dylen ni eu cynnwys nesa.

Yn ystod y misoedd nesaf, byddwn ni’n adolygu’r holl adborth a gawn ar ein fersiwn beta o’r offer holi er mwyn cynnwys cynifer o swyddogaethau defnyddiol â phosib, fel bod yr offer mor effeithiol â phosibl o ran amlygu sut mae’r Gymraeg yn cael ei defnyddio mewn gwahanol gyd-destunau ar draws data’r corpws rydym ni’n ei gasglu.  Mae’r gwaith o ddatblygu ein pecyn offer addysgeg – gan aelodau WP4 – hefyd yn mynd rhagddo’n dda, felly byddwn ni’n gweithio i gysylltu hynny â’r offer holi, fel bod modd i athrawon a dysgwyr ddefnyddio’r data ar gyfer eu cynlluniau gwersi a’u sesiynau astudio eu hunain.

Felly, mae croeso i chi archwilio ein fersiwn beta o offer holi corpws CorCenCC, sydd ar hyn o bryd yn http://corpusdemo.corcencc.org – rydym ni’n edrych ymlaen at glywed beth yw barn pawb ohonoch!

 

Newyddion (2018)

WordNet Cymru

Fis diwethaf, cwblhaodd tri o aelodau’r tîm – Irena Spasic, Steven Neale a Dawn Knight – orchwyl ar gyfer prosiect WordNet Cymraeg, sydd ar waith ers tri mis ochr yn ochr â phrosiect CorCenCC. Mae WordNet Cymraeg yn gronfa ddata o enwau, berfau, ansoddeiriau ac adferfau Cymraeg wedi’u trefnu ar ffurf setiau o gyfystyron ac wedi’u cysylltu â’i gilydd yn ôl amryw nodweddion eiriadurol a semantaidd sy’n gyffredin. Mae’n defnyddio’r un dull â rhaglenni WordNet mewn ieithoedd eraill ac mae rhaglenni o’r fath wedi bod yn hanfodol ynglŷn â phennu ystyr geiriau yng ngorchwylion prosesu iaith naturiol megis diffinio geiriau a chrynhoi testunau.

Mae WordNet Cymraeg wedi’i lunio dros dri mis, ac roedd yn dda gyda ni gael eu hariannu gan Lywodraeth Cymru yn rhan o gynllun Grant Cymraeg 2050. Yn unol â’r tueddiadau diweddaraf ynglŷn â chreu rhaglenni o’r fath yn awtomatig, rydyn ni wedi defnyddio gwybodaeth roes ein cyfeillion sy’n ymwneud â Geiriadur Prifysgol Cymru i gyfieithu geiriau o’r fersiwn Saesneg i’r un Cymraeg a’u trefnu wedyn ar ffurf setiau o gyfystyron Cymraeg wedi’u seilio ar strwythur gwreiddiol WordNet English. Rydyn ni’n fodlon iawn ar y fersiwn Cymraeg sy’n cwmpasu tua 67% o’r hyn a ystyrir yn setiau cyfystyron ‘craidd’ ar gyfer iaith newydd – rhyw 5,000 o’r syniadau mwyaf cyffredin a chanddynt y cysylltiadau cryfach â setiau eraill o gyfystyron.

At hynny, cawson ni gyfle i ddangos ein gwaith ni gerbron yr arianwyr yn rhan o achlysur Cymru Arloesol yn ddiweddar yn adeilad Tramshed Tech, Caerdydd, lle y cyflwynodd nifer o brosiectau sydd o dan nawdd Grant Cymraeg 2050 eu cynnydd. Roedd yn galonogol bod yno a gweld y ffyrdd cyffrous mae pobl yn gyrru datblygiad technoleg y Gymraeg, ac roedd yn dda fod yn bresennol ar gyfer cyflwyniad un o’n cydweithwyr, Steven Neale, am hynt WordNet Cymraeg a’r gwerth mae’n ei gynnig yn y maes hwnnw. Mae’n gyfnod cyffrous o ran llunio technoleg sy’n gweithredu trwy gyfrwng y Gymraeg, a bydd rôl bwysig i ddulliau prosesu iaith naturiol yn hynny o beth.

Mae rhagor am WordNet Cymraeg ar http://users.cs.cf.ac.uk/I.Spasic/wncy/index.html ac mae modd dechrau defnyddio WordNet Cymraeg ar https://github.com/CorCenCC/wncy.

Cylchlythyr CorCenCC – rhifynnau blaenorol

Tanysgrifiwch i dderbyn ein cylchlythyr prosiect

Rhowch eich cyfeiriad e-bost yn y ffurflen isod ac yna cliciwch y botwm ‘Subscribe’