Cyhoeddiadau:

 • Knight, D., Morris, S., Arman, L., Needs, J. a Rees, M. (2021, yn cael ei baratoi). Blueprints for minoritised language corpus design: a focus on CorCenCC. Llundain: Palgrave.
 • Knight, D., Morris, S. a Fitzpatrick, T. (2021, yn cael ei baratoi). Corpus Design and Construction in Minoritised Language Contexts: A focus on CorCenCC (Corpws Cenedlaethol Cymraeg Cyfoes – National Corpus of Contemporary Welsh). Llundain: Palgrave.
 • Knight, D., Loizides, F., Neale, S., Anthony, L. ac Spasić, I. . (2020, derbyniwyd). Developing computational infrastructure for the CorCenCC corpus – the National Corpus of Contemporary Welsh. Language Resources and Evaluation (LREV).
 • Corcoran, P., Palmer, G., Arman, L., Knight, D. ac Spasić, I. . (2020, derbyniwyd). Word Embeddings in Welsh. Journal of Information Science.
 • Muralidaran, V., Knight, D. ac Spasić, I. (2020, derbyniwyd). A systematic review of unsupervised approaches to usage-based grammar induction. Natural Language Engineering.
 • Spasić, I., Owen, D., Knight, D. ac Arteniou, A. (2019). Data-driven terminology alignment in parallel corpora. Trafodion yGynhadledd Celtic Language Technology Workshop 2019, Dulyn, Iwerddon.
 • Piao, S., Rayson, P., Knight, D. a Watkins, G. (2018). Towards a Welsh Semantic Annotation System. Trafodion y Gynhadledd Gwerthuso Adnoddau Iaith (LREC) 2018, Mai 2018, Miyazaki, Japan.
 • Neale, S., Donnelly, K., Watkins, G. a Knight, D. (2018). Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh. Poster a gyflwynwyd yng Nghynhadledd Gwerthuso Adnoddau Iaith (LREC) 2018, Mai 2018, Miyazaki, Japan.
 • Rayson, P. (2018). Increasing Interoperability for Embedding Corpus Annotation Pipelines in Wmatrix and other corpus retrieval tools. Trafodion y gweithdy Heriau wrth Reoli Corpora Enfawr yng Nghynhadledd Gwerthuso Adnoddau Iaith (LREC) 2018, Mai 2018, Miyazaki, Japan.
 • Rayson, P. a Piao, S. (2017). Creating and Validating Multilingual Semantic Representations for Six Languages: Expert versus Non-Expert Crowds. Trafodion y Gweithdy 1af ar ‘Sense, Concept and Entity Representations and their Applications’ a gynhaliwyd yng nghynhadledd European Chapter of the Association for Computational Linguistics 2017 (EACL) Ebrill, Valencia.
 • Piao, S., Rayson, P., Archer, D., Bianchi, F., Dayrell, C., El-Haj, M., Jiménez, R-M., Knight, D., Křen, M., Löfberg, L., Nawab, R. M. A., Shafi, J., Teh, P-L., ac Mudraya, O. (2016). Lexical Coverage Evaluation of Large-scale Multilingual Semantic Lexicons for Twelve Languages yng Nghynhadledd Gwerthuso Adnoddau Iaith (LREC) 2016, Mai 2016, Portorož, Slovenia.

Yn ôl i’r brig

Areithiau Cyweirnod a Chyflwyniadau mewn Cynadleddau

Yn ôl i’r brig

Offer a Meddalwedd CorCenCC:

Mae corpws CorCenCC a’i offer cysylltiedig yn feddalwedd ffynhonnell agored, felly maent ar gael i bawb eu defnyddio ar safle GitHub CorCenCC. I fynd i’r wefan, cliciwch yma.
Dyfynnwch yr allbynnau hyn fel a ganlyn:

 • Corpws CorCenCC:
  • Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I., Thomas, E-M., Lovell, A., Morris, J., Evas, J., Stonelake, M., Arman, L., Davies, J., Ezeani, I., Neale, S., Needs, J., Piao, S., Rees, M., Watkins, G., Williams, L., Muralidaran, V., Tovey, B., Anthony, L., Cobb, T., Deuchar, M., Donnelly, K., McCarthy, M. a Scannell, K. (2020). CorCenCC: Corpws Cenedlaethol Cymraeg Cyfoes – The National Corpus of Contemporary Welsh. Prifysgol Cardiff. http://doi.org/10.17035/d.2020.0119878310
 • Adroddiad prosiect CorCenCC:
  • Knight, D., Morris, S., Fitzpatrick, T., Rayson, P., Spasić, I. a Thomas, E. M. (2020). The National Corpus of Contemporary Welsh: Project Report | Y Corpws Cenedlaethol Cymraeg Cyfoes: Adroddiad y Prosiect. arXiv:2010.05542, Hydref 2020.
 • Isadeiledd ac ap torfoli CorCenCC:
  • Knight, D., Loizides, F., Neale, S., Anthony, L. ac Spasić, I.  (2020). Developing computational infrastructure for the CorCenCC corpus – the National Corpus of Contemporary Welsh. Language Resources and Evaluation (LREV).
 • Tagiwr rhan ymadrodd ‘CyTag’ CorCenCC:
  • Neale, S., Donnelly, K., Watkins, G. a Knight, D. (2018) Leveraging Lexical Resources and Constraint Grammar for Rule-Based Part-of-Speech Tagging in Welsh. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018). Miyazaki, Japan. 7-12 Mai, 2018
 • Tagiwr semantig ‘CySemTagger’ CorCenCC:
  • Piao, S., Rayson, P., Knight, D. a Watkins, G. (2018). Towards A Welsh Semantic Annotation System. Yn Nhrafodion yr 11eg Cynhadledd Adnoddau Iaith a Gwerthuso (LREC 2018), Miyazaki, Japan.
  • Piao, S., Rayson, P., Knight, D., Watkins, G. and Donnelly, K. (2017). Towards a Welsh Semantic Tagger: Creating Lexicons for A Resource Poor Language. Yn Nhrafodion y Corpus Linguistics 2017 Conference, a gynhaliwyd o 24-28 Gorffennaf 2017 ym Mhrifysgol Birmingham, Birmingham, DU.
 • Pecyn cymorth addysgegol ‘Y Tiwtiadur’ CorCenCC:
  • Davies, J., Thomas, E-M., Fitzpatrick, T., Needs, J., Anthony, L., Cobb, T. a Knight, D. (2020). Y Tiwtiadur. [Adnodd Digidol]. Ar gael yn: https://ytiwtiadur.corcencc.org
 • Rhestri amlder geiriau CorCenCC ‘Yr Amliadur’:

Ewch i’n safle GitHub i fynd at CyTag, CySemTag, dolenni at set ddata CorCenCC a manylion confensiynau trawsgrifio a chodio CorCenCC: https://github.com/CorCenCC

Yn ôl i’r brig

Is-brosiectau a meddalwedd

Isod, ceir manylion am holl is-brosiectau CorcenCC a ariannwyd yn allanol:

Dyddiad Dechrau
Ariannwr
Swm
Disgrifiad [ynghyd â’r Prif Ymchwilydd]
Chwef 2017 Y Cyngor Prydeinig £2000 Cyllid i gefnogi lansiad cyhoeddus prosiect CorCenCC yn Adeilad y Pierhead, Caerdydd [Knight]
Hyd 2017 Llywodraeth Cymru £24,992 Comisiwn cystadleuol gan Lywodraeth Cymru i ddarparu asesiad cyflym o’r dystiolaeth o ymagweddau a dulliau effeithiol ar gyfer addysgu ail iaith. Am ragor o wybodaeth, cliciwch yma. [Fitzpatrick]
Ion 2018 Cynllun Grant Cymraeg 2050 2017-2018 (GC2050/17-18/20) £19,964 Prosiect a oedd yn canolbwyntio ar adeiladu WordNet awtomatig ar gyfer y Gymraeg, sef cronfa ddata geiriadurol lle caiff geiriau eu grwpio’n setiau o gyfystyron (synsetiau), sy’n cael eu trefnu’n rhwydwaith o gysylltiadau semanteg-eiriadurol. I fynd at wefan WordNet Cymru, cliciwch yma. [Spasić]
Ion 2018 Cyd-bwyllgor Addysg Cymru (CBAC) £1,968 Grant ymchwil (gan gynnwys rhaglen fewnfurol). Grant ymchwil i gwblhau gwaith ar lunio geirfa graidd B1 ar gyfer Cymraeg i Oedolion (lefel Canolradd). Am fwy o wybodaeth, cliciwch yma. [Morris]
Ion 2019 Cyllid Technoleg Llywodraeth Cymru £20,000 Cyllid i gefnogi’r gwaith o ddatblygu Boniwr Cymraeg. Am fwy o wybodaeth, cliciwch yma. [Spasić]
Awst 2019 Cyllid Technoleg Llywodraeth Cymru £90,000 Prosiect yn dwyn y teitl: ‘Welsh language processing infrastructure: Welsh word embeddings’. Roedd y prosiect yn canolbwyntio ar ymgorffori geiriau ar gyfer y Gymraeg (ar greu geiriadur ac ymgorffori geiriau a thermau Cymraeg yn bennaf) ac yn cyfrannu at nod y Cynllun Gweithredu Technoleg Cymraeg i ‘hybu adnoddau dysgu codio a thechnoleg Cymraeg ar gyfer athrawon a disgyblion ysgol ac eraill’. [Spasić]
Mai 2020 Cyllid Technoleg Llywodraeth Cymru £90,000 Prosiect yn dwyn y teitl: ‘Learning English-Welsh bilingual embeddings and applications in text categorisation’. Nod y prosiect hwn yw ymestyn canlyniadau’r prosiect blaenorol drwy greu cynrychioliadau trawsieithol o eiriau mewn man ymgorffori ar y cyd ar gyfer Cymraeg a Saesneg. [Knight]

Yn ôl i’r brig

Cylchlythyr CorCenCC (archif)

Cliciwch isod i weld ôl-rifynnau archif o’r cylchlythyrau a gyhoeddwyd yn ystod prosiect CorCenCC:

Yn ôl i’r brig