Dyfodol adnoddau Bwrdd yr Iaith Gymraeg? /cc @ybwrdd

Dw i newydd ychwanegu dolen i’r rhestr o dermau ffonau symudol gan Bwrdd yr Iaith Gymraeg i Hedyn. http://hedyn.net/wici/Geiriaduron#Termau_technolegol.2Farbennig Dw i’n chwilio’r wefan Bwrdd yr Iaith Gymraeg nawr am drysorau. Unrhyw ffefrynnau? Wrth gwrs mae’r Bwrdd yn dod i ben cyn hir – fydd y ddolenni yna yn parhau? Dylen ni copïo’r data nawr ac… Parhau i ddarllen Dyfodol adnoddau Bwrdd yr Iaith Gymraeg? /cc @ybwrdd

DATA: corpws/rhestr fawr o eiriau Cymraeg (1,600,000 gair)

1,600,000 “gair” Cymraeg http://borel.slu.edu/obair/cy-freq.zip 6.9MB ffeil zip (23 MB dad-zip) Diolch i Kevin Scannell o Indigenous Tweets am y data. Mae’r data yn eitha brwnt, lot o swn. Mae’n dod o gropian gwefannau Cymraeg fel rhan o broject gyda Geiriadur Prifysgol Cymru. Efallai byddi di eisiau glanhau am rhai o ddefnyddiau. Ti’n gallu gwneud beth… Parhau i ddarllen DATA: corpws/rhestr fawr o eiriau Cymraeg (1,600,000 gair)

Culturomics: cronfa data massif o Google Books

Corpus mawr newydd o lyfrau http://ngrams.googlelabs.com/ 5.2m llyfr (“tua 4% o lyfrau sydd wedi cael ei chyhoeddi”) Dim Cymraeg yn swyddogol ond mae’n gynnwys llyfrau Cymraeg dan y categori English am ryw rheswm. e.e. chwilio am “iaith” http://ngrams.googlelabs.com/graph?content=iaith&year_start=1800&year_end=2000&corpus=0&smoothing=3 cofnod da gan David Crystal am terfynau y project http://david-crystal.blogspot.com/2010/12/on-culturomics.html Unrhyw ganlyniadau diddorol?

Cod agored BBC Vocab

Dw i newydd wedi ychwanegu’r dolen côd agored BBC Vocab i Hedyn http://hedyn.net/eraill#vocab Mae’r côd dan drwydded côd agored arbennig BBC. Mae’n hollol bosib creu ategion Firefox, WordPress, ayyb gyda fe.