Ymchwil i’r Wyddeleg gan fyfyrwraig 16 oed
Mae hon yn stori wych. Myfyrwyr ifainc Cymru: drosodd i chi!
http://www.irishtimes.com/newspaper/ireland/2012/0113/1224310195201.html
Mae hon yn stori wych. Myfyrwyr ifainc Cymru: drosodd i chi!
http://www.irishtimes.com/newspaper/ireland/2012/0113/1224310195201.html
Yn ôl ym mis Ebrill 2011 dechreuais chwilio a chadw trydariadau oedd yn cynnwys y gair “Cymraeg”. Doedd gen i ddim rheswm dros wneud heblaw fy mod am ddysgu mwy am Twitter a sut y byddai modd dadansoddi trydariadau. Rwyf wedi bod yn edrych ar y cyfan a drydarwyd hyd at tua 17.00 ar 30 Rhagfyr 2011: 14,736 o drydariadau (gan gynnwys ail-drydariadau) gan 6,186 o ddefnyddwyr gwahanol. Doedd y trydariadau ddim o reidrwydd yn y Gymraeg, dim ond bod y gair ‘Cymraeg’ wedi ei gynnwys.
Y deg defnyddiwr mwyaf toreithiog oedd (a nifer eu trydariadau yn dilyn yr enw):
adamjones416 236
CSyFflint 148
fideobobdydd 144
newyddcymraeg 126
BJRoute66 111 (pob un yn dweud Bore Da yn Gymraeg ac mewn ieithoedd eraill)
heddgwynfor 93
rhysw1 93
radicalwales 89
UmapCym 89
Marshallmedia 88
Dyma siart yn dangos y dosbarthiad yn llawn:
(Dim ond enwau rhai o’r defnyddwyr sy’n cael eu dangos yn amlwg).
Bydd y ffisegwyr yn eich plith yn adnabod y dosbarthiad fel un deddf pŵer, a ieithegwyr fel un Zipf. Dyma’r llinell ffitiais gan dybio mai dosbarthiad Zipf yw e:
Pe bai’r dosbarthiad yn un Zipf yn union byddai gan y llinell raddiant o minws un.
Gan fod hwn yn wefan i bobl sydd â diddordeb mewn technoleg, dyma ychydig o fanylion technegol. Casglais y trydariadau gan ddefnyddio sgript Python o fewn Scraperwiki. Lawrlwythiais i nhw o’r fan honno mewn ffeil sqlite a’u mewnforio gan ddefnyddio pecyn RSQLite i R. Ffitiais y llinell gan ddefnyddio pecyn R VGAM.
Rwy’n chwarae gyda’r data o hyd. Bydd cofnodion eraill yn dilyn! Os oes diddordeb gan rywun i glywed mwy, rwy’n bwriadu fod yn Haciaith Aberystwyth ar Ionawr 28. Erbyn hynny rwy’n gobeithio y byddaf wedi cael cyfle i edrych i mewn ymhellach i’r rhwydwaith cymdeithasol y trydarais yn ei gylch ychydig yn ôl: http://twitter.com/#!/hywelm/status/147108547119951873
Trydarais yn ddiweddar pan ddes ar draws erthygl oedd yn cyflwyno accentuate.us, ategyn Firefox sy’n ychwanegu acenion yn awtomatig pan fyddwch yn ysgrifennu ar y we. Mae’n gweithio gyda 116 iaith, gan gynnwys y Gymraeg. Gan nad oes cymaint â hynny o lythrennau yn y Gymraeg sydd ag acen uwchben fydd hi ddim mor ddefnyddiol i rai sy’n ysgrifennu Cymraeg ag a fydd i rai sy’n ysgrifennu ieithoedd eraill, e.e. y Wyddeleg, lle mae llythrennau acennog lawer yn fwy cyffredin. (Fel rhywun sy’n wael am ysgrifennu Gwyddeleg, rhagwelaf y bydd o ddefnydd i mi!).
Mae sail ystadegol cyfieithu awtomatig o ddiddordeb i mi, fel ystadegydd. (Dim bod gen i wybodaeth arbenigol am y maes, does gen i ddim o gwbl). Fel Google Translate mae accentuate.us yn dibynnu ar ddadansoddiad ystadegol o gorpws mawr o destunau sydd ar gael mewn dwy iaith. Mae dadansoddiad o’r testunau hynny’n golygu bod modd defnyddio tebygolrwydd, wedi ei seilio ar ddamcaniaeth Bayes, i gynnig cyfieithiad (yn achos Google Translate) neu ble mae angen acen (yn achos Accentuate.us). Yn Haciaith 2011 siaradodd Llio Humphreys am ei gwaith is-deitlo gyda meddalwedd Moses. Ar wefan Moses des ar draws eglurhad eithaf manwl o’r model mae’n ei ddefnyddio: http://www.statmt.org/moses/?n=Moses.Background. Welais i ddim byd penodol am sail Google Translate ond byddwn yn tybio ei fod yn defnyddio rhywbeth tebyg.
Un o’r bobl y tu ôl i Accentuate.us yw Kevin Scannell, y mae ei fanylion yma. Ef, hefyd, sydd y tu ôl i indigenoustweets ac mae wedi darparu llawer o feddalwedd yn ymwneud â’r Wyddeleg.
Soniais am Freebase Gridworks pan ysgrifennais am OpenTech 2010. Roedd sôn bryd hynny bod Google yn mynd i’w ail-enwi a nawr maen nhw wedi gwneud: mae Google Refine yw e nawr. Rwyf wedi bod yn ei ddefnyddio am y tro cyntaf yr wythnos hon ac, fel roeddwn wedi disgwyl, mae’n declyn defnyddiol iawn i rywun sy’n gorfod glanhau data.
Wrth lanhau rwy’n golygu sicrhau bod y data wedi fformatio’n gyson, geiriau wedi eu sillafu’n gyson ac yn y blaen. Er y gellir glanhau data mewn taenlen trwy “Ffeindio a disodli” drosodd a throsodd, mae Gridworks yn gwneud y broses lawer yn haws. Ei brif nodwedd efallai yw ei ddefnydd o beth mae’n ei alw’n “agweddau” [facets]. Wrth edrych ar golofn a defnyddio “agwedd testun”, er enghraifft, ceir crynodeb o’r golofn ar ffurf crynodeb amlder. Efallai y bydd yn dangos bod y golofn yn cynnwys 6 rhes â “Caerdydd” a 2 res â “Cardydd”. Gydag un clic, gellir eu newid i gyd i “Caerdydd”. Dydw i ddim am fanylu’n fwy. Edrycher ar y fideos sy ar y ddolen uchod i gael syniad gwell. Yn anffodus, does fawr ddim o ddogfennaeth a dydy fideos ddim yn gallu cymryd lle dogfennaeth mewn gwirionedd. Os hoffech ddarllen mwy, mae’r ddolen ganlynol yn rhoi syniad am beth mae’n gallu ei wneud: Using Freebase Gridworks to Create Linked Data
Diolch, defnyddiol. (Fydd e’n iawn gyda “Gaerdydd” a threigladau?)
Dyma ychydig o nodiadau am beth ddysgais neu welais yng nghynhadledd OpenTech 2010. Mae manylion pwy oedd yno, a rhagor, ar Lanyrd.
Cafodd y gynhadledd ei noddi eleni gan data.gov.uk a’r sesiynau am ddata oedd yr rhai oedd o ddiddordeb pennaf i mi. Efallai i mai’r sesiwn cyntaf oedd y mwyaf diddorol o’m safbwynt i. Cawsom wybod am gefndir data.gov.uk ond yn benodol cawsom ddemo o Gridworks. (Google bia fe nawr a dywedwyd eu bod yn mynd i newid ei enw cyn bo hir). Mae Gridworks yn edrych fel teclyn a allai fod yn arbennig o ddefnyddiol i lanhau data ac mae hefyd yn gallu allforio data i fformat rdf. Mae’r cofnod blog yma yn egluro sut mae ei ddefnyddio.
Soniaf am un sesiwn arall, un gynhwysodd gyflwyniad gan Phil Gyford am greu gwefan gan ddefnyddio API Platfform Agored y Guardian sy’n cyflwyno rhywbeth tebyg i gopi papur y Guardian: http://www.guardian.gyford.com/. Mae’n werth rhoi golwg arno.
Diolch Hywel. Es i i OpenTech yn 2009. Baswn i wedi blogio fe yma ond mae Hacio’r Iaith wedi bodoli am 8-9 mis yn unig! Gwnaethon nhw trafod Guardian API a Data Store hefyd llynedd. Digwyddiad gwych.
Es i gynhadledd AGI Cymru fis Rhagfyr diwethaf. Daliodd un o’r cyflwyniadau’n arbennig fy sylw, sef yr un ar Mobile GIS Mashups gan ddyn o Oxford Archaeology. Roedd yn frwd iawn am botensial Yahoo Pipes. Doeddwn i ddim wedi dod ar ei draws cyn hynny a phenderfynais gael golwg arno rywbryd.
Adroddais ar f’ymdrechion i geocodio lleoliadau ysgolion meithrin yn anghynhadledd Haciaith yn Aberystwyth ym mis Ionawr ac roedd gen i ddiddordeb felly i weld beth oedd Yahoo Pipes yn gallu ei wneud.
Es ati i ddysgu sut i greu Pipe a dwi wedi cyhoeddi dau ohonynt yn ddiweddar. Mae’r ddau’n eich galluogi i chwilio am adroddiad gan Estyn ar ysgol ond bod un yn dod o hyd i’r adroddiad Cymraeg (os oes un) a’r llall yn dod o hyd i adroddiadau Saesneg. Os ceisiwch nhw, fe welwch nad yw’r geocodio’n ddibynadwy iawn, yn enwedig yn y fersiwn Gymraeg. Mae’n amlwg nad yw API Yahoo yn llwyddiannus iawn am adnabod cyfeiriadau Cymraeg ond dydy’r Pipe sy’n chwilio am adroddiadau Saesneg ddim yn geocodio’n dda iawn chwaith. Y broblem yw bod Estyn yn cyhoeddi’r adroddiadau fel pdfs, a’r Pipe -rwy’n tybio – yn gorfod chwilio fersiwn html y pdf am rywbeth sy’n edrych fel cyfeiriad a dydy cyfeiriadau Cymraeg ddim yn edrych fel cyfeiriadau iddo.
Mae’r Pipe yn codi darn ar hap o’r pdf i’w rhoi ym maes y disgrifiad. Os yw’r darn yn cynnwys enw’r ysgol a rhif yr ysgol mae’r Pipe yn rho’r enw’n deitl, a’r rhif yn y disgrifiad.
Ta beth, rhowch gynnig arnyn nhw. Os ydych yn gallu awgrymu ffordd o’u gwella byddwn yn falch o glywed.
Pipe chwilio am adroddiad Cymraeg
Pipe chwilio am adroddiad Saesneg
Diolch Hywel, mae Pipes yn wych.
Dw i wedi eu defnyddio nhw am projectau gwahanol.
Newyddion Llywodraeth
http://quixoticquisling.com/2009/11/welsh-assembly-government-bundles-of-rss-feeds/
Fy hoff blog am Pipes yw
http://blog.ouseful.info/
Pethau gyda ieithoedd
http://blog.ouseful.info/2010/03/19/twitter-auto-translation-pipe/
http://blog.ouseful.info/2009/05/07/filter-tweets-by-language/
Carl Morris 2:01 AM ar 15 Ionawr 2012 Dolen Barhaol
Helo Hywel. Newydd darllen dy argymelliad. Ac mae syniad yn y cofnod nesaf!