Dadansoddi trydariadau

Yn ôl ym mis Ebrill 2011 dechreuais chwilio a chadw trydariadau oedd yn cynnwys y gair “Cymraeg”. Doedd gen i ddim rheswm dros wneud heblaw fy mod am ddysgu mwy am Twitter a sut y byddai modd dadansoddi trydariadau. Rwyf wedi bod yn edrych ar y cyfan a drydarwyd hyd at tua 17.00 ar 30 Rhagfyr 2011: 14,736 o drydariadau (gan gynnwys ail-drydariadau) gan 6,186 o ddefnyddwyr gwahanol. Doedd y trydariadau ddim o reidrwydd yn y Gymraeg, dim ond bod y gair ‘Cymraeg’ wedi ei gynnwys.

Y deg defnyddiwr mwyaf toreithiog oedd (a nifer eu trydariadau yn dilyn yr enw):

adamjones416 236
CSyFflint 148
fideobobdydd 144
newyddcymraeg 126
BJRoute66 111 (pob un yn dweud Bore Da yn Gymraeg ac mewn ieithoedd eraill)
heddgwynfor 93
rhysw1 93
radicalwales 89
UmapCym 89
Marshallmedia 88

Dyma siart yn dangos y dosbarthiad yn llawn:

Dosbarthiad trydariadau yn cynnwys 'Cymraeg'

(Dim ond enwau rhai o’r defnyddwyr sy’n cael eu dangos yn amlwg).

Bydd y ffisegwyr yn eich plith yn adnabod y dosbarthiad fel un deddf pŵer, a ieithegwyr fel un Zipf. Dyma’r llinell ffitiais gan dybio mai dosbarthiad Zipf yw e:Dosbarthiad trydariadau gyda thrawsffurfiad log

Pe bai’r dosbarthiad yn un Zipf yn union byddai gan y llinell raddiant o minws un.

Gan fod hwn yn wefan i bobl sydd â diddordeb mewn technoleg, dyma ychydig o fanylion technegol. Casglais y trydariadau gan ddefnyddio sgript Python o fewn Scraperwiki. Lawrlwythiais i nhw o’r fan honno mewn ffeil sqlite a’u mewnforio gan ddefnyddio pecyn RSQLite i R. Ffitiais y llinell gan ddefnyddio pecyn R VGAM.

Rwy’n chwarae gyda’r data o hyd.  Bydd cofnodion eraill yn dilyn! Os oes diddordeb gan rywun i glywed mwy, rwy’n bwriadu fod yn Haciaith Aberystwyth ar Ionawr 28.  Erbyn hynny rwy’n gobeithio y byddaf wedi cael cyfle i edrych i mewn ymhellach i’r rhwydwaith cymdeithasol y trydarais yn ei gylch ychydig yn ôl: http://twitter.com/#!/hywelm/status/147108547119951873