Datblygiad Y Gymraeg Ar Twitter
Datblygiad Y Gymraeg Ar Twitter – Data Techiaith
Wrth bori drwy twitter ychydig yn ôl, ddes i ar draws y neges yma gan @techiaith
Adnodd cyntaf y #PorthTechnolegauIaith: Corpora Gwefannau Cymdeithasol, 2.6 miliwn trydariad Cymraeg a mwy! http://t.co/IuIcmgstmg
— techiaith (@techiaith) February 13, 2015
Techiaith yw Uned Technolegau Iaith Canolfan Bedwyr ym Mangor sydd yn gweithio i ddatblygu adnoddau Cymraeg (e.e. Cysgair a Cysill). Un o’r adnoddau fwyaf newydd yw’r corpws data twitter– sef swmp anferth o dwîts Cymraeg wedi eu casglu ers 2007. (Linc – http://techiaith.org/corpora/twitter/)
Penderfynais weld pa fath o ddadansoddiadau oedd posib eu creu gyda’r data yma.
Y cam cyntaf oedd lawrlwytho’r ffeiliau, 50 zip file i gyd! Yn ôl y telerau, dim ond un ffeil y diwrnod gaiff un defnyddiwr ei lawrlwytho – felly i gyflymu’r broses, mi wnes i berswadio fy ffrindiau i lawrlwytho un ffeil y dydd hefyd (twyllo braidd – dwi’n cyfaddef!)
Ar ôl casglu’r ffeiliau i gyd – es ati i gychwyn dadansoddi.
Gair o Rybydd
Cyn trafod y canlyniadau, rhaid i mi bwysleisio mai dim ond dadansoddiad bras yw hwn – a dwi wedi cymryd y data yn ei gyfanrwydd fel y mae – “as is”.
Dwi ddim wedi mynd drwyddynt yn chwilio am ddata Saesneg, na thrio eu hidlo, cywiro na’i sortio. Yn ôl y ddogfennaeth ar wefan Techiaith, os oes llai na 30 cymeriad yn y twît, mae’n anoddach i’r meddalwedd adnabod iaith dehongli’r data. Maent yn argymell anwybyddu’r data yma, ond gan mai dim dehongliad academaidd yw hwn – mi wnes i eu gadael i mewn. Mi ges i hefyd ‘chydig o drafferth gyda ambell linell ble roedd y data yn y colofnau anghywir. Mi wnes i anwybyddu’r cofnodion yma.
Cofiwch felly efallai nad yw’r canlyniadau yn adlewyrchiad 100% cywir o’r sefyllfa, ond gobeithiaf fydd yn rhoi rhyw syniad i ni o sut mae’r defnydd o’r iaith wedi newid.
Nifer Twîts Cymraeg ar Twitter
Mae’r data dwi wedi dehongli yn rhedeg o Orffennaf 2007 i Ragfyr 2013, ac yn cwmpasu 2,546,744 twît unigol.
Mae’r graff cyntaf yma yn dangos yn syml y nifer twîts Cymraeg ymhob mis, dros y cyfnod (mae pob cofnod yn y data yn cynnwys yr amser a’r dyddiad cafodd y twît ei greu).
Mae’n dangos cynnydd eithaf araf hyd at ddiwedd 2010, ble cynyddu’n sylweddol wedyn. Rhywbeth arall trawiadol yw bod y ffigyrau yn disgyn yn ddramatig ar ôl Awst 2014. Mae’n anodd gen i gredu bod y nifer twîts wedi disgyn i lawr mor gyflym – felly mae’n debyg bod y data am y misoedd mwyaf diweddar ddim mor gyflawn?
Ar gyfartaledd, dros y cyfnod (gan anwybyddu’r data ar ôl Awst 2014) – mae’r ffigyrau yn dangos cynnydd o ryw 1,200 twît Cymraeg ychwanegol pob mis!
Nifer Defnyddwyr Unigryw yn Defnyddio’r Gymraeg
Gan fod pob cyfnod hefyd yn cynnwys rhif unigryw pob defnyddiwr, roedd modd canfod y nifer defnyddwyr unigryw oedd yn defnyddio twitter drwy’r Gymraeg pob mis. Mae’r canlyniadau yn y graff isod
Mae’r patrwm tyfiant yn debyg iawn i’r siart cynt, gyda mwy o Gymraeg tua chychwyn 2011. Y tro yma, mae’r tuedd ar gyfartaledd dros y cyfnod yn dangos rhyw 70 defnyddiwr newydd yn trydar yng Nghymraeg pob mis. Wrth gwrs, gall hynna gynnwys defnyddwyr sydd ond unwaith wedi trydar yn Gymraeg!
Hashnod Cymraeg Fwyaf Poblogaidd
Yn olaf, ac efallai yn fwy diddorol, mi wnes i edrych ar ba hashnod (hastag neu #) oedd y fwyaf poblogaidd dros y cyfnod. Ar gyfer y rhestr derfynol mi wnes i chwynnu rhai o’r hashnodau Saesneg i ffwrdd, gan gynnwys y rhai generig fel #fail #lol #omg ayyb. Dyma’r 25 uchaf:
Yr enillydd clir yw #YAGYM – sef hashnod Yr Awr Gymraeg (linc – https://twitter.com/yrawrgymraeg). Fel un sy’n dilyn y cyfrif ar twitter, dwi’n gwybod pa mor weithgar ac effeithiol yw’r hashnod, gan fydd fy ffrwd yn byrlymu ar nosweithiau Mercher gyda negeseuon yn cynnwys yr hashnod, sydd yn cael ei ail-drydar gan y prif gyfrif.
Mae’r ffaith hefyd na rhywbeth achlysurol yw’r hashnod (dim ond rhwng 20:00 a 21:00 ar nos Fercher mae’r “awr Gymraeg” swyddogol) yn gwneud y ffigyrau yn hyd yn oed mwy trawiadol!
Mae’r YAGYM yn amlwg felly yn enghraifft wych o sut i ddefnyddio twitter fel platfform ymgyrchu neu hyrwyddo.
I gael gweld gweddill y rhestr, dwi wedi cynnwys y 150 uchaf yng ngwaelod y blog yma (clic)
Gwaith Pellach?
Fel nes i grybwyll yn y cychwyn, dim ond trosolwg bras o’r data yw hyn, ac mae modd ei ddadansoddi yn llawer manylach. Mi fysa’n ddiddorol gweld os oes rhyw amser neu ddydd pendant pan mae’r Cymry yn trydar. Diddorol hefyd fysa gweld pa hasnod oedd yn tueddu ymhob mis – gan ffurfio rhyw fath galendr o uchafbwyntiau’r flwyddyn yn ôl twitter. Gan mai mapiau yw fy nghefndir, mi fyswn yn hoffi cael gwybdaeth daearyddol am ble mae’r defnyddwyr Cymraeg o fewn (a thu allan) i’r wlad.
Gyda’r gwaith ardderchog mae Techiaith wedi ei wneud i baratoi a rhyddhau’r data yma, gobeithiaf weld mwy o ddefnydd a dadansoddiadau yn y dyfodol.
Hwyl am y tro
Dafydd
Cydnabyddiaeth
Jones, D. B., Robertson, P., Taborda, A. (2015) Corpws Trydariadau Cymraeg [http://techiaith.org/corpora/twitter]
Da iawn Dafydd! Hoffwn wybod sut i drydar yn Gymraeg yn fwy rheolaidd heb elyniaethu dilynwyr di Gymraeg. Mae’r mwyafrif o fy nilynwyr i ddim yn medru’r iaith.
Helo Eirwen, diolch am dy neges.
Efallai nad ydwi yn y person gorau i holi, gan fod y rhan fwyaf o’n ffrindiu twitter yn Gymraeg – ond dal ati fyswn i! Dwi’n siwr fysa dy ddilynwyr ddim yn meindio ambell dwît Cymraeg, a efallai y bysa’n codi diddordeb mewn rhai yn yr iaith. Pob lwc 🙂
Difyr iawn, diolch yn fawr am rannu.
Dw i’n chwarae gyda nhw heno.
Diolch Carl
[…] y blogiad olaf (linc), mi wnes i ddefnyddio data o gorpws twitter techiaiath (linc) i ddadansoddi datblygiad y Gymraeg […]