A project során tweet-ket gyűjtöttünk és egy adattáblába szerveztük őket. Ezután a python nyelven megírt VaderSentiment módszerrel elemeztük a tweeteket. A módszer lényege, hogy egy adott szöveget a benne lévő szavak, hangulatjelek és egyéb más rövidítések (pl.: LOL stb.) alapján számít ki 4 értéket (negatív, neutrális, pozitív és összesített).
Egy példa, a kapcsos zárójelben a számított értékek:
“VADER is smart, handsome, and funny.”
{‘neg’: 0.0, ‘neu’: 0.254, ‘pos’: 0.746, ‘compound’: 0.8316}
Értékelés:
A mondatban nem volt negatív töltésű rész. Körülbelül a szöveg ~25%-a semleges, míg a maradék ~75% pozitív kincsengésű volt. Összességében a normalizált “compound” érték 0.83 volt (-1 és 1 között lehet). Ha > 0.05, akkor pozitív, ha < -0.05, akkor negatív töltöttségű a szöveg. Ha ez az érték -0.05 és 0.05 között van, akkor semlegesnek tekinthető. Bővebb leírás itt.
50 darab tweet a #ecology tag-re keresve….adat
# rPython csomag betöltése
library(rPython)
# a tweet-ek behívása
tweet<-as.character(readLines("tweet_data.txt"))
# a tweet-ek tisztítása: #,@ jelek törlése a szövegekből.
tweet<-gsub("#","",tweet)
tweet<-gsub("@","",tweet)
tweet<-gsub("\"","",tweet)
tweet<-gsub("\n","",tweet)
# a változó átalakítása, hogy a python scriptbe tudjuk ágyazni
# idézőjeleket teszünk a tweet-ek elejére és végére
tweet<-paste("\"",tweet,"\"",sep="")
# vessző hozzáfűzése minden tweet végéhez az idézőjel után,
# kivéve az utolsó sornál
tweet[1:(length(tweet)-1)]<-paste(tweet[1:(length(tweet)-1)],",",sep="")
# python fájl kiírása egy fájlba
# a számított értékeket először a "bs" változóba tároljuk, majd
# a "mylist" listába gyűjtjük össze az összeset és ezt adjuk át az R-nek
fajl<-"tweet_vaderSentiment.py"
cat("from vaderSentiment.vaderSentiment import sentiment as vaderSentiment\n", file =fajl)
cat("sentences = [\n",file=fajl,append=T)
cat(paste(" ",tweet,sep="\n"),file=fajl,append=T)
cat(" \n",file=fajl,append=T)
cat(" ]\n",file=fajl,append=T)
cat("mylist=[]\n",file=fajl,append=T)
cat("for sentence in sentences:\n",file=fajl,append=T)
cat(" bs=vaderSentiment(sentence)\n",file=fajl,append=T)
cat(" mylist.append(bs)\n",file=fajl,append=T)
# python kód betöltése és futtatása
python.load("tweet_vaderSentiment.py")
# az eredmények átemelése R-be
res.tweet<-python.get("mylist")
# az adatok adattáblába rendezése
res.tweet<-as.data.frame(do.call(rbind,res.tweet))
# az összesített eredmények egyszerű ábrázolása
plot(res.tweet$compound,main="Results of Vader Sentiment analysis",xlab="",ylab="compound values")
abline(h=0.05,col="red")
abline(h=-0.05,col="red")
text(50,-0.7,"negative")
text(50,0.8,"positive")
text(2,0.08,"neutral")
Az R és a python együttes használatával egy olyan eszköztárat kapunk, amivel gyakorlatilag bármilyen problémát meg lehet oldani!
]]>Kezdjünk egy egyszerű példával
Bővebb részletesebb leírás hamarosan
Minimum két fájl szükséges a Shiny használatához:
ui.R – user-interface: ez fogja a böngészőben megjeleníteni, amit szeretnénk
server.R – server-interface: ez végzi a szerver oldali számításokat, ami dinamikusan változik és az ui.R megjeleníti az eredményt.
A fentebbi példához tartozó R scriptek.
##### server.R #####
# shiny és a csomagok betöltése
# datasets (ehhez a példához innen veszük az adatokat)
library(shiny)
library(datasets)
# a "shinyServer" definiálása, amihez meg kell adni az in-, és output elemeket
# output elemként egy barplot-ot fogunk megadni
shinyServer(function(input, output) {
# elkészítjük az ábrát, barplot-ot
# majd a renderPlot funkcióval átadjuk az output-nak
output$phonePlot <- renderPlot({
# Barplot készítése
barplot(WorldPhones[,input$region]*1000,
main=input$region,
ylab="Telefonok száma",
xlab="Év")
})
})
##### ui.r #####
library(shiny)
library(datasets)
# Létrehozzuk az UI-it (User Interface).
shinyUI(
fluidPage(
# itt megadjuk az oldal címét
titlePanel("Telefonok megoszlása"),
# Oldalbár készítése
sidebarLayout(
# ebben az esetben az odalbárba 1 input elemet adunk meg
sidebarPanel(
selectInput("region", "Régió:",
# itt adjuk meg, hogy mik közül lehessen választani
choices=colnames(WorldPhones)),
helpText("Data from AT&T (1961) The World's Telephones.")
),
# elkészítjük a "mainPanel"-re az ábrát
mainPanel(
plotOutput("phonePlot")
)
)
)
)
# ha csv (comma separeted values) formátumba vannak az adatok
# a header=TRUE csak akkor szükséges, ha fejléc is van
df<-read.csv("sample.csv", header=TRUE)
# ha egy sima txt-ben vannak az adatok és tabulator a szeparatorunk ("\t")
df<−read.table("sample.txt",header=TRUE,sep="\t")
# ha xlsx-ben tároljuk az adatokat, akkor egy lehetséges megoldás, hogy
# először behívjuk az XLConnect csomagot
# betöltjük az xlsx fájlt, majd végül az adott munkalapot
library(XLConnect)
wb<-loadWorkbook("sample.xlsx", create = FALSE)
df<-readWorksheet(wb, sheet = "Sheet1")
# ha json (JavaScript Object Notation) formátumba vannak rendezve az adatok:
library(rjson)
df<-fromJSON(file="sample.json")
# ha mysql adatbázisban vannak az adataink
# akkor a RMySQL lehet a segítségünkre
library(RMySQL)
mydb<-dbConnect(MySQL(),user="root",password="pass",dbname="sampleDB",host="localhost")
df<-dbReadTable(mydb, "adattabla_neve")
Felhasznált adatok:
sample.csv
sample.txt
sample.xlsx
sample.json
Természetesen ezek mellett még számos más lehetőség is van
]]>parancs: mclapply(adat,function(x) végrehajtandó feladat)
1. adat = ez lesz az, amin lefut a “végrehajtandó feladat”
2. a function(x) utáni rész mondja meg, hogy mi lesz a “végrehajtandó feladat”
3. végrehajtandó feladat
library(parallel)
# példa (1):
system.time(mclapply(1:2, function(x) Sys.sleep(5)))
# user system elapsed
# 0.008 0.015 5.016
# példa (2):
adat<-1:2
alvas<-function(x){Sys.sleep(5)}
system.time(mclapply(adat,function(x) alvas(x)))
# user system elapsed
# 0.014 0.011 5.013
A példa (2)-ben egy saját függvényt készítettünk, majd hívtunk meg. Saját függvénnyel gyakorlatilag bármit többszálúsíthatunk.
Ilyen egyszerű Legalábbis Linuxos rendszer alatt
A Windows-os rendszer másképpen kezeli a többmagos rendszereket, ezért módosítani kell az mclapply()-t. Ezt az alábbi link segítségével tehetjük meg:
Módosított mclapply()
Egyszerűen behívjuk az R-be a linken megadottakat és máris működni fog Windows alatt is
]]>