R és python

2015-08-08EgyébHerczeg Róbert

Egy rövid project (twitter sentiment analysis with vaderSentiment method) keretein belül az rPython csomagot használtuk és az ezzel kapcsolatos tapasztalatot szeretnénk most megosztani.

A project során tweet-ket gyűjtöttünk és egy adattáblába szerveztük őket. Ezután a python nyelven megírt VaderSentiment módszerrel elemeztük a tweeteket. A módszer lényege, hogy egy adott szöveget a benne lévő szavak, hangulatjelek és egyéb más rövidítések (pl.: LOL stb.) alapján számít ki 4 értéket (negatív, neutrális, pozitív és összesített).

Egy példa, a kapcsos zárójelben a számított értékek:

“VADER is smart, handsome, and funny.”
{‘neg’: 0.0, ‘neu’: 0.254, ‘pos’: 0.746, ‘compound’: 0.8316}

Értékelés:

A mondatban nem volt negatív töltésű rész. Körülbelül a szöveg ~25%-a semleges, míg a maradék ~75% pozitív kincsengésű volt. Összességében a normalizált “compound” érték 0.83 volt (-1 és 1 között lehet). Ha > 0.05, akkor pozitív, ha < -0.05, akkor negatív töltöttségű a szöveg. Ha ez az érték -0.05 és 0.05 között van, akkor semlegesnek tekinthető. Bővebb leírás itt.

50 darab tweet a #ecology tag-re keresve….adat

01 # rPython csomag betöltése
02 library(rPython)
03  
04 # a tweet-ek behívása
05 tweet<-as.character(readLines("tweet_data.txt"))
06  
07 # a tweet-ek tisztítása: #,@ jelek törlése a szövegekből.
08 tweet<-gsub("#","",tweet)
09 tweet<-gsub("@","",tweet)
10 tweet<-gsub("\"","",tweet)
11 tweet<-gsub("\n","",tweet)
12  
13 # a változó átalakítása, hogy a python scriptbe tudjuk ágyazni
14 # idézőjeleket teszünk a tweet-ek elejére és végére
15 tweet<-paste("\"",tweet,"\"",sep="")
16 # vessző hozzáfűzése minden tweet végéhez az idézőjel után, 
17 # kivéve az utolsó sornál
18 tweet[1:(length(tweet)-1)]<-paste(tweet[1:(length(tweet)-1)],",",sep="")
19  
20 # python fájl kiírása egy fájlba
21 # a számított értékeket először a "bs" változóba tároljuk, majd
22 # a "mylist" listába gyűjtjük össze az összeset és ezt adjuk át az R-nek
23 fajl<-"tweet_vaderSentiment.py"
24 cat("from vaderSentiment.vaderSentiment import sentiment as vaderSentiment\n", file =fajl)
25 cat("sentences = [\n",file=fajl,append=T)
26 cat(paste(" ",tweet,sep="\n"),file=fajl,append=T)
27 cat(" \n",file=fajl,append=T)
28 cat(" ]\n",file=fajl,append=T)
29 cat("mylist=[]\n",file=fajl,append=T)
30 cat("for sentence in sentences:\n",file=fajl,append=T)
31 cat(" bs=vaderSentiment(sentence)\n",file=fajl,append=T)
32 cat(" mylist.append(bs)\n",file=fajl,append=T)
33  
34 # python kód betöltése és futtatása
35 python.load("tweet_vaderSentiment.py")
36 # az eredmények átemelése R-be
37 res.tweet<-python.get("mylist")
38 # az adatok adattáblába rendezése
39 res.tweet<-as.data.frame(do.call(rbind,res.tweet))
40  
41 # az összesített eredmények egyszerű ábrázolása
42 plot(res.tweet$compound,main="Results of Vader Sentiment analysis",xlab="",ylab="compound values")
43 abline(h=0.05,col="red")
44 abline(h=-0.05,col="red")
45 text(50,-0.7,"negative")
46 text(50,0.8,"positive")
47 text(2,0.08,"neutral")

Az R és a python együttes használatával egy olyan eszköztárat kapunk, amivel gyakorlatilag bármilyen problémát meg lehet oldani! 🙂

ShinyR bevezetés

2015-07-01shiny, webdinamikus, shiny, webHerczeg Róbert

A Shiny egy az R-hez kifejlesztett keretrendszer, amellyel egyszerűen keszíthetünk dinamikus weboldalakat. További, és részletes leírás az Shiny R oldalán.

Kezdjünk egy egyszerű példával 🙂
Bővebb részletesebb leírás hamarosan 🙂

Minimum két fájl szükséges a Shiny használatához:

ui.R – user-interface: ez fogja a böngészőben megjeleníteni, amit szeretnénk
server.R – server-interface: ez végzi a szerver oldali számításokat, ami dinamikusan változik és az ui.R megjeleníti az eredményt.

A fentebbi példához tartozó R scriptek.

##### server.R #####

01 
02 # shiny és a csomagok betöltése
03 # datasets (ehhez a példához innen veszük az adatokat)
04 library(shiny)
05 library(datasets)
06  
07 # a "shinyServer" definiálása, amihez meg kell adni az in-, és output elemeket
08 # output elemként egy barplot-ot fogunk megadni
09 shinyServer(function(input, output) {
10  
11   # elkészítjük az ábrát, barplot-ot 
12   # majd a renderPlot funkcióval átadjuk az output-nak
13   output$phonePlot <- renderPlot({
14  
15     # Barplot készítése
16     barplot(WorldPhones[,input$region]*1000,
17             main=input$region,
18             ylab="Telefonok száma",
19             xlab="Év")
20   })
21 })
22

##### ui.r #####

01 
02 library(shiny)
03 library(datasets)
04  
05 # Létrehozzuk az UI-it (User Interface).
06 shinyUI(
07   fluidPage(
08     # itt megadjuk az oldal címét
09     titlePanel("Telefonok megoszlása"),
10     # Oldalbár készítése
11     sidebarLayout(
12       # ebben az esetben az odalbárba 1 input elemet adunk meg
13       sidebarPanel(
14         selectInput("region", "Régió:",
15                     # itt adjuk meg, hogy mik közül lehessen választani
16                     choices=colnames(WorldPhones)),
17         helpText("Data from AT&T (1961) The World's Telephones.")
18       ),
19  
20       # elkészítjük a "mainPanel"-re az ábrát
21       mainPanel(
22         plotOutput("phonePlot")
23       )
24     )
25   )
26 )
27

Adatok importálása

2015-07-01adatelemzésadat, importálás, inputHerczeg Róbert

Adatainkat sokféleképpen importálhatjuk, ezek közül mutatunk néhányat példát.

01 
02 # ha csv (comma separeted values) formátumba vannak az adatok
03 # a header=TRUE csak akkor szükséges, ha fejléc is van
04 df<-read.csv("sample.csv", header=TRUE)
05  
06 # ha egy sima txt-ben vannak az adatok és tabulator a szeparatorunk ("\t")
07 df<−read.table("sample.txt",header=TRUE,sep="\t")
08  
09 # ha xlsx-ben tároljuk az adatokat, akkor egy lehetséges megoldás, hogy
10 # először behívjuk az XLConnect csomagot
11 # betöltjük az xlsx fájlt, majd végül az adott munkalapot
12 library(XLConnect)
13 wb<-loadWorkbook("sample.xlsx", create = FALSE)
14 df<-readWorksheet(wb, sheet = "Sheet1")
15  
16 # ha json (JavaScript Object Notation) formátumba vannak rendezve az adatok:
17 library(rjson)
18 df<-fromJSON(file="sample.json")
19  
20 # ha mysql adatbázisban vannak az adataink
21 # akkor a RMySQL lehet a segítségünkre
22 library(RMySQL)
23 mydb<-dbConnect(MySQL(),user="root",password="pass",dbname="sampleDB",host="localhost")
24 df<-dbReadTable(mydb, "adattabla_neve")
25

Felhasznált adatok:
sample.csv
sample.txt
sample.xlsx
sample.json

Természetesen ezek mellett még számos más lehetőség is van 🙂

Parallel

2015-06-06csomagokcsomag, packageHerczeg Róbert

Nagyon sok érdekes és hasznos csomag található meg a CRAN-on, ezek közül szeretnénk bemutatni párat. Először a parallel csomagot, amivel egyszerre több szálon futtathatunk elemzéseket. Ehhez az mclapply() függvényre lesz szükségünk:

parancs: mclapply(adat,function(x) végrehajtandó feladat)

1. adat = ez lesz az, amin lefut a “végrehajtandó feladat”

2. a function(x) utáni rész mondja meg, hogy mi lesz a “végrehajtandó feladat”

3. végrehajtandó feladat

01 
02 library(parallel)
03  
04 # példa (1):
05 system.time(mclapply(1:2, function(x) Sys.sleep(5)))
06 # user    system  elapsed 
07 # 0.008   0.015   5.016
08  
09 # példa (2):
10 adat<-1:2
11 alvas<-function(x){Sys.sleep(5)}
12 system.time(mclapply(adat,function(x) alvas(x)))
13 # user    system  elapsed 
14 # 0.014   0.011   5.013
15

A példa (2)-ben egy saját függvényt készítettünk, majd hívtunk meg. Saját függvénnyel gyakorlatilag bármit többszálúsíthatunk. 🙂

Ilyen egyszerű 🙂 Legalábbis Linuxos rendszer alatt 🙁

A Windows-os rendszer másképpen kezeli a többmagos rendszereket, ezért módosítani kell az mclapply()-t. Ezt az alábbi link segítségével tehetjük meg:

Módosított mclapply()

Egyszerűen behívjuk az R-be a linken megadottakat és máris működni fog Windows alatt is 😀

bioR:

molekuláris biológia, ökológia és még sok minden más …

R és python

ShinyR bevezetés

Adatok importálása

Parallel