【Databricks推出SQL Analytics新方案,讓用戶把資料湖用作資料倉儲】
SQL Analytics讓用戶在資料湖上執行商業智慧和SQL工作負載,並且提供提供SQL原生工作空間和連接器,連接既有的商業智慧工具,使資料湖泊能夠取代資料倉儲。
#Nutanix #nutanixTW #DataBase #BigData #Data #Storage #SQL #Analytics
➡️立即加入Nutanix LINE@:https://line.me/R/ti/p/%40sqz5036h
同時也有52部Youtube影片,追蹤數超過1萬的網紅陳其邁,也在其Youtube影片中提到,我身為醫師,了解醫護人員辛苦。 但是從公衛專業,疫調牽涉到整個疫情傳播,所以疫調、匡列、隔離非常的重要。 這個個案到高雄,只是少數個案,因為高雄跑到新北看病的人不多。 但是可以試想,這些同一時間當然一定有不少同樣的個案沒抓到,在北部地區傳播所帶來的風險如何?所以,這必須靠疫調來補強。所以既然有...
「r取代資料」的推薦目錄:
- 關於r取代資料 在 Nutanix 台灣 Facebook 的最佳解答
- 關於r取代資料 在 宋明樺營養師 生活。分享。雜記。 Facebook 的精選貼文
- 關於r取代資料 在 陳其邁 Youtube 的精選貼文
- 關於r取代資料 在 [email protected] Youtube 的最讚貼文
- 關於r取代資料 在 [email protected] Youtube 的最佳貼文
- 關於r取代資料 在 [程式] R的字串處理- 看板Statistics - 批踢踢實業坊 的評價
- 關於r取代資料 在 6 資料處理與清洗| 資料科學與R語言 的評價
- 關於r取代資料 在 r取代在PTT/Dcard完整相關資訊 - 媽媽最愛你 的評價
- 關於r取代資料 在 r取代在PTT/Dcard完整相關資訊 - 媽媽最愛你 的評價
- 關於r取代資料 在 r取代在PTT/Dcard完整相關資訊 的評價
- 關於r取代資料 在 r取代在PTT/Dcard完整相關資訊 的評價
r取代資料 在 宋明樺營養師 生活。分享。雜記。 Facebook 的精選貼文
『新聞分享:致癌豆芽 1.5噸下肚』
很多朋友可能看過我之前寫的一篇『自種綠豆芽 健康沒負擔』的文章,如果真的喜歡吃豆芽可以試著自己種種看,因為市面上的豆芽真的隱藏很多危險!!
【辛啟松╱台南報導】南市仁德區一處地下工廠,涉嫌以工業用漂白劑漂白豆芽菜,將恐致癌豆芽銷到台南、高雄傳統市場及餐廳;台南地檢署昨指揮警調搜索,查扣俗稱「保險粉」的工業級漂白劑等藥劑,帶回負責人邱爾為及員工等三人,估計十三年來已賣一萬五千多噸,檢方訊後依《食品衛生管理法》諭令邱一百萬元交保,兩員工飭回。
南檢打擊民生犯罪專組主任檢察官羅瑞昌說,這間「地下工廠」沒申請設立登記,從二○○一年起,用綠豆培育發芽成豆芽菜,出貨前以保險粉、次氯酸鈉添入水槽機浸泡十分鐘,讓豆芽菜更白、更保鮮、更具賣相,每天生產一千八百到三千六百公斤,再以每公斤八元價格銷售到台南、高雄餐廳及各傳統市場,生意相當好,估計十三年來,銷售一萬五千多噸。
銷往傳統市場餐廳
檢方說,工廠內有五十多個大塑膠桶,底部有一層塑膠網,業者放入大量綠豆澆水淋濕、加入豆芽菜營養液,經三到五天養成後由工人採收,在水槽機放入保險粉、次氯酸鈉與豆芽菜攪拌,浸泡十分鐘,再撈起豆芽菜,未經洗滌就分裝成兩斤、五斤包裝,凌晨送往市場、餐廳販賣。
台南市衛生局稽查員昨以快篩試劑檢驗,發現浸泡後的豆芽菜殘餘二氧化硫。副局長林碧芬說,業者觸犯《食品衛生管理法》,添加未經中央許可的添加物,可處五年以下徒刑,或併科六萬到五千萬元罰鍰。
長期食用恐腸胃炎
彰基毒物科中心主任蔡宗憲說,工業級漂白劑的化學名稱是「連二亞硫酸鈉」,是白色粉末,可溶於水,具二氧化硫成分,因有漂白、防止褐變的保鮮作用,可增加豆芽菜賣相,長期食用恐造成血紅素變性導致缺氧,尤其過敏體質的人,會出現氣喘、過敏性腸胃炎或腹瀉。檢方表示,大量食用這種豆芽菜有致癌風險。
家庭主婦陳淑慧大罵:「真夭壽,連最便宜的豆芽菜也有黑心貨!」婦人蔡秋美也說,金針、蓮藕都可能漂白,她都會先浸泡或用高溫汆燙。
殘留漂白劑去除法
●冷熱水攻法
以開水烹煮,沸騰時開鍋蓋讓蒸汽揮發,再以大量水浸泡並常換水
●煮沸加熱法
將食品加水與切成薄片的蒜瓣煮10分鐘
●室溫浸泡法
將食品切薄片或小丁,加水與蒜2小時
註;蒜瓣可用蘋果皮、枸杞、菠菜莖頭、可爾必思發酵乳等取代
資料來源:台南市衛生局
r取代資料 在 陳其邁 Youtube 的精選貼文
我身為醫師,了解醫護人員辛苦。
但是從公衛專業,疫調牽涉到整個疫情傳播,所以疫調、匡列、隔離非常的重要。
這個個案到高雄,只是少數個案,因為高雄跑到新北看病的人不多。
但是可以試想,這些同一時間當然一定有不少同樣的個案沒抓到,在北部地區傳播所帶來的風險如何?所以,這必須靠疫調來補強。所以既然有疏漏,就應該把漏洞趕快補起來。
從市長角度來看,我做為地方指揮官,相信每個地方首長跟我一樣,都希望把防疫工作做好,防疫缺口都要補齊,假如高雄市防疫有哪邊需要指教,我們都會虛心接受。
以高雄狀況,我們在群聚感染的時候,第一個必須要很快找到感染源,第二個也快速地疫調匡列隔離,讓社區風險降到最低。
我們的疫調人員,很辛苦,提供更多更清楚的資訊有助於疫情的掌握,當然就可以抑制疫情的傳播。
.
今天全國76例,高雄有2例。
這2例還是屬於新北地區恩主公醫院的南北移動,所造成的家庭群聚感染。
因為彼此親屬之間互動,造成整個包括原來一開始2個家庭,到今天為止5個家庭感染,大概已是第三波的群聚感染。這也是為什麼我們在進行疫調的時候,必須是要超前部署、加快匡列,這2個確診的個案,也是屬於我們匡列範圍內。
從疫調資料發現,密閉空間長時間接觸,像家庭、工作場所,風險很高。
所以再次特別提醒大家:最好這段時間不要有訪客,真的有很重要的事情,也拜託非同住者,進到屋內的時候,一定要戴上口罩、保持社交距離。
我們也要特別感謝日本,在七月中將捐贈一百萬劑AZ疫苗會來到台灣。
患難見真情,感謝日本的朋友。
也要告訴大家 75歲以上的長輩,假如你還沒有打疫苗的,每一個社區未來開放施打的時候,都能到各接種站補打。
假如有不清楚的地方、或者需要預約接送,可以跟區公所聯絡,我們會全力服務大家。
.
屏東祖孫感染的印度變種病毒,是世界衛生組織「高度關注」的變種病毒株。
其中Alpha屬於英國的,包括雙北地區,很多流行的病毒株就是屬於英國變種病毒株。Delta,是印度的變種病毒株,英國原來要解封,但是發現流行的病毒株由印度變種病毒株取代,所以延後解封的時間。
武漢肺炎當時在武漢地區,R值是2.4到2.6個人,換句話說一人傳給大概2.5人;歐洲引發第一波疫情的病毒株,大概是一個人傳給3個人。
Alpha的英國變種病毒株是4到5,一個人傳給5個人,印度的Delta變種病毒株是5到8個人,所以它的傳播力會越來越強,為什麼會這樣?因為RNA的病毒非常容易發生變異,發生變異時,就會有新舊病毒的競爭,當然越會傳播的病毒就會勝出。
從這個群聚感染的個案,可以看出,以在家族的傳播,如果是英國的變種病毒株,整個家庭全部都有。
那再想想看:R0=5~8的印度變種病毒株會怎麼樣?傳播力一定是會更強,所以我們一定要去施打疫苗。
很多人說「等一下再打」,但從國外的經驗來看,AZ疫苗對印度的兩種變種病毒都有效,Kappa、Delta、或者Alpha病毒都有效,所以不要挑疫苗,就趕快去打,相關臨床數字來看,對於降低重症、死亡的比率都超過9成保護力。疫苗該輪到你打的時候,你就去打。
屏東部分,我們已經在昨天就已經啟動專案,也跟我們所有果菜市場、農會造冊,包括貨運司機總共有13位,相關往來攤商,我們就通知他們來採檢PCR。另外對於大型的這些蔬果市場,包括果菜市場、肉品、民生物資供應站部分,我們也在造冊準備排定施打疫苗,這是我們的做法。
大家常問:「印度病毒變種株進來怎麼辦?」第一,疫苗趕快打。
第二,落實疫調、匡列、隔離。
常講這張圖 R=5,20天後就是625個。
看疫調資料,我們都覺得如果以流行病學醫學領域來談,病毒傳播這麼快的,應該是一百年前的流感大流行。
老話一句,疫苗覆蓋率不足情況之下,疫調匡列隔離,我們R=5 匡列八成,R=8應該要匡列更多人,對疫調要非常嚴峻及務必要落實。否則疫情恐怕離恢復正常生活需要一段時間。
.
⭐本週六日孕婦接種COVID-19疫苗服務
提醒要打疫苗的懷孕婦女,先跟做產檢醫師討論、評估喔!
- 6/26、6/27下午14:00-16:30
- 於巨蛋體育館、鳳山體育館
- 請欲接種孕婦,撥打07-8220300預約
- 接種當日請攜帶健保卡、媽媽手冊、原產科醫師開立之「轉診單」
.
📢 公佈今日(6/25)確診個案在高雄市的公共場所活動史
https://reurl.cc/3aX9RM
提醒曾經於附表中時間地點活動的民眾,請進行自我健康監測,如有出現相關症狀,請撥打1922、或者衛生局防疫專線07-7230250。
r取代資料 在 [email protected] Youtube 的最讚貼文
生蛇 - 丁昭慧內分泌及糖尿科專科醫生@FindDoc.com
FindDoc Facebook : https://www.facebook.com/FindDoc
FindDoc WeChat : 快徳健康香港 FindDoc
FindDoc Instagram:@finddochk
(一)什麼原因導致生蛇,和它有什麼病徵? 00:06
(二)糖尿病與生蛇兩種病症會否互相影響? 02:04
(三)生蛇有什麼後遺症?如何預防? 03:09
(本短片作健康教育之用,並不可取代任何醫療診斷或治療。治療成效因人而異,如有疑問,請向專業醫療人士諮詢。)
參考資料:
1 Cohen, J. I. The New England Journal of Medicine, 369(3), 255-263 (2013).
2 Chua, J. V., & Chen, W. H. (2010). Herpes zoster vaccine for the elderly: boosting immunity. Aging health, 6(2), 169–176. https://doi.org/10.2217/ahe.10.5.
3 Johnson, R.W.. Expert Rev Vaccines, 9(3 Suppl):21-26 (2010).
4 CDC. Recommendations of the ACIP. MMWR Early Release 2008; 57. RR-5.
5 John, A. R. et al. Infect Dis Clin N Am, CNA, 31(4), 811–826 (2017).
6 Papagianni, M. et al. Diabetes Ther; 9(2), 545–550 (2018).
7 Muñoz-Quiles, C. et al. Human Vaccines & Immunotherapeutics; 13(11), 2606–2611 (2017).
8 Diabetes UK. Complications of diabetes, Available at: https://www.diabetes.org.uk/guide-to-diabetes/complications (Accessed on 1 July 2020)
9 Fasil, A. et al. Diabetes, Metabolic Syndrome and Obesity: Targets and Therapy, 12, 75–83 (2019).
10 Global report on diabetes. (2016). Geneva: World Health Organization.
11 Johnson, R. W. et al. BMC medicine, 8, 37 (2010).
資料來源:https://www.FindDoc.com
查詢醫生資訊:
https://www.finddoc.com
r取代資料 在 [email protected] Youtube 的最佳貼文
中風與認知障礙症 - 陳鎮中內科專科專科醫生@FindDoc.com
FindDoc Facebook : https://www.facebook.com/FindDoc
FindDoc WeChat : 快徳健康香港 FindDoc
FindDoc Instagram:@finddochk
(一)中風後會引致認知障礙症? 00:06
(二)如何延緩認知障礙症的發生及惡化? 01:30
(三)如何及早發現認知障礙症? 03:19
(本短片作健康教育之用,並不可取代任何醫療診斷或治療。治療成效因人而異,如有疑問,請向專業醫療人士諮詢。)
參考資料:
1. Sun, J., Tan, L., & Yu, J. (2014). Post-stroke cognitive impairment: epidemiology, mechanisms and management. Annals of translational medicine, 2 8, 80.
2. Alvarez-Sabin, J., & Roman, G. C. (2010). Citicoline in Vascular Cognitive Impairment and Vascular Dementia After Stroke. Stroke, 42(1, Supplement 1). doi:10.1161/strokeaha.110.606509
3. Department of Health. (2020). Dementia. Retrieved March 20, 2020 from https://www.elderly.gov.hk/english/common_health_problems/dementia/dementia.html
4. HKADA. (2020). Treatment. Retrieved March 20, 2020 from https://www.hkada.org.hk/treatment
5. Saver, J. L. (2008). Citicoline: Update on a Promising and Widely Available Agent for Neuroprotection and Neurorepair. Reviews in Neurological Diseases, 5(4), 167-177.
6. Alvarez-Sabín, J., Ortega, G., Jacas, C., Santamarina, E., Maisterra, O., Ribo, M., . . . Román, G. C. (2013). Long-Term Treatment with Citicoline May Improve Poststroke Vascular Cognitive Impairment. Cerebrovascular Diseases, 35(2), 146-154. doi:10.1159/000346602
7. Alvarez-Sabín, J., Santamarina, E., Maisterra, O., Jacas, C., Molina, C., & Quintana, M. (2016). Long-Term Treatment with Citicoline Prevents Cognitive Decline and Predicts a Better Quality of Life after a First Ischemic Stroke. International Journal of Molecular Sciences, 17(3), 390. doi:10.3390/ijms17030390
8. Ngandu, T., Lehtisalo, J., Solomon, A., Levälahti, E., Ahtiluoto, S., & Antikainen, R. et al. (2015). A 2 year multidomain intervention of diet, exercise, cognitive training, and vascular risk monitoring versus control to prevent cognitive decline in at-risk elderly people (FINGER): a randomised controlled trial. The Lancet, 385(9984), 2255-2263. doi: 10.1016/s0140-6736(15)60461-5
9. Nasreddine, Z. S., Phillips, N. A., Bã©Dirian, V. R., Charbonneau, S., Whitehead, V., Collin, I., … Chertkow, H. (2005). The Montreal Cognitive Assessment, MoCA: A Brief Screening Tool For Mild Cognitive Impairment. Journal of the American Geriatrics Society, 53(4), 695–699. doi: 10.1111/j.1532-5415.2005.53221.x
資料來源:https://www.FindDoc.com
查詢醫生資訊:
https://www.finddoc.com
r取代資料 在 6 資料處理與清洗| 資料科學與R語言 的推薦與評價
介紹如何使用R語言完成資料讀取、處理、分析與呈現,以及大數據技術與R的整合. ... 在所有的程式語言中,只要用到字串比對與字串取代等字串相關功能,都會用到正規表示 ... ... <看更多>
r取代資料 在 r取代在PTT/Dcard完整相關資訊 - 媽媽最愛你 的推薦與評價
Data Man 的資料視覺化筆記— R教學第9章:尋找和取代資料gsub的用法跟grep很像,括號裡第一個東西都是放要找尋的關鍵字(在本例中為「 鄉」),不過gsub括號裡的第二個 ... ... <看更多>
r取代資料 在 [程式] R的字串處理- 看板Statistics - 批踢踢實業坊 的推薦與評價
[軟體程式類別]:
R
[程式問題]:
資料處理
[軟體熟悉度]:
中(3個月到1年)
[問題敘述]:
最近常在處理字串
發現自己會的 function 很不夠用
想多學點 function
我列出一些我常用的
希望能拋磚引玉
請各位高手能教我一些高招
[程式範例]:
前言 :
R 的字串處理 ,
要小心注意 character , factor , numeric 這三種物件的誤轉換和混用
factor 是一種很討厭的物件 ,
因為它在轉成數字和字串的時候 ,
常常會變成跟原本不一樣的東西 ,
建議資料處理的過程 ,
預設用 matrix 和 character 兩種而避免使用 data.frame
------------------------------------------------------------------
1.字串黏合
paste ("A","B",sep="") ---->>> "AB"
2.字串切割
strsplit("A.B",split=".",fixed=T) ---->>> "A" "B"
3.精確穩合
x <- c("AB","AA")
x %in% "AB" ---->>> TRUE FALSE
4.部份吻合 + (回傳 which)
x <- c("AB","AA")
grep("B",x) ---->>> 1
grep("A",x) ---->>> 1 2
grep("B",x,value=T) ---->>> "AB"
grep("B",x,value=T,invert=T) ---->>> "AA"
grep("C",x) ---->>> integer(0)
#若目的是要找 index , 建議改用 grepl
4-2.部份吻合 + (回傳判斷式)
x <- c("AB","AA")
grepl("B",x) ---->>> TRUE FALSE
4-3.部份吻合 + (回傳位置) + (回傳??)
x <- c("BBB","AAA","CCB")
regexpr("B",x) ---->>> 1 -1 3 (第一次 "hit" 的位置)
1 -1 1 (有無 "hit")
5.子字串
substr("human123456",start=1,stop=5) ---->>> "human"
!!注意!! 4-3 的 regexpr
與這個 substr 結合起來 ,
在寫 網頁Parser 的時候很好用
regexpr 能定義出 statr=多少
所謂的網頁Parser
就是你去下載某些 html 檔案
檢視原始碼
然後找出你需要的資料
再找出一些能 cut 的規則
用 strsplit 搭配 TR , TD 之類的字串去切出你要的資料
6.特定字元取代 (1st hit)
x <- "AABB"
sub("A",replacement="C",x) ---->>> "CABB"
6-2.全部特定字元取代 (global hit)
x <- "AABB"
gsub("A",replacement="C",x) ---->>> "CCBB"
7.計算字串長度
### 盡量別用這個 fuction
x <- c("A","AAA","AAAAA")
nchar(x) ---->>> 1 3 5
nchar(as.factor(x)) ---->>> 1 1 1
8.多重字元(串)貼合 (矩陣內)
x <- matrix(letters[1:6],2,3)
apply(x,1,paste,collapse="") ---->>> "ace","bdf"
apply(x,2,paste,collapse="") ---->>> "abc","def"
9. 字元反轉
x <- c("A B","*.")
sapply(lapply(strsplit(as.character(x), NULL), rev), paste, collapse="")
[1] "B A" ".*"
10.字元檢查
x <- c("A B","*.")
unique(unlist(strsplit(as.character(x),split="",fixed=T)))
[1] "A" " " "B" "*" "."
-----------------------------------------------------------
Regular expression : 字串模糊比對 , 或特定字母排列模式的抓取
在R內
基本上分成3種
Basic regular expression (BRE) --> extended = FALSE
Extended regularexpression (ERE) --> extended = TRUE (預設)
perl-like (perl) --> perl = TRUE
雙冒號代表我測試過且成功
單冒號代表網路上抓下來或是測試失敗
--------------------------------------------------------------
通用部分
{,}
* :: {0, } 至少出現0次, 最多無限多次
+ :: {1, } 1 無限多次
? :: {0,1} 0 1
[Aa] :: A 或 a
[^1-9] :: not 1:9
[1-9] :: 1:9
[a-z] :: a b c ... z
[A-Z] :: A B C ... Z
[a-zA-Z] :: 所有英文字母
[W-z] :: WXYZabc....z
[w-Z] :: 不可使用!
(AB) :: 括號一次收集多個字元 ### 一種延伸字串的寫法
舉例 :
x <- c("company","companies",)
可以用以下兩種寫法
1. grep("[company|companies]",x)
2. grep("compan(y|ies)",x)
第二種在大資料的時候會比較快
$ :: 字尾限定
^ :: 字首限定
| :: "ABC|EFG" --> grep("ABC"or"DEF",x)
. :: 任意字元
-----------------------------------------------------
ERE , extended = TRUE
digit (數字)
\\d :: [0-9]
\\D :: [^0-9]
[[:digit:]] :: 同上
[^[:digit:]] :: 同上
blank (空白)
\\s :: 能切開 " " 或 "\t"
\\S :: 切開非空白及 tab 的字元
[[:blank:]] :: 同上
[^[:blank:]] :: 同上
AlphaBet + Digit (正常字元)
\\w :: [0-9a-zA-Z]
\\W :: [^0-9a-zA-Z]
[[:alnum:]] :: 同上
[^[:alnum:]] :: 同上
AlphaBet (英文字元)
[[:alpha:]] :: 同上
[^[:alpha:]] :: 同上
特殊符號
[[:punct:]] :: ! " # $ % & ' ( ) * + , - .
/ : ; < = > ? @ [ \ ] ^ _ ` { | } ~
[^[:punct:]] :: 英文字 , 數字 (注意! , \t 和 \n 都會被切掉)
注意 ! 正斜線這個符號很容易與其他 regular expr 混淆
必須仔細檢查 "\" 存在的字串
可印符號
[[:print]] :: 所有字元 (數字,字母,特殊符號,空白)
\n , \t , \001 除外
16進位字元
[[:xdigit:]] :: 16進位有關英文或數字
[0-9a-fA-F]
大小寫英文字元
[[:upper:]] :: 大寫英文字元 [A-Z]
[^[:upper:]] :: 非大寫 [^A-Z]
[[:lower:]] :: 小寫 [a-z]
[^[:lower:]] :: ^[a-z]
注意 "\t" 還是會被留下來
空白和換行等
[[:space:]] :: " " , \t , \n , \f , \r
(\f : 換行但不回到行頭)
(\r : 回到行頭並消除此行內所有的文字)
P.S. 這兩種不常用,當豆知識即可
[[:graph:]] :: [A-Za-z0-9]再加[["punct"]]
----------------------------------------------------------
perl = TRUE
\\w : [A-Za-z0-9_]
\\W : [^A-Za-z0-9_]
\\s : [\t\n\r\f]
\\S : [^\t\n\r\f]
\\d : [0-9]
\\D : [^0-9]
----------------------------------------------------------
regular expression 工事中 (未完)
感覺這篇被我當筆記來用了
reference:
1. https://www.rtfiber.com.tw/~changyj/
2. https://www.stat.psu.edu/~dhunter/R/html/base/html/regex.html
----------------------------------------------------------
大小寫切換
TRUTH <- c("Abc","ABC")
a <- gsub("(\\w)","\\L\\1",TRUTH,perl=TRUE) ---> "abc","abc"
b <- gsub("^(\\w)","\\U\\1",a,perl=TRUE) ---> "Abc","Abc"
同上 , 非常神秘的 Bug !?
T123 <- c("Tgfbr1","Cd320","Ndrg3","Aldoa","Bckdk","Tmed3","Hfe2")
> gsub( "(\\w)", "\\L\\1" , T123 , perl=T)
[1] "LTLgLfLbLrL1" "LCLdL3L2L0" "LNLdLrLgL3"
[4] "LALlLdLoLa" "LBLcLkLdLk" "LTLmLeLdL3"
[7] "LHLfLeL2"
> gsub( "(\\w)", "\\L\\1" , T123 , perl=TRUE)
[1] "tgfbr1" "cd320" "ndrg3" "aldoa" "bckdk" "tmed3"
[7] "hfe2"
---------------------------------------
消除多餘空白
> x <- "Hey! Apple "
> gsub(" {2,}","",x)
[1] "Hey! Apple" ### 容忍一個空白 , 但兩個以上至無限大則消除
---------------------------------------
在處理混合字串與數字的資料矩陣的時候
常常需要在 data.frame 和 matrix 之間切換
有時候會字串會被一些預設的空白字元夾住
ex:
"1" , "15" , "333"
經過轉換以後
" 1" , " 15" , "333" (fit 最長字串的長度)
> DATA <- gsub("^ *| *$",as.matrix(DATA))
---------------------------------------
### 一些參考的 pattern
1. "^\\d+$" ### 純數字的欄位 ###
2. "^ *| *$" ### 字首字尾的空白(搭配 gsub) ###
3. "^[0][\\.]{0,1}[0]*$" ### "0" "0.0" "0.00" "0.000" "0.0000" ,
bug 是 "0." "00"
####################################################################
放一些 linux 下的好用指令
光用 R 來做字串處理不夠用
原因在於若處理的檔案太大
光是讀進 R 就累死人
這邊主要是應用在檔案減肥
文字檔案
rs123\t0|1:0000\tAAAA
rs456\t1|0:0000\tBBBB
###################
橫向
grep [-w : word]
[-f : 給 pattern file]
[-F : 精確比對] ### 若要搜尋固定字串 , -F必下 (快超多)
1. cat 文字檔案|grep -w 'rs' ### 沒東西
2. cat 文字檔案|grep -w -F 'rs123' ### 出第一行
3. car 文字檔案|grep -w '^rs.*$' ### 二行皆出
###################
縱向
cut [-d : 用tab切開會是3個column的矩陣]
1. cut -d'\t' -f1,2 原檔 > 新檔 ### 留下 1 and 2 columns
###################
橫向
sed
1. sed -n '6,$p' 原檔 > 新檔 ### 從第六行開始 , print 至尾行
### 或可理解成, 把 1~5行切掉
2. sed 's/:\S*/HAHA/g' 原檔 > 新檔 ### s=取代 , g=global
### 把紅色的正規 pattern 取代成綠色
###################
當檔案有 10000000 rows , 讀不進 R 怎辦?
就算讀進 R , 資料太大一直 SWAP 電腦動不了怎麼辦?
經過一番苦戰
我建議以下的思考方式
0. 先透過上述方式
直接在終端機把檔案減肥
1. 檔案列數 <- system("wc -l 檔案",intern=TRUE)
LOOP <- ceiling(檔案列數 / 5000)
for(g in 1:LOOP) ### 用while可省前兩行
{ tmp <- read.table(檔案,skip=5000*(g-1),nrow=5000) ### 但我只熟 for
expr(中間的各種處理)
write.table(tmp,g)
Sys.sleep(5) ### 給一點時間讓電腦回氣
}
2. system("cat 小檔案1 小檔案2 小檔案3 .... > 總檔案") ### 檔案 rbind()
雖然不是最快的方法
但 Over night 是一定可以把檔案處理完的
以上
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.239.247
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 22:21)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 22:22)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 22:48)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 23:12)
※ 編輯: gsuper 來自: 140.113.239.247 (07/02 23:30)
※ 編輯: gsuper 來自: 140.113.177.3 (07/03 01:41)
※ 編輯: gsuper 來自: 140.113.177.3 (07/03 03:12)
※ 編輯: gsuper 來自: 140.113.239.247 (07/03 21:39)
※ 編輯: gsuper 來自: 140.113.239.247 (07/08 10:32)
※ 編輯: gsuper 來自: 140.113.239.247 (07/08 17:19)
※ 編輯: gsuper 來自: 140.113.239.247 (07/08 17:28)
※ 編輯: gsuper 來自: 140.113.239.247 (08/03 22:45)
※ 編輯: gsuper 來自: 140.113.239.247 (08/03 22:47)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 21:49)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 21:55)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 22:02)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 22:03)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 22:19)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 23:10)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 23:35)
※ 編輯: gsuper 來自: 140.113.239.247 (09/03 23:44)
※ 編輯: gsuper 來自: 140.113.239.247 (09/21 22:26)
※ 編輯: gsuper 來自: 140.113.239.247 (09/21 22:54)
※ 編輯: gsuper 來自: 140.113.239.247 (09/29 13:26)
※ 編輯: gsuper 來自: 140.113.239.247 (10/04 13:54)
※ 編輯: gsuper 來自: 140.113.239.247 (10/04 14:02)
※ 編輯: gsuper 來自: 140.113.239.247 (12/03 17:13)
※ 編輯: gsuper 來自: 140.113.56.120 (12/21 02:15)
※ 編輯: gsuper 來自: 140.113.56.120 (12/29 03:27)
※ 編輯: gsuper 來自: 140.113.56.120 (12/29 03:28)
※ 編輯: gsuper 來自: 140.113.239.247 (02/17 16:33)
※ 編輯: gsuper 來自: 140.113.239.247 (02/21 12:43)
※ 編輯: gsuper 來自: 140.113.239.247 (06/12 19:52)
※ 編輯: gsuper 來自: 140.113.239.247 (06/12 19:52)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 14:28)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 14:32)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 18:58)
※ 編輯: gsuper 來自: 140.113.239.247 (11/09 19:03)
※ gsuper:轉錄至看板 R_Language 03/30 20:33
... <看更多>