正則表達式和文本挖掘(Text Mining)
在進行文本挖掘時,TSQL中的通配符(Wildchar)顯得功能不足,這時,使用“CLR+正則表達式”是非常不錯的選擇,正則表達式看似非常復雜,但,萬變不離其宗,熟練掌握正則表達式的元數(shù)據(jù),就能熟練和靈活使用正則表達式完成復雜的Text Mining工作。
一,正則表達式的特殊字符
1,常用元字符
用以匹配特定的字符(字母,數(shù)字,符號),注意字母是區(qū)分大小寫的:
- . :匹配除換行符以外的任意字符
- \w :匹配字母或數(shù)字或下劃線或漢字
- \s :匹配任意的空白符
- \d :匹配數(shù)字
- \b :匹配單詞的開始或結(jié)束
- ^ :匹配字符串的開始
- $ :匹配字符串的結(jié)束
- \k :引用分組名,例如:\k<group_name>,表示引用名字為group_name的分組
- \group_number:group_number是分組的組號,1,2,3等,表示通過組號引用分組
2,重復字符或分組
指定前面一個字符或分組重復的次數(shù):
- * :重復零次或更多次
- + :重復一次或更多次
- ? :重復零次或一次
- {n} :重復n次
-
{n,}
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍牙鎖 2017-07-26
- 消息隊列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26
學習是年輕人改變自己的最好方式