一、find()、start()、end()
find() 方法用于在文本中查找出现的正则表达式,文本是创建Matcher时,通过 Pattern.matcher(text)
方法传入的。如果在文本中多次匹配,find()
方法返回第一个,之后每次调用 find()
都会返回下一个。
start()
和 end()
返回每次匹配的字串在整个文本中的开始和结束位置。实际上, end()
返回的是字符串末尾的后一位,这样,可以在把 start()
和 end()
的返回值直接用在String.substring()
里。
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Test {
public static void main( String args[] ){
String REGEX = "\\bcat\\b";
String INPUT = "cat cat cat cattie cat";
Pattern p = Pattern.compile(REGEX);//实例化 Pattern 类
Matcher m = p.matcher(INPUT); // 获取 matcher 对象
int count = 0;
while(m.find()) {
count++;
System.out.println("Match number "+count);
System.out.println("start(): "+m.start());
System.out.println("end(): "+m.end());
}
}
}
/b:匹配一个字边界,即字与空格间的位置。
例如,"er\b"匹配"never"中的"er",但不匹配"verb"中的"er"。
- 1
- 2
二、捕获组
捕获组是把多个字符当一个单独单元进行处理的方法,它通过对括号内的字符分组来创建。可以通过调用 matcher 对象的 groupCount
方法来查看表达式有多少个分组。groupCount
方法返回一个 int 值,表示 matcher 对象当前有多个捕获组。
例如,正则表达式 (dog)
创建了单一分组,组里包含"d",“o”,和"g"。
捕获组是通过从左至右计算其开括号来编号。例如,在表达式((A)(B(C))),有四个这样的组:
((A)(B(C)))
(A)
(B(C))
(C)
- 1
- 2
- 3
- 4
还有一个特殊的组(group(0)
),它总是代表整个捕获的整个表达式。该组不包括在 groupCount 的返回值中。
捕获组需要配合 find()
方法使用
public class Test {
public static void main( String args[] ){
// 按指定模式在字符串查找
String line = "This order was placed for QT3000! OK?";
String pattern = "(\\D*)(\\d+)(.*)";
// 创建 Pattern 对象
Pattern r = Pattern.compile(pattern);
// 现在创建 matcher 对象
Matcher m = r.matcher(line);
if (m.find( )) {
System.out.println("Found value: " + m.group(0) );
System.out.println("Found value: " + m.group(1) );
System.out.println("Found value: " + m.group(2) );
System.out.println("Found value: " + m.group(3) );
} else {
System.out.println("NO MATCH");
}
}
}
- 20
这里因为"(\\D*)(\\d+)(.*)"
匹配规则,包含了所有的字符,所以,group(0)
才能匹配出整个表达式