Java Lucene NGramTokenizer
发布时间:2020-05-24 16:36:23 所属栏目:Java 来源:互联网
导读:我正在尝试将符号化字符串变成ngram.奇怪的是,在 NGramTokenizer的文档中,我没有看到将返回被标记化的各个ngram的方法.实际上,我在NGramTokenizer类中只看到两个返回String对象的方法. 这是我有的代码: Reader reader = new StringReader(This is a test str
|
我正在尝试将符号化字符串变成ngram.奇怪的是,在 NGramTokenizer的文档中,我没有看到将返回被标记化的各个ngram的方法.实际上,我在NGramTokenizer类中只看到两个返回String对象的方法. 这是我有的代码: Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader,1,3);
>哪里的ngram被标记了? 我想要我的输出像:这是一个,一个,测试,字符串,这是一个,一个测试,测试字符串,是一个测试,一个测试字符串. 解决方法我不认为你会发现你正在寻找寻找方法返回String.你需要处理 Attributes.应该工作的东西像: Reader reader = new StringReader("This is a test string");
NGramTokenizer gramTokenizer = new NGramTokenizer(reader,3);
CharTermAttribute charTermAttribute = gramTokenizer.addAttribute(CharTermAttribute.class);
gramTokenizer.reset();
while (gramTokenizer.incrementToken()) {
String token = charTermAttribute.toString();
//Do something
}
gramTokenizer.end();
gramTokenizer.close();
一定要重置()令牌,如果它需要重新使用后,虽然. 每个意见令牌组合,而不是字符: Reader reader = new StringReader("This is a test string");
TokenStream tokenizer = new StandardTokenizer(Version.LUCENE_36,reader);
tokenizer = new ShingleFilter(tokenizer,3);
CharTermAttribute charTermAttribute = tokenizer.addAttribute(CharTermAttribute.class);
while (tokenizer.incrementToken()) {
String token = charTermAttribute.toString();
//Do something
} (编辑:安卓应用网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
