FCL/sf/mw/searchsrv: searchengine/oss/loc/analysis/inc/public/ngram.h@65456528cac2 (annotated)

24 65456528cac2 201041 hgs parents: diff changeset	1	/*
65456528cac2 201041 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
65456528cac2 201041 hgs parents: diff changeset	3	* All rights reserved.
65456528cac2 201041 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
65456528cac2 201041 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
65456528cac2 201041 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
65456528cac2 201041 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
65456528cac2 201041 hgs parents: diff changeset	8	*
65456528cac2 201041 hgs parents: diff changeset	9	* Initial Contributors:
65456528cac2 201041 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
65456528cac2 201041 hgs parents: diff changeset	11	*
65456528cac2 201041 hgs parents: diff changeset	12	* Contributors:
65456528cac2 201041 hgs parents: diff changeset	13	*
65456528cac2 201041 hgs parents: diff changeset	14	* Description:
65456528cac2 201041 hgs parents: diff changeset	15	*
65456528cac2 201041 hgs parents: diff changeset	16	*/
65456528cac2 201041 hgs parents: diff changeset	17	#ifndef NGRAM_H_
65456528cac2 201041 hgs parents: diff changeset	18	#define NGRAM_H_
65456528cac2 201041 hgs parents: diff changeset	19
65456528cac2 201041 hgs parents: diff changeset	20	#include "tinyanalysis.h"
65456528cac2 201041 hgs parents: diff changeset	21	#include "tinyunicode.h"
65456528cac2 201041 hgs parents: diff changeset	22	#include "clutil.h"
65456528cac2 201041 hgs parents: diff changeset	23
65456528cac2 201041 hgs parents: diff changeset	24	namespace analysis {
65456528cac2 201041 hgs parents: diff changeset	25
65456528cac2 201041 hgs parents: diff changeset	26	/**
65456528cac2 201041 hgs parents: diff changeset	27	* Returns true, if the character is non-cjk letter
65456528cac2 201041 hgs parents: diff changeset	28	*/
65456528cac2 201041 hgs parents: diff changeset	29	int IsNonCjk(int c);
65456528cac2 201041 hgs parents: diff changeset	30
65456528cac2 201041 hgs parents: diff changeset	31	/**
65456528cac2 201041 hgs parents: diff changeset	32	* TinyCjkTokenizer. Contains tiny analysis classes, that are
65456528cac2 201041 hgs parents: diff changeset	33	* used to turn Chinese, Korean and Japanese into 1-grams, while
65456528cac2 201041 hgs parents: diff changeset	34	* using letter analyzer for other kinds of text (western, cyrillic,
65456528cac2 201041 hgs parents: diff changeset	35	* etc.)
65456528cac2 201041 hgs parents: diff changeset	36	*
65456528cac2 201041 hgs parents: diff changeset	37	* @tparam I the iterator, that is used to read characters
65456528cac2 201041 hgs parents: diff changeset	38	*/
65456528cac2 201041 hgs parents: diff changeset	39	template<typename I>
65456528cac2 201041 hgs parents: diff changeset	40	struct TinyCjkTokenizer {
65456528cac2 201041 hgs parents: diff changeset	41
65456528cac2 201041 hgs parents: diff changeset	42	/** Deals with cjk */
65456528cac2 201041 hgs parents: diff changeset	43	tiny::NGramTokenizer<I> cjk_;
65456528cac2 201041 hgs parents: diff changeset	44	/** Letter tokenizer for space separated language */
65456528cac2 201041 hgs parents: diff changeset	45	tiny::CustomTokenizer<I> noncjk_;
65456528cac2 201041 hgs parents: diff changeset	46	/** Combines cjk with noncjk */
65456528cac2 201041 hgs parents: diff changeset	47	tiny::PairTokenizer<I> pair_;
65456528cac2 201041 hgs parents: diff changeset	48	/** Moves forward, if tokenization fails */
65456528cac2 201041 hgs parents: diff changeset	49	tiny::RelaxedTokenizer<I> t_;
65456528cac2 201041 hgs parents: diff changeset	50
65456528cac2 201041 hgs parents: diff changeset	51	/**
65456528cac2 201041 hgs parents: diff changeset	52	* Constructs the tiny cjk tokenizer with given ngram size
65456528cac2 201041 hgs parents: diff changeset	53	*
65456528cac2 201041 hgs parents: diff changeset	54	* @param ngramsize cjk text is treated with n-gram analyzer of this size
65456528cac2 201041 hgs parents: diff changeset	55	*/
65456528cac2 201041 hgs parents: diff changeset	56	TinyCjkTokenizer(int ngramsize)
65456528cac2 201041 hgs parents: diff changeset	57	: cjk_(ngramsize, &unicode::IsCjk),
65456528cac2 201041 hgs parents: diff changeset	58	noncjk_(&IsNonCjk),
65456528cac2 201041 hgs parents: diff changeset	59	pair_(cjk_, noncjk_),
65456528cac2 201041 hgs parents: diff changeset	60	t_(pair_) {}
65456528cac2 201041 hgs parents: diff changeset	61
65456528cac2 201041 hgs parents: diff changeset	62	/**
65456528cac2 201041 hgs parents: diff changeset	63	* Consumes a token from given iterator. Returns n-grams
65456528cac2 201041 hgs parents: diff changeset	64	* for cjk text, letter tokenized words for non-cjk text.
65456528cac2 201041 hgs parents: diff changeset	65	* Always returns something unless EOS has been reached.
65456528cac2 201041 hgs parents: diff changeset	66	*/
65456528cac2 201041 hgs parents: diff changeset	67	inline tiny::Token<I> consume(I& i) {
65456528cac2 201041 hgs parents: diff changeset	68	return t_.consume(i);
65456528cac2 201041 hgs parents: diff changeset	69	}
65456528cac2 201041 hgs parents: diff changeset	70	};
65456528cac2 201041 hgs parents: diff changeset	71
65456528cac2 201041 hgs parents: diff changeset	72
65456528cac2 201041 hgs parents: diff changeset	73	/**
65456528cac2 201041 hgs parents: diff changeset	74	* Constructs n-grams of Chinese, Korean and Japanese text. Uses
65456528cac2 201041 hgs parents: diff changeset	75	* letter tokenization for other kinds of texts.
65456528cac2 201041 hgs parents: diff changeset	76	*/
65456528cac2 201041 hgs parents: diff changeset	77	class CjkNGramTokenizer : public lucene::analysis::Tokenizer {
65456528cac2 201041 hgs parents: diff changeset	78
65456528cac2 201041 hgs parents: diff changeset	79	public:
65456528cac2 201041 hgs parents: diff changeset	80
65456528cac2 201041 hgs parents: diff changeset	81	/** Reads from buffer */
65456528cac2 201041 hgs parents: diff changeset	82	typedef tiny::cl::ReaderBuffer<512>::iterator buffer_iterator;
65456528cac2 201041 hgs parents: diff changeset	83
65456528cac2 201041 hgs parents: diff changeset	84	/** Turns utf16 to unicode */
65456528cac2 201041 hgs parents: diff changeset	85	typedef tiny::Utf16Iterator<buffer_iterator> iterator;
65456528cac2 201041 hgs parents: diff changeset	86
65456528cac2 201041 hgs parents: diff changeset	87	public:
65456528cac2 201041 hgs parents: diff changeset	88
65456528cac2 201041 hgs parents: diff changeset	89	CjkNGramTokenizer( lucene::util::Reader* reader, int gramSize );
65456528cac2 201041 hgs parents: diff changeset	90
65456528cac2 201041 hgs parents: diff changeset	91	virtual bool next( lucene::analysis::Token* token );
65456528cac2 201041 hgs parents: diff changeset	92
65456528cac2 201041 hgs parents: diff changeset	93	private:
65456528cac2 201041 hgs parents: diff changeset	94
65456528cac2 201041 hgs parents: diff changeset	95	/** The tokenizer */
65456528cac2 201041 hgs parents: diff changeset	96	TinyCjkTokenizer<iterator> t_;
65456528cac2 201041 hgs parents: diff changeset	97
65456528cac2 201041 hgs parents: diff changeset	98	/** Buffer */
65456528cac2 201041 hgs parents: diff changeset	99	tiny::cl::ReaderBuffer<512> in_;
65456528cac2 201041 hgs parents: diff changeset	100
65456528cac2 201041 hgs parents: diff changeset	101	/** Reads utf16 from buffer and transforms it to unicode*/
65456528cac2 201041 hgs parents: diff changeset	102	iterator i_;
65456528cac2 201041 hgs parents: diff changeset	103
65456528cac2 201041 hgs parents: diff changeset	104	};
65456528cac2 201041 hgs parents: diff changeset	105
65456528cac2 201041 hgs parents: diff changeset	106	/**
65456528cac2 201041 hgs parents: diff changeset	107	* The great difference of this class compared to CJK ngram,
65456528cac2 201041 hgs parents: diff changeset	108	* that it decomposes Hangul syllables into Hangul Jamu letters.
65456528cac2 201041 hgs parents: diff changeset	109	*
65456528cac2 201041 hgs parents: diff changeset	110	* This analyzer appeared to have bad performance in testing.
65456528cac2 201041 hgs parents: diff changeset	111	*/
65456528cac2 201041 hgs parents: diff changeset	112	class JamuNGramTokenizer : public lucene::analysis::Tokenizer {
65456528cac2 201041 hgs parents: diff changeset	113
65456528cac2 201041 hgs parents: diff changeset	114	public:
65456528cac2 201041 hgs parents: diff changeset	115
65456528cac2 201041 hgs parents: diff changeset	116	typedef tiny::cl::ReaderBuffer<512>::iterator buffer_iterator;
65456528cac2 201041 hgs parents: diff changeset	117
65456528cac2 201041 hgs parents: diff changeset	118	typedef tiny::Utf16Iterator<buffer_iterator> utf16_iterator;
65456528cac2 201041 hgs parents: diff changeset	119
65456528cac2 201041 hgs parents: diff changeset	120	typedef tiny::JamuIterator<utf16_iterator> iterator;
65456528cac2 201041 hgs parents: diff changeset	121
65456528cac2 201041 hgs parents: diff changeset	122	public:
65456528cac2 201041 hgs parents: diff changeset	123
65456528cac2 201041 hgs parents: diff changeset	124	JamuNGramTokenizer( lucene::util::Reader* reader, int gramSize );
65456528cac2 201041 hgs parents: diff changeset	125
65456528cac2 201041 hgs parents: diff changeset	126	virtual bool next( lucene::analysis::Token* token );
65456528cac2 201041 hgs parents: diff changeset	127
65456528cac2 201041 hgs parents: diff changeset	128	private:
65456528cac2 201041 hgs parents: diff changeset	129
65456528cac2 201041 hgs parents: diff changeset	130	TinyCjkTokenizer<iterator> t_;
65456528cac2 201041 hgs parents: diff changeset	131
65456528cac2 201041 hgs parents: diff changeset	132	tiny::cl::ReaderBuffer<512> in_;
65456528cac2 201041 hgs parents: diff changeset	133
65456528cac2 201041 hgs parents: diff changeset	134	iterator i_;
65456528cac2 201041 hgs parents: diff changeset	135
65456528cac2 201041 hgs parents: diff changeset	136	};
65456528cac2 201041 hgs parents: diff changeset	137
65456528cac2 201041 hgs parents: diff changeset	138	// Analyzers using the tokenizers
65456528cac2 201041 hgs parents: diff changeset	139	// * Provided mainly for testing
65456528cac2 201041 hgs parents: diff changeset	140	//
65456528cac2 201041 hgs parents: diff changeset	141
65456528cac2 201041 hgs parents: diff changeset	142	/** CjkNGramTokenizer plus lowercase filter */
65456528cac2 201041 hgs parents: diff changeset	143	typedef TemplateAnalyzer1A1F<CjkNGramTokenizer, int, lucene::analysis::LowerCaseFilter>
65456528cac2 201041 hgs parents: diff changeset	144	CjkNGramAnalyzer;
65456528cac2 201041 hgs parents: diff changeset	145
65456528cac2 201041 hgs parents: diff changeset	146	/** JamuNGramTokenizer plus lowercase filter */
65456528cac2 201041 hgs parents: diff changeset	147	typedef TemplateAnalyzer1A1F<JamuNGramTokenizer, int, lucene::analysis::LowerCaseFilter>
65456528cac2 201041 hgs parents: diff changeset	148	JamuNGramAnalyzer;
65456528cac2 201041 hgs parents: diff changeset	149
65456528cac2 201041 hgs parents: diff changeset	150	}
65456528cac2 201041 hgs parents: diff changeset	151
65456528cac2 201041 hgs parents: diff changeset	152
65456528cac2 201041 hgs parents: diff changeset	153	#endif /* NGRAM_H_ */

author	hgs
	Fri, 15 Oct 2010 12:09:28 +0530
changeset 24	65456528cac2
permissions	-rw-r--r--