FCL/sf/mw/searchsrv: searchengine/oss/loc/analysis/inc/public/koreananalyzer.h@65456528cac2 (annotated)

24 65456528cac2 201041 hgs parents: diff changeset	1	/*
65456528cac2 201041 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
65456528cac2 201041 hgs parents: diff changeset	3	* All rights reserved.
65456528cac2 201041 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
65456528cac2 201041 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
65456528cac2 201041 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
65456528cac2 201041 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
65456528cac2 201041 hgs parents: diff changeset	8	*
65456528cac2 201041 hgs parents: diff changeset	9	* Initial Contributors:
65456528cac2 201041 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
65456528cac2 201041 hgs parents: diff changeset	11	*
65456528cac2 201041 hgs parents: diff changeset	12	* Contributors:
65456528cac2 201041 hgs parents: diff changeset	13	*
65456528cac2 201041 hgs parents: diff changeset	14	* Description:
65456528cac2 201041 hgs parents: diff changeset	15	*
65456528cac2 201041 hgs parents: diff changeset	16	*/
65456528cac2 201041 hgs parents: diff changeset	17
65456528cac2 201041 hgs parents: diff changeset	18	#ifndef KOREANANALYZER_H_
65456528cac2 201041 hgs parents: diff changeset	19	#define KOREANANALYZER_H_
65456528cac2 201041 hgs parents: diff changeset	20
65456528cac2 201041 hgs parents: diff changeset	21	#include "Clucene.h"
65456528cac2 201041 hgs parents: diff changeset	22
65456528cac2 201041 hgs parents: diff changeset	23	#include "ngram.h"
65456528cac2 201041 hgs parents: diff changeset	24
65456528cac2 201041 hgs parents: diff changeset	25	#include "tinyanalysis.h"
65456528cac2 201041 hgs parents: diff changeset	26	#include "tinyutf16.h"
65456528cac2 201041 hgs parents: diff changeset	27	#include "tinyunicode.h"
65456528cac2 201041 hgs parents: diff changeset	28
65456528cac2 201041 hgs parents: diff changeset	29	namespace analysis
65456528cac2 201041 hgs parents: diff changeset	30	{
65456528cac2 201041 hgs parents: diff changeset	31	// Forward declarations
65456528cac2 201041 hgs parents: diff changeset	32
65456528cac2 201041 hgs parents: diff changeset	33	/**
65456528cac2 201041 hgs parents: diff changeset	34	* Special Korean analyzer that is designed so, that Cpix can
65456528cac2 201041 hgs parents: diff changeset	35	* update the result list, when each individual Jamu character is
65456528cac2 201041 hgs parents: diff changeset	36	* entered.
65456528cac2 201041 hgs parents: diff changeset	37	*
65456528cac2 201041 hgs parents: diff changeset	38	* The analyzer tries to first convert given character stream into
65456528cac2 201041 hgs parents: diff changeset	39	* a form, where all Jamu characters are composed into Hangul form.
65456528cac2 201041 hgs parents: diff changeset	40	* This means, that character sequences of form LV and LVT are
65456528cac2 201041 hgs parents: diff changeset	41	* eliminated and replaced with hangul syllables (L is leading Jamu
65456528cac2 201041 hgs parents: diff changeset	42	* consonant, V is for vocal and T is for trailing consonant).
65456528cac2 201041 hgs parents: diff changeset	43	*
65456528cac2 201041 hgs parents: diff changeset	44	* The idea behind the analyzer is that it produces up to 3 alternative
65456528cac2 201041 hgs parents: diff changeset	45	* tokens for each hangul syllabic. All of these alternatives are returned
65456528cac2 201041 hgs parents: diff changeset	46	* to be located at the same position. Let's have some Hangul syllabic H1
65456528cac2 201041 hgs parents: diff changeset	47	* consisting of Jamu characters so that H1=J1J2J3. If H2=J1J2, then first
65456528cac2 201041 hgs parents: diff changeset	48	* returned token is H1, second token is H2 and third token is J1. This
65456528cac2 201041 hgs parents: diff changeset	49	* means, that when user enters H1, H2 or J1, the term H1 will be found.
65456528cac2 201041 hgs parents: diff changeset	50	* Also, if user enters J1J2J3 or J1J2, term will be found, because
65456528cac2 201041 hgs parents: diff changeset	51	* J1J2J3 is automatically turned to H1 and J1J2 is turned to H2.
65456528cac2 201041 hgs parents: diff changeset	52	*
65456528cac2 201041 hgs parents: diff changeset	53	* NOTE: This analyzer MUST NOT be used, when searching, because
65456528cac2 201041 hgs parents: diff changeset	54	* CLuceneQueryParser will break, when it faces tokens with zero
65456528cac2 201041 hgs parents: diff changeset	55	* increment. Use KoreanQueryAnalyzer for searching material indexed
65456528cac2 201041 hgs parents: diff changeset	56	* with this analyzer.
65456528cac2 201041 hgs parents: diff changeset	57	*/
65456528cac2 201041 hgs parents: diff changeset	58	class KoreanTokenizer : public lucene::analysis::Tokenizer {
65456528cac2 201041 hgs parents: diff changeset	59
65456528cac2 201041 hgs parents: diff changeset	60	public:
65456528cac2 201041 hgs parents: diff changeset	61
65456528cac2 201041 hgs parents: diff changeset	62	/** Used to read from buffer */
65456528cac2 201041 hgs parents: diff changeset	63	typedef tiny::cl::ReaderBuffer<512>::iterator buffer_iterator;
65456528cac2 201041 hgs parents: diff changeset	64
65456528cac2 201041 hgs parents: diff changeset	65	/** Turns utf16 code points into unicode */
65456528cac2 201041 hgs parents: diff changeset	66	typedef tiny::Utf16Iterator<buffer_iterator> utf16_iterator;
65456528cac2 201041 hgs parents: diff changeset	67
65456528cac2 201041 hgs parents: diff changeset	68	/** Turns Jamu alphabets into Hangul syllables */
65456528cac2 201041 hgs parents: diff changeset	69	typedef tiny::HangulIterator<utf16_iterator> iterator;
65456528cac2 201041 hgs parents: diff changeset	70
65456528cac2 201041 hgs parents: diff changeset	71	KoreanTokenizer(lucene::util::Reader* reader);
65456528cac2 201041 hgs parents: diff changeset	72
65456528cac2 201041 hgs parents: diff changeset	73	virtual bool next(lucene::analysis::Token* token);
65456528cac2 201041 hgs parents: diff changeset	74
65456528cac2 201041 hgs parents: diff changeset	75	private:
65456528cac2 201041 hgs parents: diff changeset	76
65456528cac2 201041 hgs parents: diff changeset	77	/** Jamu form of last consumed hangul syllable */
65456528cac2 201041 hgs parents: diff changeset	78	wchar_t jamu_[4];
65456528cac2 201041 hgs parents: diff changeset	79
65456528cac2 201041 hgs parents: diff changeset	80	/** offsets of last consumed hangul syllable */
65456528cac2 201041 hgs parents: diff changeset	81	int begin_, end_;
65456528cac2 201041 hgs parents: diff changeset	82
65456528cac2 201041 hgs parents: diff changeset	83	/**
65456528cac2 201041 hgs parents: diff changeset	84	* The amount of jamu characters left in buffer.
65456528cac2 201041 hgs parents: diff changeset	85	* If this is non-zero, hangul syllable is being processed.
65456528cac2 201041 hgs parents: diff changeset	86	*/
65456528cac2 201041 hgs parents: diff changeset	87	int state_;
65456528cac2 201041 hgs parents: diff changeset	88
65456528cac2 201041 hgs parents: diff changeset	89	/**
65456528cac2 201041 hgs parents: diff changeset	90	* Tiny CJK tokenizer is used to construct 1-grams out of
65456528cac2 201041 hgs parents: diff changeset	91	* chinese and japanese characters and to turn latin script
65456528cac2 201041 hgs parents: diff changeset	92	* into terms.
65456528cac2 201041 hgs parents: diff changeset	93	*/
65456528cac2 201041 hgs parents: diff changeset	94	TinyCjkTokenizer<iterator> t_;
65456528cac2 201041 hgs parents: diff changeset	95
65456528cac2 201041 hgs parents: diff changeset	96	/** 512 byte buffer for storing characters read with reader */
65456528cac2 201041 hgs parents: diff changeset	97	tiny::cl::ReaderBuffer<512> in_;
65456528cac2 201041 hgs parents: diff changeset	98
65456528cac2 201041 hgs parents: diff changeset	99	/**
65456528cac2 201041 hgs parents: diff changeset	100	* Reads utf16 from in_ buffer, turns it into unicode and
65456528cac2 201041 hgs parents: diff changeset	101	* then composes jamu alphabets into hangul syllables.
65456528cac2 201041 hgs parents: diff changeset	102	*/
65456528cac2 201041 hgs parents: diff changeset	103	iterator i_;
65456528cac2 201041 hgs parents: diff changeset	104
65456528cac2 201041 hgs parents: diff changeset	105
65456528cac2 201041 hgs parents: diff changeset	106	};
65456528cac2 201041 hgs parents: diff changeset	107
65456528cac2 201041 hgs parents: diff changeset	108	/** Korean tokenizer plus lowercase filter */
65456528cac2 201041 hgs parents: diff changeset	109	typedef TemplateAnalyzer1F<KoreanTokenizer, lucene::analysis::LowerCaseFilter>
65456528cac2 201041 hgs parents: diff changeset	110	KoreanAnalyzer;
65456528cac2 201041 hgs parents: diff changeset	111
65456528cac2 201041 hgs parents: diff changeset	112	/**
65456528cac2 201041 hgs parents: diff changeset	113	* Turns Jamu characters into Hangul syllables and generates 1-grams for
65456528cac2 201041 hgs parents: diff changeset	114	* all Chinese, Korean and Japanese text.
65456528cac2 201041 hgs parents: diff changeset	115	*/
65456528cac2 201041 hgs parents: diff changeset	116	class KoreanQueryTokenizer : public lucene::analysis::Tokenizer {
65456528cac2 201041 hgs parents: diff changeset	117
65456528cac2 201041 hgs parents: diff changeset	118	public:
65456528cac2 201041 hgs parents: diff changeset	119
65456528cac2 201041 hgs parents: diff changeset	120	/** Used to read from buffer */
65456528cac2 201041 hgs parents: diff changeset	121	typedef tiny::cl::ReaderBuffer<512>::iterator buffer_iterator;
65456528cac2 201041 hgs parents: diff changeset	122
65456528cac2 201041 hgs parents: diff changeset	123	/** Turns utf16 code points into unicode */
65456528cac2 201041 hgs parents: diff changeset	124	typedef tiny::Utf16Iterator<buffer_iterator> utf16_iterator;
65456528cac2 201041 hgs parents: diff changeset	125
65456528cac2 201041 hgs parents: diff changeset	126	/** Turns Hangul syllables into Jamu alphabets */
65456528cac2 201041 hgs parents: diff changeset	127	typedef tiny::HangulIterator<utf16_iterator> iterator;
65456528cac2 201041 hgs parents: diff changeset	128
65456528cac2 201041 hgs parents: diff changeset	129	public:
65456528cac2 201041 hgs parents: diff changeset	130
65456528cac2 201041 hgs parents: diff changeset	131	KoreanQueryTokenizer( lucene::util::Reader* reader );
65456528cac2 201041 hgs parents: diff changeset	132
65456528cac2 201041 hgs parents: diff changeset	133	virtual bool next( lucene::analysis::Token* token );
65456528cac2 201041 hgs parents: diff changeset	134
65456528cac2 201041 hgs parents: diff changeset	135	private:
65456528cac2 201041 hgs parents: diff changeset	136
65456528cac2 201041 hgs parents: diff changeset	137	/** Buffer for storing characters read with reader */
65456528cac2 201041 hgs parents: diff changeset	138	TinyCjkTokenizer<iterator> t_;
65456528cac2 201041 hgs parents: diff changeset	139
65456528cac2 201041 hgs parents: diff changeset	140	/** Buffer for storing characters read with reader */
65456528cac2 201041 hgs parents: diff changeset	141	tiny::cl::ReaderBuffer<512> in_;
65456528cac2 201041 hgs parents: diff changeset	142
65456528cac2 201041 hgs parents: diff changeset	143	/**
65456528cac2 201041 hgs parents: diff changeset	144	* Reads utf16 from in_ buffer, turns it into unicode and
65456528cac2 201041 hgs parents: diff changeset	145	* then composes jamu alphabets into hangul syllables.
65456528cac2 201041 hgs parents: diff changeset	146	*/
65456528cac2 201041 hgs parents: diff changeset	147	iterator i_;
65456528cac2 201041 hgs parents: diff changeset	148
65456528cac2 201041 hgs parents: diff changeset	149	};
65456528cac2 201041 hgs parents: diff changeset	150
65456528cac2 201041 hgs parents: diff changeset	151	/** Korean query analyzer plus lowercase filter */
65456528cac2 201041 hgs parents: diff changeset	152	typedef TemplateAnalyzer1F<KoreanQueryTokenizer, lucene::analysis::LowerCaseFilter>
65456528cac2 201041 hgs parents: diff changeset	153	KoreanQueryAnalyzer;
65456528cac2 201041 hgs parents: diff changeset	154
65456528cac2 201041 hgs parents: diff changeset	155	}
65456528cac2 201041 hgs parents: diff changeset	156
65456528cac2 201041 hgs parents: diff changeset	157	#endif /* KOREANANALYZER_H_ */

author	hgs
	Fri, 15 Oct 2010 12:09:28 +0530
changeset 24	65456528cac2
permissions	-rw-r--r--