FCL/sf/mw/searchsrv: searchengine/oss/loc/analysis/src/cjkanalyzer.cpp@65456528cac2 (annotated)

24 65456528cac2 201041 hgs parents: diff changeset	1	/*
65456528cac2 201041 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
65456528cac2 201041 hgs parents: diff changeset	3	* All rights reserved.
65456528cac2 201041 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
65456528cac2 201041 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
65456528cac2 201041 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
65456528cac2 201041 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
65456528cac2 201041 hgs parents: diff changeset	8	*
65456528cac2 201041 hgs parents: diff changeset	9	* Initial Contributors:
65456528cac2 201041 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
65456528cac2 201041 hgs parents: diff changeset	11	*
65456528cac2 201041 hgs parents: diff changeset	12	* Contributors:
65456528cac2 201041 hgs parents: diff changeset	13	*
65456528cac2 201041 hgs parents: diff changeset	14	* Description:
65456528cac2 201041 hgs parents: diff changeset	15	*
65456528cac2 201041 hgs parents: diff changeset	16	*/
65456528cac2 201041 hgs parents: diff changeset	17
65456528cac2 201041 hgs parents: diff changeset	18	#include "CLucene/StdHeader.h"
65456528cac2 201041 hgs parents: diff changeset	19	#include "CJKAnalyzer.h"
65456528cac2 201041 hgs parents: diff changeset	20
65456528cac2 201041 hgs parents: diff changeset	21	CL_NS_DEF2(analysis,cjk)
65456528cac2 201041 hgs parents: diff changeset	22	CL_NS_USE(analysis)
65456528cac2 201041 hgs parents: diff changeset	23	CL_NS_USE(util)
65456528cac2 201041 hgs parents: diff changeset	24
65456528cac2 201041 hgs parents: diff changeset	25
65456528cac2 201041 hgs parents: diff changeset	26	const TCHAR* CJKTokenizer::tokenTypeSingle = _T("single");
65456528cac2 201041 hgs parents: diff changeset	27	const TCHAR* CJKTokenizer::tokenTypeDouble = _T("double");
65456528cac2 201041 hgs parents: diff changeset	28
65456528cac2 201041 hgs parents: diff changeset	29	CJKTokenizer::CJKTokenizer(Reader* in):
65456528cac2 201041 hgs parents: diff changeset	30	Tokenizer(in)
65456528cac2 201041 hgs parents: diff changeset	31	{
65456528cac2 201041 hgs parents: diff changeset	32	tokenType = Token::defaultType;
65456528cac2 201041 hgs parents: diff changeset	33	offset = 0;
65456528cac2 201041 hgs parents: diff changeset	34	bufferIndex = 0;
65456528cac2 201041 hgs parents: diff changeset	35	dataLen = 0;
65456528cac2 201041 hgs parents: diff changeset	36	preIsTokened = false;
65456528cac2 201041 hgs parents: diff changeset	37	ignoreSurrogates = true;
65456528cac2 201041 hgs parents: diff changeset	38	}
65456528cac2 201041 hgs parents: diff changeset	39
65456528cac2 201041 hgs parents: diff changeset	40	bool CJKTokenizer::next(Token* token){
65456528cac2 201041 hgs parents: diff changeset	41	while (true) {
65456528cac2 201041 hgs parents: diff changeset	42	/** how many character(s) has been stored in buffer */
65456528cac2 201041 hgs parents: diff changeset	43	int32_t length = 0;
65456528cac2 201041 hgs parents: diff changeset	44
65456528cac2 201041 hgs parents: diff changeset	45	/** the position used to create Token */
65456528cac2 201041 hgs parents: diff changeset	46	int32_t start = offset;
65456528cac2 201041 hgs parents: diff changeset	47
65456528cac2 201041 hgs parents: diff changeset	48	while (true) {
65456528cac2 201041 hgs parents: diff changeset	49	/** current character */
65456528cac2 201041 hgs parents: diff changeset	50	clunichar c;
65456528cac2 201041 hgs parents: diff changeset	51	int charlen = 1;
65456528cac2 201041 hgs parents: diff changeset	52
65456528cac2 201041 hgs parents: diff changeset	53	offset++;
65456528cac2 201041 hgs parents: diff changeset	54
65456528cac2 201041 hgs parents: diff changeset	55	if (bufferIndex >= dataLen) {
65456528cac2 201041 hgs parents: diff changeset	56	dataLen = input->read(ioBuffer);
65456528cac2 201041 hgs parents: diff changeset	57	bufferIndex = 0;
65456528cac2 201041 hgs parents: diff changeset	58	}
65456528cac2 201041 hgs parents: diff changeset	59
65456528cac2 201041 hgs parents: diff changeset	60	if (dataLen == -1) {
65456528cac2 201041 hgs parents: diff changeset	61	if (length > 0) {
65456528cac2 201041 hgs parents: diff changeset	62	if (preIsTokened == true) {
65456528cac2 201041 hgs parents: diff changeset	63	length = 0;
65456528cac2 201041 hgs parents: diff changeset	64	preIsTokened = false;
65456528cac2 201041 hgs parents: diff changeset	65	} else {
65456528cac2 201041 hgs parents: diff changeset	66	offset--;
65456528cac2 201041 hgs parents: diff changeset	67	}
65456528cac2 201041 hgs parents: diff changeset	68	break;
65456528cac2 201041 hgs parents: diff changeset	69	} else {
65456528cac2 201041 hgs parents: diff changeset	70	offset--;
65456528cac2 201041 hgs parents: diff changeset	71	return false;
65456528cac2 201041 hgs parents: diff changeset	72	}
65456528cac2 201041 hgs parents: diff changeset	73	} else {
65456528cac2 201041 hgs parents: diff changeset	74	//get current character
65456528cac2 201041 hgs parents: diff changeset	75	c = ioBuffer[bufferIndex++];
65456528cac2 201041 hgs parents: diff changeset	76	}
65456528cac2 201041 hgs parents: diff changeset	77
65456528cac2 201041 hgs parents: diff changeset	78	//to support surrogates, we'll need to convert the incoming utf16 into
65456528cac2 201041 hgs parents: diff changeset	79	//ucs4(c variable). however, gunichartables doesn't seem to classify
65456528cac2 201041 hgs parents: diff changeset	80	//any of the surrogates as alpha, so they are skipped anyway...
65456528cac2 201041 hgs parents: diff changeset	81	//so for now we just convert to ucs4 so that we dont corrupt the input.
65456528cac2 201041 hgs parents: diff changeset	82	if ( c >= 0xd800 \|\| c <= 0xdfff ){
65456528cac2 201041 hgs parents: diff changeset	83	clunichar c2 = ioBuffer[bufferIndex];
65456528cac2 201041 hgs parents: diff changeset	84	if ( c2 >= 0xdc00 && c2 <= 0xdfff ){
65456528cac2 201041 hgs parents: diff changeset	85	bufferIndex++;
65456528cac2 201041 hgs parents: diff changeset	86	offset++;
65456528cac2 201041 hgs parents: diff changeset	87	charlen=2;
65456528cac2 201041 hgs parents: diff changeset	88
65456528cac2 201041 hgs parents: diff changeset	89	c = (((c & 0x03ffL) << 10) \| ((c2 & 0x03ffL) << 0)) + 0x00010000L;
65456528cac2 201041 hgs parents: diff changeset	90	}
65456528cac2 201041 hgs parents: diff changeset	91	}
65456528cac2 201041 hgs parents: diff changeset	92
65456528cac2 201041 hgs parents: diff changeset	93	//if the current character is ASCII or Extend ASCII
65456528cac2 201041 hgs parents: diff changeset	94	if ((c <= 0xFF) //is BASIC_LATIN
65456528cac2 201041 hgs parents: diff changeset	95	\|\| (c>=0xFF00 && c<=0xFFEF) //ascii >0x74 cast to unsigned...
65456528cac2 201041 hgs parents: diff changeset	96	) {
65456528cac2 201041 hgs parents: diff changeset	97	if (c >= 0xFF00) {
65456528cac2 201041 hgs parents: diff changeset	98	//todo: test this... only happens on platforms where char is signed, i think...
65456528cac2 201041 hgs parents: diff changeset	99	/** convert HALFWIDTH_AND_FULLWIDTH_FORMS to BASIC_LATIN */
65456528cac2 201041 hgs parents: diff changeset	100	c -= 0xFEE0;
65456528cac2 201041 hgs parents: diff changeset	101	}
65456528cac2 201041 hgs parents: diff changeset	102
65456528cac2 201041 hgs parents: diff changeset	103	// if the current character is a letter or "_" "+" "#"
65456528cac2 201041 hgs parents: diff changeset	104	if (_istalnum(c) \|\| ((c == '_') \|\| (c == '+') \|\| (c == '#')) ) {
65456528cac2 201041 hgs parents: diff changeset	105	if (length == 0) {
65456528cac2 201041 hgs parents: diff changeset	106	// "javaC1C2C3C4linux" <br>
65456528cac2 201041 hgs parents: diff changeset	107	// ^--: the current character begin to token the ASCII
65456528cac2 201041 hgs parents: diff changeset	108	// letter
65456528cac2 201041 hgs parents: diff changeset	109	start = offset - 1;
65456528cac2 201041 hgs parents: diff changeset	110	} else if (tokenType == tokenTypeDouble) {
65456528cac2 201041 hgs parents: diff changeset	111	// "javaC1C2C3C4linux" <br>
65456528cac2 201041 hgs parents: diff changeset	112	// ^--: the previous non-ASCII
65456528cac2 201041 hgs parents: diff changeset	113	// : the current character
65456528cac2 201041 hgs parents: diff changeset	114	offset-=charlen;
65456528cac2 201041 hgs parents: diff changeset	115	bufferIndex-=charlen;
65456528cac2 201041 hgs parents: diff changeset	116	tokenType = tokenTypeSingle;
65456528cac2 201041 hgs parents: diff changeset	117
65456528cac2 201041 hgs parents: diff changeset	118	if (preIsTokened == true) {
65456528cac2 201041 hgs parents: diff changeset	119	// there is only one non-ASCII has been stored
65456528cac2 201041 hgs parents: diff changeset	120	length = 0;
65456528cac2 201041 hgs parents: diff changeset	121	preIsTokened = false;
65456528cac2 201041 hgs parents: diff changeset	122
65456528cac2 201041 hgs parents: diff changeset	123	break;
65456528cac2 201041 hgs parents: diff changeset	124	} else {
65456528cac2 201041 hgs parents: diff changeset	125	break;
65456528cac2 201041 hgs parents: diff changeset	126	}
65456528cac2 201041 hgs parents: diff changeset	127	}
65456528cac2 201041 hgs parents: diff changeset	128
65456528cac2 201041 hgs parents: diff changeset	129	// store the LowerCase(c) in the buffer
65456528cac2 201041 hgs parents: diff changeset	130	buffer[length++] = _totlower((TCHAR)c);
65456528cac2 201041 hgs parents: diff changeset	131	tokenType = tokenTypeSingle;
65456528cac2 201041 hgs parents: diff changeset	132
65456528cac2 201041 hgs parents: diff changeset	133	// break the procedure if buffer overflowed!
65456528cac2 201041 hgs parents: diff changeset	134	if (length == LUCENE_MAX_WORD_LEN) {
65456528cac2 201041 hgs parents: diff changeset	135	break;
65456528cac2 201041 hgs parents: diff changeset	136	}
65456528cac2 201041 hgs parents: diff changeset	137	} else if (length > 0) {
65456528cac2 201041 hgs parents: diff changeset	138	if (preIsTokened == true) {
65456528cac2 201041 hgs parents: diff changeset	139	length = 0;
65456528cac2 201041 hgs parents: diff changeset	140	preIsTokened = false;
65456528cac2 201041 hgs parents: diff changeset	141	} else {
65456528cac2 201041 hgs parents: diff changeset	142	break;
65456528cac2 201041 hgs parents: diff changeset	143	}
65456528cac2 201041 hgs parents: diff changeset	144	}
65456528cac2 201041 hgs parents: diff changeset	145	} else {
65456528cac2 201041 hgs parents: diff changeset	146	// non-ASCII letter, eg."C1C2C3C4"
65456528cac2 201041 hgs parents: diff changeset	147	if ( _istalpha(c) \|\| (!ignoreSurrogates && c >= 0x10000) ) {
65456528cac2 201041 hgs parents: diff changeset	148	if (length == 0) {
65456528cac2 201041 hgs parents: diff changeset	149	start = offset - 1;
65456528cac2 201041 hgs parents: diff changeset	150
65456528cac2 201041 hgs parents: diff changeset	151	if ( c < 0x00010000L )
65456528cac2 201041 hgs parents: diff changeset	152	buffer[length++] = (TCHAR)c;
65456528cac2 201041 hgs parents: diff changeset	153	else{
65456528cac2 201041 hgs parents: diff changeset	154	clunichar ucs4 = c - 0x00010000L;
65456528cac2 201041 hgs parents: diff changeset	155	buffer[length++] = (TCHAR)((ucs4 >> 10) & 0x3ff) \| 0xd800;
65456528cac2 201041 hgs parents: diff changeset	156	buffer[length++] = (TCHAR)((ucs4 >> 0) & 0x3ff) \| 0xdc00;
65456528cac2 201041 hgs parents: diff changeset	157	}
65456528cac2 201041 hgs parents: diff changeset	158
65456528cac2 201041 hgs parents: diff changeset	159	tokenType = tokenTypeDouble;
65456528cac2 201041 hgs parents: diff changeset	160	} else {
65456528cac2 201041 hgs parents: diff changeset	161	if (tokenType == tokenTypeSingle) {
65456528cac2 201041 hgs parents: diff changeset	162	offset-=charlen;
65456528cac2 201041 hgs parents: diff changeset	163	bufferIndex-=charlen;
65456528cac2 201041 hgs parents: diff changeset	164
65456528cac2 201041 hgs parents: diff changeset	165	//return the previous ASCII characters
65456528cac2 201041 hgs parents: diff changeset	166	break;
65456528cac2 201041 hgs parents: diff changeset	167	} else {
65456528cac2 201041 hgs parents: diff changeset	168	if ( c < 0x00010000L )
65456528cac2 201041 hgs parents: diff changeset	169	buffer[length++] = (TCHAR)c;
65456528cac2 201041 hgs parents: diff changeset	170	else{
65456528cac2 201041 hgs parents: diff changeset	171	clunichar ucs4 = c - 0x00010000L;
65456528cac2 201041 hgs parents: diff changeset	172	buffer[length++] = (TCHAR)((ucs4 >> 10) & 0x3ff) \| 0xd800;
65456528cac2 201041 hgs parents: diff changeset	173	buffer[length++] = (TCHAR)((ucs4 >> 0) & 0x3ff) \| 0xdc00;
65456528cac2 201041 hgs parents: diff changeset	174	}
65456528cac2 201041 hgs parents: diff changeset	175	tokenType = tokenTypeDouble;
65456528cac2 201041 hgs parents: diff changeset	176
65456528cac2 201041 hgs parents: diff changeset	177	if (length >= 2) {
65456528cac2 201041 hgs parents: diff changeset	178	offset-=charlen;
65456528cac2 201041 hgs parents: diff changeset	179	bufferIndex-=charlen;
65456528cac2 201041 hgs parents: diff changeset	180	preIsTokened = true;
65456528cac2 201041 hgs parents: diff changeset	181
65456528cac2 201041 hgs parents: diff changeset	182	break;
65456528cac2 201041 hgs parents: diff changeset	183	}
65456528cac2 201041 hgs parents: diff changeset	184	}
65456528cac2 201041 hgs parents: diff changeset	185	}
65456528cac2 201041 hgs parents: diff changeset	186	} else if (length > 0) {
65456528cac2 201041 hgs parents: diff changeset	187	if (preIsTokened == true) {
65456528cac2 201041 hgs parents: diff changeset	188	// empty the buffer
65456528cac2 201041 hgs parents: diff changeset	189	length = 0;
65456528cac2 201041 hgs parents: diff changeset	190	preIsTokened = false;
65456528cac2 201041 hgs parents: diff changeset	191	} else {
65456528cac2 201041 hgs parents: diff changeset	192	break;
65456528cac2 201041 hgs parents: diff changeset	193	}
65456528cac2 201041 hgs parents: diff changeset	194	}
65456528cac2 201041 hgs parents: diff changeset	195	}
65456528cac2 201041 hgs parents: diff changeset	196	}
65456528cac2 201041 hgs parents: diff changeset	197	if (length > 0) {
65456528cac2 201041 hgs parents: diff changeset	198	buffer[length]='\0';
65456528cac2 201041 hgs parents: diff changeset	199	token->set(buffer,start, start+length, tokenType);
65456528cac2 201041 hgs parents: diff changeset	200	return true;
65456528cac2 201041 hgs parents: diff changeset	201	} else if (dataLen == -1) {
65456528cac2 201041 hgs parents: diff changeset	202	offset--;
65456528cac2 201041 hgs parents: diff changeset	203	return false;
65456528cac2 201041 hgs parents: diff changeset	204	}
65456528cac2 201041 hgs parents: diff changeset	205	}
65456528cac2 201041 hgs parents: diff changeset	206	}
65456528cac2 201041 hgs parents: diff changeset	207
65456528cac2 201041 hgs parents: diff changeset	208	TokenStream* CJKAnalyzer::tokenStream(const TCHAR* fieldName, CL_NS(util)::Reader* reader) {
65456528cac2 201041 hgs parents: diff changeset	209	return new CJKTokenizer(reader);
65456528cac2 201041 hgs parents: diff changeset	210	}
65456528cac2 201041 hgs parents: diff changeset	211
65456528cac2 201041 hgs parents: diff changeset	212
65456528cac2 201041 hgs parents: diff changeset	213	CL_NS_END2

author	hgs
	Fri, 15 Oct 2010 12:09:28 +0530
changeset 24	65456528cac2
permissions	-rw-r--r--