FCL/sf/mw/searchsrv: searchengine/oss/loc/analysis/src/prefixfilter.cpp@65456528cac2 (annotated)

24 65456528cac2 201041 hgs parents: diff changeset	1	/*
65456528cac2 201041 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
65456528cac2 201041 hgs parents: diff changeset	3	* All rights reserved.
65456528cac2 201041 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
65456528cac2 201041 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
65456528cac2 201041 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
65456528cac2 201041 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
65456528cac2 201041 hgs parents: diff changeset	8	*
65456528cac2 201041 hgs parents: diff changeset	9	* Initial Contributors:
65456528cac2 201041 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
65456528cac2 201041 hgs parents: diff changeset	11	*
65456528cac2 201041 hgs parents: diff changeset	12	* Contributors:
65456528cac2 201041 hgs parents: diff changeset	13	*
65456528cac2 201041 hgs parents: diff changeset	14	* Description:
65456528cac2 201041 hgs parents: diff changeset	15	*
65456528cac2 201041 hgs parents: diff changeset	16	*/
65456528cac2 201041 hgs parents: diff changeset	17
65456528cac2 201041 hgs parents: diff changeset	18	#include "prefixfilter.h"
65456528cac2 201041 hgs parents: diff changeset	19
65456528cac2 201041 hgs parents: diff changeset	20	#include "Clucene.h"
65456528cac2 201041 hgs parents: diff changeset	21
65456528cac2 201041 hgs parents: diff changeset	22	namespace analysis {
65456528cac2 201041 hgs parents: diff changeset	23
65456528cac2 201041 hgs parents: diff changeset	24	using namespace lucene::analysis;
65456528cac2 201041 hgs parents: diff changeset	25	using namespace lucene::util;
65456528cac2 201041 hgs parents: diff changeset	26
65456528cac2 201041 hgs parents: diff changeset	27	const wchar_t* HebrewPrefixes[] = {
65456528cac2 201041 hgs parents: diff changeset	28	L"\x05d0", // aleph
65456528cac2 201041 hgs parents: diff changeset	29	L"\x05d1", // bet
65456528cac2 201041 hgs parents: diff changeset	30	L"\x05d4", // he
65456528cac2 201041 hgs parents: diff changeset	31	L"\x05d5", // vav
65456528cac2 201041 hgs parents: diff changeset	32	L"\x05d9", // yud
65456528cac2 201041 hgs parents: diff changeset	33	L"\x05db", // kaf
65456528cac2 201041 hgs parents: diff changeset	34	L"\x05dc", // lamed
65456528cac2 201041 hgs parents: diff changeset	35	L"\x05de", // mem
65456528cac2 201041 hgs parents: diff changeset	36	L"\x05e0", // nun
65456528cac2 201041 hgs parents: diff changeset	37	L"\x05e9", // shin
65456528cac2 201041 hgs parents: diff changeset	38	L"\x05ea", // tav
65456528cac2 201041 hgs parents: diff changeset	39	NULL
65456528cac2 201041 hgs parents: diff changeset	40	};
65456528cac2 201041 hgs parents: diff changeset	41
65456528cac2 201041 hgs parents: diff changeset	42	PrefixFilter::PrefixFilter(TokenStream* input, bool deleteTs, const wchar_t** prefixes)
65456528cac2 201041 hgs parents: diff changeset	43	: TokenFilter(input, deleteTs), prefixes_(prefixes), token_(), prefixFound_( false ) {}
65456528cac2 201041 hgs parents: diff changeset	44
65456528cac2 201041 hgs parents: diff changeset	45	bool PrefixFilter::next(Token* token) {
65456528cac2 201041 hgs parents: diff changeset	46	// 1. Either use reduced form of last token or fetch a new token
65456528cac2 201041 hgs parents: diff changeset	47	if ( prefixFound_ ) {
65456528cac2 201041 hgs parents: diff changeset	48	token->set(token_.termText(),
65456528cac2 201041 hgs parents: diff changeset	49	token_.startOffset(),
65456528cac2 201041 hgs parents: diff changeset	50	token_.endOffset(),
65456528cac2 201041 hgs parents: diff changeset	51	token_.type());
65456528cac2 201041 hgs parents: diff changeset	52	token->setPositionIncrement(0);
65456528cac2 201041 hgs parents: diff changeset	53	prefixFound_ = false;
65456528cac2 201041 hgs parents: diff changeset	54	} else if (!input->next( token )) {
65456528cac2 201041 hgs parents: diff changeset	55	// no token found
65456528cac2 201041 hgs parents: diff changeset	56	return false;
65456528cac2 201041 hgs parents: diff changeset	57	}
65456528cac2 201041 hgs parents: diff changeset	58
65456528cac2 201041 hgs parents: diff changeset	59	// 2. Try to match prefixes with the token
65456528cac2 201041 hgs parents: diff changeset	60	const wchar_t* text = token->_termText;
65456528cac2 201041 hgs parents: diff changeset	61	int sz = 0;
65456528cac2 201041 hgs parents: diff changeset	62	for (int i = 0; prefixes_[i] && !sz; i++) {
65456528cac2 201041 hgs parents: diff changeset	63	for (; prefixes_[i][sz]; sz++) {
65456528cac2 201041 hgs parents: diff changeset	64	if (text[sz] != prefixes_[i][sz]) {
65456528cac2 201041 hgs parents: diff changeset	65	sz = 0;
65456528cac2 201041 hgs parents: diff changeset	66	break;
65456528cac2 201041 hgs parents: diff changeset	67	}
65456528cac2 201041 hgs parents: diff changeset	68	}
65456528cac2 201041 hgs parents: diff changeset	69	}
65456528cac2 201041 hgs parents: diff changeset	70	// 3. If prefix found, cut prefix and store cut form of token,
65456528cac2 201041 hgs parents: diff changeset	71	// if cut form is non-empty
65456528cac2 201041 hgs parents: diff changeset	72	if ( sz && token->termTextLength() > sz) {
65456528cac2 201041 hgs parents: diff changeset	73	token_.set(token->termText() + sz,
65456528cac2 201041 hgs parents: diff changeset	74	token->startOffset(),
65456528cac2 201041 hgs parents: diff changeset	75	token->endOffset(),
65456528cac2 201041 hgs parents: diff changeset	76	token->type());
65456528cac2 201041 hgs parents: diff changeset	77	prefixFound_ = true;
65456528cac2 201041 hgs parents: diff changeset	78	}
65456528cac2 201041 hgs parents: diff changeset	79	return true;
65456528cac2 201041 hgs parents: diff changeset	80	}
65456528cac2 201041 hgs parents: diff changeset	81
65456528cac2 201041 hgs parents: diff changeset	82	#define APOSTROPHE1 L'\''
65456528cac2 201041 hgs parents: diff changeset	83	#define APOSTROPHE2 L'\x2019'
65456528cac2 201041 hgs parents: diff changeset	84
65456528cac2 201041 hgs parents: diff changeset	85	const wchar_t* FrenchArticles[] = {
65456528cac2 201041 hgs parents: diff changeset	86	L"l",
65456528cac2 201041 hgs parents: diff changeset	87	L"m",
65456528cac2 201041 hgs parents: diff changeset	88	L"t",
65456528cac2 201041 hgs parents: diff changeset	89	L"qu",
65456528cac2 201041 hgs parents: diff changeset	90	L"n",
65456528cac2 201041 hgs parents: diff changeset	91	L"s",
65456528cac2 201041 hgs parents: diff changeset	92	L"j",
65456528cac2 201041 hgs parents: diff changeset	93	NULL
65456528cac2 201041 hgs parents: diff changeset	94	};
65456528cac2 201041 hgs parents: diff changeset	95
65456528cac2 201041 hgs parents: diff changeset	96	// This list should not be relied on
65456528cac2 201041 hgs parents: diff changeset	97	// Consult language experts!
65456528cac2 201041 hgs parents: diff changeset	98	const wchar_t* ItalianArticles[] = {
65456528cac2 201041 hgs parents: diff changeset	99	L"l", // the
65456528cac2 201041 hgs parents: diff changeset	100	L"d", // from
65456528cac2 201041 hgs parents: diff changeset	101	L"un", // one, a
65456528cac2 201041 hgs parents: diff changeset	102	L"dell", // to
65456528cac2 201041 hgs parents: diff changeset	103	L"all",
65456528cac2 201041 hgs parents: diff changeset	104	L"e",
65456528cac2 201041 hgs parents: diff changeset	105	L"quest",
65456528cac2 201041 hgs parents: diff changeset	106	L"quell",
65456528cac2 201041 hgs parents: diff changeset	107	L"buon", // means good, should it be here?
65456528cac2 201041 hgs parents: diff changeset	108	NULL
65456528cac2 201041 hgs parents: diff changeset	109	};
65456528cac2 201041 hgs parents: diff changeset	110
65456528cac2 201041 hgs parents: diff changeset	111	ElisionFilter::ElisionFilter(TokenStream* input, bool deleteTs, const wchar_t** articles)
65456528cac2 201041 hgs parents: diff changeset	112	: TokenFilter(input, deleteTs), articles_(articles) {}
65456528cac2 201041 hgs parents: diff changeset	113
65456528cac2 201041 hgs parents: diff changeset	114	bool ElisionFilter::next(Token* token) {
65456528cac2 201041 hgs parents: diff changeset	115	if ( input->next(token) ) {
65456528cac2 201041 hgs parents: diff changeset	116	wchar_t* text = token->_termText;
65456528cac2 201041 hgs parents: diff changeset	117	int i = 0;
65456528cac2 201041 hgs parents: diff changeset	118	for (; text[i]; i++) {
65456528cac2 201041 hgs parents: diff changeset	119	if ( text[i] == APOSTROPHE1
65456528cac2 201041 hgs parents: diff changeset	120	\|\| text[i] == APOSTROPHE2 ) {
65456528cac2 201041 hgs parents: diff changeset	121	break;
65456528cac2 201041 hgs parents: diff changeset	122	}
65456528cac2 201041 hgs parents: diff changeset	123	}
65456528cac2 201041 hgs parents: diff changeset	124	if ( text[i] ) {
65456528cac2 201041 hgs parents: diff changeset	125	for (int j = 0; articles_[j]; j++) {
65456528cac2 201041 hgs parents: diff changeset	126	if ( memcmp( articles_[j], text, i ) ) {
65456528cac2 201041 hgs parents: diff changeset	127	for (int k = 0; ; k++) {
65456528cac2 201041 hgs parents: diff changeset	128	text[k] = text[k+i+1];
65456528cac2 201041 hgs parents: diff changeset	129	if (!text[k+i+1]) break; // end of string
65456528cac2 201041 hgs parents: diff changeset	130	}
65456528cac2 201041 hgs parents: diff changeset	131	token->resetTermTextLen();
65456528cac2 201041 hgs parents: diff changeset	132	return true;
65456528cac2 201041 hgs parents: diff changeset	133	}
65456528cac2 201041 hgs parents: diff changeset	134	}
65456528cac2 201041 hgs parents: diff changeset	135	}
65456528cac2 201041 hgs parents: diff changeset	136	return true;
65456528cac2 201041 hgs parents: diff changeset	137	}
65456528cac2 201041 hgs parents: diff changeset	138	return false;
65456528cac2 201041 hgs parents: diff changeset	139	}
65456528cac2 201041 hgs parents: diff changeset	140
65456528cac2 201041 hgs parents: diff changeset	141	using namespace lucene::analysis::standard;
65456528cac2 201041 hgs parents: diff changeset	142
65456528cac2 201041 hgs parents: diff changeset	143	TokenStream* HebrewAnalyzer::tokenStream(const wchar_t* fieldName, Reader* reader) {
65456528cac2 201041 hgs parents: diff changeset	144	auto_ptr<TokenStream> ret( new StandardTokenizer(reader) );
65456528cac2 201041 hgs parents: diff changeset	145
65456528cac2 201041 hgs parents: diff changeset	146	ret.reset( new LowerCaseFilter( ret.release(), true ) );
65456528cac2 201041 hgs parents: diff changeset	147	ret.reset( new StandardFilter( ret.release(), true ) );
65456528cac2 201041 hgs parents: diff changeset	148	ret.reset( new PrefixFilter( ret.release(), true, HebrewPrefixes ) );
65456528cac2 201041 hgs parents: diff changeset	149
65456528cac2 201041 hgs parents: diff changeset	150	return ret.release();
65456528cac2 201041 hgs parents: diff changeset	151	}
65456528cac2 201041 hgs parents: diff changeset	152
65456528cac2 201041 hgs parents: diff changeset	153	TokenStream* HebrewQueryAnalyzer::tokenStream(const wchar_t* fieldName, Reader* reader) {
65456528cac2 201041 hgs parents: diff changeset	154	auto_ptr<TokenStream> ret( new StandardTokenizer(reader) );
65456528cac2 201041 hgs parents: diff changeset	155
65456528cac2 201041 hgs parents: diff changeset	156	ret.reset( new LowerCaseFilter( ret.release(), true ) );
65456528cac2 201041 hgs parents: diff changeset	157	ret.reset( new StandardFilter( ret.release(), true ) );
65456528cac2 201041 hgs parents: diff changeset	158
65456528cac2 201041 hgs parents: diff changeset	159	return ret.release();
65456528cac2 201041 hgs parents: diff changeset	160	}
65456528cac2 201041 hgs parents: diff changeset	161
65456528cac2 201041 hgs parents: diff changeset	162	TokenStream* FrenchAnalyzer::tokenStream(const wchar_t* fieldName, Reader* reader) {
65456528cac2 201041 hgs parents: diff changeset	163	auto_ptr<TokenStream> ret( new StandardTokenizer(reader) );
65456528cac2 201041 hgs parents: diff changeset	164
65456528cac2 201041 hgs parents: diff changeset	165	ret.reset( new LowerCaseFilter( ret.release(), true ) );
65456528cac2 201041 hgs parents: diff changeset	166	ret.reset( new StandardFilter( ret.release(), true ) );
65456528cac2 201041 hgs parents: diff changeset	167	ret.reset( new ElisionFilter( ret.release(), true, FrenchArticles ) );
65456528cac2 201041 hgs parents: diff changeset	168
65456528cac2 201041 hgs parents: diff changeset	169	return ret.release();
65456528cac2 201041 hgs parents: diff changeset	170	}
65456528cac2 201041 hgs parents: diff changeset	171
65456528cac2 201041 hgs parents: diff changeset	172	const TCHAR* NonEnglishStopWords::FRENCH_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	173	_T("a"), _T("afin"), _T("ai"), _T("ainsi"), _T("aprÃ¨s"), _T("attendu"), _T("au"), _T("aujourd"),
65456528cac2 201041 hgs parents: diff changeset	174	_T("auquel"), _T("aussi"), _T("autre"), _T("autres"), _T("aux"), _T("auxquelles"), _T("auxquels"),
65456528cac2 201041 hgs parents: diff changeset	175	_T("avait"), _T("avant"), _T("avec"), _T("avoir"), _T("c"), _T("car"), _T("ce"), _T("ceci"), _T("cela"), _T("celle"), _T("celles"), _T("celui"), _T("cependant"), _T("certain"),
65456528cac2 201041 hgs parents: diff changeset	176	_T("certaine"), _T("certaines"), _T("certains"), _T("ces"), _T("cet"), _T("cette"), _T("ceux"), _T("chez"), _T("ci"),
65456528cac2 201041 hgs parents: diff changeset	177	_T("combien"), _T("comme"), _T("comment"), _T("concernant"), _T("contre"), _T("d"), _T("dans"), _T("de"), _T("debout"),
65456528cac2 201041 hgs parents: diff changeset	178	_T("dedans"), _T("dehors"), _T("delÃ "), _T("depuis"), _T("derriÃ¨re"), _T("des"), _T("dÃ©sormais"), _T("desquelles"),
65456528cac2 201041 hgs parents: diff changeset	179	_T("desquels"), _T("dessous"), _T("dessus"), _T("devant"), _T("devers"), _T("devra"), _T("divers"), _T("diverse"),
65456528cac2 201041 hgs parents: diff changeset	180	_T("diverses"), _T("doit"), _T("donc"), _T("dont"), _T("du"), _T("duquel"), _T("durant"), _T("dÃ¨s"), _T("elle"), _T("elles"),
65456528cac2 201041 hgs parents: diff changeset	181	_T("en"), _T("entre"), _T("environ"), _T("est"), _T("et"), _T("etc"), _T("etre"), _T("eu"), _T("eux"), _T("exceptÃ©"), _T("hormis"),
65456528cac2 201041 hgs parents: diff changeset	182	_T("hors"), _T("hÃ©las"), _T("hui"), _T("il"), _T("ils"), _T("j"), _T("je"), _T("jusqu"), _T("jusque"), _T("l"), _T("la"), _T("laquelle"),
65456528cac2 201041 hgs parents: diff changeset	183	_T("le"), _T("lequel"), _T("les"), _T("lesquelles"), _T("lesquels"), _T("leur"), _T("leurs"), _T("lorsque"), _T("lui"), _T("lÃ "),
65456528cac2 201041 hgs parents: diff changeset	184	_T("ma"), _T("mais"), _T("malgrÃ©"), _T("me"), _T("merci"), _T("mes"), _T("mien"), _T("mienne"), _T("miennes"), _T("miens"), _T("moi"),
65456528cac2 201041 hgs parents: diff changeset	185	_T("moins"), _T("mon"), _T("moyennant"), _T("mÃªme"), _T("mÃªmes"), _T("n"), _T("ne"), _T("ni"), _T("non"), _T("nos"), _T("notre"),
65456528cac2 201041 hgs parents: diff changeset	186	_T("nous"), _T("nÃ©anmoins"), _T("nÃ´tre"), _T("nÃ´tres"), _T("on"), _T("ont"), _T("ou"), _T("outre"), _T("oÃ¹"), _T("par"), _T("parmi"),
65456528cac2 201041 hgs parents: diff changeset	187	_T("partant"), _T("pas"), _T("passÃ©"), _T("pendant"), _T("plein"), _T("plus"), _T("plusieurs"), _T("pour"), _T("pourquoi"),
65456528cac2 201041 hgs parents: diff changeset	188	_T("proche"), _T("prÃ¨s"), _T("puisque"), _T("qu"), _T("quand"), _T("que"), _T("quel"), _T("quelle"), _T("quelles"), _T("quels"),
65456528cac2 201041 hgs parents: diff changeset	189	_T("qui"), _T("quoi"), _T("quoique"), _T("revoici"), _T("revoilÃ "), _T("s"), _T("sa"), _T("sans"), _T("sauf"), _T("se"), _T("selon"),
65456528cac2 201041 hgs parents: diff changeset	190	_T("seront"), _T("ses"), _T("si"), _T("sien"), _T("sienne"), _T("siennes"), _T("siens"), _T("sinon"), _T("soi"), _T("soit"),
65456528cac2 201041 hgs parents: diff changeset	191	_T("son"), _T("sont"), _T("sous"), _T("suivant"), _T("sur"), _T("ta"), _T("te"), _T("tes"), _T("tien"), _T("tienne"), _T("tiennes"),
65456528cac2 201041 hgs parents: diff changeset	192	_T("tiens"), _T("toi"), _T("ton"), _T("tous"), _T("tout"), _T("toute"), _T("toutes"), _T("tu"), _T("un"), _T("une"), _T("va"), _T("vers"),
65456528cac2 201041 hgs parents: diff changeset	193	_T("voici"), _T("voilÃ "), _T("vos"), _T("votre"), _T("vous"), _T("vu"), _T("vÃ´tre"), _T("vÃ´tres"), _T("y"), _T("Ã "), _T("Ã§a"), _T("Ã¨s"),
65456528cac2 201041 hgs parents: diff changeset	194	_T("Ã©tÃ©"), _T("Ãªtre"), _T("Ã´"), NULL
65456528cac2 201041 hgs parents: diff changeset	195	};
65456528cac2 201041 hgs parents: diff changeset	196
65456528cac2 201041 hgs parents: diff changeset	197	const TCHAR* NonEnglishStopWords::BRAZILIAN_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	198	_T("a"),_T("ainda"),_T("alem"), _T("ambas"), _T("ambos"), _T("antes"),
65456528cac2 201041 hgs parents: diff changeset	199	_T("ao"), _T("aonde"), _T("aos"), _T("apos"), _T("aquele"), _T("aqueles"),
65456528cac2 201041 hgs parents: diff changeset	200	_T("as"), _T("assim"), _T("com"), _T("como"), _T("contra"), _T("contudo"),
65456528cac2 201041 hgs parents: diff changeset	201	_T("cuja"), _T("cujas"), _T("cujo"), _T("cujos"), _T("da"), _T("das"), _T("de"),
65456528cac2 201041 hgs parents: diff changeset	202	_T("dela"), _T("dele"), _T("deles"), _T("demais"), _T("depois"), _T("desde"),
65456528cac2 201041 hgs parents: diff changeset	203	_T("desta"), _T("deste"), _T("dispoe"), _T("dispoem"), _T("diversa"),
65456528cac2 201041 hgs parents: diff changeset	204	_T("diversas"), _T("diversos"), _T("do"), _T("dos"), _T("durante"), _T("e"),
65456528cac2 201041 hgs parents: diff changeset	205	_T("ela"), _T("elas"), _T("ele"), _T("eles"), _T("em"), _T("entao"), _T("entre"),
65456528cac2 201041 hgs parents: diff changeset	206	_T("essa"), _T("essas"), _T("esse"), _T("esses"), _T("esta"), _T("estas"),
65456528cac2 201041 hgs parents: diff changeset	207	_T("este"), _T("estes"), _T("ha"), _T("isso"), _T("isto"), _T("logo"), _T("mais"),
65456528cac2 201041 hgs parents: diff changeset	208	_T("mas"), _T("mediante"), _T("menos"), _T("mesma"), _T("mesmas"), _T("mesmo"),
65456528cac2 201041 hgs parents: diff changeset	209	_T("mesmos"), _T("na"), _T("nas"), _T("nao"), _T("nas"), _T("nem"), _T("nesse"), _T("neste"),
65456528cac2 201041 hgs parents: diff changeset	210	_T("nos"), _T("o"), _T("os"), _T("ou"), _T("outra"), _T("outras"), _T("outro"), _T("outros"),
65456528cac2 201041 hgs parents: diff changeset	211	_T("pelas"), _T("pelas"), _T("pelo"), _T("pelos"), _T("perante"), _T("pois"), _T("por"),
65456528cac2 201041 hgs parents: diff changeset	212	_T("porque"), _T("portanto"), _T("proprio"), _T("propios"), _T("quais"), _T("qual"),
65456528cac2 201041 hgs parents: diff changeset	213	_T("qualquer"), _T("quando"), _T("quanto"), _T("que"), _T("quem"), _T("quer"),_T("se"),
65456528cac2 201041 hgs parents: diff changeset	214	_T("seja"), _T("sem"), _T("sendo"), _T("seu"), _T("seus"), _T("sob"), _T("sobre"), _T("sua"),
65456528cac2 201041 hgs parents: diff changeset	215	_T("suas"), _T("tal"), _T("tambem"), _T("teu"), _T("teus"), _T("toda"), _T("todas"), _T("todo"),
65456528cac2 201041 hgs parents: diff changeset	216	_T("todos"), _T("tua"), _T("tuas"), _T("tudo"), _T("um"), _T("uma"), _T("umas"), _T("uns"),
65456528cac2 201041 hgs parents: diff changeset	217	NULL
65456528cac2 201041 hgs parents: diff changeset	218	};
65456528cac2 201041 hgs parents: diff changeset	219
65456528cac2 201041 hgs parents: diff changeset	220	const TCHAR* NonEnglishStopWords::CZECH_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	221	_T("a"),_T("s"),_T("k"),_T("o"),_T("i"),_T("u"),_T("v"), _T("z"),_T("dnes"),
65456528cac2 201041 hgs parents: diff changeset	222	_T("cz"),_T("t\u00edmto"),_T("bude\u0161"),_T("budem"), _T("byli"), _T("jse\u0161"), _T("m\u016fj"), _T("sv\u00fdm"), _T("ta"), _T("tomto"), _T("tohle"), _T("tuto"), _T("tyto"),
65456528cac2 201041 hgs parents: diff changeset	223	_T("jej"), _T("zda"), _T("pro\u010d"), _T("m\u00e1te"), _T("tato"), _T("kam"), _T("tohoto"), _T("kdo"), _T("kte\u0159\u00ed"),
65456528cac2 201041 hgs parents: diff changeset	224	_T("mi"), _T("n\u00e1m"), _T("tom"), _T("tomuto"), _T("m\u00edt"), _T("nic"), _T("proto"), _T("kterou"), _T("byla"),
65456528cac2 201041 hgs parents: diff changeset	225	_T("toho"), _T("proto\u017ee"), _T("asi"), _T("ho"), _T("na\u0161i"), _T("napi\u0161te"), _T("re"), _T("co\u017e"), _T("t\u00edm"),
65456528cac2 201041 hgs parents: diff changeset	226	_T("tak\u017ee"), _T("sv\u00fdch"), _T("jej\u00ed"), _T("sv\u00fdmi"), _T("jste"), _T("aj"), _T("tu"), _T("tedy"), _T("teto"),
65456528cac2 201041 hgs parents: diff changeset	227	_T("bylo"), _T("kde"), _T("ke"), _T("prav\u00e9"), _T("ji"), _T("nad"), _T("nejsou"), _T("\u010di"), _T("pod"), _T("t\u00e9ma"),
65456528cac2 201041 hgs parents: diff changeset	228	_T("mezi"), _T("p\u0159es"), _T("ty"), _T("pak"), _T("v\u00e1m"), _T("ani"), _T("kdy\u017e"), _T("v\u0161ak"), _T("neg"), _T("jsem"),
65456528cac2 201041 hgs parents: diff changeset	229	_T("tento"), _T("\u010dl\u00e1nku"), _T("\u010dl\u00e1nky"), _T("aby"), _T("jsme"), _T("p\u0159ed"), _T("pta"), _T("jejich"),
65456528cac2 201041 hgs parents: diff changeset	230	_T("byl"), _T("je\u0161t\u011b"), _T("a\u017e"), _T("bez"), _T("tak\u00e9"), _T("pouze"), _T("prvn\u00ed"), _T("va\u0161e"), _T("kter\u00e1"),
65456528cac2 201041 hgs parents: diff changeset	231	_T("n\u00e1s"), _T("nov\u00fd"), _T("tipy"), _T("pokud"), _T("m\u016f\u017ee"), _T("strana"), _T("jeho"), _T("sv\u00e9"), _T("jin\u00e9"),
65456528cac2 201041 hgs parents: diff changeset	232	_T("zpr\u00e1vy"), _T("nov\u00e9"), _T("nen\u00ed"), _T("v\u00e1s"), _T("jen"), _T("podle"), _T("zde"), _T("u\u017e"), _T("b\u00fdt"), _T("v\u00edce"),
65456528cac2 201041 hgs parents: diff changeset	233	_T("bude"), _T("ji\u017e"), _T("ne\u017e"), _T("kter\u00fd"), _T("by"), _T("kter\u00e9"), _T("co"), _T("nebo"), _T("ten"), _T("tak"),
65456528cac2 201041 hgs parents: diff changeset	234	_T("m\u00e1"), _T("p\u0159i"), _T("od"), _T("po"), _T("jsou"), _T("jak"), _T("dal\u0161\u00ed"), _T("ale"), _T("si"), _T("se"), _T("ve"),
65456528cac2 201041 hgs parents: diff changeset	235	_T("to"), _T("jako"), _T("za"), _T("zp\u011bt"), _T("ze"), _T("do"), _T("pro"), _T("je"), _T("na"), _T("atd"), _T("atp"),
65456528cac2 201041 hgs parents: diff changeset	236	_T("jakmile"), _T("p\u0159i\u010dem\u017e"), _T("j\u00e1"), _T("on"), _T("ona"), _T("ono"), _T("oni"), _T("ony"), _T("my"), _T("vy"),
65456528cac2 201041 hgs parents: diff changeset	237	_T( "j\u00ed"), _T("ji"), _T("m\u011b"), _T("mne"), _T("jemu"), _T("tomu"), _T("t\u011bm"), _T("t\u011bmu"), _T("n\u011bmu"), _T("n\u011bmu\u017e"),
65456528cac2 201041 hgs parents: diff changeset	238	_T("jeho\u017e"), _T("j\u00ed\u017e"), _T("jeliko\u017e"), _T("je\u017e"), _T("jako\u017e"), _T("na\u010de\u017e"),
65456528cac2 201041 hgs parents: diff changeset	239	NULL
65456528cac2 201041 hgs parents: diff changeset	240	};
65456528cac2 201041 hgs parents: diff changeset	241
65456528cac2 201041 hgs parents: diff changeset	242	const TCHAR* NonEnglishStopWords::GERMAN_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	243	_T("einer"), _T( "eine"), _T( "eines"), _T( "einem"), _T( "einen"),
65456528cac2 201041 hgs parents: diff changeset	244	_T("der"), _T( "die"), _T( "das"), _T( "dass"), _T( "daÃŸ"),
65456528cac2 201041 hgs parents: diff changeset	245	_T("du"), _T( "er"), _T( "sie"), _T( "es"),
65456528cac2 201041 hgs parents: diff changeset	246	_T("was"), _T( "wer"), _T( "wie"), _T( "wir"),
65456528cac2 201041 hgs parents: diff changeset	247	_T("und"), _T( "oder"), _T( "ohne"), _T( "mit"),
65456528cac2 201041 hgs parents: diff changeset	248	_T("am"), _T( "im"), _T( "in"), _T( "aus"), _T( "auf"),
65456528cac2 201041 hgs parents: diff changeset	249	_T("ist"), _T( "sein"), _T( "war"), _T( "wird"),
65456528cac2 201041 hgs parents: diff changeset	250	_T("ihr"), _T( "ihre"), _T( "ihres"),
65456528cac2 201041 hgs parents: diff changeset	251	_T("als"), _T( "fÃ¼r"), _T( "von"), _T( "mit"),
65456528cac2 201041 hgs parents: diff changeset	252	_T("dich"), _T( "dir"), _T( "mich"), _T( "mir"),
65456528cac2 201041 hgs parents: diff changeset	253	_T("mein"), _T( "sein"), _T( "kein"),
65456528cac2 201041 hgs parents: diff changeset	254	_T("durch"), _T( "wegen"), _T( "wird"),
65456528cac2 201041 hgs parents: diff changeset	255	NULL
65456528cac2 201041 hgs parents: diff changeset	256	};
65456528cac2 201041 hgs parents: diff changeset	257
65456528cac2 201041 hgs parents: diff changeset	258	const TCHAR* NonEnglishStopWords::GREEK_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	259	_T( "Î¿" ), _T( "Î·" ), _T( "Ï„Î¿" ), _T( "Î¿Î¹" ), _T( "Ï„Î±" ), _T( "Ï„Î¿Ï…" ), _T( "Ï„Î·Ïƒ" ), _T( "Ï„Ï‰Î½" ), _T( "Ï„Î¿Î½" ), _T( "Ï„Î·Î½" ), _T( "ÎºÎ±Î¹" ),
65456528cac2 201041 hgs parents: diff changeset	260	_T( "ÎºÎ¹" ), _T( "Îº" ), _T( "ÎµÎ¹Î¼Î±Î¹" ), _T( "ÎµÎ¹ÏƒÎ±Î¹" ), _T( "ÎµÎ¹Î½Î±Î¹" ), _T( "ÎµÎ¹Î¼Î±ÏƒÏ„Îµ" ), _T( "ÎµÎ¹ÏƒÏ„Îµ" ), _T( "ÏƒÏ„Î¿" ), _T( "ÏƒÏ„Î¿Î½" ),
65456528cac2 201041 hgs parents: diff changeset	261	_T( "ÏƒÏ„Î·" ), _T( "ÏƒÏ„Î·Î½" ), _T( "Î¼Î±" ), _T( "Î±Î»Î»Î±" ), _T( "Î±Ï€Î¿" ), _T( "Î³Î¹Î±" ), _T( "Ï€Ï?Î¿Ïƒ" ), _T( "Î¼Îµ" ), _T( "ÏƒÎµ" ), _T( "Ï‰Ïƒ" ),
65456528cac2 201041 hgs parents: diff changeset	262	_T( "Ï€Î±Ï?Î±" ), _T( "Î±Î½Ï„Î¹" ), _T( "ÎºÎ±Ï„Î±" ), _T( "Î¼ÎµÏ„Î±" ), _T( "Î¸Î±" ), _T( "Î½Î±" ), _T( "Î´Îµ" ), _T( "Î´ÎµÎ½" ), _T( "Î¼Î·" ), _T( "Î¼Î·Î½" ),
65456528cac2 201041 hgs parents: diff changeset	263	_T( "ÎµÏ€Î¹" ), _T( "ÎµÎ½Ï‰" ), _T( "ÎµÎ±Î½" ), _T( "Î±Î½" ), _T( "Ï„Î¿Ï„Îµ" ), _T( "Ï€Î¿Ï…" ), _T( "Ï€Ï‰Ïƒ" ), _T( "Ï€Î¿Î¹Î¿Ïƒ" ), _T( "Ï€Î¿Î¹Î±" ), _T( "Ï€Î¿Î¹Î¿" ),
65456528cac2 201041 hgs parents: diff changeset	264	_T( "Ï€Î¿Î¹Î¿Î¹" ), _T( "Ï€Î¿Î¹ÎµÏƒ" ), _T( "Ï€Î¿Î¹Ï‰Î½" ), _T( "Ï€Î¿Î¹Î¿Ï…Ïƒ" ), _T( "Î±Ï…Ï„Î¿Ïƒ" ), _T( "Î±Ï…Ï„Î·" ), _T( "Î±Ï…Ï„Î¿" ), _T( "Î±Ï…Ï„Î¿Î¹" ),
65456528cac2 201041 hgs parents: diff changeset	265	_T( "Î±Ï…Ï„Ï‰Î½" ), _T( "Î±Ï…Ï„Î¿Ï…Ïƒ" ), _T( "Î±Ï…Ï„ÎµÏƒ" ), _T( "Î±Ï…Ï„Î±" ), _T( "ÎµÎºÎµÎ¹Î½Î¿Ïƒ" ), _T( "ÎµÎºÎµÎ¹Î½Î·" ), _T( "ÎµÎºÎµÎ¹Î½Î¿" ),
65456528cac2 201041 hgs parents: diff changeset	266	_T( "ÎµÎºÎµÎ¹Î½Î¿Î¹" ), _T( "ÎµÎºÎµÎ¹Î½ÎµÏƒ" ), _T( "ÎµÎºÎµÎ¹Î½Î±" ), _T( "ÎµÎºÎµÎ¹Î½Ï‰Î½" ), _T( "ÎµÎºÎµÎ¹Î½Î¿Ï…Ïƒ" ), _T( "Î¿Ï€Ï‰Ïƒ" ), _T( "Î¿Î¼Ï‰Ïƒ" ),
65456528cac2 201041 hgs parents: diff changeset	267	_T( "Î¹ÏƒÏ‰Ïƒ" ), _T( "Î¿ÏƒÎ¿" ), _T( "Î¿Ï„Î¹" ),
65456528cac2 201041 hgs parents: diff changeset	268	NULL
65456528cac2 201041 hgs parents: diff changeset	269	};
65456528cac2 201041 hgs parents: diff changeset	270
65456528cac2 201041 hgs parents: diff changeset	271	const TCHAR* NonEnglishStopWords::DUTCH_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	272	_T("de"), _T("en"), _T("van"), _T("ik"), _T("te"), _T("dat"), _T("die"), _T("in"), _T("een"),
65456528cac2 201041 hgs parents: diff changeset	273	_T("hij"), _T("het"), _T("niet"), _T("zijn"), _T("is"), _T("was"), _T("op"), _T("aan"), _T("met"), _T("als"), _T("voor"), _T("had"),
65456528cac2 201041 hgs parents: diff changeset	274	_T("er"), _T("maar"), _T("om"), _T("hem"), _T("dan"), _T("zou"), _T("of"), _T("wat"), _T("mijn"), _T("men"), _T("dit"), _T("zo"),
65456528cac2 201041 hgs parents: diff changeset	275	_T("door"), _T("over"), _T("ze"), _T("zich"), _T("bij"), _T("ook"), _T("tot"), _T("je"), _T("mij"), _T("uit"), _T("der"), _T("daar"),
65456528cac2 201041 hgs parents: diff changeset	276	_T("haar"), _T("naar"), _T("heb"), _T("hoe"), _T("heeft"), _T("hebben"), _T("deze"), _T("u"), _T("want"), _T("nog"), _T("zal"),
65456528cac2 201041 hgs parents: diff changeset	277	_T("me"), _T("zij"), _T("nu"), _T("ge"), _T("geen"), _T("omdat"), _T("iets"), _T("worden"), _T("toch"), _T("al"), _T("waren"),
65456528cac2 201041 hgs parents: diff changeset	278	_T("veel"), _T("meer"), _T("doen"), _T("toen"), _T("moet"), _T("ben"), _T("zonder"), _T("kan"), _T("hun"), _T("dus"),
65456528cac2 201041 hgs parents: diff changeset	279	_T("alles"), _T("onder"), _T("ja"), _T("eens"), _T("hier"), _T("wie"), _T("werd"), _T("altijd"), _T("doch"), _T("wordt"),
65456528cac2 201041 hgs parents: diff changeset	280	_T("wezen"), _T("kunnen"), _T("ons"), _T("zelf"), _T("tegen"), _T("na"), _T("reeds"), _T("wil"), _T("kon"), _T("niets"),
65456528cac2 201041 hgs parents: diff changeset	281	_T("uw"), _T("iemand"), _T("geweest"), _T("andere"),
65456528cac2 201041 hgs parents: diff changeset	282	NULL
65456528cac2 201041 hgs parents: diff changeset	283	};
65456528cac2 201041 hgs parents: diff changeset	284
65456528cac2 201041 hgs parents: diff changeset	285	const TCHAR* NonEnglishStopWords::RUSSIAN_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	286	_T("Ð°"), _T("Ð±ÐµÐ·"), _T("Ð±Ð¾Ð»ÐµÐµ"), _T("Ð±Ñ‹"), _T("Ð±Ñ‹Ð»"), _T("Ð±Ñ‹Ð»Ð°"), _T("Ð±Ñ‹Ð»Ð¸"), _T("Ð±Ñ‹Ð»Ð¾"), _T("Ð±Ñ‹Ñ‚ÑŒ"), _T("Ð²"),
65456528cac2 201041 hgs parents: diff changeset	287	_T("Ð²Ð°Ð¼"), _T("Ð²Ð°Ñ"), _T("Ð²ÐµÑÑŒ"), _T("Ð²Ð¾"), _T("Ð²Ð¾Ñ‚"), _T("Ð²ÑÐµ"), _T("Ð²ÑÐµÐ³Ð¾"), _T("Ð²ÑÐµÑ…"), _T("Ð²Ñ‹"), _T("Ð³Ð´Ðµ"), _T(
65456528cac2 201041 hgs parents: diff changeset	288	"Ð´Ð°"), _T("Ð´Ð°Ð¶Ðµ"), _T("Ð´Ð»Ñ"), _T("Ð´Ð¾"), _T("ÐµÐ³Ð¾"), _T("ÐµÐµ"), _T("ÐµÐ¹"), _T("ÐµÑŽ"), _T("ÐµÑÐ»Ð¸"), _T("ÐµÑÑ‚ÑŒ"), _T(
65456528cac2 201041 hgs parents: diff changeset	289	"ÐµÑ‰Ðµ"), _T("Ð¶Ðµ"), _T("Ð·Ð°"), _T("Ð·Ð´ÐµÑÑŒ"), _T("Ð¸"), _T("Ð¸Ð·"), _T("Ð¸Ð»Ð¸"), _T("Ð¸Ð¼"), _T("Ð¸Ñ…"), _T("Ðº"), _T("ÐºÐ°Ðº"),
65456528cac2 201041 hgs parents: diff changeset	290	_T("ÐºÐ¾"), _T("ÐºÐ¾Ð³Ð´Ð°"), _T("ÐºÑ‚Ð¾"), _T("Ð»Ð¸"), _T("Ð»Ð¸Ð±Ð¾"), _T("Ð¼Ð½Ðµ"), _T("Ð¼Ð¾Ð¶ÐµÑ‚"), _T("Ð¼Ñ‹"), _T("Ð½Ð°"), _T("Ð½Ð°Ð´Ð¾"), _T(
65456528cac2 201041 hgs parents: diff changeset	291	"Ð½Ð°Ñˆ"), _T("Ð½Ðµ"), _T("Ð½ÐµÐ³Ð¾"), _T("Ð½ÐµÐµ"), _T("Ð½ÐµÑ‚"), _T("Ð½Ð¸"), _T("Ð½Ð¸Ñ…"), _T("Ð½Ð¾"), _T("Ð½Ñƒ"), _T("Ð¾"), _T("Ð¾Ð±"), _T(
65456528cac2 201041 hgs parents: diff changeset	292	"Ð¾Ð´Ð½Ð°ÐºÐ¾"), _T("Ð¾Ð½"), _T("Ð¾Ð½Ð°"), _T("Ð¾Ð½Ð¸"), _T("Ð¾Ð½Ð¾"), _T("Ð¾Ñ‚"), _T("Ð¾Ñ‡ÐµÐ½ÑŒ"), _T("Ð¿Ð¾"), _T("Ð¿Ð¾Ð´"), _T("Ð¿Ñ€Ð¸"), _T(
65456528cac2 201041 hgs parents: diff changeset	293	"Ñ"), _T("ÑÐ¾"), _T("Ñ‚Ð°Ðº"), _T("Ñ‚Ð°ÐºÐ¶Ðµ"), _T("Ñ‚Ð°ÐºÐ¾Ð¹"), _T("Ñ‚Ð°Ð¼"), _T("Ñ‚Ðµ"), _T("Ñ‚ÐµÐ¼"), _T("Ñ‚Ð¾"), _T("Ñ‚Ð¾Ð³Ð¾"), _T(
65456528cac2 201041 hgs parents: diff changeset	294	"Ñ‚Ð¾Ð¶Ðµ"), _T("Ñ‚Ð¾Ð¹"), _T("Ñ‚Ð¾Ð»ÑŒÐºÐ¾"), _T("Ñ‚Ð¾Ð¼"), _T("Ñ‚Ñ‹"), _T("Ñƒ"), _T("ÑƒÐ¶Ðµ"), _T("Ñ…Ð¾Ñ‚Ñ"), _T("Ñ‡ÐµÐ³Ð¾"), _T("Ñ‡ÐµÐ¹"), _T(
65456528cac2 201041 hgs parents: diff changeset	295	"Ñ‡ÐµÐ¼"), _T("Ñ‡Ñ‚Ð¾"), _T("Ñ‡Ñ‚Ð¾Ð±Ñ‹"), _T("Ñ‡ÑŒÐµ"), _T("Ñ‡ÑŒÑ"), _T("ÑÑ‚Ð°"), _T("ÑÑ‚Ð¸"), _T("ÑÑ‚Ð¾"), _T("Ñ"),
65456528cac2 201041 hgs parents: diff changeset	296	NULL
65456528cac2 201041 hgs parents: diff changeset	297	};
65456528cac2 201041 hgs parents: diff changeset	298
65456528cac2 201041 hgs parents: diff changeset	299	const TCHAR* NonEnglishStopWords::EXTENDED_ENGLISH_STOP_WORDS[] = {
65456528cac2 201041 hgs parents: diff changeset	300	_T("a"), _T("about"), _T("above"), _T("across"), _T("adj"), _T("after"), _T("afterwards"),
65456528cac2 201041 hgs parents: diff changeset	301	_T("again"), _T("against"), _T("albeit"), _T("all"), _T("almost"), _T("alone"), _T("along"),
65456528cac2 201041 hgs parents: diff changeset	302	_T("already"), _T("also"), _T("although"), _T("always"), _T("among"), _T("amongst"), _T("an"),
65456528cac2 201041 hgs parents: diff changeset	303	_T("and"), _T("another"), _T("any"), _T("anyhow"), _T("anyone"), _T("anything"),
65456528cac2 201041 hgs parents: diff changeset	304	_T("anywhere"), _T("are"), _T("around"), _T("as"), _T("at"), _T("be"), _T("became"), _T("because"),
65456528cac2 201041 hgs parents: diff changeset	305	_T("become"), _T("becomes"), _T("becoming"), _T("been"), _T("before"), _T("beforehand"),
65456528cac2 201041 hgs parents: diff changeset	306	_T("behind"), _T("being"), _T("below"), _T("beside"), _T("besides"), _T("between"),
65456528cac2 201041 hgs parents: diff changeset	307	_T("beyond"), _T("both"), _T("but"), _T("by"), _T("can"), _T("cannot"), _T("co"), _T("could"),
65456528cac2 201041 hgs parents: diff changeset	308	_T("down"), _T("during"), _T("each"), _T("eg"), _T("either"), _T("else"), _T("elsewhere"),
65456528cac2 201041 hgs parents: diff changeset	309	_T("enough"), _T("etc"), _T("even"), _T("ever"), _T("every"), _T("everyone"), _T("everything"),
65456528cac2 201041 hgs parents: diff changeset	310	_T("everywhere"), _T("except"), _T("few"), _T("first"), _T("for"), _T("former"),
65456528cac2 201041 hgs parents: diff changeset	311	_T("formerly"), _T("from"), _T("further"), _T("had"), _T("has"), _T("have"), _T("he"), _T("hence"),
65456528cac2 201041 hgs parents: diff changeset	312	_T("her"), _T("here"), _T("hereafter"), _T("hereby"), _T("herein"), _T("hereupon"), _T("hers"),
65456528cac2 201041 hgs parents: diff changeset	313	_T("herself"), _T("him"), _T("himself"), _T("his"), _T("how"), _T("however"), _T("i"), _T("ie"), _T("if"),
65456528cac2 201041 hgs parents: diff changeset	314	_T("in"), _T("inc"), _T("indeed"), _T("into"), _T("is"), _T("it"), _T("its"), _T("itself"), _T("last"),
65456528cac2 201041 hgs parents: diff changeset	315	_T("latter"), _T("latterly"), _T("least"), _T("less"), _T("ltd"), _T("many"), _T("may"), _T("me"),
65456528cac2 201041 hgs parents: diff changeset	316	_T("meanwhile"), _T("might"), _T("more"), _T("moreover"), _T("most"), _T("mostly"), _T("much"),
65456528cac2 201041 hgs parents: diff changeset	317	_T("must"), _T("my"), _T("myself"), _T("namely"), _T("neither"), _T("never"),
65456528cac2 201041 hgs parents: diff changeset	318	_T("nevertheless"), _T("next"), _T("no"), _T("nobody"), _T("none"), _T("noone"), _T("nor"),
65456528cac2 201041 hgs parents: diff changeset	319	_T("not"), _T("nothing"), _T("now"), _T("nowhere"), _T("of"), _T("off"), _T("often"), _T("on"),
65456528cac2 201041 hgs parents: diff changeset	320	_T("once one"), _T("only"), _T("onto"), _T("or"), _T("other"), _T("others"), _T("otherwise"),
65456528cac2 201041 hgs parents: diff changeset	321	_T("our"), _T("ours"), _T("ourselves"), _T("out"), _T("over"), _T("own"), _T("per"), _T("perhaps"),
65456528cac2 201041 hgs parents: diff changeset	322	_T("rather"), _T("s"), _T("same"), _T("seem"), _T("seemed"), _T("seeming"), _T("seems"),
65456528cac2 201041 hgs parents: diff changeset	323	_T("several"), _T("she"), _T("should"), _T("since"), _T("so"), _T("some"), _T("somehow"),
65456528cac2 201041 hgs parents: diff changeset	324	_T("someone"), _T("something"), _T("sometime"), _T("sometimes"), _T("somewhere"),
65456528cac2 201041 hgs parents: diff changeset	325	_T("still"), _T("such"), _T("t"), _T("than"), _T("that"), _T("the"), _T("their"), _T("them"),
65456528cac2 201041 hgs parents: diff changeset	326	_T("themselves"), _T("then"), _T("thence"), _T("there"), _T("thereafter"), _T("thereby"),
65456528cac2 201041 hgs parents: diff changeset	327	_T("therefor"), _T("therein"), _T("thereupon"), _T("these"), _T("they"), _T("this"),
65456528cac2 201041 hgs parents: diff changeset	328	_T("those"), _T("though"), _T("through"), _T("throughout"), _T("thru"), _T("thus"), _T("to"),
65456528cac2 201041 hgs parents: diff changeset	329	_T("together"), _T("too"), _T("toward"), _T("towards"), _T("under"), _T("until"), _T("up"),
65456528cac2 201041 hgs parents: diff changeset	330	_T("upon"), _T("us"), _T("very"), _T("via"), _T("was"), _T("we"), _T("well"), _T("were"), _T("what"),
65456528cac2 201041 hgs parents: diff changeset	331	_T("whatever"), _T("whatsoever"), _T("when"), _T("whence"), _T("whenever"),
65456528cac2 201041 hgs parents: diff changeset	332	_T("whensoever"), _T("where"), _T("whereafter"), _T("whereas"), _T("whereat"),
65456528cac2 201041 hgs parents: diff changeset	333	_T("whereby"), _T("wherefrom"), _T("wherein"), _T("whereinto"), _T("whereof"),
65456528cac2 201041 hgs parents: diff changeset	334	_T("whereon"), _T("whereto"), _T("whereunto"), _T("whereupon"), _T("wherever"),
65456528cac2 201041 hgs parents: diff changeset	335	_T("wherewith"), _T("whether"), _T("which"), _T("whichever"), _T("whichsoever"),
65456528cac2 201041 hgs parents: diff changeset	336	_T("while"), _T("whilst"), _T("whither"), _T("who"), _T("whoever"), _T("whole"), _T("whom"),
65456528cac2 201041 hgs parents: diff changeset	337	_T("whomever"), _T("whomsoever"), _T("whose"), _T("whosoever"), _T("why"), _T("will"),
65456528cac2 201041 hgs parents: diff changeset	338	_T("with"), _T("within"), _T("without"), _T("would"), _T("xsubj"), _T("xcal"), _T("xauthor"),
65456528cac2 201041 hgs parents: diff changeset	339	_T("xother "), _T("xnote"), _T("yet"), _T("you"), _T("your"), _T("yours"), _T("yourself"),
65456528cac2 201041 hgs parents: diff changeset	340	_T("yourselves"),
65456528cac2 201041 hgs parents: diff changeset	341	NULL
65456528cac2 201041 hgs parents: diff changeset	342	};
65456528cac2 201041 hgs parents: diff changeset	343	}
65456528cac2 201041 hgs parents: diff changeset	344	/*TODO:
65456528cac2 201041 hgs parents: diff changeset	345	* extented english stop word set can be merged to main english stop words set
65456528cac2 201041 hgs parents: diff changeset	346	* chinese thai, cjk and may be others that use english stop word list may be done as
65456528cac2 201041 hgs parents: diff changeset	347	* const TCHAR* NonEnglishStopWords::THAI_STOP_WORDS = NonEnglishStopWords::ENGLISH_STOP_WORDS
65456528cac2 201041 hgs parents: diff changeset	348	* so as to safely use CustomAnalyzer(L"thai>stop(th)")
65456528cac2 201041 hgs parents: diff changeset	349	*/

author	hgs
	Fri, 15 Oct 2010 12:09:28 +0530
changeset 24	65456528cac2
permissions	-rw-r--r--