FCL/sf/mw/searchsrv: searchengine/cpix/cpix/src/customanalyzer.cpp@e3c09e9691e0 (annotated)

8 6547bf8ca13a 201025 hgs parents: diff changeset	1	/*
6547bf8ca13a 201025 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
6547bf8ca13a 201025 hgs parents: diff changeset	3	* All rights reserved.
6547bf8ca13a 201025 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
6547bf8ca13a 201025 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
6547bf8ca13a 201025 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
6547bf8ca13a 201025 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
6547bf8ca13a 201025 hgs parents: diff changeset	8	*
6547bf8ca13a 201025 hgs parents: diff changeset	9	* Initial Contributors:
6547bf8ca13a 201025 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
6547bf8ca13a 201025 hgs parents: diff changeset	11	*
6547bf8ca13a 201025 hgs parents: diff changeset	12	* Contributors:
6547bf8ca13a 201025 hgs parents: diff changeset	13	*
6547bf8ca13a 201025 hgs parents: diff changeset	14	* Description:
6547bf8ca13a 201025 hgs parents: diff changeset	15	*
6547bf8ca13a 201025 hgs parents: diff changeset	16	*/
6547bf8ca13a 201025 hgs parents: diff changeset	17
6547bf8ca13a 201025 hgs parents: diff changeset	18
6547bf8ca13a 201025 hgs parents: diff changeset	19	// system library
6547bf8ca13a 201025 hgs parents: diff changeset	20	#include "wchar.h"
6547bf8ca13a 201025 hgs parents: diff changeset	21	#include <string>
6547bf8ca13a 201025 hgs parents: diff changeset	22	#include <vector>
6547bf8ca13a 201025 hgs parents: diff changeset	23	#include <sstream>
6547bf8ca13a 201025 hgs parents: diff changeset	24	#include <iostream>
6547bf8ca13a 201025 hgs parents: diff changeset	25	#include <glib.h>
6547bf8ca13a 201025 hgs parents: diff changeset	26
6547bf8ca13a 201025 hgs parents: diff changeset	27	// clucene
6547bf8ca13a 201025 hgs parents: diff changeset	28	#include "CLucene.h"
6547bf8ca13a 201025 hgs parents: diff changeset	29	#include "CLucene/analysis/AnalysisHeader.h"
6547bf8ca13a 201025 hgs parents: diff changeset	30	#include "CLucene/analysis/Analyzers.h"
6547bf8ca13a 201025 hgs parents: diff changeset	31
6547bf8ca13a 201025 hgs parents: diff changeset	32	// local libary
6547bf8ca13a 201025 hgs parents: diff changeset	33	#include "thaianalysis.h"
6547bf8ca13a 201025 hgs parents: diff changeset	34	#include "ngram.h"
6547bf8ca13a 201025 hgs parents: diff changeset	35	#include "koreananalyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	36	#include "cjkanalyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	37	#include "cpixparsetools.h"
6547bf8ca13a 201025 hgs parents: diff changeset	38	#include "prefixfilter.h"
6547bf8ca13a 201025 hgs parents: diff changeset	39
6547bf8ca13a 201025 hgs parents: diff changeset	40	// cpix internal
6547bf8ca13a 201025 hgs parents: diff changeset	41	#include "customanalyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	42	#include "cpixanalyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	43	#include "analyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	44	#include "cluceneext.h"
6547bf8ca13a 201025 hgs parents: diff changeset	45	#include "analyzerexp.h"
6547bf8ca13a 201025 hgs parents: diff changeset	46	#include "indevicecfg.h"
6547bf8ca13a 201025 hgs parents: diff changeset	47	#include "cpixexc.h"
6547bf8ca13a 201025 hgs parents: diff changeset	48	#include "localization.h"
6547bf8ca13a 201025 hgs parents: diff changeset	49
6547bf8ca13a 201025 hgs parents: diff changeset	50	namespace Cpix {
6547bf8ca13a 201025 hgs parents: diff changeset	51
6547bf8ca13a 201025 hgs parents: diff changeset	52	//
6547bf8ca13a 201025 hgs parents: diff changeset	53	// Following sections provide the glue code for connecting the
6547bf8ca13a 201025 hgs parents: diff changeset	54	// analyzer definition syntax with analyzer, tokenizers and filter
6547bf8ca13a 201025 hgs parents: diff changeset	55	// implementations.
6547bf8ca13a 201025 hgs parents: diff changeset	56	//
6547bf8ca13a 201025 hgs parents: diff changeset	57	// The glue code is template heavy with the indent of providing
6547bf8ca13a 201025 hgs parents: diff changeset	58	// automation for associating specific keywords with specific
6547bf8ca13a 201025 hgs parents: diff changeset	59	// analyzers, tokenizers and filters implementing corresponding
6547bf8ca13a 201025 hgs parents: diff changeset	60	// CLucene abstractions. Additional classes are needed only if
6547bf8ca13a 201025 hgs parents: diff changeset	61	// filters, tokenizers, etc. accept parameters.
6547bf8ca13a 201025 hgs parents: diff changeset	62	//
6547bf8ca13a 201025 hgs parents: diff changeset	63	// NOTE: To understand the analyzers, it is sufficient to understand
6547bf8ca13a 201025 hgs parents: diff changeset	64	// that an analyzer transforms characters stream into specific token streams
6547bf8ca13a 201025 hgs parents: diff changeset	65	// (e.g. character stream 'foobarmetawords' can be transformed into token
6547bf8ca13a 201025 hgs parents: diff changeset	66	// stream 'foo', 'bar' 'meta' 'words'). Analysis consist of two main
6547bf8ca13a 201025 hgs parents: diff changeset	67	// parts which are tokenization and filtering. Tokenization converts
6547bf8ca13a 201025 hgs parents: diff changeset	68	// the character stream into token stream (e.g. 'FoO bAr' -> 'FoO' 'bAr')
6547bf8ca13a 201025 hgs parents: diff changeset	69	// and filtering modifies the tokens (e.g. lowercase filtering 'FoO' ->
6547bf8ca13a 201025 hgs parents: diff changeset	70	// 'foo', 'bAr' -> 'bar'). Analyzer as an object is responsible for
6547bf8ca13a 201025 hgs parents: diff changeset	71	// constructing a tokenizer and a sequence of filters to perform
6547bf8ca13a 201025 hgs parents: diff changeset	72	// these required tasks.
6547bf8ca13a 201025 hgs parents: diff changeset	73	//
6547bf8ca13a 201025 hgs parents: diff changeset	74	// See the documentation around TokenizerClassEntries and
6547bf8ca13a 201025 hgs parents: diff changeset	75	// FilterClassEntries to see how implementations not taking parameters
6547bf8ca13a 201025 hgs parents: diff changeset	76	// can be easily added.
6547bf8ca13a 201025 hgs parents: diff changeset	77	//
6547bf8ca13a 201025 hgs parents: diff changeset	78
6547bf8ca13a 201025 hgs parents: diff changeset	79	using namespace Cpix::AnalyzerExp;
6547bf8ca13a 201025 hgs parents: diff changeset	80
6547bf8ca13a 201025 hgs parents: diff changeset	81	// Safe assumption
6547bf8ca13a 201025 hgs parents: diff changeset	82	#define MAX_LANGCODE_LENGTH 256
6547bf8ca13a 201025 hgs parents: diff changeset	83
6547bf8ca13a 201025 hgs parents: diff changeset	84	class LocaleSwitchStreamFactory : public TokenStreamFactory {
6547bf8ca13a 201025 hgs parents: diff changeset	85	public:
6547bf8ca13a 201025 hgs parents: diff changeset	86
6547bf8ca13a 201025 hgs parents: diff changeset	87	LocaleSwitchStreamFactory(const AnalyzerExp::LocaleSwitch& sw, const wchar_t* config);
6547bf8ca13a 201025 hgs parents: diff changeset	88
6547bf8ca13a 201025 hgs parents: diff changeset	89	~LocaleSwitchStreamFactory();
6547bf8ca13a 201025 hgs parents: diff changeset	90
6547bf8ca13a 201025 hgs parents: diff changeset	91	virtual lucene::analysis::TokenStream* tokenStream(const wchar_t * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	92	lucene::util::Reader * reader);
6547bf8ca13a 201025 hgs parents: diff changeset	93
6547bf8ca13a 201025 hgs parents: diff changeset	94	lucene::analysis::TokenStream* tokenStream(std::vector<std::wstring>& languages,
6547bf8ca13a 201025 hgs parents: diff changeset	95	const wchar_t * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	96	lucene::util::Reader * reader);
6547bf8ca13a 201025 hgs parents: diff changeset	97
6547bf8ca13a 201025 hgs parents: diff changeset	98	private:
6547bf8ca13a 201025 hgs parents: diff changeset	99	std::map<std::wstring, CustomAnalyzer*> analyzers_;
6547bf8ca13a 201025 hgs parents: diff changeset	100	std::auto_ptr<CustomAnalyzer> default_;
6547bf8ca13a 201025 hgs parents: diff changeset	101	};
6547bf8ca13a 201025 hgs parents: diff changeset	102
6547bf8ca13a 201025 hgs parents: diff changeset	103
6547bf8ca13a 201025 hgs parents: diff changeset	104	TokenStreamFactory::~TokenStreamFactory() {};
6547bf8ca13a 201025 hgs parents: diff changeset	105
6547bf8ca13a 201025 hgs parents: diff changeset	106	LocaleSwitchStreamFactory::LocaleSwitchStreamFactory(const LocaleSwitch& sw, const wchar_t* config) {
6547bf8ca13a 201025 hgs parents: diff changeset	107	for (int i = 0; i < sw.cases().size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	108	const Case& cs = *sw.cases()[i];
6547bf8ca13a 201025 hgs parents: diff changeset	109	for (int j = 0; j < cs.cases().size(); j++) {
6547bf8ca13a 201025 hgs parents: diff changeset	110	std::wstring c = cs.cases()[j];
6547bf8ca13a 201025 hgs parents: diff changeset	111	if (analyzers_.count(c)) delete analyzers_[c];
6547bf8ca13a 201025 hgs parents: diff changeset	112	analyzers_[c] = new CustomAnalyzer(cs.piping(), config);
6547bf8ca13a 201025 hgs parents: diff changeset	113	}
6547bf8ca13a 201025 hgs parents: diff changeset	114	}
6547bf8ca13a 201025 hgs parents: diff changeset	115	default_.reset(new CustomAnalyzer(sw.def()));
6547bf8ca13a 201025 hgs parents: diff changeset	116	}
6547bf8ca13a 201025 hgs parents: diff changeset	117
6547bf8ca13a 201025 hgs parents: diff changeset	118	LocaleSwitchStreamFactory::~LocaleSwitchStreamFactory() {
6547bf8ca13a 201025 hgs parents: diff changeset	119	typedef std::map<std::wstring, CustomAnalyzer*>::iterator iter;
6547bf8ca13a 201025 hgs parents: diff changeset	120	for (iter i = analyzers_.begin(); i != analyzers_.end(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	121	delete i->second;
6547bf8ca13a 201025 hgs parents: diff changeset	122	}
6547bf8ca13a 201025 hgs parents: diff changeset	123	}
6547bf8ca13a 201025 hgs parents: diff changeset	124
6547bf8ca13a 201025 hgs parents: diff changeset	125	lucene::analysis::TokenStream*
6547bf8ca13a 201025 hgs parents: diff changeset	126	LocaleSwitchStreamFactory::tokenStream(const wchar_t * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	127	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	128	std::vector<std::wstring> languages =
6547bf8ca13a 201025 hgs parents: diff changeset	129	Localization::instance().getLanguageNames();
6547bf8ca13a 201025 hgs parents: diff changeset	130
6547bf8ca13a 201025 hgs parents: diff changeset	131	return tokenStream(languages, fieldName, reader);
6547bf8ca13a 201025 hgs parents: diff changeset	132	}
6547bf8ca13a 201025 hgs parents: diff changeset	133
6547bf8ca13a 201025 hgs parents: diff changeset	134	lucene::analysis::TokenStream*
6547bf8ca13a 201025 hgs parents: diff changeset	135	LocaleSwitchStreamFactory::tokenStream(std::vector<std::wstring>& languages,
6547bf8ca13a 201025 hgs parents: diff changeset	136	const wchar_t * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	137	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	138	for (int i = 0; i < languages.size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	139	if ( analyzers_.count(languages[i]) ) {
6547bf8ca13a 201025 hgs parents: diff changeset	140	return analyzers_[languages[i]]->tokenStream( fieldName, reader );
6547bf8ca13a 201025 hgs parents: diff changeset	141	}
6547bf8ca13a 201025 hgs parents: diff changeset	142	}
6547bf8ca13a 201025 hgs parents: diff changeset	143	return default_->tokenStream( fieldName, reader );
6547bf8ca13a 201025 hgs parents: diff changeset	144	}
6547bf8ca13a 201025 hgs parents: diff changeset	145
6547bf8ca13a 201025 hgs parents: diff changeset	146	class DefaultTokenStreamFactory : public TokenStreamFactory {
6547bf8ca13a 201025 hgs parents: diff changeset	147	public:
6547bf8ca13a 201025 hgs parents: diff changeset	148
6547bf8ca13a 201025 hgs parents: diff changeset	149	enum Target {
6547bf8ca13a 201025 hgs parents: diff changeset	150	NORMAL,
6547bf8ca13a 201025 hgs parents: diff changeset	151	INDEXING,
6547bf8ca13a 201025 hgs parents: diff changeset	152	QUERY,
6547bf8ca13a 201025 hgs parents: diff changeset	153	PREFIX
6547bf8ca13a 201025 hgs parents: diff changeset	154	};
6547bf8ca13a 201025 hgs parents: diff changeset	155
6547bf8ca13a 201025 hgs parents: diff changeset	156	DefaultTokenStreamFactory(const Invokation& invokation) {
6547bf8ca13a 201025 hgs parents: diff changeset	157	if (invokation.params().size() == 1) {
6547bf8ca13a 201025 hgs parents: diff changeset	158	const Identifier* id = dynamic_cast<const Identifier*>( invokation.params()[0] );
6547bf8ca13a 201025 hgs parents: diff changeset	159	if ( id ) {
6547bf8ca13a 201025 hgs parents: diff changeset	160	if ( id->id() == CPIX_ID_INDEXING ) {
6547bf8ca13a 201025 hgs parents: diff changeset	161	target_ = INDEXING;
6547bf8ca13a 201025 hgs parents: diff changeset	162	} else if ( id->id() == CPIX_ID_QUERY ) {
6547bf8ca13a 201025 hgs parents: diff changeset	163	target_ = QUERY;
6547bf8ca13a 201025 hgs parents: diff changeset	164	} else if ( id->id() == CPIX_ID_PREFIX ) {
6547bf8ca13a 201025 hgs parents: diff changeset	165	target_ = PREFIX;
6547bf8ca13a 201025 hgs parents: diff changeset	166	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	167	THROW_CPIXEXC(L"Default analyzer does not accept %S for parameter", id->id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	168	}
6547bf8ca13a 201025 hgs parents: diff changeset	169	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	170	THROW_CPIXEXC(L"Default accepts only identifier as a parameter.");
6547bf8ca13a 201025 hgs parents: diff changeset	171	}
6547bf8ca13a 201025 hgs parents: diff changeset	172	} else if (invokation.params().size() > 1) {
6547bf8ca13a 201025 hgs parents: diff changeset	173	THROW_CPIXEXC(L"Default analyzer does not accept more than one parameter");
6547bf8ca13a 201025 hgs parents: diff changeset	174	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	175	target_ = NORMAL;
6547bf8ca13a 201025 hgs parents: diff changeset	176	}
6547bf8ca13a 201025 hgs parents: diff changeset	177	}
6547bf8ca13a 201025 hgs parents: diff changeset	178
6547bf8ca13a 201025 hgs parents: diff changeset	179	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	180	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	181	switch (target_) {
6547bf8ca13a 201025 hgs parents: diff changeset	182	case QUERY:
6547bf8ca13a 201025 hgs parents: diff changeset	183	return Analysis::getQueryAnalyzer().tokenStream( fieldName, reader );
6547bf8ca13a 201025 hgs parents: diff changeset	184	case PREFIX:
6547bf8ca13a 201025 hgs parents: diff changeset	185	return Analysis::getPrefixAnalyzer().tokenStream( fieldName, reader );
6547bf8ca13a 201025 hgs parents: diff changeset	186	}
6547bf8ca13a 201025 hgs parents: diff changeset	187	return Analysis::getDefaultAnalyzer().tokenStream( fieldName, reader );
6547bf8ca13a 201025 hgs parents: diff changeset	188	}
6547bf8ca13a 201025 hgs parents: diff changeset	189
6547bf8ca13a 201025 hgs parents: diff changeset	190	private:
6547bf8ca13a 201025 hgs parents: diff changeset	191
6547bf8ca13a 201025 hgs parents: diff changeset	192	Target target_;
6547bf8ca13a 201025 hgs parents: diff changeset	193
6547bf8ca13a 201025 hgs parents: diff changeset	194	};
6547bf8ca13a 201025 hgs parents: diff changeset	195
6547bf8ca13a 201025 hgs parents: diff changeset	196	/**
6547bf8ca13a 201025 hgs parents: diff changeset	197	* Template class used to create CLucene tokenizers. Template
6547bf8ca13a 201025 hgs parents: diff changeset	198	* parameter T must implement lucene::analysis::Tokenizer abstraction.
6547bf8ca13a 201025 hgs parents: diff changeset	199	*/
6547bf8ca13a 201025 hgs parents: diff changeset	200	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	201	class TokenizerFactory : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	202	{
6547bf8ca13a 201025 hgs parents: diff changeset	203	public:
6547bf8ca13a 201025 hgs parents: diff changeset	204	TokenizerFactory(const Invokation& invokation) {
6547bf8ca13a 201025 hgs parents: diff changeset	205	if (invokation.params().size() > 0) {
6547bf8ca13a 201025 hgs parents: diff changeset	206	THROW_CPIXEXC(L"Tokenizer %S does not accept parameters",
6547bf8ca13a 201025 hgs parents: diff changeset	207	invokation.id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	208	}
6547bf8ca13a 201025 hgs parents: diff changeset	209	}
6547bf8ca13a 201025 hgs parents: diff changeset	210	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * /fieldName/,
6547bf8ca13a 201025 hgs parents: diff changeset	211	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	212	return _CLNEW T(reader);
6547bf8ca13a 201025 hgs parents: diff changeset	213	}
6547bf8ca13a 201025 hgs parents: diff changeset	214	};
6547bf8ca13a 201025 hgs parents: diff changeset	215
6547bf8ca13a 201025 hgs parents: diff changeset	216	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	217	class TokenizerFactory<analysis::CjkNGramTokenizer> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	218	{
6547bf8ca13a 201025 hgs parents: diff changeset	219	public:
6547bf8ca13a 201025 hgs parents: diff changeset	220	static const int DefaultNgramSize = 1;
6547bf8ca13a 201025 hgs parents: diff changeset	221	TokenizerFactory(const Invokation& invokation) {
6547bf8ca13a 201025 hgs parents: diff changeset	222	using namespace Cpix::AnalyzerExp;
6547bf8ca13a 201025 hgs parents: diff changeset	223	if (invokation.params().size() > 1) {
6547bf8ca13a 201025 hgs parents: diff changeset	224	THROW_CPIXEXC(L"Cjk Ngram tokenizer does not accept more than one parameter",
6547bf8ca13a 201025 hgs parents: diff changeset	225	invokation.id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	226	}
6547bf8ca13a 201025 hgs parents: diff changeset	227	if (invokation.params().size() == DefaultNgramSize) {
6547bf8ca13a 201025 hgs parents: diff changeset	228	IntegerLit* ngramSize = dynamic_cast<IntegerLit*>(invokation.params()[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	229	if ( ngramSize ) {
6547bf8ca13a 201025 hgs parents: diff changeset	230	ngramSize_ = ngramSize->value();
6547bf8ca13a 201025 hgs parents: diff changeset	231	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	232	THROW_CPIXEXC(L"Cjk Ngram tokenizer parameter must be an integer");
6547bf8ca13a 201025 hgs parents: diff changeset	233	}
6547bf8ca13a 201025 hgs parents: diff changeset	234	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	235	ngramSize_ = 1;
6547bf8ca13a 201025 hgs parents: diff changeset	236	}
6547bf8ca13a 201025 hgs parents: diff changeset	237	}
6547bf8ca13a 201025 hgs parents: diff changeset	238	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * /fieldName/,
6547bf8ca13a 201025 hgs parents: diff changeset	239	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	240	return _CLNEW analysis::CjkNGramTokenizer(reader, ngramSize_);
6547bf8ca13a 201025 hgs parents: diff changeset	241	}
6547bf8ca13a 201025 hgs parents: diff changeset	242
6547bf8ca13a 201025 hgs parents: diff changeset	243	private:
6547bf8ca13a 201025 hgs parents: diff changeset	244
6547bf8ca13a 201025 hgs parents: diff changeset	245	int ngramSize_;
6547bf8ca13a 201025 hgs parents: diff changeset	246	};
6547bf8ca13a 201025 hgs parents: diff changeset	247
6547bf8ca13a 201025 hgs parents: diff changeset	248
6547bf8ca13a 201025 hgs parents: diff changeset	249	/**
6547bf8ca13a 201025 hgs parents: diff changeset	250	* Template class wrapping CLucene analyzers. Template parameter T must
6547bf8ca13a 201025 hgs parents: diff changeset	251	* implement lucene::analysis::Analyzer abstraction.
6547bf8ca13a 201025 hgs parents: diff changeset	252	*/
6547bf8ca13a 201025 hgs parents: diff changeset	253	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	254	class AnalyzerWrap : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	255	{
6547bf8ca13a 201025 hgs parents: diff changeset	256	public:
6547bf8ca13a 201025 hgs parents: diff changeset	257	AnalyzerWrap(const Invokation& invokation) : analyzer_() {
6547bf8ca13a 201025 hgs parents: diff changeset	258	if (invokation.params().size() > 0) {
6547bf8ca13a 201025 hgs parents: diff changeset	259	THROW_CPIXEXC(L"Tokenizer %S does not accept parameters",
6547bf8ca13a 201025 hgs parents: diff changeset	260	invokation.id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	261	}
6547bf8ca13a 201025 hgs parents: diff changeset	262	}
6547bf8ca13a 201025 hgs parents: diff changeset	263	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	264	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	265	return analyzer_.tokenStream(fieldName, reader);
6547bf8ca13a 201025 hgs parents: diff changeset	266	}
6547bf8ca13a 201025 hgs parents: diff changeset	267	private:
6547bf8ca13a 201025 hgs parents: diff changeset	268	T analyzer_;
6547bf8ca13a 201025 hgs parents: diff changeset	269	};
6547bf8ca13a 201025 hgs parents: diff changeset	270
6547bf8ca13a 201025 hgs parents: diff changeset	271	/**
6547bf8ca13a 201025 hgs parents: diff changeset	272	* Template class associated with CLucene filter and a TokenStreamFactory.
6547bf8ca13a 201025 hgs parents: diff changeset	273	* Uses TokenStreamFactory to transform given character stream into tokenstream
6547bf8ca13a 201025 hgs parents: diff changeset	274	* and then applies the given Clucene filter to the token stream.
6547bf8ca13a 201025 hgs parents: diff changeset	275	* The template parameter T must implement lucene::analysis::Filter abstraction.
6547bf8ca13a 201025 hgs parents: diff changeset	276	*/
6547bf8ca13a 201025 hgs parents: diff changeset	277	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	278	class FilterFactory : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	279	{
6547bf8ca13a 201025 hgs parents: diff changeset	280	public:
6547bf8ca13a 201025 hgs parents: diff changeset	281	FilterFactory(const Invokation& invokation, auto_ptr<TokenStreamFactory> factory) : factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	282	if (invokation.params().size() > 0) {
6547bf8ca13a 201025 hgs parents: diff changeset	283	THROW_CPIXEXC(L"Filter %S does not accept parameters",
6547bf8ca13a 201025 hgs parents: diff changeset	284	invokation.id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	285	}
6547bf8ca13a 201025 hgs parents: diff changeset	286	}
6547bf8ca13a 201025 hgs parents: diff changeset	287	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	288	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	289	return _CLNEW T(factory_->tokenStream(fieldName, reader), true);
6547bf8ca13a 201025 hgs parents: diff changeset	290	}
6547bf8ca13a 201025 hgs parents: diff changeset	291	private:
6547bf8ca13a 201025 hgs parents: diff changeset	292	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	293	};
6547bf8ca13a 201025 hgs parents: diff changeset	294
6547bf8ca13a 201025 hgs parents: diff changeset	295	/**
6547bf8ca13a 201025 hgs parents: diff changeset	296	* Specialized Analyzer wrap for CLucene's PerFieldAnalyzer. Specialized
6547bf8ca13a 201025 hgs parents: diff changeset	297	* template is needed because perfield analyzer accepts parameters
6547bf8ca13a 201025 hgs parents: diff changeset	298	* (specific analyzers for different field plus default analyzer)
6547bf8ca13a 201025 hgs parents: diff changeset	299	*/
6547bf8ca13a 201025 hgs parents: diff changeset	300	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	301	class AnalyzerWrap<lucene::analysis::PerFieldAnalyzerWrapper> : public TokenStreamFactory {
6547bf8ca13a 201025 hgs parents: diff changeset	302	public:
6547bf8ca13a 201025 hgs parents: diff changeset	303	AnalyzerWrap(const Switch& sw, const wchar_t* config) : analyzer_(0) {
6547bf8ca13a 201025 hgs parents: diff changeset	304	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	305	using namespace lucene::analysis;
6547bf8ca13a 201025 hgs parents: diff changeset	306
6547bf8ca13a 201025 hgs parents: diff changeset	307	analyzer_ = _CLNEW PerFieldAnalyzerWrapper(_CLNEW CustomAnalyzer(sw.def()));
6547bf8ca13a 201025 hgs parents: diff changeset	308
6547bf8ca13a 201025 hgs parents: diff changeset	309	for (int i = 0; i < sw.cases().size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	310	const Case& cs = *sw.cases()[i];
6547bf8ca13a 201025 hgs parents: diff changeset	311	for (int j = 0; j < cs.cases().size(); j++) {
6547bf8ca13a 201025 hgs parents: diff changeset	312	analyzer_->addAnalyzer( cs.cases()[j].c_str(), _CLNEW CustomAnalyzer( cs.piping(), config ) );
6547bf8ca13a 201025 hgs parents: diff changeset	313	}
6547bf8ca13a 201025 hgs parents: diff changeset	314	}
6547bf8ca13a 201025 hgs parents: diff changeset	315	}
6547bf8ca13a 201025 hgs parents: diff changeset	316	virtual ~AnalyzerWrap() {
6547bf8ca13a 201025 hgs parents: diff changeset	317	_CLDELETE(analyzer_);
6547bf8ca13a 201025 hgs parents: diff changeset	318	}
6547bf8ca13a 201025 hgs parents: diff changeset	319	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	320	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	321	return analyzer_->tokenStream(fieldName, reader);
6547bf8ca13a 201025 hgs parents: diff changeset	322	}
6547bf8ca13a 201025 hgs parents: diff changeset	323	private:
6547bf8ca13a 201025 hgs parents: diff changeset	324	lucene::analysis::PerFieldAnalyzerWrapper* analyzer_;
6547bf8ca13a 201025 hgs parents: diff changeset	325	};
6547bf8ca13a 201025 hgs parents: diff changeset	326
6547bf8ca13a 201025 hgs parents: diff changeset	327
6547bf8ca13a 201025 hgs parents: diff changeset	328
6547bf8ca13a 201025 hgs parents: diff changeset	329	/**
6547bf8ca13a 201025 hgs parents: diff changeset	330	* Specialized StopFilter factory. Specialized filter is needed
6547bf8ca13a 201025 hgs parents: diff changeset	331	* because StopFilter needs parameters (stop word list or a language)
6547bf8ca13a 201025 hgs parents: diff changeset	332	*/
6547bf8ca13a 201025 hgs parents: diff changeset	333	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	334	class FilterFactory<lucene::analysis::StopFilter> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	335	{
6547bf8ca13a 201025 hgs parents: diff changeset	336	public:
6547bf8ca13a 201025 hgs parents: diff changeset	337	FilterFactory(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	338	auto_ptr<TokenStreamFactory> factory)
6547bf8ca13a 201025 hgs parents: diff changeset	339	:words_(0), ownWords_(0), factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	340	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	341	if (invokation.params().size() == 1 && dynamic_cast<Identifier*>(invokation.params()[0])) {
6547bf8ca13a 201025 hgs parents: diff changeset	342	Identifier* id = dynamic_cast<Identifier*>(invokation.params()[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	343	//cpix_LangCode lang;
6547bf8ca13a 201025 hgs parents: diff changeset	344	if (id->id() == CPIX_WLANG_EN) {
6547bf8ca13a 201025 hgs parents: diff changeset	345	words_ = lucene::analysis::StopAnalyzer::ENGLISH_STOP_WORDS;
6547bf8ca13a 201025 hgs parents: diff changeset	346	} else if (id->id() == CPIX_WLANG_FR) {
6547bf8ca13a 201025 hgs parents: diff changeset	347	words_ = analysis::NonEnglishStopWords::FRENCH_STOP_WORDS;
6547bf8ca13a 201025 hgs parents: diff changeset	348	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	349	THROW_CPIXEXC(L"No prepared stopword list for language code '%S'",
6547bf8ca13a 201025 hgs parents: diff changeset	350	id->id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	351	}
6547bf8ca13a 201025 hgs parents: diff changeset	352	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	353	ownWords_ = new wchar_t*[invokation.params().size()+1];
6547bf8ca13a 201025 hgs parents: diff changeset	354	memset(ownWords_, 0, sizeof(wchar_t)(invokation.params().size()+1));
6547bf8ca13a 201025 hgs parents: diff changeset	355	// FIXE: args may leak
6547bf8ca13a 201025 hgs parents: diff changeset	356	for (int i = 0; i < invokation.params().size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	357	StringLit* lit = dynamic_cast<StringLit*>(invokation.params()[i]);
6547bf8ca13a 201025 hgs parents: diff changeset	358	if (lit) {
6547bf8ca13a 201025 hgs parents: diff changeset	359	const wstring& str = lit->text();
6547bf8ca13a 201025 hgs parents: diff changeset	360	ownWords_[i] = new wchar_t[str.length()+1];
6547bf8ca13a 201025 hgs parents: diff changeset	361	wcscpy(ownWords_[i], str.c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	362	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	363	THROW_CPIXEXC(L"StopFilter accepts only language identifer or list of strings as a parameters.");
6547bf8ca13a 201025 hgs parents: diff changeset	364	}
6547bf8ca13a 201025 hgs parents: diff changeset	365	}
6547bf8ca13a 201025 hgs parents: diff changeset	366	}
6547bf8ca13a 201025 hgs parents: diff changeset	367
6547bf8ca13a 201025 hgs parents: diff changeset	368	}
6547bf8ca13a 201025 hgs parents: diff changeset	369	virtual ~FilterFactory() {
6547bf8ca13a 201025 hgs parents: diff changeset	370	if (ownWords_) {
6547bf8ca13a 201025 hgs parents: diff changeset	371	for (int i = 0; ownWords_[i]; i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	372	delete[] ownWords_[i];
6547bf8ca13a 201025 hgs parents: diff changeset	373	}
6547bf8ca13a 201025 hgs parents: diff changeset	374	delete[] ownWords_;
6547bf8ca13a 201025 hgs parents: diff changeset	375	}
6547bf8ca13a 201025 hgs parents: diff changeset	376	}
6547bf8ca13a 201025 hgs parents: diff changeset	377	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	378	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	379	return _CLNEW lucene::analysis::StopFilter(factory_->tokenStream(fieldName, reader), true, ownWords_ ? const_cast<const wchar_t**>(ownWords_) : words_);
6547bf8ca13a 201025 hgs parents: diff changeset	380	}
6547bf8ca13a 201025 hgs parents: diff changeset	381	private:
6547bf8ca13a 201025 hgs parents: diff changeset	382	const wchar_t **words_;
6547bf8ca13a 201025 hgs parents: diff changeset	383	wchar_t **ownWords_; // owned
6547bf8ca13a 201025 hgs parents: diff changeset	384	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	385	};
6547bf8ca13a 201025 hgs parents: diff changeset	386
6547bf8ca13a 201025 hgs parents: diff changeset	387	/**
6547bf8ca13a 201025 hgs parents: diff changeset	388	* Specialized SnowballFilter factory is needed, because SnowballFilter
6547bf8ca13a 201025 hgs parents: diff changeset	389	* accepts parameters (the language).
6547bf8ca13a 201025 hgs parents: diff changeset	390	*/
6547bf8ca13a 201025 hgs parents: diff changeset	391	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	392	class FilterFactory<lucene::analysis::SnowballFilter> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	393	{
6547bf8ca13a 201025 hgs parents: diff changeset	394	public:
6547bf8ca13a 201025 hgs parents: diff changeset	395	FilterFactory(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	396	auto_ptr<TokenStreamFactory> factory)
6547bf8ca13a 201025 hgs parents: diff changeset	397	: factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	398	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	399	if (invokation.params().size() != 1 \|\| !dynamic_cast<Identifier*>(invokation.params()[0])) {
6547bf8ca13a 201025 hgs parents: diff changeset	400	THROW_CPIXEXC(L"Snowball filter takes exactly one identifier as a parameter." );
6547bf8ca13a 201025 hgs parents: diff changeset	401	}
6547bf8ca13a 201025 hgs parents: diff changeset	402	Identifier* id = dynamic_cast<Identifier*>(invokation.params()[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	403	if (id->id() == CPIX_WLANG_EN) {
6547bf8ca13a 201025 hgs parents: diff changeset	404	lang_ = cpix_LANG_EN;
6547bf8ca13a 201025 hgs parents: diff changeset	405	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	406	THROW_CPIXEXC(L"Language identifier %S is not supported for stemming",
6547bf8ca13a 201025 hgs parents: diff changeset	407	id->id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	408	}
6547bf8ca13a 201025 hgs parents: diff changeset	409	}
6547bf8ca13a 201025 hgs parents: diff changeset	410	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	411	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	412	return _CLNEW lucene::analysis::SnowballFilter(factory_->tokenStream(fieldName, reader), true, lang_);
6547bf8ca13a 201025 hgs parents: diff changeset	413	}
6547bf8ca13a 201025 hgs parents: diff changeset	414	private:
6547bf8ca13a 201025 hgs parents: diff changeset	415	cpix_LangCode lang_;
6547bf8ca13a 201025 hgs parents: diff changeset	416	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	417	};
6547bf8ca13a 201025 hgs parents: diff changeset	418
6547bf8ca13a 201025 hgs parents: diff changeset	419	/**
6547bf8ca13a 201025 hgs parents: diff changeset	420	* Specialized LengthFilter factory is needed, because length filter
6547bf8ca13a 201025 hgs parents: diff changeset	421	* accepts parameters (minimum length and maximum length)
6547bf8ca13a 201025 hgs parents: diff changeset	422	*/
6547bf8ca13a 201025 hgs parents: diff changeset	423	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	424	class FilterFactory<lucene::analysis::LengthFilter> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	425	{
6547bf8ca13a 201025 hgs parents: diff changeset	426	public:
6547bf8ca13a 201025 hgs parents: diff changeset	427	FilterFactory(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	428	auto_ptr<TokenStreamFactory> factory)
6547bf8ca13a 201025 hgs parents: diff changeset	429	: factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	430	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	431	if (invokation.params().size() != 2 \|\|
6547bf8ca13a 201025 hgs parents: diff changeset	432	!dynamic_cast<IntegerLit*>(invokation.params()[0]) \|\|
6547bf8ca13a 201025 hgs parents: diff changeset	433	!dynamic_cast<IntegerLit*>(invokation.params()[1])) {
6547bf8ca13a 201025 hgs parents: diff changeset	434	THROW_CPIXEXC("Length filter takes exactly two integer parameters");
6547bf8ca13a 201025 hgs parents: diff changeset	435	}
6547bf8ca13a 201025 hgs parents: diff changeset	436	min_ = dynamic_cast<IntegerLit*>(invokation.params()[0])->value();
6547bf8ca13a 201025 hgs parents: diff changeset	437	max_ = dynamic_cast<IntegerLit*>(invokation.params()[1])->value();
6547bf8ca13a 201025 hgs parents: diff changeset	438	}
6547bf8ca13a 201025 hgs parents: diff changeset	439	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	440	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	441	return _CLNEW lucene::analysis::LengthFilter(factory_->tokenStream(fieldName, reader), true, min_, max_ );
6547bf8ca13a 201025 hgs parents: diff changeset	442	}
6547bf8ca13a 201025 hgs parents: diff changeset	443	private:
6547bf8ca13a 201025 hgs parents: diff changeset	444	int min_, max_;
6547bf8ca13a 201025 hgs parents: diff changeset	445	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	446	};
6547bf8ca13a 201025 hgs parents: diff changeset	447
6547bf8ca13a 201025 hgs parents: diff changeset	448	/**
6547bf8ca13a 201025 hgs parents: diff changeset	449	* Specialized PrefixGenerator factory is needed, because PrefixGenerator
6547bf8ca13a 201025 hgs parents: diff changeset	450	* requires the max prefix size.
6547bf8ca13a 201025 hgs parents: diff changeset	451	*/
6547bf8ca13a 201025 hgs parents: diff changeset	452	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	453	class FilterFactory<PrefixGenerator> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	454	{
6547bf8ca13a 201025 hgs parents: diff changeset	455	public:
6547bf8ca13a 201025 hgs parents: diff changeset	456	FilterFactory(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	457	auto_ptr<TokenStreamFactory> factory)
6547bf8ca13a 201025 hgs parents: diff changeset	458	: factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	459	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	460	if (invokation.params().size() != 1 \|\|
6547bf8ca13a 201025 hgs parents: diff changeset	461	!dynamic_cast<IntegerLit*>(invokation.params()[0])) {
6547bf8ca13a 201025 hgs parents: diff changeset	462	THROW_CPIXEXC("Prefix generator takes exactly one integer parameter");
6547bf8ca13a 201025 hgs parents: diff changeset	463	}
6547bf8ca13a 201025 hgs parents: diff changeset	464	maxPrefixLength_ = dynamic_cast<IntegerLit*>(invokation.params()[0])->value();
6547bf8ca13a 201025 hgs parents: diff changeset	465	}
6547bf8ca13a 201025 hgs parents: diff changeset	466	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	467	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	468	return _CLNEW PrefixGenerator(factory_->tokenStream(fieldName, reader), true, maxPrefixLength_ );
6547bf8ca13a 201025 hgs parents: diff changeset	469	}
6547bf8ca13a 201025 hgs parents: diff changeset	470	private:
6547bf8ca13a 201025 hgs parents: diff changeset	471	int maxPrefixLength_;
6547bf8ca13a 201025 hgs parents: diff changeset	472	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	473	};
6547bf8ca13a 201025 hgs parents: diff changeset	474
6547bf8ca13a 201025 hgs parents: diff changeset	475	/**
6547bf8ca13a 201025 hgs parents: diff changeset	476	* Specialized PrefixFilter factory is needed, because prefix filter
6547bf8ca13a 201025 hgs parents: diff changeset	477	* accepts parameters (language set or prefixes)
6547bf8ca13a 201025 hgs parents: diff changeset	478	*/
6547bf8ca13a 201025 hgs parents: diff changeset	479	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	480	class FilterFactory<analysis::PrefixFilter> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	481	{
6547bf8ca13a 201025 hgs parents: diff changeset	482	public:
6547bf8ca13a 201025 hgs parents: diff changeset	483	FilterFactory(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	484	auto_ptr<TokenStreamFactory> factory)
6547bf8ca13a 201025 hgs parents: diff changeset	485	: prefixes_(0), ownPrefixes_(0), factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	486	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	487	if (invokation.params().size() == 1 &&
6547bf8ca13a 201025 hgs parents: diff changeset	488	dynamic_cast<Identifier*>(invokation.params()[0])) {
6547bf8ca13a 201025 hgs parents: diff changeset	489	Identifier* id = dynamic_cast<Identifier*>(invokation.params()[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	490	//cpix_LangCode lang;
6547bf8ca13a 201025 hgs parents: diff changeset	491	if (id->id() == CPIX_WLANG_HE) {
6547bf8ca13a 201025 hgs parents: diff changeset	492	prefixes_ = analysis::HebrewPrefixes;
6547bf8ca13a 201025 hgs parents: diff changeset	493	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	494	THROW_CPIXEXC(L"No prepared prefix list for language code '%S'",
6547bf8ca13a 201025 hgs parents: diff changeset	495	id->id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	496	}
6547bf8ca13a 201025 hgs parents: diff changeset	497	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	498	ownPrefixes_ = new wchar_t*[invokation.params().size()+1];
6547bf8ca13a 201025 hgs parents: diff changeset	499	memset(ownPrefixes_, 0, sizeof(wchar_t)(invokation.params().size()+1));
6547bf8ca13a 201025 hgs parents: diff changeset	500	// FIXE: args may leak
6547bf8ca13a 201025 hgs parents: diff changeset	501	for (int i = 0; i < invokation.params().size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	502	StringLit* lit = dynamic_cast<StringLit*>(invokation.params()[i]);
6547bf8ca13a 201025 hgs parents: diff changeset	503	if (lit) {
6547bf8ca13a 201025 hgs parents: diff changeset	504	const wstring& str = lit->text();
6547bf8ca13a 201025 hgs parents: diff changeset	505	ownPrefixes_[i] = new wchar_t[str.length()+1];
6547bf8ca13a 201025 hgs parents: diff changeset	506	wcscpy(ownPrefixes_[i], str.c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	507	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	508	THROW_CPIXEXC(L"PrefixFilter accepts only language identifer or list of strings as a parameters.");
6547bf8ca13a 201025 hgs parents: diff changeset	509	}
6547bf8ca13a 201025 hgs parents: diff changeset	510	}
6547bf8ca13a 201025 hgs parents: diff changeset	511	}
6547bf8ca13a 201025 hgs parents: diff changeset	512	}
6547bf8ca13a 201025 hgs parents: diff changeset	513	virtual ~FilterFactory() {
6547bf8ca13a 201025 hgs parents: diff changeset	514	if (ownPrefixes_) {
6547bf8ca13a 201025 hgs parents: diff changeset	515	for (int i = 0; ownPrefixes_[i]; i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	516	delete[] ownPrefixes_[i];
6547bf8ca13a 201025 hgs parents: diff changeset	517	}
6547bf8ca13a 201025 hgs parents: diff changeset	518	delete[] ownPrefixes_;
6547bf8ca13a 201025 hgs parents: diff changeset	519	}
6547bf8ca13a 201025 hgs parents: diff changeset	520	}
6547bf8ca13a 201025 hgs parents: diff changeset	521	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	522	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	523	return _CLNEW analysis::PrefixFilter(factory_->tokenStream(fieldName, reader), true, ownPrefixes_ ? const_cast<const wchar_t**>(ownPrefixes_) : prefixes_);
6547bf8ca13a 201025 hgs parents: diff changeset	524	}
6547bf8ca13a 201025 hgs parents: diff changeset	525	private:
6547bf8ca13a 201025 hgs parents: diff changeset	526	const wchar_t **prefixes_;
6547bf8ca13a 201025 hgs parents: diff changeset	527	wchar_t **ownPrefixes_; // owned
6547bf8ca13a 201025 hgs parents: diff changeset	528	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	529	};
6547bf8ca13a 201025 hgs parents: diff changeset	530
6547bf8ca13a 201025 hgs parents: diff changeset	531	/**
6547bf8ca13a 201025 hgs parents: diff changeset	532	* Specialized ElisionFilter factory is needed, because elision filter
6547bf8ca13a 201025 hgs parents: diff changeset	533	* accepts parameters (language set or articles)
6547bf8ca13a 201025 hgs parents: diff changeset	534	*/
6547bf8ca13a 201025 hgs parents: diff changeset	535	template<>
6547bf8ca13a 201025 hgs parents: diff changeset	536	class FilterFactory<analysis::ElisionFilter> : public TokenStreamFactory
6547bf8ca13a 201025 hgs parents: diff changeset	537	{
6547bf8ca13a 201025 hgs parents: diff changeset	538	public:
6547bf8ca13a 201025 hgs parents: diff changeset	539	FilterFactory(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	540	auto_ptr<TokenStreamFactory> factory)
6547bf8ca13a 201025 hgs parents: diff changeset	541	: articles_(0), ownArticles_(0), factory_(factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	542	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	543	if (invokation.params().size() == 1 &&
6547bf8ca13a 201025 hgs parents: diff changeset	544	dynamic_cast<Identifier*>(invokation.params()[0])) {
6547bf8ca13a 201025 hgs parents: diff changeset	545	Identifier* id = dynamic_cast<Identifier*>(invokation.params()[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	546	//cpix_LangCode lang;
6547bf8ca13a 201025 hgs parents: diff changeset	547	if (id->id() == CPIX_WLANG_FR) {
6547bf8ca13a 201025 hgs parents: diff changeset	548	articles_ = analysis::FrenchArticles;
6547bf8ca13a 201025 hgs parents: diff changeset	549	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	550	THROW_CPIXEXC(L"No prepared article list for language code '%S'",
6547bf8ca13a 201025 hgs parents: diff changeset	551	id->id().c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	552	}
6547bf8ca13a 201025 hgs parents: diff changeset	553	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	554	ownArticles_ = new wchar_t*[invokation.params().size()+1];
6547bf8ca13a 201025 hgs parents: diff changeset	555	memset(ownArticles_, 0, sizeof(wchar_t)(invokation.params().size()+1));
6547bf8ca13a 201025 hgs parents: diff changeset	556	// FIXE: args may leak
6547bf8ca13a 201025 hgs parents: diff changeset	557	for (int i = 0; i < invokation.params().size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	558	StringLit* lit = dynamic_cast<StringLit*>(invokation.params()[i]);
6547bf8ca13a 201025 hgs parents: diff changeset	559	if (lit) {
6547bf8ca13a 201025 hgs parents: diff changeset	560	const wstring& str = lit->text();
6547bf8ca13a 201025 hgs parents: diff changeset	561	ownArticles_[i] = new wchar_t[str.length()+1];
6547bf8ca13a 201025 hgs parents: diff changeset	562	wcscpy(ownArticles_[i], str.c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	563	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	564	THROW_CPIXEXC(L"PrefixFilter accepts only language identifer or list of strings as a parameters.");
6547bf8ca13a 201025 hgs parents: diff changeset	565	}
6547bf8ca13a 201025 hgs parents: diff changeset	566	}
6547bf8ca13a 201025 hgs parents: diff changeset	567	}
6547bf8ca13a 201025 hgs parents: diff changeset	568	}
6547bf8ca13a 201025 hgs parents: diff changeset	569	virtual ~FilterFactory() {
6547bf8ca13a 201025 hgs parents: diff changeset	570	if (ownArticles_) {
6547bf8ca13a 201025 hgs parents: diff changeset	571	for (int i = 0; ownArticles_[i]; i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	572	delete[] ownArticles_[i];
6547bf8ca13a 201025 hgs parents: diff changeset	573	}
6547bf8ca13a 201025 hgs parents: diff changeset	574	delete[] ownArticles_;
6547bf8ca13a 201025 hgs parents: diff changeset	575	}
6547bf8ca13a 201025 hgs parents: diff changeset	576	}
6547bf8ca13a 201025 hgs parents: diff changeset	577	virtual lucene::analysis::TokenStream* tokenStream(const TCHAR * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	578	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	579	return _CLNEW analysis::ElisionFilter(factory_->tokenStream(fieldName, reader), true, ownArticles_ ? const_cast<const wchar_t**>(ownArticles_) : articles_);
6547bf8ca13a 201025 hgs parents: diff changeset	580	}
6547bf8ca13a 201025 hgs parents: diff changeset	581	private:
6547bf8ca13a 201025 hgs parents: diff changeset	582	const wchar_t **articles_;
6547bf8ca13a 201025 hgs parents: diff changeset	583	wchar_t **ownArticles_; // owned
6547bf8ca13a 201025 hgs parents: diff changeset	584	std::auto_ptr<TokenStreamFactory> factory_;
6547bf8ca13a 201025 hgs parents: diff changeset	585	};
6547bf8ca13a 201025 hgs parents: diff changeset	586
6547bf8ca13a 201025 hgs parents: diff changeset	587	typedef auto_ptr<TokenStreamFactory> (*TokenizerFactoryCreator)(const Invokation& invokation);
6547bf8ca13a 201025 hgs parents: diff changeset	588	typedef auto_ptr<TokenStreamFactory> (*FilterFactoryCreator)(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	589	auto_ptr<TokenStreamFactory> factory);
6547bf8ca13a 201025 hgs parents: diff changeset	590
6547bf8ca13a 201025 hgs parents: diff changeset	591	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	592	struct TokenStreamFactoryCtor
6547bf8ca13a 201025 hgs parents: diff changeset	593	{
6547bf8ca13a 201025 hgs parents: diff changeset	594	static auto_ptr<TokenStreamFactory> create(const Invokation& invokation) {
6547bf8ca13a 201025 hgs parents: diff changeset	595	return auto_ptr<TokenStreamFactory>(new T(invokation));
6547bf8ca13a 201025 hgs parents: diff changeset	596	}
6547bf8ca13a 201025 hgs parents: diff changeset	597	};
6547bf8ca13a 201025 hgs parents: diff changeset	598
6547bf8ca13a 201025 hgs parents: diff changeset	599	/**
6547bf8ca13a 201025 hgs parents: diff changeset	600	* Sets up a tokenizer factory with given invokation parameters
6547bf8ca13a 201025 hgs parents: diff changeset	601	*/
6547bf8ca13a 201025 hgs parents: diff changeset	602	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	603	struct TokenizerFactoryCtor
6547bf8ca13a 201025 hgs parents: diff changeset	604	{
6547bf8ca13a 201025 hgs parents: diff changeset	605	static auto_ptr<TokenStreamFactory> create(const Invokation& invokation) {
6547bf8ca13a 201025 hgs parents: diff changeset	606	return auto_ptr<TokenStreamFactory>(new TokenizerFactory<T>(invokation));
6547bf8ca13a 201025 hgs parents: diff changeset	607	}
6547bf8ca13a 201025 hgs parents: diff changeset	608	};
6547bf8ca13a 201025 hgs parents: diff changeset	609
6547bf8ca13a 201025 hgs parents: diff changeset	610	/**
6547bf8ca13a 201025 hgs parents: diff changeset	611	* Sets up an analyzer wrap with given invokation parameters
6547bf8ca13a 201025 hgs parents: diff changeset	612	*/
6547bf8ca13a 201025 hgs parents: diff changeset	613	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	614	struct AnalyzerWrapCtor
6547bf8ca13a 201025 hgs parents: diff changeset	615	{
6547bf8ca13a 201025 hgs parents: diff changeset	616	static auto_ptr<TokenStreamFactory> create(const Invokation& invokation) {
6547bf8ca13a 201025 hgs parents: diff changeset	617	return auto_ptr<TokenStreamFactory>(new AnalyzerWrap<T>(invokation));
6547bf8ca13a 201025 hgs parents: diff changeset	618	}
6547bf8ca13a 201025 hgs parents: diff changeset	619	};
6547bf8ca13a 201025 hgs parents: diff changeset	620
6547bf8ca13a 201025 hgs parents: diff changeset	621	/**
6547bf8ca13a 201025 hgs parents: diff changeset	622	* Sets up a filter factory with given invokation parameters
6547bf8ca13a 201025 hgs parents: diff changeset	623	*/
6547bf8ca13a 201025 hgs parents: diff changeset	624	template<class T>
6547bf8ca13a 201025 hgs parents: diff changeset	625	struct FilterFactoryCtor
6547bf8ca13a 201025 hgs parents: diff changeset	626	{
6547bf8ca13a 201025 hgs parents: diff changeset	627	static auto_ptr<TokenStreamFactory> create(const Invokation& invokation,
6547bf8ca13a 201025 hgs parents: diff changeset	628	auto_ptr<TokenStreamFactory> factory) {
6547bf8ca13a 201025 hgs parents: diff changeset	629	return auto_ptr<TokenStreamFactory>(new FilterFactory<T>(invokation, factory));
6547bf8ca13a 201025 hgs parents: diff changeset	630	}
6547bf8ca13a 201025 hgs parents: diff changeset	631	};
6547bf8ca13a 201025 hgs parents: diff changeset	632
6547bf8ca13a 201025 hgs parents: diff changeset	633	struct TokenizerClassEntry {
6547bf8ca13a 201025 hgs parents: diff changeset	634	const wchar_t *id_;
6547bf8ca13a 201025 hgs parents: diff changeset	635	TokenizerFactoryCreator createFactory_;
6547bf8ca13a 201025 hgs parents: diff changeset	636	};
6547bf8ca13a 201025 hgs parents: diff changeset	637
6547bf8ca13a 201025 hgs parents: diff changeset	638	//
6547bf8ca13a 201025 hgs parents: diff changeset	639	// Following TokenizerClassEntries and FilterClassEntries contain
6547bf8ca13a 201025 hgs parents: diff changeset	640	// the mapping from tokenizer/analyzer/filter names into glue code
6547bf8ca13a 201025 hgs parents: diff changeset	641	// templates providing the implementations.
6547bf8ca13a 201025 hgs parents: diff changeset	642	//
6547bf8ca13a 201025 hgs parents: diff changeset	643
6547bf8ca13a 201025 hgs parents: diff changeset	644	TokenizerClassEntry TokenizerClassEntries[] = {
6547bf8ca13a 201025 hgs parents: diff changeset	645	{CPIX_TOKENIZER_STANDARD, TokenizerFactoryCtor<lucene::analysis::standard::StandardTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	646	{CPIX_TOKENIZER_WHITESPACE, TokenizerFactoryCtor<lucene::analysis::WhitespaceTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	647	{CPIX_TOKENIZER_LETTER, TokenizerFactoryCtor<lucene::analysis::LetterTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	648	{CPIX_TOKENIZER_KEYWORD, TokenizerFactoryCtor<lucene::analysis::KeywordTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	649	{CPIX_TOKENIZER_CJK, TokenizerFactoryCtor<lucene::analysis::cjk::CJKTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	650	{CPIX_TOKENIZER_NGRAM, TokenizerFactoryCtor<analysis::CjkNGramTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	651	{CPIX_TOKENIZER_KOREAN, TokenizerFactoryCtor<analysis::KoreanTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	652	{CPIX_TOKENIZER_KOREAN_QUERY,TokenizerFactoryCtor<analysis::KoreanQueryTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	653
6547bf8ca13a 201025 hgs parents: diff changeset	654	{CPIX_ANALYZER_STANDARD, AnalyzerWrapCtor<lucene::analysis::standard::StandardAnalyzer>::create},
19 e3c09e9691e0 201035 hgs parents: 8 diff changeset	655	{CPIX_ANALYZER_PHONENUMBER, AnalyzerWrapCtor<lucene::analysis::PhoneNumberAnalyzer>::create},
8 6547bf8ca13a 201025 hgs parents: diff changeset	656	{CPIX_ANALYZER_DEFAULT, TokenStreamFactoryCtor<DefaultTokenStreamFactory>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	657
6547bf8ca13a 201025 hgs parents: diff changeset	658	// TODO: Add more Tokenizers/Analyzers
6547bf8ca13a 201025 hgs parents: diff changeset	659
6547bf8ca13a 201025 hgs parents: diff changeset	660	// Example tokenizer (works as such if tokenizers don't take parameters)
6547bf8ca13a 201025 hgs parents: diff changeset	661	// {CPIX_TOKENIZER_MYTOKENIZER,TokenizerFactoryCtor<MyTokenizer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	662
6547bf8ca13a 201025 hgs parents: diff changeset	663	// Example analyzer (works as such if analyzer don't take parameters)
6547bf8ca13a 201025 hgs parents: diff changeset	664	// {CPIX_ANALYZER_MYANALYZER, AnalyzerWrapCtor<MyAnalyzer>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	665
6547bf8ca13a 201025 hgs parents: diff changeset	666	{0, 0}
6547bf8ca13a 201025 hgs parents: diff changeset	667	};
6547bf8ca13a 201025 hgs parents: diff changeset	668
6547bf8ca13a 201025 hgs parents: diff changeset	669	struct FilterClassEntry {
6547bf8ca13a 201025 hgs parents: diff changeset	670	const wchar_t *id_;
6547bf8ca13a 201025 hgs parents: diff changeset	671	FilterFactoryCreator createFactory_;
6547bf8ca13a 201025 hgs parents: diff changeset	672	};
6547bf8ca13a 201025 hgs parents: diff changeset	673
6547bf8ca13a 201025 hgs parents: diff changeset	674	FilterClassEntry FilterClassEntries[] = {
6547bf8ca13a 201025 hgs parents: diff changeset	675	{CPIX_FILTER_STANDARD, FilterFactoryCtor<lucene::analysis::standard::StandardFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	676	{CPIX_FILTER_LOWERCASE, FilterFactoryCtor<lucene::analysis::LowerCaseFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	677	{CPIX_FILTER_ACCENT, FilterFactoryCtor<lucene::analysis::ISOLatin1AccentFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	678	{CPIX_FILTER_STOP, FilterFactoryCtor<lucene::analysis::StopFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	679	{CPIX_FILTER_STEM, FilterFactoryCtor<lucene::analysis::SnowballFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	680	{CPIX_FILTER_LENGTH, FilterFactoryCtor<lucene::analysis::LengthFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	681	{CPIX_FILTER_PREFIXES, FilterFactoryCtor<PrefixGenerator>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	682	{CPIX_FILTER_THAI, FilterFactoryCtor<analysis::ThaiWordFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	683	{CPIX_FILTER_PREFIX, FilterFactoryCtor<analysis::PrefixFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	684	{CPIX_FILTER_ELISION, FilterFactoryCtor<analysis::ElisionFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	685
6547bf8ca13a 201025 hgs parents: diff changeset	686	// TODO: Add more Filters
6547bf8ca13a 201025 hgs parents: diff changeset	687
6547bf8ca13a 201025 hgs parents: diff changeset	688	// Example filter (works as such if filter don't take parameters)
6547bf8ca13a 201025 hgs parents: diff changeset	689	// {CPIX_FILTER_MYFILTER, FilterFactoryCtor<MyFilter>::create},
6547bf8ca13a 201025 hgs parents: diff changeset	690
6547bf8ca13a 201025 hgs parents: diff changeset	691	{0, 0}
6547bf8ca13a 201025 hgs parents: diff changeset	692	};
6547bf8ca13a 201025 hgs parents: diff changeset	693
6547bf8ca13a 201025 hgs parents: diff changeset	694	CustomAnalyzer::CustomAnalyzer(const wchar_t* definition, const wchar_t* config) {
6547bf8ca13a 201025 hgs parents: diff changeset	695	std::auto_ptr<Piping> piping = AnalyzerExp::ParsePiping( definition );
6547bf8ca13a 201025 hgs parents: diff changeset	696	setup( *piping, config );
6547bf8ca13a 201025 hgs parents: diff changeset	697	}
6547bf8ca13a 201025 hgs parents: diff changeset	698
6547bf8ca13a 201025 hgs parents: diff changeset	699	CustomAnalyzer::CustomAnalyzer(const Piping& definition, const wchar_t* config) {
6547bf8ca13a 201025 hgs parents: diff changeset	700	setup(definition, config);
6547bf8ca13a 201025 hgs parents: diff changeset	701	}
6547bf8ca13a 201025 hgs parents: diff changeset	702
6547bf8ca13a 201025 hgs parents: diff changeset	703	using namespace Cpt::Parser;
6547bf8ca13a 201025 hgs parents: diff changeset	704
6547bf8ca13a 201025 hgs parents: diff changeset	705	void CustomAnalyzer::setup(const Piping& piping, const wchar_t* config) {
6547bf8ca13a 201025 hgs parents: diff changeset	706
6547bf8ca13a 201025 hgs parents: diff changeset	707	// If the first item is invokation, create corresponding analyzer/tokenizer
6547bf8ca13a 201025 hgs parents: diff changeset	708	if (dynamic_cast<const Invokation*>(&piping.tokenizer())) {
6547bf8ca13a 201025 hgs parents: diff changeset	709	const Invokation& tokenizer = dynamic_cast<const Invokation&>(piping.tokenizer());
6547bf8ca13a 201025 hgs parents: diff changeset	710	TokenizerClassEntry& tokenizerEntry = getTokenizerEntry( tokenizer.id() );
6547bf8ca13a 201025 hgs parents: diff changeset	711	factory_ = tokenizerEntry.createFactory_( tokenizer );
6547bf8ca13a 201025 hgs parents: diff changeset	712	} else if (dynamic_cast<const Switch*>(&piping.tokenizer())) {
6547bf8ca13a 201025 hgs parents: diff changeset	713	// If the first item is switch statement, create per-field analyzer
6547bf8ca13a 201025 hgs parents: diff changeset	714	const Switch& tokenizer = dynamic_cast<const Switch&>(piping.tokenizer());
6547bf8ca13a 201025 hgs parents: diff changeset	715	factory_ = new AnalyzerWrap<lucene::analysis::PerFieldAnalyzerWrapper>( tokenizer, config );
6547bf8ca13a 201025 hgs parents: diff changeset	716	} else if (dynamic_cast<const LocaleSwitch*>(&piping.tokenizer())) {
6547bf8ca13a 201025 hgs parents: diff changeset	717	const LocaleSwitch& tokenizer = dynamic_cast<const LocaleSwitch&>(piping.tokenizer());
6547bf8ca13a 201025 hgs parents: diff changeset	718	factory_ = new LocaleSwitchStreamFactory( tokenizer, config );
6547bf8ca13a 201025 hgs parents: diff changeset	719	} else if (dynamic_cast<const ConfigSwitch*>(&piping.tokenizer())) {
6547bf8ca13a 201025 hgs parents: diff changeset	720	const ConfigSwitch& tokenizer = dynamic_cast<const ConfigSwitch&>(piping.tokenizer());
6547bf8ca13a 201025 hgs parents: diff changeset	721	factory_ = resolveConfigSwitch( tokenizer, config );
6547bf8ca13a 201025 hgs parents: diff changeset	722	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	723	THROW_CPIXEXC(L"Analyzer definition syntax did not begin with valid tokenizer");
6547bf8ca13a 201025 hgs parents: diff changeset	724	}
6547bf8ca13a 201025 hgs parents: diff changeset	725
6547bf8ca13a 201025 hgs parents: diff changeset	726	// Add filters
6547bf8ca13a 201025 hgs parents: diff changeset	727	const std::vector<Invokation*>& filters = piping.filters();
6547bf8ca13a 201025 hgs parents: diff changeset	728	for (int i = 0; i < filters.size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	729	FilterClassEntry& filterEntry = getFilterEntry( filters[i]->id() );
6547bf8ca13a 201025 hgs parents: diff changeset	730	factory_ = filterEntry.createFactory_( *filters[i], factory_ );
6547bf8ca13a 201025 hgs parents: diff changeset	731	}
6547bf8ca13a 201025 hgs parents: diff changeset	732	}
6547bf8ca13a 201025 hgs parents: diff changeset	733
6547bf8ca13a 201025 hgs parents: diff changeset	734	std::auto_ptr<TokenStreamFactory> CustomAnalyzer::resolveConfigSwitch(const ConfigSwitch& csw, const wchar_t* config) {
6547bf8ca13a 201025 hgs parents: diff changeset	735	if (config) {
6547bf8ca13a 201025 hgs parents: diff changeset	736	for (int i = 0; i < csw.cases().size(); i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	737	const Case& cs = *csw.cases()[i];
6547bf8ca13a 201025 hgs parents: diff changeset	738	for (int j = 0; j < cs.cases().size(); j++) {
6547bf8ca13a 201025 hgs parents: diff changeset	739	if (wcscmp(config, cs.cases()[j].c_str()) == 0) {
6547bf8ca13a 201025 hgs parents: diff changeset	740	return std::auto_ptr<TokenStreamFactory>(
6547bf8ca13a 201025 hgs parents: diff changeset	741	new CustomAnalyzer(cs.piping(), config));
6547bf8ca13a 201025 hgs parents: diff changeset	742	}
6547bf8ca13a 201025 hgs parents: diff changeset	743	}
6547bf8ca13a 201025 hgs parents: diff changeset	744	}
6547bf8ca13a 201025 hgs parents: diff changeset	745	}
6547bf8ca13a 201025 hgs parents: diff changeset	746	return std::auto_ptr<TokenStreamFactory>(new CustomAnalyzer(csw.def(), config));
6547bf8ca13a 201025 hgs parents: diff changeset	747	}
6547bf8ca13a 201025 hgs parents: diff changeset	748
6547bf8ca13a 201025 hgs parents: diff changeset	749	TokenizerClassEntry& CustomAnalyzer::getTokenizerEntry(std::wstring id) {
6547bf8ca13a 201025 hgs parents: diff changeset	750
6547bf8ca13a 201025 hgs parents: diff changeset	751	// Looks for a match in the TokenizerClassEntries. After finding
6547bf8ca13a 201025 hgs parents: diff changeset	752	// a match it returns a proper tokenizer/analyzer implementation provider
6547bf8ca13a 201025 hgs parents: diff changeset	753	//
6547bf8ca13a 201025 hgs parents: diff changeset	754	for (int i = 0; TokenizerClassEntries[i].id_; i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	755	if (id == std::wstring(TokenizerClassEntries[i].id_)) {
6547bf8ca13a 201025 hgs parents: diff changeset	756	return TokenizerClassEntries[i];
6547bf8ca13a 201025 hgs parents: diff changeset	757	}
6547bf8ca13a 201025 hgs parents: diff changeset	758	}
6547bf8ca13a 201025 hgs parents: diff changeset	759
6547bf8ca13a 201025 hgs parents: diff changeset	760	THROW_CPIXEXC(L"Unknown tokenizer '%S'.",
6547bf8ca13a 201025 hgs parents: diff changeset	761	id.c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	762	}
6547bf8ca13a 201025 hgs parents: diff changeset	763
6547bf8ca13a 201025 hgs parents: diff changeset	764	FilterClassEntry& CustomAnalyzer::getFilterEntry(std::wstring id) {
6547bf8ca13a 201025 hgs parents: diff changeset	765
6547bf8ca13a 201025 hgs parents: diff changeset	766	// Looks for a match in the FilterClassEntries. After finding
6547bf8ca13a 201025 hgs parents: diff changeset	767	// a match it returns a proper tokenizer/analyzer implementation
6547bf8ca13a 201025 hgs parents: diff changeset	768	// provider
6547bf8ca13a 201025 hgs parents: diff changeset	769	//
6547bf8ca13a 201025 hgs parents: diff changeset	770	for (int i = 0; FilterClassEntries[i].id_; i++) {
6547bf8ca13a 201025 hgs parents: diff changeset	771	if (id == std::wstring(FilterClassEntries[i].id_)) {
6547bf8ca13a 201025 hgs parents: diff changeset	772	return FilterClassEntries[i];
6547bf8ca13a 201025 hgs parents: diff changeset	773	}
6547bf8ca13a 201025 hgs parents: diff changeset	774	}
6547bf8ca13a 201025 hgs parents: diff changeset	775
6547bf8ca13a 201025 hgs parents: diff changeset	776	THROW_CPIXEXC(L"Unknown filter '%S'.",
6547bf8ca13a 201025 hgs parents: diff changeset	777	id.c_str());
6547bf8ca13a 201025 hgs parents: diff changeset	778	}
6547bf8ca13a 201025 hgs parents: diff changeset	779
6547bf8ca13a 201025 hgs parents: diff changeset	780	CustomAnalyzer::~CustomAnalyzer() {}
6547bf8ca13a 201025 hgs parents: diff changeset	781
6547bf8ca13a 201025 hgs parents: diff changeset	782	lucene::analysis::TokenStream* CustomAnalyzer::tokenStream(const wchar_t * fieldName,
6547bf8ca13a 201025 hgs parents: diff changeset	783	lucene::util::Reader * reader) {
6547bf8ca13a 201025 hgs parents: diff changeset	784	// Utilizes the the token stream factory to form token stream.
6547bf8ca13a 201025 hgs parents: diff changeset	785	// token stream factory is prepared during custom analyzer construction
6547bf8ca13a 201025 hgs parents: diff changeset	786	// and based on the analyzer definition string.
6547bf8ca13a 201025 hgs parents: diff changeset	787
6547bf8ca13a 201025 hgs parents: diff changeset	788	return factory_->tokenStream(fieldName, reader);
6547bf8ca13a 201025 hgs parents: diff changeset	789	}
6547bf8ca13a 201025 hgs parents: diff changeset	790
6547bf8ca13a 201025 hgs parents: diff changeset	791	std::auto_ptr<lucene::analysis::Analyzer> CreateDefaultAnalyzer()
6547bf8ca13a 201025 hgs parents: diff changeset	792	{
6547bf8ca13a 201025 hgs parents: diff changeset	793	return
6547bf8ca13a 201025 hgs parents: diff changeset	794	std::auto_ptr<lucene::analysis::Analyzer>(
6547bf8ca13a 201025 hgs parents: diff changeset	795	new SystemAnalyzer(_CLNEW lucene::analysis::standard::StandardAnalyzer()));
6547bf8ca13a 201025 hgs parents: diff changeset	796	}
6547bf8ca13a 201025 hgs parents: diff changeset	797
6547bf8ca13a 201025 hgs parents: diff changeset	798	}

author	hgs
	Mon, 06 Sep 2010 09:24:34 +0530
changeset 19	e3c09e9691e0
parent 8	6547bf8ca13a
permissions	-rw-r--r--