FCL/sf/mw/searchsrv: searchengine/cpix/cpix/src/prefixqueryparser.cpp@e3c09e9691e0 (annotated)

8 6547bf8ca13a 201025 hgs parents: diff changeset	1	/*
6547bf8ca13a 201025 hgs parents: diff changeset	2	* Copyright (c) 2010 Nokia Corporation and/or its subsidiary(-ies).
6547bf8ca13a 201025 hgs parents: diff changeset	3	* All rights reserved.
6547bf8ca13a 201025 hgs parents: diff changeset	4	* This component and the accompanying materials are made available
6547bf8ca13a 201025 hgs parents: diff changeset	5	* under the terms of "Eclipse Public License v1.0"
6547bf8ca13a 201025 hgs parents: diff changeset	6	* which accompanies this distribution, and is available
6547bf8ca13a 201025 hgs parents: diff changeset	7	* at the URL "http://www.eclipse.org/legal/epl-v10.html".
6547bf8ca13a 201025 hgs parents: diff changeset	8	*
6547bf8ca13a 201025 hgs parents: diff changeset	9	* Initial Contributors:
6547bf8ca13a 201025 hgs parents: diff changeset	10	* Nokia Corporation - initial contribution.
6547bf8ca13a 201025 hgs parents: diff changeset	11	*
6547bf8ca13a 201025 hgs parents: diff changeset	12	* Contributors:
6547bf8ca13a 201025 hgs parents: diff changeset	13	*
6547bf8ca13a 201025 hgs parents: diff changeset	14	* Description:
6547bf8ca13a 201025 hgs parents: diff changeset	15	*
6547bf8ca13a 201025 hgs parents: diff changeset	16	*/
6547bf8ca13a 201025 hgs parents: diff changeset	17
6547bf8ca13a 201025 hgs parents: diff changeset	18
6547bf8ca13a 201025 hgs parents: diff changeset	19	#include "CLucene.h"
6547bf8ca13a 201025 hgs parents: diff changeset	20
6547bf8ca13a 201025 hgs parents: diff changeset	21	#include "cpixmaindefs.h"
6547bf8ca13a 201025 hgs parents: diff changeset	22
6547bf8ca13a 201025 hgs parents: diff changeset	23	// internal libs
6547bf8ca13a 201025 hgs parents: diff changeset	24	#include "cpixparsetools.h"
6547bf8ca13a 201025 hgs parents: diff changeset	25
6547bf8ca13a 201025 hgs parents: diff changeset	26	// internal
6547bf8ca13a 201025 hgs parents: diff changeset	27	#include "analyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	28
6547bf8ca13a 201025 hgs parents: diff changeset	29	#include "prefixqueryparser.h"
6547bf8ca13a 201025 hgs parents: diff changeset	30
6547bf8ca13a 201025 hgs parents: diff changeset	31	#include "cpixanalyzer.h"
6547bf8ca13a 201025 hgs parents: diff changeset	32	#include "cluceneext.h"
6547bf8ca13a 201025 hgs parents: diff changeset	33
6547bf8ca13a 201025 hgs parents: diff changeset	34	#include "tinyunicode.h"
6547bf8ca13a 201025 hgs parents: diff changeset	35
6547bf8ca13a 201025 hgs parents: diff changeset	36	#include "cpixexc.h"
6547bf8ca13a 201025 hgs parents: diff changeset	37
6547bf8ca13a 201025 hgs parents: diff changeset	38	namespace Cpix {
6547bf8ca13a 201025 hgs parents: diff changeset	39
6547bf8ca13a 201025 hgs parents: diff changeset	40	using namespace lucene::analysis;
6547bf8ca13a 201025 hgs parents: diff changeset	41	using namespace lucene::search;
6547bf8ca13a 201025 hgs parents: diff changeset	42	using namespace lucene::document;
6547bf8ca13a 201025 hgs parents: diff changeset	43	using namespace lucene::util;
6547bf8ca13a 201025 hgs parents: diff changeset	44	using lucene::index::Term;
6547bf8ca13a 201025 hgs parents: diff changeset	45	using namespace std;
6547bf8ca13a 201025 hgs parents: diff changeset	46
6547bf8ca13a 201025 hgs parents: diff changeset	47	namespace {
6547bf8ca13a 201025 hgs parents: diff changeset	48
6547bf8ca13a 201025 hgs parents: diff changeset	49	/**
6547bf8ca13a 201025 hgs parents: diff changeset	50	* Small optimization to avoid creating extra boolean queries
6547bf8ca13a 201025 hgs parents: diff changeset	51	*/
6547bf8ca13a 201025 hgs parents: diff changeset	52	class QueryConstructor {
6547bf8ca13a 201025 hgs parents: diff changeset	53
6547bf8ca13a 201025 hgs parents: diff changeset	54	public:
6547bf8ca13a 201025 hgs parents: diff changeset	55	QueryConstructor() : q_(), bq_(0) {}
6547bf8ca13a 201025 hgs parents: diff changeset	56
6547bf8ca13a 201025 hgs parents: diff changeset	57	auto_ptr<Query> operator()() {
6547bf8ca13a 201025 hgs parents: diff changeset	58	return q_;
6547bf8ca13a 201025 hgs parents: diff changeset	59	}
6547bf8ca13a 201025 hgs parents: diff changeset	60	void add(auto_ptr<Query> q) {
6547bf8ca13a 201025 hgs parents: diff changeset	61	if ( q.get() ) {
6547bf8ca13a 201025 hgs parents: diff changeset	62	if ( bq_ ) {
16 2729d20a0010 201033 hgs parents: 14 diff changeset	63	bq_->add( q.release(), true, false, false );
8 6547bf8ca13a 201025 hgs parents: diff changeset	64	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	65	if ( q_.get() ) {
6547bf8ca13a 201025 hgs parents: diff changeset	66	auto_ptr<BooleanQuery> bq( new BooleanQuery() );
6547bf8ca13a 201025 hgs parents: diff changeset	67	bq_ = bq.get();
14 8bd192d47aaa 201031 hgs parents: 8 diff changeset	68	bq_->add( q_.release(), true, false, false );
8bd192d47aaa 201031 hgs parents: 8 diff changeset	69	bq_->add( q.release(), true, false, false );
8 6547bf8ca13a 201025 hgs parents: diff changeset	70	q_.reset( bq.release() );
6547bf8ca13a 201025 hgs parents: diff changeset	71	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	72	q_ = q;
6547bf8ca13a 201025 hgs parents: diff changeset	73	}
6547bf8ca13a 201025 hgs parents: diff changeset	74	}
6547bf8ca13a 201025 hgs parents: diff changeset	75	}
6547bf8ca13a 201025 hgs parents: diff changeset	76	}
6547bf8ca13a 201025 hgs parents: diff changeset	77	inline void add(Query* q) {
6547bf8ca13a 201025 hgs parents: diff changeset	78	add( auto_ptr<Query>( q ) );
6547bf8ca13a 201025 hgs parents: diff changeset	79	}
6547bf8ca13a 201025 hgs parents: diff changeset	80
6547bf8ca13a 201025 hgs parents: diff changeset	81	private:
6547bf8ca13a 201025 hgs parents: diff changeset	82
6547bf8ca13a 201025 hgs parents: diff changeset	83	auto_ptr<Query> q_;
6547bf8ca13a 201025 hgs parents: diff changeset	84	BooleanQuery* bq_;
6547bf8ca13a 201025 hgs parents: diff changeset	85
6547bf8ca13a 201025 hgs parents: diff changeset	86	};
6547bf8ca13a 201025 hgs parents: diff changeset	87
6547bf8ca13a 201025 hgs parents: diff changeset	88	/**
6547bf8ca13a 201025 hgs parents: diff changeset	89	* TokenStream interface with one modification:
6547bf8ca13a 201025 hgs parents: diff changeset	90	* * Ability to check if returned token was last one in the stream
6547bf8ca13a 201025 hgs parents: diff changeset	91	*/
6547bf8ca13a 201025 hgs parents: diff changeset	92	class HasNextTokenStream {
6547bf8ca13a 201025 hgs parents: diff changeset	93
6547bf8ca13a 201025 hgs parents: diff changeset	94	public:
6547bf8ca13a 201025 hgs parents: diff changeset	95
6547bf8ca13a 201025 hgs parents: diff changeset	96	HasNextTokenStream(TokenStream* tokens)
6547bf8ca13a 201025 hgs parents: diff changeset	97	: i_(true),
6547bf8ca13a 201025 hgs parents: diff changeset	98	next_(),
6547bf8ca13a 201025 hgs parents: diff changeset	99	buf_(),
6547bf8ca13a 201025 hgs parents: diff changeset	100	tokens_( tokens ){
6547bf8ca13a 201025 hgs parents: diff changeset	101	next_ = tokens_->next(&buf_[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	102	}
6547bf8ca13a 201025 hgs parents: diff changeset	103
6547bf8ca13a 201025 hgs parents: diff changeset	104	inline Token& next() {
6547bf8ca13a 201025 hgs parents: diff changeset	105	next_ = tokens_->next(&buf_[i_]);
6547bf8ca13a 201025 hgs parents: diff changeset	106	i_ = !i_;
6547bf8ca13a 201025 hgs parents: diff changeset	107	return buf_[i_];
6547bf8ca13a 201025 hgs parents: diff changeset	108	}
6547bf8ca13a 201025 hgs parents: diff changeset	109
6547bf8ca13a 201025 hgs parents: diff changeset	110	inline bool hasNext() {
6547bf8ca13a 201025 hgs parents: diff changeset	111	return next_;
6547bf8ca13a 201025 hgs parents: diff changeset	112	}
6547bf8ca13a 201025 hgs parents: diff changeset	113
6547bf8ca13a 201025 hgs parents: diff changeset	114	private:
6547bf8ca13a 201025 hgs parents: diff changeset	115	bool i_, next_;
6547bf8ca13a 201025 hgs parents: diff changeset	116	Token buf_[2];
6547bf8ca13a 201025 hgs parents: diff changeset	117	auto_ptr<TokenStream> tokens_;
6547bf8ca13a 201025 hgs parents: diff changeset	118	};
6547bf8ca13a 201025 hgs parents: diff changeset	119
6547bf8ca13a 201025 hgs parents: diff changeset	120
6547bf8ca13a 201025 hgs parents: diff changeset	121	}
6547bf8ca13a 201025 hgs parents: diff changeset	122
6547bf8ca13a 201025 hgs parents: diff changeset	123	PrefixQueryParser::PrefixQueryParser(const wchar_t* field)
6547bf8ca13a 201025 hgs parents: diff changeset	124	: field_(field) {}
6547bf8ca13a 201025 hgs parents: diff changeset	125
6547bf8ca13a 201025 hgs parents: diff changeset	126	PrefixQueryParser::~PrefixQueryParser() {}
6547bf8ca13a 201025 hgs parents: diff changeset	127
6547bf8ca13a 201025 hgs parents: diff changeset	128	auto_ptr<Query> PrefixQueryParser::parse(const wchar_t* query) {
6547bf8ca13a 201025 hgs parents: diff changeset	129	Cpt::Lex::WhitespaceSplitter split(query);
6547bf8ca13a 201025 hgs parents: diff changeset	130	QueryConstructor ret;
6547bf8ca13a 201025 hgs parents: diff changeset	131	while ( split ) {
6547bf8ca13a 201025 hgs parents: diff changeset	132	ret.add( toQuery( split++ ) );
6547bf8ca13a 201025 hgs parents: diff changeset	133	}
6547bf8ca13a 201025 hgs parents: diff changeset	134	return ret();
6547bf8ca13a 201025 hgs parents: diff changeset	135	}
6547bf8ca13a 201025 hgs parents: diff changeset	136
6547bf8ca13a 201025 hgs parents: diff changeset	137	const wchar_t* PrefixQueryParser::getField() const {
6547bf8ca13a 201025 hgs parents: diff changeset	138	return field_.c_str();
6547bf8ca13a 201025 hgs parents: diff changeset	139	}
6547bf8ca13a 201025 hgs parents: diff changeset	140
6547bf8ca13a 201025 hgs parents: diff changeset	141	void PrefixQueryParser::setDefaultOperator(cpix_QP_Operator op) {
6547bf8ca13a 201025 hgs parents: diff changeset	142	THROW_CPIXEXC("Prefix query parser does not support setting the default operator.");
6547bf8ca13a 201025 hgs parents: diff changeset	143	}
6547bf8ca13a 201025 hgs parents: diff changeset	144
6547bf8ca13a 201025 hgs parents: diff changeset	145	bool PrefixQueryParser::usePrefixFor(lucene::analysis::Token& token) {
6547bf8ca13a 201025 hgs parents: diff changeset	146	return !analysis::unicode::IsCjk(token.termText()[0]);
6547bf8ca13a 201025 hgs parents: diff changeset	147	}
6547bf8ca13a 201025 hgs parents: diff changeset	148
6547bf8ca13a 201025 hgs parents: diff changeset	149	auto_ptr<Query>
6547bf8ca13a 201025 hgs parents: diff changeset	150	PrefixQueryParser::toQuery(Cpt::Lex::Token word) {
6547bf8ca13a 201025 hgs parents: diff changeset	151	Analyzer& preAnalyzer( Analysis::getPrefixAnalyzer() );
6547bf8ca13a 201025 hgs parents: diff changeset	152	StringReader reader( word.begin(), word.length() );
6547bf8ca13a 201025 hgs parents: diff changeset	153	HasNextTokenStream tokens(
6547bf8ca13a 201025 hgs parents: diff changeset	154	preAnalyzer.tokenStream( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	155	&reader ) );
6547bf8ca13a 201025 hgs parents: diff changeset	156
6547bf8ca13a 201025 hgs parents: diff changeset	157	QueryConstructor ret;
6547bf8ca13a 201025 hgs parents: diff changeset	158
6547bf8ca13a 201025 hgs parents: diff changeset	159	while ( tokens.hasNext() ) {
6547bf8ca13a 201025 hgs parents: diff changeset	160	lucene::analysis::Token& token = tokens.next();
6547bf8ca13a 201025 hgs parents: diff changeset	161
6547bf8ca13a 201025 hgs parents: diff changeset	162	if ( usePrefixFor(token) ) {
6547bf8ca13a 201025 hgs parents: diff changeset	163	if (!tokens.hasNext()) {
6547bf8ca13a 201025 hgs parents: diff changeset	164	// Turn only last token of this word into prefix query
6547bf8ca13a 201025 hgs parents: diff changeset	165	ret.add(
6547bf8ca13a 201025 hgs parents: diff changeset	166	_CLNEW PrefixQuery( freeref( _CLNEW Term( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	167	token.termText() ) ) ) );
6547bf8ca13a 201025 hgs parents: diff changeset	168	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	169	// Others tokens can be normal term queries
6547bf8ca13a 201025 hgs parents: diff changeset	170	ret.add(
6547bf8ca13a 201025 hgs parents: diff changeset	171	_CLNEW TermQuery( freeref( _CLNEW Term( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	172	token.termText() ) ) ) );
6547bf8ca13a 201025 hgs parents: diff changeset	173	}
6547bf8ca13a 201025 hgs parents: diff changeset	174	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	175	Analyzer& termAnalyzer = Analysis::getQueryAnalyzer();
6547bf8ca13a 201025 hgs parents: diff changeset	176	StringReader reader( token.termText(), token.termTextLength() );
6547bf8ca13a 201025 hgs parents: diff changeset	177	HasNextTokenStream tokens(
6547bf8ca13a 201025 hgs parents: diff changeset	178	termAnalyzer.tokenStream( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	179	&reader ) );
6547bf8ca13a 201025 hgs parents: diff changeset	180
6547bf8ca13a 201025 hgs parents: diff changeset	181	Token& first = tokens.next();
6547bf8ca13a 201025 hgs parents: diff changeset	182	if (tokens.hasNext()) { // more than one
6547bf8ca13a 201025 hgs parents: diff changeset	183	auto_ptr<PhraseQuery> phrase( _CLNEW PhraseQuery() );
6547bf8ca13a 201025 hgs parents: diff changeset	184	phrase->add( freeref( _CLNEW Term( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	185	first.termText() ) ) );
6547bf8ca13a 201025 hgs parents: diff changeset	186	while (tokens.hasNext()) {
6547bf8ca13a 201025 hgs parents: diff changeset	187	phrase->add( freeref( _CLNEW Term( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	188	tokens.next().termText() ) ) );
6547bf8ca13a 201025 hgs parents: diff changeset	189	}
6547bf8ca13a 201025 hgs parents: diff changeset	190	ret.add( std::auto_ptr<Query>( phrase.release() ) );
6547bf8ca13a 201025 hgs parents: diff changeset	191	} else {
6547bf8ca13a 201025 hgs parents: diff changeset	192	ret.add(
6547bf8ca13a 201025 hgs parents: diff changeset	193	_CLNEW TermQuery( freeref( _CLNEW Term( field_.c_str(),
6547bf8ca13a 201025 hgs parents: diff changeset	194	first.termText() ) ) ) );
6547bf8ca13a 201025 hgs parents: diff changeset	195	}
6547bf8ca13a 201025 hgs parents: diff changeset	196	}
6547bf8ca13a 201025 hgs parents: diff changeset	197	}
6547bf8ca13a 201025 hgs parents: diff changeset	198	return ret();
6547bf8ca13a 201025 hgs parents: diff changeset	199	}
6547bf8ca13a 201025 hgs parents: diff changeset	200
6547bf8ca13a 201025 hgs parents: diff changeset	201	}

author	hgs
	Mon, 06 Sep 2010 09:24:34 +0530
changeset 19	e3c09e9691e0
parent 16	2729d20a0010
permissions	-rw-r--r--