2009-03-23

中文分词文献列表



 
 

Sent to you by jeffye via Google Reader:

 
 


发信人: Euler9 (欧拉), 信区: NLP
标 题: 中文分词文献列表
发信站: 水木社区 (Fri Mar 20 23:30:38 2009), 站内

还相当相当不全,抛砖引玉,希望大家告诉我漏了哪些重要文献,我会补上:

2008

* A Cascaded Linear Model for Joint Chinese Word Segmentation and Part-of-Speech Tagging ACL Jiang Wenbin, Liang Huang, Qun Liu, Yajuan Lü

perceptron

*标注系统,4元的分词标注直积词性标注
*核心是感知器,由于基于词的binary特征数目太多,所以感知器只用基于字的特征。
*后面还是一个线性模型,加上很多非binary的基于词以及标注的特征。

* Joint Word Segmentation and POS Tagging Using a Single Perceptron ACL Zhang, Y. & Clark, S.

*用perceptron,两个baseline系统,分别是分词与词性标注,都是binary特征
*特征包括字的特征,词的特征,长度特征等的组合。
*两个一起做比分别做好。好得不多

2007

* 中文分词十年回顾 中文信息学报 黄昌宁, 赵海

*中文词的认同度。从863、973到sig han评测。语料库的质量控制(包括对"心理词"的规则制定)。
*基于语法的、基于规则的不如基于词的,又被基于字的取代。
*大规模真实文本中未登录词造成的分词精度失落比歧义切分造成的精度失落至少大5倍以上。
*基于字的,最大熵,SVM,CRF等。
*词位转移,2标注,4标注,微软的6标注。5字窗口足够了。

* A hybrid approach to word segmentation and pos tagging ACL poster Nakagawa, T., and K. Uchimoto

* Shi, Y. & Wang, M., 2007. A dual-layer CRFs based joint decoding method for cascaded segmentation and labeling tasks. In International Joint Conferences on Artificial Intelligence (IJCAI).

双层CRF做分词与词性标注,中规中矩。
#第一层基于字信息分词;第二层基于词,以及字信息标注词性。
#两层CRF分开训练,联合测试。第一层找N-best,再综合第一层第二层的结果重新排序。

* Zhang, Y. & Clark, S., 2007. Chinese Segmentation with a Word-Based Perceptron Algorithm. In Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics. Prague, Czech Republic: Association for Computational Linguistics, pp. 840–847. Available at: http://www.aclweb.org/anthology/P/P07/P07-1106.

*采用average perceptron,然后用一种lazy update的方法。

 
 

Things you can do from here:

 
 

0 评论:

Post a Comment

Popular Posts