CAS OpenIR  > 中科院上海应用物理研究所2011-2019年
基于聚类和索引技术的语言模型压缩方法
祁斌川; 杨端端; 丁建国
2012
Source Publication计算机技术与发展
ISSN1673-629X
Issue12Pages:25-28
Abstract由于训练语料的庞大,SRILM训练生成的ARPA统计语言模型数据文件体积过大,导致查找效率低下以及消耗大量的存储空间。针对该问题,借鉴聚类和索引查找的思想,提出了一种基于K均值(K-means)聚类算法的对语言模型中的转移概率和回退概率压缩,并通过多级索引技术提高查找速度的压缩方法。理论分析和实验表明,该方法可以在减少压缩造成的数据失真对选词影响的同时,取得非常好的压缩效果,同时提高了对语言模型文件查找效率,并且输入法的反应速度得到了明显的提升。
Indexed ByCNKI
Language中文
Funding Project应物所项目组
Document Type期刊论文
Identifierhttp://ir.sinap.ac.cn/handle/331007/12759
Collection中科院上海应用物理研究所2011-2019年
Recommended Citation
GB/T 7714
祁斌川,杨端端,丁建国. 基于聚类和索引技术的语言模型压缩方法[J]. 计算机技术与发展,2012(12):25-28.
APA 祁斌川,杨端端,&丁建国.(2012).基于聚类和索引技术的语言模型压缩方法.计算机技术与发展(12),25-28.
MLA 祁斌川,et al."基于聚类和索引技术的语言模型压缩方法".计算机技术与发展 .12(2012):25-28.
Files in This Item: Download All
File Name/Size DocType Version Access License
基于聚类和索引技术的语言模型压缩方法.c(339KB) 开放获取LicenseView Download
Related Services
Recommend this item
Bookmark
Usage statistics
Export to Endnote
Google Scholar
Similar articles in Google Scholar
[祁斌川]'s Articles
[杨端端]'s Articles
[丁建国]'s Articles
Baidu academic
Similar articles in Baidu academic
[祁斌川]'s Articles
[杨端端]'s Articles
[丁建国]'s Articles
Bing Scholar
Similar articles in Bing Scholar
[祁斌川]'s Articles
[杨端端]'s Articles
[丁建国]'s Articles
Terms of Use
No data!
Social Bookmark/Share
File name: 基于聚类和索引技术的语言模型压缩方法.caj
Format: Unknown
This file does not support browsing at this time
All comments (0)
No comment.
 

Items in the repository are protected by copyright, with all rights reserved, unless otherwise indicated.