请选择 进入手机版 | 继续访问电脑版

人工智能论坛

 找回密码
 立即注册
查看: 2483|回复: 10

最近写了一个分词算法

[复制链接]
发表于 2015-2-5 20:44:00 | 显示全部楼层 |阅读模式
最近突发奇想,写了一个分词算法,有个和以往的算法不同的地方,它不需要事先定义词库。不过需要喂给它一些文章。

算法原理是基于统计的,统计文章中1个字,2个字,3个字,4个字,5个字出现的频率。

然后给他一句话,他来查询里面的词语出现频率,词语出现频率越高,越有可能是词语。

不过算法还没有写完。不知道可不可靠。
回复

使用道具 举报

 楼主| 发表于 2015-2-5 20:46:00 | 显示全部楼层

这个是一个字的统计


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-5 20:47:00 | 显示全部楼层

这个是两个字的统计


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-5 20:49:00 | 显示全部楼层

3个字。。
4个字。。
5个字




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-5 20:51:00 | 显示全部楼层

词语后面的数字是统计时总共出现的次数


本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-5 20:54:00 | 显示全部楼层





本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复 支持 反对

使用道具 举报

 楼主| 发表于 2015-2-5 20:59:00 | 显示全部楼层
不过现在喂给它的文章还太少了,还有待继续试验的说
回复 支持 反对

使用道具 举报

发表于 2015-2-5 22:18:00 | 显示全部楼层
设计思想和灵巧!可以写一个类似搜索引擎的网页爬行程序,让他自己在网络里。找文章看。学习多了,应该能跟趋近与中文分词。但是,可能一句话在不同的语境有不同分词方法。不过迭代开发,一步一步来吧。
回复 支持 反对

使用道具 举报

发表于 2015-2-5 22:22:00 | 显示全部楼层
不错的
回复 支持 反对

使用道具 举报

发表于 2015-2-5 22:47:00 | 显示全部楼层
不错
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|积分充值|小黑屋|手机浏览|人工智能实验室 ( 苏ICP备12079930号

GMT+8, 2017-10-21 00:03 , Processed in 0.241488 second(s), 23 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表