• 专利申请
    2016-03-07
  • 公布公告
    2019-02-01
  • 授权日期
    2019-02-01
  • 终止
    2029-01-29
一种基于不平衡数据集的文本特征选择方法
一种基于不平衡数据集的文本特征选择方法
* 专利信息仅供参考,不具有法律效力。 有效专利
CN201610128100.1 2016-03-07 G06F16/35 {{ classMap["G06F16/35"] }}
浙江工业大学 查看申请人名下所有专利
浙江省杭州市下城区潮王路18号浙江工业大学科技处
专利分类项目
专利注册信息
初审公告期号 2016-03-07 初审公告日期 2019-02-01
注册公告期号 2019-02-01 注册公告日期 2019-02-01
专用权期限 2019-02-01 - 2029-01-29 专利类型 发明授权
代理组织机构 杭州天正专利事务所有限公司 查看该机构代理的所有专利
专利介绍
一种基于不平衡数据集的文本特征选择方法,在计算机上计算不平衡文档的特征集合,选择分类算法模型进行建模,具体包括以下步骤:步骤1将数据集分成多数类和少数类,并规定少数类为正类,用ci表示;多数类为负类,用表示;步骤2将数据集中的文本进行预处理,分词、去除停用词等操作,形成特征t的集合T;步骤3在不平衡类别文档中分别计算每个特征t对应的以下参数A、B、C、D、N;步骤4在不平衡类别文档中分别计算每个特征t在不同类别下的新的χ2(t,ci);步骤5在不平衡类别文档中分别设置筛选特征的阈值,并根据每个特征计算出来的χ2(t,ci)按照大小顺序排列,按照类别取出指定特征数目的特征集合T';步骤6根据特征选择后的特征集合T',选择合适的分类算法模型(决策树、支持向量机、贝叶斯等)进行建模。
法律进度
  • 2019-02-01 授权 ...

  • 2016-08-24 实质审查的生效 IPC(主分类): G06F 17/30 专利申请号: 201610128100.1 申请日: 2016. ...

  • 2016-07-27 公开 ...

同类专利
  • 一种基于K-means和LDA双向验证的网络行为习惯聚类方法

  • 一种字符串分类方法、系统及一种字符串分类设备

  • 一种基于文献引用关系的刊物聚类方法

  • 一种资源结构化链接的信息快速分类方法

  • 一种基于相似度模型和FastText的多标签文本分类方法

  • 一种基于神经网络的实体关系抽取方法

  • 一种基于WSD层级记忆网络的文档建模分类方法

  • 一种面向客服在线质检的文本分类方法

  • 一种多轮对话的分类方法

  • 基于膜计算的Web服务混合进化聚类方法

  • 基于互联网服务域的REST数据服务聚类方法

  • 一种情感分析方法、系统、存储介质及设备

咨询该专利

您还可以
推荐专利
{{ v.name }}
取 消 确 定