数据分析与知识发现

所属栏目：科技期刊热度：时间：

数据分析与知识发现 关注(): 期刊周期：周刊; 期刊级别：南大核心; 国内统一刊号：10-1478/G2; 国际标准刊号：2096-3467; 主办单位：中国科学院文献情报中心; 主管单位：中国科学院; 查看数据分析与知识发现近十年数据入口>>>; 上一本期杂志：数字传媒研究杂志2018年05期论文目录; 下一本期杂志：应用技术学报杂志2018年征收论文栏目要求

　　《数据分析与知识发现》(月刊)创刊于1985年，是中国科学院主管、中国科学院文献情报中心主办的计算机信息管理技术方面的学术性刊物，是国内唯一一份被中国图书馆学会和中国科技情报学会共同推荐的专业技术类核心期刊。刊物设有“数字图书馆”、“知识组织与知识管理”、“情报分析与研究技术”、“应用实践”、“动态”等一系列固定类栏目以及“特邀专栏”、“企业技术之窗”等不定期栏目。

　　《数据分析与知识发现》内容定位于广泛吸纳计算机科学、数据科学、情报科学以及数字科研、数字教育和数字文化等领域的技术与方法，研究数据驱动的语义计算、内容分析、数据挖掘、知识发现、智能管理和决策支持等方面的技术、方法、系统以及支撑设施、政策与机制等，尤其是聚焦从海量、异构、分布、动态、甚至富媒体数据中挖掘和发现知识以支持研究、管理和决策的理论、方法和技术。

　　《数据分析与知识发现》办刊宗旨是聚焦各行各业中以大数据为基础，依靠复杂挖掘分析方法，进行知识发现与预测、支持决策分析和政策制定的研究与应用，致力于提供理论指导、技术支持和最佳实践。

　　《数据分析与知识发现》栏目设置

　　数学图书馆、知识组织与知识管理、情报分析与研究、应用实践、动态、特邀专栏、金融证券管理、企业信息管理技术

　　《数据分析与知识发现》杂志荣誉

　　CSSCI 南大核心期刊(中文社会科学引文索引)(含扩展版)万方收录(中)上海图书馆馆藏国家图书馆馆藏知网收录(中)维普收录(中)中国期刊全文数据库(CJFD)中国核心期刊遴选数据库

　　2018年《数据分析与知识发现》杂志08期投稿论文目录：

　　基于t-SNE降维的科学基金资助项目可视化方法研究陈挺;李国鹏;王小梅;

　　基于BRFSS数据库应用人工神经网络构建儿童哮喘预测模型马晓宇;张晗;赵玉虹;

　　新一代知识问答平台中提问者付费意愿的影响因素探究赵宇翔;刘周颖;宋士杰;

　　基于预警平台大数据的事件旅游客流时空分布研究王玲;代前进;吴晓隽;

　　面向微博短文本分类的文本向量化方法比较研究李心蕾;王昊;刘小敏;邓三鸿;

　　基于LDA和AdaBoost多特征组合的微博情感分析曾子明;杨倩雯;

　　基于领域本体的产品网络口碑信息多层次细粒度情感挖掘何有世;何述芳;

　　跨设备搜索中设备转移前后查询式语义变化研究吴丹;陆柳杏;

　　等待感知对于移动信息产品用户满意度的影响研究——以数字小说书架为例马艳阳;刘玉磊;徐伯初;支锦亦;

　　收录论文：面向微博短文本分类的文本向量化方法比较研究

　　【摘要】：【目的】利用Word2Vec和Sent2Vec算法生成新浪微博的文本的向量化表示形式,以期在文本分类时获得较低的计算成本和较高的分类效果。【方法】使用文本中词的0-1矩阵进行分类,将分类效果作为基准线;采用Word2Vec算法生成词向量并用不同方式合成句子的向量表示,进行文本分类,并与基准线进行对比;利用Sent2Vec算法直接生成句子向量进行分类,综合评价3种方法的优缺点。【结果】研究显示使用Word2Vec算法和Sent2Vec算法能够极大程度上压缩文本特征,对比于使用所有3万多个词作为特征,Word2Vec算法和Sent2Vec算法将特征数压缩在1 000以内。在分类准确率方面,Word2Vec算法的分类准确率比基准线低约3%,准确率为75.14%。Sent2Vec算法的分类效果远不如其他两种方法,准确率只有63.08%。【局限】由于语料有限,Word2Vec算法在计算词向量时可能缺少足够的语义信息,导致词向量的准确性不高,而Sent2Vec算法在中文文本语境下生成句向量的分类结果较差。【结论】Word2Vec算法更适用大规模语料文本分类,在文本量较少时应使用词为特征分类。

　　数据分析与知识发现最新期刊目录

基于重叠社区的谣言抑制最大化研究————作者：徐梦瑶;孙斌;江涛;崔家豪;

摘要：[目的]针对谣言抑制中对节点位置与社区重叠特性考虑不足的问题，提出一种谣言抑制框架RSM-OC。[方法]该框架创新地提出使用信任中心值来精准识别关键节点，结合重叠节点构成候选种子集，最后利用遗传算法优化正种子节点集，并采用单向状态转换的线性阈值模型模拟谣言与真相的博弈。[结果]在四个真实数据集上的实验显示，RSM-OC方法相较于基线算法的谣言抑制率平均提升23.3%，真相传播范围平均扩大两倍，特别...

考虑样本语义特征与类簇结构特征的IDCCM文本深度聚类方法研究————作者：李婕;张智雄;

摘要：[目的]深度综合关联挖掘图像聚类方法DCCM局限于基于样本语义特征进行聚类，无法充分利用类簇结构特征中蕴含的具有高判别性的类间结构关系，制约了DCCM聚类性能的进一步提升。 [方法]本文提出融合类簇结构特征的改进模型Improved-DCCM。首先，以DCCM作为基础聚类模型，引入基于高斯分布的文本数据增强策略，继承DCCM的样本语义特征挖掘能力。在此基础上，通过样本变量与类簇变量之间的互信息损...

生成式AI对话中的提示词策略有效性探究————作者：周洁;王东毅;代沁泉;夏苏迪;

摘要：[目的]本研究旨在探索普适的生成式AI有效提示词策略，以提升用户的交互技能和优化使用体验。[方法]采用Q方法，邀请用户根据其在通用场景、跨任务及跨模型的生成式AI使用经验，对不同提示词策略的有效性进行排序，从而识别出具有普适性的有效提示词策略类型。[结果]研究发现，最有效的提示词策略包括明确问题、明确目标和提供背景信息。普适性有效提示词策略可分为三类：明确需求与精确指引型、清晰解释与逻辑排序型、拆...

基于可解释自适应加权Stacking集成学习的电影IP衍生品开发效果预测————作者：倪渊;李翔宇;张健;董飞星;

摘要：[目的]构建可解释集成学习模型，为预测电影IP衍生品的开发效果提供新的决策方式。 [方法]基于价值链理论解析电影IP衍生品开发过程，构建预测指标体系。基于KLLB模型对影响因素进行提取筛选、构建预测标签。提出基于AWStacking的开发效果预测模型。 [结果]以XGBoost、CatBoost、RF为基学习器，LR为元学习器的AWStacking算法预测效果最好，宏平均精确率为0.8699，...

基于多源数据间主题时序扩散网络的研究前沿探测方法研究————作者：李广;吴新年;宁宝英;

摘要：[目的] 设计基于多源数据间主题时序扩散网络模型，进行动态计量数据源权重的研究前沿探测。 [方法] 通过分析前沿主题的时间、扩散和网络特征，提出基于主题时序扩散网络的研究前沿探测方法体系、指标体系和立体判别坐标图，最后在人工智能领域进行实证分析。 [结果] 动态计量出多源数据权重（战略规划0.301、科技报告0.234、基金项目0.124、专利文献0.122、会议论文0.113、期刊论文0.105...

基于时空图结构学习与路线特征增强的行程时间预测研究————作者：潘晓;董慧;陈晓;

摘要：[目的]针对目前多任务行程时间预测研究中，存在的刻画路段波及效应影响范围的灵活性不足，以及在标注数据受限情况下模型学习能力较差的问题，提出一种基于时空图结构学习与路线特征增强的行程时间预测方法。[方法]该方法首先利用自适应机制初始化基础的时空图结构，并构建基于Encoder-only的学习组件，灵活且深入地捕捉全域路网范围内路段间的时空交互依赖关系，从而生成高质量的波及效应时空图及相应的时空特征表...

基于Rank一致性与假设检验方法的专利语义相似度测度效果评价方法及其应用————作者：周健;吕璐成;李佳政;赵亚娟;

摘要：【目的】构建专利语义相似度测度效果量化评价方法，实现多种专利语义相似度测度方法的客观评价。【方法】基于同一分类层级下专利语义相似度更高的思想，兼顾时间与技术领域因素自动构造测度效果评价数据集，设计Rank一致性指标指标和假设检验方法来构建针对不同向量化模型的专利语义相似度测度效果评价方法，并构建中文和英文专利数据集进行评价方法的实证。【结果】本文选择基于L1距离的Rank一致性指标与U检验进行了实...

基于RF-ISSA-SVM和SHAP的疾病诱因可解释性模型—以肥胖症为例————作者：马捷;孙文晶;郝志远;

摘要：[目的]本研究旨在构建具有可解释性的高质量疾病预测模型，通过识别影响疾病形成的关键诱因，并进一步分析诱因对于疾病的作用方式，从而为辅助诊断和精准医疗赋能助力。 [方法]以肥胖症为研究对象，首先，利用随机森林模型在疾病数据的多维特征中筛选出最具代表性的特征子集；其次，通过构建增强型麻雀搜索算法实现支持向量机核参数与惩罚系数的自适应获取；然后，同步应用优化后的支持向量机模型对数据样本进行预测分析，并...

科学数据推荐研究综述————作者：张博睿;杨宁;张鑫;文奕;

摘要：[目的]总结国内外科学数据推荐的研究现状，为促进科学数据共享研究提供理论基础。 [文献范围]在CNKI、WOS、Google Scholar中使用“科学数据推荐”、“科学数据集推荐”、“Scientific data recommendation”、“Scientific dataset recommendation”等关键词进行检索，并结合主题筛选和追溯法，筛选出71篇代表性文献。 [方法]基于...

专利策略视角下基于深度学习的专利商业化潜力预测方法研究————作者：向姝璇;毛进;李纲;

摘要：[目的]就现有方法替代指标选取、特征体系构建、模型结构设计上对专利商业化潜力与专利策略关联利用不足的问题提出一个新的专利商业化潜力预测方法。[方法]将专利实际维持时间是否超过设定阈值作为判断商业化潜力的标准，提出由特征处理模块与多任务并行预测模块构成的LSTM+MTNN模型。特征处理模块拼接数值特征与Bert+SimCSE及LSTM模型生成的文本连续特征形成多任务并行预测模块的输入。多任务并行（M...

多维细粒度政策知识图谱构建方法————作者：赵雅洁;冯凌子;袁军鹏;王立学;

摘要：[目的]政策蕴含丰富的信息资源，加强政策知识图谱顶层设计，构建适配领域特性的通用政策知识图谱，可将碎片化政策信息进行高效融合、共享和利用。[方法]运用解构主义观点，融合对齐多理论与政策要素定位，实现多维度政策知识表示，形成模式层；结合网络获取、索引匹配、全文解析、实体识别与文本分类模型，设计细粒度知识要素抽取方法，获取数据层；利用Neo4j图数据库实现知识存储，可视化形成知识图谱。[结果]最终构建...

关键核心技术识别的研究进展————作者：仵轩;李广建;潘佳立;

摘要：【目的】对关键核心技术识别相关成果进行系统综述，厘清其研究重点与发展脉络，以期为后续研究提供参考。【文献范围】基于关键核心技术的系统分析制定检索式，在Web of Science和CNKI数据库中进行文献检索，获取661篇论文进行定量分析，经人工筛选得到60篇代表性文献进行综述。【方法】首先，归纳关键核心技术的概念特点及检索策略以明晰综述范围；其次，分析关键核心技术的特征体系及识别标准以厘清研究思...

用于隐私政策合规性分析的知识融入提示学习方法————作者：李非燕;曹诗权;苏宇;

摘要：【目的】在数字化转型和移动互联网快速发展的背景下，隐私政策合规性分析已成为关键议题。以往的自动化分析方法主要关注隐私政策的完整性，忽略了分析隐私政策的一致性。同时，这些方法需要大量的标注样本，限制了其使用场景。本文致力于提出一种兼顾完整性和一致性、且不需要标注样本的自动化隐私政策合规性分析方法。【方法】首先，根据《个人信息保护法》等相关法规标准，从完整性和一致性两个角度构建了隐私政策合规性评价体系...

融合时态信息和图结构动态演化的知识图谱补全模型研究————作者：张强;高颖;任豆豆;马志远;周洪;陶皖;

摘要：[目的]知识图谱内蕴含海量的元组数据，且蕴含时态信息的知识图谱可将随时间变化的事实进行有效保留及使用。探究时态知识图谱补全任务对图谱内动态数据的完备性及其下游应用的发展有着重要意义。[方法]针对当前多数方法将时态知识图谱视为离散数据，无法准确反应事物与时间信息的关系，忽略了局部图结构演化与形成过程，以及全局图结构演化所代表的图谱连续形成模式。本文设计了如下流程：针对局部结构捕获，提出基于表示强化的...

基于集成学习与半监督学习的突发事件识别研究————作者：田甜俊子;朱学芳;

摘要：[目的]缓解应急管理中高领域适配性标注数据稀缺的现状，提高事件识别效果。[方法]研究基于集成学习与半监督学习提出一个持续自动标注学习机制，并结合实体识别、共现网络分析、情感分析等技术实现一个突发事件识别系统。[结果]持续自动标注学习机制能够使用全量数据的20%～35%达到与全量数据相当甚至更好的识别效果。[局限]当前研究收集的数据来源于中国新闻网单一网站，且注重对已有情报的挖掘，在丰富数据来源、应...

基于多模态桥连接的社交媒体多标签情感分析————作者：于玉海;邢志琦;孟佳娜;高临霖;王博林;

摘要：[目的]在互联网迅速普及的时代，人们可以在数字平台上以多种形式表达自己的情感，多模态情感分析已成为研究热点，其研究结果将为情感分析提供有力支持。[方法]首先提取单模态的特有特征和多模态的共有特征，然后使用跨模态桥连接实现多模态融合，最后引入多头自注意力机制进行多标签预测，有效捕捉不同情绪标签之间的共现关系。[结果]在CMU-MOSEI数据集上的实验结果表明，本文模型在不同参数和对比实验中，相比于基...

面向问题域的方法知识创新路径识别研究——以计算语言学领域为例————作者：毛进;梁瑜萱;

摘要：[目的]通过厘清领域的研究问题、识别领域研究方法的创新路径，帮助掌握领域发展的重点方向和领域内方法创新的演化脉络。[方法]本文首先提出方法创新知识表示模型，利用SciBERT-BiLSTM-CRF模型识别论文全文中的问题知识与方法知识；然后根据共现关系分别构建领域问题网络和方法创新网络；最后使用社区发现算法对领域问题网络进行子类划分，并采用网络全局搜索提取面向问题域的方法知识创新主路径。[结果]从...

大模型主旨增强的图文多模态句子摘要生成方法————作者：张乐;许央科;陈岩松;张雷瀚;

摘要：[目的] 运用图文信息进行摘要生成的过程中，针对图文信息不完全和参考摘要相关，直接融合导致噪声信息引入的问题，提出一种大模型主旨增强的图文多模态句子摘要生成方法。 [方法] 对大语言模型进行微调以生成高质量的主旨和关键词信息，运用注意力机制有效地融合主旨和图片信息以减少多模态特征内存在的噪声信息；将原文本和关键词进行融合以获得增强主旨信息的多模态语义补充特征，最后融合两种特征生成多模态摘要。 ...

基于隐喻信息和指令调优的心理疾病检测————作者：张冬瑜;庄沐霖;靳森源;刘馨月;

摘要：[目的] 针对目前大量心理疾病检测研究未能充分考虑到隐喻性信息在疾病识别过程中的关键作用，提出一种基于隐喻信息和指令调优的心理疾病监测方法。[方法] 该方法的核心在于通过隐喻识别技术引入隐喻信息，这包括对隐喻的使用频率和隐喻中的实体间关联性进行分析。此外，利用大语言模型捕捉症状和情绪信息，并整合这些特征，构建了指令集，对模型进行有效训练。[结果] 本文模型在Twitter-Depression和M...

基于视觉线索学习的多模态命名实体识别————作者：白宇;王连吉;刘翔;袁金福;张桂平;

摘要：[目的]为提高多模态命名实体识别的效果，本文通过计算实体锚文本与图像区域的语义相关性来过滤不相关视觉区域，达到消除视觉噪声的目的。[方法]使用提示词代替类别词作为实体锚文本对视觉区域进行语义相关性评估，通过降低无关视觉区域的权重来消除无关视觉区域对实体识别的影响，采用多层交互式Transformer进行文本-视觉的模态融合，并通过CRF层实现实体识别。[结果]在公开数据基准上的实验结果表明，本文方...

　　相关科技期刊推荐

　　核心期刊推荐

查看更多科技期刊