Ubuntu下安装Stanford CoreNLP

管理• 2025-04-13 14:28 •技术资讯

Stanford CoreNLP提供了一系列自然语言分析工具。它能够给出基本的词形，词性，不管是公司名还是人名等，格式化的日期，时间，量词，并且能够标记句子的结构，语法形式和字词依赖，指明那些名字指向同样的实体，指明情绪，提取发言中的开放关系等。

很多自然语言处理的任务都需要stanfordcorenlp将进行文本处理。在Linux环境下安装stanfordcorenlp也比较简单。

首先需要安装Java运行环境，以Ubuntu 12.04为例，安装Java运行环境仅需要两步：

sudo apt-get install default-jre
sudo apt-get install default-jdk12

然后下载Stanford coreNLP 包：

wget http://nlp.stanford.edu/software/stanford-corenlp-full-2018-02-27.zip

unzip stanford-corenlp-full-2018-02-27.zip

cd stanford-corenlp-full-2018-02-27/12345

也可以去stanford corenlp的官网上去下载安装包，windows跟linux下都是一样的。

配置环境变量：

我们需要Stanford corenlp来把数据分词。
把下列这行代码加到你的.bashrc里面(vim .bashrc)

export CLASSPATH=/path/to/stanford-corenlp-full-2018-02-27/stanford-corenlp-3.9.1.jar1

把/path/to/替换为你保存stanford-corenlp-full-2016-10-31的地方的路径

安装：

sudo pip3 install stanfordcorenlp1

这里如果你使用python2，就需要

sudo pip2 install stanfordcorenlp1

处理中文还需要下载中文的模型jar文件，然后放到stanford-corenlp-full-2018-02-27根目录下即可

wget http://nlp.stanford.edu/software/stanford-chinese-corenlp-2018-02-27-models.jar1

如何检查自己是否装好了stanfordcorenlp

进入python2或者python3

python2

from stanfordcorenlp import StanfordCoreNLP123

能成功导入不报错，就是安装成功了。

最后检查是否能正常使用：

运行下列代码：

echo “Please tokenize this text.” | java edu.stanford.nlp.process.PTBTokenizer1

你会看到下列输出：

Please
tokenize
this
text
.
PTBTokenizer tokenized 5 tokens at 68.97 tokens per second.123456

这样就安装成功了。

文章来源网络，作者：管理，如若转载，请注明出处：https://shuyeidc.com/wp/218322.html<

赞 (0)

Linux：推动世界的开源操作系统（linux主要干什么用）

上一篇2025-04-13 14:28

Ubuntu下使用Grafana 监控 Docker

下一篇 2025-04-13 14:29

技术资讯
骨干网络体系结构能干什么？骨干网络体系结构的作用
骨干网络体系结构是现代信息社会的“超级高速公路网”，它通过分层设计、冗余备份和智能调度，确保海量数据在全球范围内高速、稳定、安全地传输，是支撑云计算、物联网及人工智能应用的底层基石，想象一下,如果你把互联网比作一个巨大的城市交通系统，那么骨干网络就是连接各个城市的主干道和立交桥，没有它，你的每一次微信发送、每一……
管理
2026-06-18
00
技术资讯
高io数据库可以干什么用？高io数据库适合什么场景
高IO数据库的核心价值在于通过极高的读写吞吐量，解决海量数据场景下的性能瓶颈，是支撑高并发交易、实时分析及大规模内容分发的关键基础设施，在数字化转型的深水区,数据不再仅仅是静态的记录，而是流动的资产，传统的机械硬盘或普通SSD早已无法满足现代应用对速度的极致追求，高IO（Input/Output）数据库，就是那……
管理
2026-06-18
00
技术资讯
高io服务器性能如何？高io服务器适合什么场景
高IO服务器并非单纯指代某种硬件，而是指在随机读写、高并发连接及小文件处理场景下，具备极致IOPS（每秒输入输出操作次数）和低延迟特性的计算资源，它是支撑现代高并发应用稳定运行的核心基石，在2026年的数字化浪潮中,业务负载早已从简单的静态页面展示演变为复杂的实时数据处理，许多开发者在排查系统瓶颈时，往往忽略了……
管理
2026-06-18
00
技术资讯
隔离网络空间哪里便宜？国内隔离网络空间价格
隔离网络空间并没有统一的“便宜”标准，其成本高度取决于物理隔离等级、带宽需求及安全合规要求，通常物理网闸方案初期投入较高但长期运维成本低，而逻辑隔离方案虽初期便宜但存在潜在安全风险，建议根据业务敏感度选择混合隔离架构以平衡成本与安全，在数字化时代,企业构建独立网络环境的需求日益增长，但“隔离网络空间哪里便宜”这……
管理
2026-06-18
00
技术资讯
骨干网络体系结构设备为何故障？常见原因有哪些
骨干网络体系结构设备故障的核心原因通常归结为硬件老化、配置错误、物理链路中断及外部攻击四大类，其中电源模块失效与光模块性能衰减是占比最高的隐性故障源，骨干网作为数字经济的“大动脉”，其稳定性直接关乎国计民生，当核心路由器或交换机出现丢包、震荡甚至宕机时，运维人员往往面临巨大的压力，很多人第一反应是检查软件配置……
管理
2026-06-18
00

发表回复