Установка CKAN в CentOS 7¶
За основу взята инструкция по установке из официальной документации.
Установка системных пакетов¶
Устанавливаем необходимые пакеты:
sudo yum install epel-release
sudo yum install python-pip python-virtualenv python-devel
sudo yum install git gcc-c++ java-1.8.0-openjdk unzip lsof libxml2-devel libxslt-devel mailcap
sudo yum install postgresql postgresql-server postgresql-libs postgresql-contrib postgresql-devel
Предупреждение
Если на сервере, куда устанавливается CKAN, уже установлен NextGIS Web, то пакеты для PostgreSQL ставить не нужно. В этом случае PostgreSQL уже должен быть установлен и настроен.
Установка CKAN¶
Создаём пользователя CKAN:
sudo useradd -m -s /sbin/nologin -d /usr/lib/ckan -c "CKAN User" ckan
Домашняя папка пользователя CKAN остальным пользователям системы доступна только на чтение:
sudo chmod 755 /usr/lib/ckan
Переключаемся на только что созданного пользователя:
sudo su -s /bin/bash - ckan
Устанавливаем виртуальное окружение default
:
virtualenv --no-site-packages default
И активируем его:
. default/bin/activate
Скачиваем и устанавливаем последнюю версию CKAN. На момент написания данной инструкции это версия CKAN 2.5.2. Если вы устанавливаете другую версию, то измените URL в следующей команде:
pip install -e git+https://github.com/okfn/ckan.git@ckan-2.5.2#egg=ckan
Устанавливаем пакеты Python, от которых зависит CKAN:
pip install -r default/src/ckan/requirements.txt
Настройка PostgreSQL¶
Инициализируем базу данных и включаем автоматический запуск PostgreSQL при старте системы:
sudo postgresql-setup initdb
systemctl start postgresql
systemctl enable postgresql
Предупреждение
В ходе работы с CKAN размер базы будет увеличиваться, поэтому в случае необходимости кластер базы данных должен быть вынесен в папку с достаточным объёмом дискового пространства.
Создаём пользователя базы данных ckan_default
и
саму базу также названную ckan_default
:
sudo -u postgres createuser -S -D -R -P ckan_default
sudo -u postgres createdb -O ckan_default ckan_default -E utf-8
Отредактируем параметры аутентификации в соответствующем файле:
sudo nano /var/lib/pgsql/data/pg_hba.conf
Отредактируем его таким образом, чтобы в нём присутствовали следующие
строки (исправим метод аутентификации на md5
, если указан иной):
# IPv4 local connections:
host all all 127.0.0.1/32 md5
# IPv6 local connections:
host all all ::1/128 md5
Предупреждение
Предполагается, что CKAN и PostgreSQL установлены на одном хосте. Если это не так, то потребуется дополнительная настройка PostgreSQL.
Не забудьте перезапустить PostgreSQL:
systemctl restart postgresql
Предупреждение
Если вы устанавливали PostgreSQL из стороннего репозитория,
например отсюда, то может
потребоваться дополнительная настройка переменной PATH
,
либо придётся писать полный путь до команд, например,
/usr/pgsql-9.5/bin/psql
.
Создание конфигурационного файла CKAN¶
sudo mkdir -p /etc/ckan/default
sudo chown -R ckan /etc/ckan/
Переключаемся на пользователя CKAN и создаём конфигурационный файл:
sudo su -s /bin/bash - ckan
. default/bin/activate
cd /usr/lib/ckan/default/src/ckan
paster make-config ckan /etc/ckan/default/development.ini
Отредактируйте файл development.ini
, указав пароль пользователя
ckan_default
и URL сайта, по которому будет доступен CKAN:
sqlalchemy.url = postgresql://ckan_default:pass@localhost/ckan_default
ckan.site_url = http://82.162.194.216
ckan.root_path = /ckan/{{LANG}}
Установка Solr5¶
Скачиваем Solr. На текущий момент последняя версия - 5.5.0:
wget http://apache-mirror.rbc.ru/pub/apache/lucene/solr/5.5.0/solr-5.5.0.zip
unzip solr-5.5.0.zip
cd solr-5.5.0/bin
Устанавливаем Solr в /opt/solr5
:
unzip solr-5.5.0.zip
cd solr-5.5.0/bin
sudo mkdir /opt/solr5
sudo ./install_solr_service.sh ../../solr-5.5.0.zip -i /opt/solr5
После установки сервиса он будет запускаться автоматически при старте
системы. Скрипт запуска находится в файле /etc/init.d/solr
.
Создадим отдельное ядро Solr для CKAN:
sudo su solr
cd /opt/solr5/solr/bin
./solr create -c ckan
Настроим схему:
cd /var/solr/data/ckan/conf
ln -s /usr/lib/ckan/default/src/ckan/ckan/config/solr/schema.xml .
Удалим файл managed-schema
:
rm managed-schema
Откройте файл solrconfig.xml
. Найдите элемент
<schemaFactory class="ManagedIndexSchemaFactory">
и закомментируйте его:
<!--
<schemaFactory class="ManagedIndexSchemaFactory">
<bool name="mutable">true</bool>
<str name="managedSchemaResourceName">managed-schema</str>
</schemaFactory>
-->
Добавьте элемент:
<schemaFactory class="ClassicIndexSchemaFactory"/>
Найдите элемент <initParams>
, ссылающийся на
add-unknown-fields-to-the-schema
и закомментируйте его:
<!--
<initParams path="/update/**">
<lst name="defaults">
<str name="update.chain">add-unknown-fields-to-the-schema</str>
</lst>
</initParams>
-->
Также закомментируйте этот элемент:
<!--
<processor class="solr.AddSchemaFieldsUpdateProcessorFactory">
<str name="defaultFieldType">strings</str>
<lst name="typeMapping">
<str name="valueClass">java.lang.Boolean</str>
<str name="fieldType">booleans</str>
</lst>
<lst name="typeMapping">
<str name="valueClass">java.util.Date</str>
<str name="fieldType">tdates</str>
</lst>
<lst name="typeMapping">
<str name="valueClass">java.lang.Long</str>
<str name="valueClass">java.lang.Integer</str>
<str name="fieldType">tlongs</str>
</lst>
<lst name="typeMapping">
<str name="valueClass">java.lang.Number</str>
<str name="fieldType">tdoubles</str>
</lst>
</processor>
-->
Перезапускаем Solr:
sudo service solr restart
Отредактируем файл /etc/ckan/default/development.ini
, раскомментировав
соответствующую строку и указав URL Solr:
solr_url = http://127.0.0.1:8983/solr/ckan
Инициализация базы данных¶
sudo su -s /bin/bash - ckan
. default/bin/activate
cd default/src/ckan
paster db init -c /etc/ckan/default/development.ini
Установка DataStore¶
Откроём файл development.ini
и в список плагинов добавим
datastore
:
ckan.plugins = stats text_view image_view recline_view datastore
В базе данных создадим пользователя datastore_default
, который
не будет имет прав на запись, только на чтение:
sudo -u postgres createuser -S -D -R -P -l datastore_default
Создадим базу данных datastore_default
, владельцем которой будет
пользователь ckan_default
:
sudo -u postgres createdb -O ckan_default datastore_default -E utf-8
Откроем файл development.ini
, расскомментируем и отредактируем
следующие строки, указав соответствующие пароли:
ckan.datastore.write_url = postgresql://ckan_default:pass@localhost/datastore_default
ckan.datastore.read_url = postgresql://datastore_default:pass@localhost/datastore_default
Выставим права в базе данных:
cd /usr/lib/ckan
. default/bin/activate
cd default/src/ckan
paster --plugin=ckan datastore set-permissions -c /etc/ckan/default/development.ini | sudo -u postgres psql --set ON_ERROR_STOP=1
Установка DataPusher¶
За основу взята инструкция по установке из официальной документации.
sudo su -s /bin/bash - ckan
virtualenv --no-site-packages datapusher
. datapusher/bin/activate
mkdir datapusher/src
cd datapusher/src
git clone -b stable https://github.com/ckan/datapusher.git
cd datapusher
pip install -r requirements.txt
В файле development.ini
добавим соответствующий плагин:
ckan.plugins = <прочие плагины> datapusher
Также раскомментируйте следующие строки:
ckan.datapusher.formats = csv xls xlsx tsv application/csv application/vnd.ms-excel application/vnd.openxmlformats-officedocument.spreadsheetml.sheet
ckan.datapusher.url = http://127.0.0.1:8800/
Ссылка на who.ini¶
Файл who.ini
(конфигурационный файл Repoze.who) должен располагаться
в той же папке, что и конфигурационный файл CKAN:
ln -s /usr/lib/ckan/default/src/ckan/who.ini /etc/ckan/default/who.ini
Установка темы¶
В файл development.ini
добавьте плагин с темой:
ckan.plugins = <прочие плагины> fareast_theme
И установите саму тему:
sudo su -s /bin/bash - ckan
. default/bin/activate
cd default/src
git clone https://github.com/nextgis/ckanext-fareast_theme.git
pip install -e ./ckanext-fareast_theme
Дополнительные настройки¶
В файлe development.ini
:
ckan.auth.create_user_via_web = false
ckan.locale_default = ru
ckan.locales_offered = en ru
ckan.locales_filtered_out = ru_RU
# Убрать '/ckan', если приложение монтируется в '/'
ckan.favicon = /ckan/base/images/ckan.ico
# На данный каталог у пользователя, под которым будет
# запускаться CKAN, должны быть права на запись
ckan.storage_path = /mnt/portal/ckan/default
Развёртывание CKAN¶
За основу взята инструкция по развёртыванию из официальной документации.
Переходим в папку /etc/ckan/default
:
sudo su -s /bin/bash - ckan
cd /etc/ckan/default
И создаём файл uwsgiapp.py
со следующим содержимым:
import os
activate_this = os.path.join('/usr/lib/ckan/default/bin/activate_this.py')
execfile(activate_this, dict(__file__=activate_this))
from paste.deploy import loadapp
config_filepath = os.path.join(os.path.dirname(os.path.abspath(__file__)), 'development.ini')
from paste.script.util.logging_config import fileConfig
fileConfig(config_filepath)
application = loadapp('config:%s' % config_filepath)
Устанавливаем Nginx и uWSGI:
sudo yum install uwsgi uwsgi-plugin-python
Переходим в папку /etc/uwsgi.d
и создаём файл ckan.ini
следующего содержания:
[uwsgi]
plugins = python
lazy-apps = true
master = true
workers = 4
no-orphans = true
pidfile = /run/uwsgi/%n.pid
socket = /run/uwsgi/%n.sock
chmod-socket = 666
logto = /var/log/uwsgi/%n.log
log-date = true
harakiri = 6000
mount = /ckan=/etc/ckan/default/uwsgiapp.py
manage-script-name = true
Поскольку uWSGI запущен в режиме Tyrant
, то необходимо изменить
владельца конфигурационного файла ckan.ini
:
sudo chown uwsgi:uwsgi ckan.ini
Создадим папку, куда будут писаться логи:
sudo mkdir /var/log/uwsgi
sudo touch /var/log/uwsgi/ckan.log
sudo chown uwsgi:uwsgi /var/log/uwsgi/ckan.log
Для ротации логов в папке /etc/logrotate.d
создадим файл
uwsgi
следующего содержания:
/var/log/uwsgi/*.log {
copytruncate
daily
rotate 5
compress
delaycompress
missingok
notifempty
}
Запускаем uWSGI:
sudo systemctl start uwsgi
sudo systemctl enable uwsgi
В папке /etc/nginx/conf.d
создадим файл ckan.conf
следующего содержания:
uwsgi_cache_path /var/lib/nginx/cache levels=1:2 keys_zone=ckan:30m max_size=250m;
server {
listen 80;
server_name 82.162.194.216;
client_max_body_size 100M;
location /ckan {
uwsgi_read_timeout 600s;
uwsgi_send_timeout 600s;
include uwsgi_params;
uwsgi_pass unix:/run/uwsgi/ckan.sock;
# Cache stuff
uwsgi_cache ckan;
uwsgi_cache_methods GET HEAD;
uwsgi_cache_bypass $cookie_auth_tkt;
uwsgi_no_cache $cookie_auth_tkt;
uwsgi_cache_valid 30m;
uwsgi_cache_key $host$scheme$proxy_host$request_uri;
}
}
Создадим папку под кэш:
sudo mkdir /var/lib/nginx/cache
sudo chown nginx:nginx /var/lib/nginx/cache
Запускаем Nginx:
sudo systemctl start nginx
sudo systemctl enable nginx
Предупреждение
Если приложение при попытке его открыть возвращает 502 Bad Gateway
,
а в логах Nginx
connect() to unix:/run/uwsgi/ckan.sock failed (13: Permission denied)
,
то причина в SELinux - либо настройте его, либо отключите.
Развёртывание DataPusher¶
sudo cp /usr/lib/ckan/datapusher/src/datapusher/deployment/datapusher.wsgi /etc/ckan/
sudo cp /usr/lib/ckan/datapusher/src/datapusher/deployment/datapusher_settings.py /etc/ckan/
sudo chown ckan:ckan /etc/ckan/datapusher.wsgi
sudo chown ckan:ckan /etc/ckan/datapusher_settings.py
В файле datapusher_settings.py
допишите строку:
MAX_CONTENT_LENGTH = 1073741824
Подготавливаем uWSGI:
sudo touch /etc/uwsgi.d/datapusher.ini
sudo chown uwsgi:uwsgi /etc/uwsgi.d/datapusher.ini
sudo touch /var/log/uwsgi/datapusher.log
sudo chown uwsgi:uwsgi /var/log/uwsgi/datapusher.log
В файл datapusher.ini
помещаем следующее содержимое:
[uwsgi]
plugins = python
master = true
workers = 1
threads = 5
no-orphans = true
pidfile = /run/uwsgi/%n.pid
http-socket = 127.0.0.1:8800
logto = /var/log/uwsgi/%n.log
log-date = true
harakiri = 6000
wsgi-file = /etc/ckan/datapusher.wsgi
Установка расширения ckanext-geoview¶
Данное расширение предоставляет набор плагинов, позволяющих осуществлять предпросмотр опубликованных ресурсов прямо в браузере.
Оригинальная версия данного расширения не содержит некоторых нужных нам возможностей, поэтому была выполнена его доработка. В связи с этим устанавливать его мы будем из собственного репозитория:
sudo su -s /bin/bash - ckan
. default/bin/activate
cd default/src
git clone https://github.com/nextgis/ckanext-geoview.git
pip install -e ./ckanext-geoview
Изменим стандартную подложку, для этого в файл development.ini
добавим
следующие строки:
# Settings for ckanext-geoview extension
ckanext.spatial.common_map.type = custom
ckanext.spatial.common_map.custom.url = http://tiles.maps.sputnik.ru/{z}/{x}/{y}.png
ckanext.spatial.common_map.custom.name = Карта Спутник
ckanext.spatial.common_map.attribution = © <a href="http://sputnik.ru">Спутник</a> | © <a href="http://www.openstreetmap.org/copyright">OpenStreetMap</a>
Исправление текущего кода CKAN¶
В последующих релизах эти ошибки будут устранены, но пока они не выпущены, то приходится модифицировать код самостоятельно. Это необходимо сделать в соответствии со следующими коммитами: #9cf0369, #a63de1b, #a76da0c.
Исправления текущего кода DataStore и DataPusher¶
Откроем файл commas.py
:
cd /usr/lib/ckan/datapusher/lib/python2.7/site-packages/messytables
nano commas.py
И отредактируем следующую строку. Вместо:
# Fix the maximum field size to something a little larger
csv.field_size_limit(256000)
должно быть:
# Fix the maximum field size to something a little larger
csv.field_size_limit(100 * 1024 * 1024)
На данный момент в CKAN DataStore нет возможности исключить поле из
индекса на основе его имени,
см. #2837, поэтому
(как временное решение) отключим текстовые поля для индексации.
В противном случае DataStore пытается построить индекс для поля
с WKT геометрией (если такое поле есть в CSV) и падает.
Откроем файл helpers.py
:
cd /usr/lib/ckan/default/src/ckan/ckanext/datastore
nano helpers.py
И отредактируем следующий фрагмент. Вместо:
def should_fts_index_field_type(field_type):
return field_type.lower() in ['tsvector', 'text', 'number']
должно быть:
def should_fts_index_field_type(field_type):
return field_type.lower() in ['tsvector', 'number']
Сделаем ещё одно исправление для отключения включения WKT в
полнотекстовый поиск. Откроем файл db.py
:
cd /usr/lib/ckan/default/src/ckan/ckanext/datastore
nano db.py
И отредактируем функцию _to_full_text
:
def _to_full_text(fields, record):
full_text = []
ft_types = ['int8', 'int4', 'int2', 'float4', 'float8', 'date', 'time',
'timetz', 'timestamp', 'numeric', 'text']
for field in fields:
value = record.get(field['id'])
if not value:
continue
if 'POINT' in unicode(value) or \
'LINESTRING' in unicode(value) or \
'POLYGON' in unicode(value):
continue
if field['type'].lower() in ft_types and unicode(value):
full_text.append(unicode(value))
else:
full_text.extend(json_get_values(value))
return ' '.join(set(full_text))
Увеличим таймаут в файле jobs.py
:
cd /usr/lib/ckan/datapusher/src/datapusher/datapusher
nano jobs.py
Вместо DOWNLOAD_TIMEOUT = 30
выставьте DOWNLOAD_TIMEOUT = 5 * 60
.
Предупреждение
Проблемы, с которыми мы столкнулись при загрузке CSV в DataStore.
В некоторых полях был текст NULL
, но по первой записи DataStore
определял, что это numeric
, и когда доходил до NULL
- падал.
В некоторых полях в качестве разделителя разрядов была ,
.
Исправляется путём редактирования соответствующих ресурсов NextGIS Web.
При загрузке данных всегда сверяйте количество загруженных объектов и фактическое количество объектов в слое. Количество объектов в слое можно получить по API (подставьте свой идентификатор ресурса):
http://82.162.194.216/ngw/api/resource/167/feature_count
Открытие портов¶
Откроем 80
порт:
sudo firewall-cmd --zone=public --add-port=80/tcp --permanent
sudo firewall-cmd --reload
Если с локального хоста CKAN недоступен по своему публичному адресу, то это может быть исправлено, например, так:
sudo firewall-cmd --direct --add-rule ipv4 nat OUTPUT 0 -d 82.162.194.216 -p tcp --dport 80 -j DNAT --to-destination 127.0.0.1:80 --permanent
sudo firewall-cmd --reload
Backup и Restore¶
Данные процедуры описаны в разделе db: Manage databases официальной документации.
Если CKAN и NextGIS Web были развёрнуты на одной машине, то при переносе этой связки на другой адрес, необходимо изменить адреса ресурсов NextGIS Web на новые. Проще всего это сделать, отредактировав файл с бэкапом CKAN до момента его восставновления, например:
sed -i 's:78.46.100.76/opendata_ngw:82.162.194.216/ngw:g' ckan.pg_dump
Если вы используете DataStore, то помимо переноса базы самого CKAN,
необходимо переносить и базу данных DataStore, datastore_default
в нашем случае.
Предупреждение
Если после восстановления данных из архива отображается, что
число наборов данных равно 0
, то поможет
переиндексация.
Дополнительно¶
Конфигурационный файл uWSGI для NextGIS Web:
[uwsgi]
plugins = python
lazy-apps = true
master = true
workers = 4
no-orphans = true
pidfile = /run/uwsgi/%n.pid
socket = /run/uwsgi/%n.sock
chmod-socket = 666
logto = /var/log/uwsgi/%n.log
log-date = true
limit-post = 7516192768
harakiri = 6000
socket-timeout = 6000
env = PASTE_CONFIG=/opt/ngw/development.ini
env = LANG=ru_RU.UTF-8
home = /opt/ngw/env
mount = /ngw=/opt/ngw/nextgisweb/nextgisweb/uwsgiapp.py
manage-script-name = true
Конфигурационный файл Nginx:
uwsgi_cache_path /var/lib/nginx/cache levels=1:2 keys_zone=ckan:30m max_size=250m;
uwsgi_cache_path /mnt/portal/ngw/cache levels=1:2 keys_zone=ngw:30m max_size=10g inactive=7d;
server {
listen 80;
server_name 82.162.194.216;
client_max_body_size 6G;
large_client_header_buffers 8 32k;
location /ckan {
uwsgi_read_timeout 600s;
uwsgi_send_timeout 600s;
include uwsgi_params;
uwsgi_pass unix:/run/uwsgi/ckan.sock;
# Cache stuff
uwsgi_cache ckan;
uwsgi_cache_methods GET HEAD;
uwsgi_cache_bypass $cookie_auth_tkt;
uwsgi_no_cache $cookie_auth_tkt;
uwsgi_cache_valid 30m;
uwsgi_cache_key $host$scheme$proxy_host$request_uri;
}
location /ngw {
uwsgi_read_timeout 600s;
uwsgi_send_timeout 600s;
include uwsgi_params;
uwsgi_pass unix:/run/uwsgi/ngw.sock;
# Cache stuff
uwsgi_cache ngw;
uwsgi_cache_methods GET HEAD;
uwsgi_cache_bypass $cookie_tkt;
uwsgi_no_cache $cookie_tkt;
uwsgi_cache_valid 7d;
uwsgi_ignore_headers Expires Cache-Control Set-Cookie;
uwsgi_cache_key $host$scheme$proxy_host$request_uri;
add_header X-uWSGI-Cache $upstream_cache_status;
}
location /opendata_map {
index index.html index.htm;
root /var/www;
}
}
Пример удаления записей из кэша Nginx по маске:
grep -lr 'ngw/api/resource/604*' /mnt/portal/ngw/cache/* | xargs rm -rf