附录:工程语研究分类
WIP
本文试图对造语旨趣相关的值得研究的问题进行领域的划分。
其中非常多的领域笔者是十分外行的,希望各位多指点、讨论,一同完善本文。
此外,本文希望对一些完善度较高的分类结果进行命名,方便索引,希望读者也提供这方面的意见。
介质中的呈现形式
言语表达在介质中呈现形式主要包括:
- 人类传统的
图像
语音
- 机器传统的
二进制数据
其他(如动作、气味等)
对于人类传统的语言使用介质,这个话题下的工程目标主要有:
- 学习
学习成本(WIP)
- 识别
- 性能指标
- 成本
速度
疲劳的积累
- 效果
区分度
- 负载分布优化
如:是否能够尽早地取得可用于理解的信息,使得识别、理解、推理等可以同时进行?(如,上下文有关的文字可能一般受到排斥)
如:在工作记忆中的存储顺序是否符合理解含义时所需的顺序?(如,希望尽可能避免“忘了所以得回头看”的做法)
如:对视野、注意力等资源的投入要求如何?(如,帧率较高的动画语言如果内容过多则往往来不及理解)
- 指标对条件的依赖或要求
指标的稳定性
如:图像识别能否适用于色弱人群、弱光照或单色光照条件?
如:文字是否能从任何方向辨别?
如:区分度在不同距离的表现如何?(参考视力表)
- 表达
- 性能指标
- 成本
- 速度
如:能否连字、减少提笔次数?
如:能否连音?是否会被迫进行无意义停顿?
- 疲劳的积累
如:对肺活量的要求
如:对咽部粘膜的损害
- 对其他条件的依赖或要求
如:能否在没有牙齿的情况下说话?
如:帕金森氏病患者能否准确书写?
- 效果
区分度
- 易修正性
如:单复数标记的添加是否需要重写部分文字?
- 指标对条件的依赖或要求
- 指标的稳定性
如:表达成本如何依赖于区分度?是否总是有足够多的“节俭”版本的表达规则来在满足不同的区分度要求的同时尽可能降低表达成本?
对于与机器有关的目的,主要分为两方面,一是直接辅助人使用语言的程序和机器,二是如通用人工智能所使用的语言,后者对人的工程目的的体现要相对间接一些。这里暂时只举一个例子:
语法高亮程序的开发成本和性能(如,最好希望无需调用较大的数据库就能完成tokenize)
含义
WIP
在含义的主题上,可能的工程目标的范围是很广的。即便是对于一般意义的人类语言,我们也尚不清楚语言的设计能多大程度上改变思维——进而改变思维所参与的各种活动,从而也许有非常多的目标可以由语言的改进来实现。所以,一个额外的重要课题就是:
- 语言的语义设计性质在何种程度上能够影响思维?
著名的「 语言相对性 Linguistic Relativity 」与此问题密切相关
- 什么是「语义设计性质」?我们是如何掌控它的?
- 语言的规定
形式与含义间的对应规则
语言学习过程中的训练与概念习得
- 我们希望改造哪些思维所参与的各种活动?如何改造?
- 私人的、逻辑的、事实的
提高推理的有效性、可靠性
- 社会的、情感的、价值的
改变某些语言使用行为的博弈结构(如,减少婉约说辞出现的机会)
另一个中心问题是「什么是含义」,在 关于人工逻辑语言 和 定义的内容 已经谈过一些。 大部分语言行为都与知识有关,但语言与知识并无包含关系:
例子类型 |
例子实例 |
语言? |
知识? |
|---|---|---|---|
命题知识 |
「昨天下雨了」 |
是 |
是 |
语言刺激反射 |
在你饿的时候报菜名 |
是 |
否 |
精神预防性无痛分娩 |
是 |
否 |
|
脏话 |
「CNMLGB」 |
是 |
否 |
技能 |
跳跃的动作要领 |
否 |
是 |
即便将推理、预期、记忆等与知识有关但本身并不是对知识的表示的现象加以考虑,也仍有大量在考虑范围之外的语言现象。 但它们通常并非预期之内的、不稳定的,如:你不能指望脏话对所有人都有一致的效果、帮助了我们更好地生活的更多是知识而不是脏话。
这些“不稳定”的现象大致可以从两个方面把握:
- 语言载体对含义的影响
如:用上百分贝的响度进行广播,可能带来的不是知识而是失聪甚至死亡。
- 语言理解者的状态对含义的影响
如:对不同学科背景的人进行同内容的讲座报告造成的效果不同。
这两类现象往往不是一个语言设计者所想要考虑的。语言设计者一般声称自己设计的是形式规则等与载体无关的理想对象,而对于语言使用者的知识背景的差异的问题,设计者通常希望使用者通过学习等方式来达到稳定地、有共识地使用语言的程度来避免这个问题。
然而这两个问题根本上都是不可消解的。信息终归无法脱离载体,尽管我们在日常生活中总是设法令其可忽视;我们总会有知识水平不足的情况(尤其是当你在学习语言的过程中使用语言的情况下);含义的共识也仅存在于一部分表达中,如许多非实证的哲学问题的各种回应之间谁也无法驳倒对方。
什么是含义
参见: 定义的内容 (WIP)
具体的概念系统构造
元问题
- 概念的价值评估
- 「修正式 Revisionary」与「描述式 Descriptive」
描述式:专注于现存的、在使用中的概念,在引入概念到语言设计中时尝试尽可能准确地刻画它们
修正式:不执着于准确描述已有概念,而是可能直接考量实用效果和构造成本,给出近似描述甚至创造出全新的概念
- 理念与现实的差异的应对
如:独角兽这个概念可以存在,但几乎不会实际用到
- 主观性的消除与共识的形成
主客体间的界限
- 等价含义的应对
如:实数有多种定义,而未经训练的人并不能立刻意识到它们的等价性,而是需要通过推理来取得知识。
等价性的证明
在多个等价定义、等价概念中作出选择
- 数据驱动为主的概念
如:日常语境中,什么是「树」?
- 数据分布与需求的变化造成的概念演化
如:若地球上树灭绝了而仅存于实验室,其功能(如乘凉)又被人造物所取代,「树」这个概念则可能消失。
具体问题
- 关键概念的选择与定义
- 推理
实质条件
虚拟条件
反常条件(让步)
推理的废止与知识的纠错(信念修正)
- 概率
- 概率诠释(证据与证成)
先验与Bayesian
统计频率
知识可能性
- 精度
数的精度
模糊性
- 时空
- 空间
- 仿射性质
方向
Betweenness关系
- 度量性质
空间点的连续性
- 度量
- 黎曼度量
欧式度量
- 伪黎曼度量
闵氏度量
- 维度性质
内积、平行四边形法则、勾股定理……
- 实用概念
涉及各种各样的几何问题,如李群、拓扑
- 物理
- 宏观力学运动
质点
刚体
- 连续体
弹性体
流体
- 热力学
温度
热量
内能
熵
- 电磁
光
其他
- 感官
- 类型
视觉
听觉
触觉
痛觉
嗅觉
味觉
热觉、冷觉
其他(如对肌肉内部张力的感觉、情绪相关的感觉等)
- 一般问题
物理规则如何在感知结果上体现?
感知与认知的区分与细分
- 行为
WIP
- 价值判断
价值的细分
- 价值判断在概念中的表现形式
显式价值
- 隐式价值
人造物设计时所被赋予的功能
实际使用时的各种可能用途
- 决策
目标
策略结构
- 人际关系
- 典型博弈结构
- 约定
报酬
- 惩罚
信用
- 相关的具体实现
合同、法律
形式与含义间的对应
形式与含义间的对应,即广义的文法。一般来说,习惯以形式文法为研究对象,但原则上也可以研究含义的二维图像表示等。
- 传统文法
文体
句法
词法
文法的工程目标主要包括:
降低表达、理解成本
提高语法组合性与语义组合性(乃至认识顺序)的一致性
- 其他高级特性,如:
定义等价性的消除
省略句
这方面的一些典型问题有:
如何对常用的概念进行文法上的优化?
- 如何表示无穷多对象?
数字系统
历法系统
如何令相似精度的表达式具有相似的形式?
如何设计能适应各种需求的文体规范?
如何支持各种「言语行为」?
语言生态
语言的学习、传播和演化过程不是我们进行规则设计时所关心的,但同样对语言的实际存在形态有决定性影响。
中心化文档
学习教程
自我迭代机制
- 临时造词规则
复合词
外来词的引入
- 实用工具
输入法
语音识别
语法检查器(及语法高亮等)
语义检查器
- 自然语言生态的迁移
概念体系
专著、日常文本
其他与自然语言有关但本身不以非自然语言为内容的标准(如美式键盘键位命名)