ヘルプとwiki お絵かき サインイン

Japanese Storywriting AI
AI Novelist α2.0

by Bit192

コミュニティ


公式Discordサーバー (Bit192 Official)
Bit192関連作品・サービスの総合公式サーバーです。
サポートチャンネル、雑談チャンネル、作品シェアなどを開設しています。

AIのべりすと Wiki
誰でも参加・編集できる非公式ウィキです
(こちらのウィキは非公式です。サポートはDiscordにお願いします)。



取扱説明書



▼ AIをうまく扱うヒント


AIが認識できる文章量

AIは最大で3000~4000字(フリーアカウント時)、3400~4600字(ボイジャー会員時)、6500~8000字程度(ブンゴウ・プラチナ会員時)まで認識することができます。長めの文章を与えてあげた方が思ったようなテーマの文章が生成されるはずです。

AIは常に文体に影響される

AIはすでに書かれている文章の口調や書き方、フォーマットを真似しようとします。例えば、セリフの多い文章ならセリフが多く生成されますし、地の文が多い文章なら地の文が多く生成されます。
また、与える文章が短いほど登場人物や固有名詞が新たに出現する可能性が高くなります。安定した流れを作るには最低でも40~50行程度のインプットが必要です。
逆に新しい展開を作りたい場合、チャプターを区切るのによく使われる文字列(「***」や「◆◆◆」など)を与えるとうまくいきやすいでしょう。

添削してあげよう

思ったような文章が生成されない場合は意図に沿わない部分を削除したり、添削してあげてください。改行や空白、記号もAIの思考に影響を与えます。

多人数が登場するシーン

多人数が同時に登場するシーンを書かせる場合、脚注に今その場にいる人物やキーワードのリストを書くと登場人物がバランス良く描写されやすくなります。

単調になる/同じ文が続く場合

同じセリフや描写が繰り返されてしまう場合、詳細オプションの「繰り返しペナルティ」を上げてください。

コメント化

行頭が@_で始まっている行はコメント行となり、AIに送信されません。@/*@*/で囲った部分をまとめてコメント化することもできます。また、@breakまたは@startpointと書いた行から上は一律でコメント行となり、AIに送信されません。

文章の途中から書かせる

@endpointと書いた部分から下はコメント扱いとなり、すぐ上の行に挿入する形で途中から続きを書かせることができるようになります。

リトライ履歴

Undo履歴がこれ以上ない状態(<< Undoと表示されている状態)で更に3回Undoをタップすると、その時点でのリトライ履歴がまとめてコメントアウトされて出力されます。良さそうな分岐を残しておくのに便利です。

▼ 高度な使い方


文章の最後や脚注(オーサーズ・ノート)に指示を書き加えることで途中で視点を変えたり、作中のキャラクターに質疑応答させたりすることができます。AIはそこまでに書かれた内容から答えやキャラクターの感情を推論します。

[ (ブラケット)はデフォルトで禁止ワードに指定されているため、ブラケットで文章を囲むことで、中の文章がAIに本文ではなく説明文であると認識させることができます。説明文をブラケットで囲まない場合、内容が逐次そのまま言い換えられて出力されてしまう場合があります。

視点変更

[ここからサキ視点。一人称。]
[サキの父親視点。三人称。]

場面転換し、これから展開されるシーンの内容をAIに認識させる

(改行1行)
[春のコーヒー屋。デリダがノイマンに食ってかかる。]

(改行を1行加えることで、軽度の場面転換であることをAIに認識させることができます)

質疑応答

サキが質問に答えている。
Q:クラスの学級委員長は誰?
A:

俳句を書かせてみる

俳句を書いてください。
1.古池や 蛙飛びこむ 水の音
2.

(リストにして書かせるのがコツ)

ストーリーを要約させる・感想を書かせる

このストーリーの概要:
今までのあらすじ:
ここまでのまとめ:
登場人物紹介
作品の感想:
早速ここまで読んで面白かったところ。

(いろいろ試してみましょう)

▼ 小説以外の使い方


どのような内容の文章を生成するかある程度指示することができます(うまくいかない時は生成プリセットの「タスク」を選んでください)。例えば

名前:(好きな名前)
性別:(男・女など)
性格:

と入力(改行を含む)すると
体重64キロ。血液型はo型、星座はかに座。趣味・特技:読書と映画鑑賞。好きな食べ物はカレーうどん(特に辛いのが大好き)。嫌いなものは唐揚げとポテトチップス。
などと返ってくる。

チーズケーキについてのまとめ記事:
と入力(コロンを含む)すると
チーズケーキの作り方・レシピ集はこちら!チーズケーキを自宅で作るには、まず材料と道具を揃えなくてはなりません。その前に用意しておきたいのが、おしゃれな手土産ですよね?でも
「これだけは持って行きたくない」という物もあるかと思います。そこで今回は、普段から持ち歩いておくべき、厳選したオススメのお菓子

と返ってくる。

トルコ人はピカチュウとオズワルドのどっちが好きか調べてみました。
答えは

と入力(改行を含む)すると
「ぼくはどちらかというと、おまえたちのほうが好きだよ」と、トルコ人のおじいさんが言ったそうです。
と返ってくる。


ワーズとユネスコ

▼ キャラクターブック/コマンド一覧


@コマンドを活用することによって、キャラクターブックの挙動をより細かく設定することができます。

例えば、下記のようにすると当該キャラクターブックがコンテキストの最近400文字以内にある時、下から5行目に挿入されるようにしたり、擬似的に状況に合わせた脚注を挿入することができます。

タグ ルシエル
説明
@range 400
@priority 5
[ルシエル:吾輩。真っ白な毛並みをした白猫]

コマンド一覧と使用例

@range 500
コンテキストの下から500文字までをスキャン

@range 100-1000
コンテキストの下から100文字目~1000文字目までをスキャン

@priority 3
このキャラクターブックの優先度を3に変更

@and トリン|ワーズ
指定タグに加えてスキャン範囲内に「トリン」と「ワーズ」が入っている時だけ適用。複数指定は|で区切る。

@not デリダ
スキャン範囲内に「デリダ」が入っていると適用しない。複数指定は|で区切る。

@random 0.4
このキャラクターブックが適用できる状況でも40%の確率で無視される

@addbanword ねずみロボ<<|>>ネズミロボ
このキャラクターブックが適用されている時、禁止ワードに「ねずみロボ」と「ネズミロボ」を追加。
複数指定は<<|>>で区切る。

@addbias 猫,10<<|>>犬,-7
このキャラクターブックが適用されている時、単語として「猫」が出やすくなり、「犬」が出にくくなる。
複数指定は<<|>>で区切る。
バイアス値は-30から30の間を推奨。

ご注意

それぞれの@コマンドはひとつのタグ内で重複して記述できません(@andを複数行書くなど)。必ず1つ1行にまとめてください。

▼ MODとは?


AIをより細かくチューンできる機能がMODです。
任意のコーパス(テキスト)を読み込み、その文章のテーマやスタイルを学習したプロンプトAIが入力と出力の間に入ることで、細かく設定しなくても思い通りの文章が出力されやすくなります。
自分だけのMODを訓練すれば、ユーザー同士で自由に共有して楽しめます!


ヤミとノイマン

ポイント

1. MODは入力した文章が短いときに最も効力を発揮します。新しい作品を開いて試してみましょう。

2. 反対に、2048トークンをフルに使ったプロンプトではあまり変化が感じられないことがあります。作品の途中でMODを変更したい時は@breakコマンドを活用するなどして、AIに読ませるトークン数を一時的に減らしてみましょう。

3. 最大100トークンがMOD用にリザーブされます。


MOD訓練のポイント

1. 用意するコーパスはノイズの少ないものが好ましいです。過剰な改行や、行頭の空白などは自動で取り除かれますが、無関係な文章やhtmlタグが混ざっていると思ったような結果にならない可能性があります。

2. コーパスに使うテキストの文字コードはUTF-8のみ対応しています(Shift-JISやEUC-JPには対応していません)。最近のテキストはほとんどの場合UTF-8でフォーマットされていますが、古いテキストを読み込む場合はご注意ください。

3. 基本的にはコーパスの量が多いほど高い精度が期待できますが、少なくとも10キロバイト程度のテキストがあれば訓練が可能です。一度に読ませることができるサイズは最大で16MBです。

4. lossの数値は低いほど精度が高いことを意味します。小説的な自由度の高い文章のlossは高く、ソースコードなどフォーマットの決まっている文章のlossは低くなる傾向があります。2.91以下であれば高精度のラーニングができています。

5. 訓練するステップ数に応じてルミナを消費します。ステップ数はコーパスの量に合わせて自動的に調整されますが、極端に高い精度を求めないのであればステップ数を減らすこともできます(ステップ数を減らすと、処理時間もそれに応じて短くなります)。


プライバシーについて

MOD訓練用にアップロードしたコーパスはトレーニング終了後にサーバーから削除されるほか、MODのユニークIDからはアップロードしたユーザーが推測できないようになっています。

▼ 各AIモデルの詳細

とりんさま6.8B / 7.3B


言語 日本語
パラメータ数 68.7億(フリー版)
約73億(プレミアム版)
有効学習量 約1.2TB
トークナイザ Trinsama-tokenizer
最大シーケンス長 2048トークン
(会員ステータスによる)
アテンションヘッド 16個
MOD 利用可能
モデルブランチング 非対応(6.8B)
3WAY(7.3B)
その他 スフィアの神さま

「AIのべりすと」の基本モデル。約1.2TBのネットコーパス、数千冊に及ぶ文庫本コーパスなどで事前訓練後、小説生成向けにファインチューンを施された日本語AIです。
ただし、2022年初頭時点でネット上にある有意な日本語文章データを推定8割から9割程度読んでいるため、小説生成以外の用途にも使うことができます。

似たような語彙の使用が繰り返されにくくなる新技術として、少しづつ異なったチューンを施した3つのモデルに所定の条件で分岐する「モデルブランチング」を導入しています。

「とりんさま」は様々な概念をじゅうぶんに一般化できており、より大規模なモデルと比べて素直なレスポンスを返しやすい・挙動が比較的予想しやすい利点があるのも特徴です。

アテンションヘッドの数が限られているので、多数の固有名詞が出てくると関係を取り違える場合があります。おかしいと思った部分は逐次訂正してあげましょう。

でりだ7B


言語 日本語
パラメータ数 約73億
有効学習量 約1.2TB + 1GB
トークナイザ Trinsama-tokenizer
最大シーケンス長 2048トークン
(会員ステータスによる)
アテンションヘッド 16個
MOD ×
その他 亡霊系女子

「とりんさま7.3B」をベースに、詩/歌詞/短歌/散文に特化した約1GBのチューニングを行った詩人AIです。

やや熱量高めの詩的表現が多い小説を書かせることもできますが、ベースモデルとはプリセットの内容が大幅に異なりますので、ご注意ください!

歌詞や短歌については、短い文だけを与えて作らせると最大公約数的な内容になりやすいので、
[ジャンル:ポップス・90年代]
といったヒントを1行目に書いてあげると俄然うまく書いてくれます。

やみおとめ20B


言語 日本語
パラメータ数 約200億
有効学習量 約750GB
トークナイザ Trinsama-tokenizer V3
最大シーケンス長 2048トークン
アテンションヘッド 60個
MOD 未対応(対応予定)
その他 追いかけ乙女

現存する日本語AIの中でも最大となる200億パラメータ級のAIです。その文章力は一級品。基本的なコーパスや小説向けファインチューニングの内容は「とりんさま7.3B」に準拠します。

トークナイザが一新されており、日本語文章のトークン化効率(AIが認識する文章の圧縮効率)が以前のモデルに比べて約1.06倍程度改善しました。また、既存モデルが扱えない難読漢字にも対応します。

アテンションヘッドが大幅に増加したことで、多くの固有名詞や登場人物を同時に扱える一方、詳細設定の繰り返しペナルティにかなり敏感です。どうしても急展開になる時は繰り返しペナルティの設定を2目盛り(0.25)程度下げてみるとよいでしょう。

Neuman 13B / Neuman 20B


言語 英語
パラメータ数 約130億(13B)
約205億(20B)
有効学習量 450GB以上(13B)
約1.2TB(20B)
トークナイザ GPT-2 Tokenizer(13B)
Pile Tokenizer(20B)
最大シーケンス長 2048トークン
アテンションヘッド 40個(13B)
64個(20B)
MOD ×
その他 数学者

それぞれ約130億パラメータ、205億パラメータを持つ大規模英語AIです(試験提供)。13Bは約450GBのネットコーパスや文庫本コーパスで、20BはEleutherAIが提供する825GBのコーパス「The Pile」で訓練されています。

13Bモデルは一般化の精度が高く、比較的素直な文章を得意とします。

20Bモデルは小説・短文に加えて、GitHubを訓練コーパスに持つことから、C++、C#、Ruby、PHP、Pythonなど各種プログラミング言語のコードを出力することもできます。またRedditやQ&Aサイトをコーパスに持つことから、チャットボットのような用途も得意とします。

▼ 【AIのべりすと】について


このプロジェクトはGoogle TRCの協力及びCoreWeave, Inc.による大規模GPUクラスタの提供、Microsoft社によるDeepSpeedライブラリ、EleutherAIのコミュニティの皆様およびBen Wang氏、Stella Biderman氏をはじめとする開発者の方々のサポートによって実現しました。この場をお借りしてお礼申し上げます。




利用規約はこちらのページをご覧ください。
[ 配信者向けのガイド ]もご用意しています。


とりんさま


トリン





Bit192 Labs